Semantic Information Retrival for Scientific Experimental Papers with Knowlege based Feature Extraction
Abstract
Seiring dengan perkembangan zaman, jumlah karya ilmiah semakin meningkat. Permintaan pencarian informasi dalam makalah ilmiah juga meningkat. Pada  makalah ilmiah eksperimental, peneliti mengalami kesulitan dalam mencari informasi pada karya ilmiah eksperimental karena mesin pencari informasi memiliki keterbatasan dalam proses pencarian berdasarkan ekstraksi fitur berbasis text-mining dari seluruh teks, sedangkan jenis makalah ilmiah eksperimental memiliki konten spesifik, yang memiliki perlakuan berbeda dalam ekstraksi fitur. Dalam makalah ini, kami mengusulkan sistem baru untuk pengambilan informasi pada makalah ilmiah eksperimental. Sistem ini terdiri dari 4 fungsi utama: (1) Ekstraksi fitur berbasis konten spesifik, (2) Model klasifikasi, (3) Pemilihan subruang berbasis konteks, dan (4) Pengukuran kesamaan yang bergantung pada konteks. Dalam ekstraksi fitur, sistem kami mengekstraksi kategori fitur dalam makalah ilmiah eksperimental dengan fitur berbasis konten tertentu, yaitu data, masalah, metode, dan hasil. Untuk model klasifikasi, kami menggunakan beberapa algoritma klasifikasi untuk mengklasifikasikan fitur konten tertentu dari paper queri ke agregasi dokumen pembelajaran. Dalam Pemilihan Subruang Berbasis Konteks, sistem melakukan pengurangan dimensi dengan pemilihan subruang berbasis konteks yang dipilih oleh pengguna. Untuk mendapatkan hasil pencarian akhir, kami mengukur kesamaan konteks dengan membangun metrik dataset berdasar konteks ke paper. Untuk melakukan penerapan sistem yang kami usulkan, kami menguji 77 makalah dalam dataset dengan model validasi Leave-One-Out dengan beberapa algoritma klasifikasi (Nearest Neighbor, Naive Bayes, Support Vector Machine, dan Decision Tree) dan rata-rata melakukan presisi 66,65% tingkat dan akurasi tingkat presisi 76,18%. Kami juga melakukan percobaan pada pengukuran kesamaan dengan memberikan queri paper dan konten yang diinginkan (data, hasil, metode, dan masalah) sebagai konteks yang diberikan oleh pengguna. Dalam percobaan pengukuran kesamaan, sistem yang kami usulkan memiliki tingkat akurasi 79,17%.
Full Text:
PDFReferences
Afrida Helen, Pendekatan Penggunaan Section dan Judul untuk Klasifikasi Kalimat Retorik pada Makalah Ilmiah Eksperimental, Doctoral Dissertation, Institut Teknologi Bandung, March 2016.
Bruno Trstenjak, Sasa Mikac, Dzenana Donko, K-NN with TF-IDF Based Framework for Text Categorization, Procedia Engineering 69 ( 2014 ) 1356 – 1364 , ScienceDirect, 24th DAAAM International Symposium on Intelligent Manufacturing and Automation, 2013.
Igg Adiwijaya, Text Mining dan Knowledge Discovery, Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, September 2006.
A.D. Robert, How to Write and Publish a Scientific Paper, Book 7th edition, 2012.
Stephany D Hubsy, Topic Classification of Blog Post Using Distant Supervision, Procedings of the 13th Conference of the Europe Chapter of the Association for Computation Linguistics, Page 28-36, Avigno France, Association fot Computation Linguistics, 2012.
Ronen Feldman, James Sanger, The Text Mining Handbook: Advanced Analyzing Unstructured Data, Cambridge University Press, 2007.
Michael W.Berry, Jacob Kogan, Text Mining: Application and Theory, John Wiley and Son, Ltd., 2010.
Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2nd edition, ISBN 1-55860-901-6, March 2006.
Lizhen Liu, Chengli Wang, Minhua Wu, Guoqiang He, Research of Intelligent Information Retrieval System Ontology-Based in Digital Library, 2008 IEEE International Symposium on IT in Medicine and Education, Xiamen-China, December 12-14, 2008.
Wu Suyan, Li Wenbo, Wu Jiangrui, Construction of Deep Resolution and Retrieval Platform for Large Scale Scientific and Technical Literature, 2018 IEEE 3rd International Conference on Cloud Computing and Big Data Analysis (ICCCBDA), Chengdu-China, April 20-22, 2018.
Xi Quan Yang, Dian Yang, Ming Yuan, Xing Hua Lv, Scientific Literature Retrieval Model Based on Weighted Term Frequency, 2014 Tenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing, Kitakyushu-Japan, August 27-29, 2014.
Nacim Fateh Chikhi, Bernard Rothenburger, Nathalie Aussenac-Gilles, Combining Link and Content Information for Scientific Topics Discovery, 2008 20th IEEE International Conference on Tools with Artificial Intelligence, Dayton-USA, November 3-5, 2008.
Li WeiDong, Dong Yibing, Wang RuiJiang, Tian HongXia, Design and Implementation of Scientific Literature Statistical Analysis System on Three Retrieval Systems Based on DOM Tree, 2009 Asia-Pacific Conference on Information Processing, Shenzhen-China, July 18-19, 2009.
Tianmu Ma, Wei Fang, Information Cartography Based on Syncretic Representation of Scientific Papers, 2018 4th International Conference on Information Management (ICIM), Oxford-UK, May 25-27, 2018.
Horacio Saggion, Francesco Ronzano, Scholarly Data Mining: Making Sense of Scientific Literature, 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL), Toronto-Canada, June 19-23, 2017.
DOI: https://doi.org/10.35314/isi.v4i1.885
Refbacks
- There are currently no refbacks.