Menguji Efektivitas Algoritma Pengindeksan Meta Search Engine dengan Metode Penilaian Relative Recall & Precision untuk Hasil Pencarian Organik Bidang Ilmu Perpustakaan dan Informasi

Pendahuluan
Search engine mulai diperkenalkan pada tahun 1993 dan berbagai teknik untuk mengevaluasi performa search engine dipublikasikan tahun 1996. Selama periode 10 tahun terakhir sejak kemunculannya, teknologi search engine mengalami kemajuan yang sangat dramatis. Saat ini search engine merupakan perangkat web yang paling berpengaruh karena peranannya dalam proses temu kembali informasi.

Pesatnya perkembangan teknologi search engine dan  proliferasi website menciptakan tantangan-tantangan baru dalam dunia temu kembali informasi. Menurut survey yang dilakukan Situs Netcraft jumlah website yang ada di dunia sejak tahun 1995 hingga Maret 2012 telah mencapai 644,275,754 website. Sementara itu, Kevin Kelly, pendiri majalah Wired¸ seperti yang dikutip oleh Sutter (2011), kolumnis CNN Tech, menulis bahwa saat ini di dunia terdapat lebih dari satu triliun halaman web. Dari jumlah tersebut, hanya sekitar 1% saja yang berada ‘permukaan’ dan mudah ditemukan.

Kini, proses mencari informasi relevan menjadi semakin rumit dan memakan waktu. Pengguna sering menemui kesulitan ketika mengkonversi bahasa alami menjadi konsep atau istilah yang dikenal oleh search engine. Sifat ambiguitas bahasa alami menyebabkan satu kata bisa memiliki lebih dari satu makna, di sisi lain, beberapa kata dapat mengekspresikan konsep yang sama. Efektivitas search engine untuk penelusuran query yang bersifat luas atau ambigu masih dipertanyakan oleh karena hasil penelusuran masih mencampuradukan beragam subtopik atau konsep dengan informasi yang kurang relevan. Kendala bahasa (language barrier) akan terus menjadi tantangan yang mendorong pengembangan model search engine yang lebih baik lagi.

Diskusi mengenai efektivitas kinerja dari sebuah search engine selalu dikaitkan dengan tingkat relevansi hasil pencarian. Meskipun demikian, definisi konsep relevansi telah menjadi perdebatan bertahun-tahun dalam Ilmu Perpustakaan dan Informasi. Artikel ini mengevaluasi efektivitas algoritma pengindeksan lima meta search engine untuk temu kembali informasi ilmiah untuk bidang Ilmu Perpustakaan dan Informasi.

Pengujian dilakukan dengan mengukur tingkat relative recall dan precision pada masing-masing meta search engine. Precision adalah proporsi hasil pencarian dari suatu query yang benar-benar relevan. Dalam hal ini, precision mengukur tingkat “gangguan” dari akurasi informasi yang ditampilkan. Sedangkan, relative recall adalah proporsi seluruh hasil pencarian relevan yang ditemukan oleh sistem.

Studi Literatur
Kajian mengenai meta search engine telah dimulai sejak tahun 90-an seiring perkembangan search engine yang kian pesat. Dreiliner (1996) dalam tesisnya mengevaluasi efektivitas meta search engine dalam memilah dan memberikan peringkat hasil pencarian dengan menguji algoritma meta indeks. Meng, Yu, dan Liu (2002) mensurvey berbagai teknik yang sering digunakan untuk mengatasi masalah mendasar dalam membangun meta search engine yang baik.

Namun, penelitian ini belum dapat dikatakan berhasil menemukan solusi untuk tiga masalah utama meta search engine, yakni penyeleksian database, penyeleksian dokumen, dan penggabungan hasil, oleh karena masih memerlukan informasi lebih jauh mengenai komponen search engine yang diteliti.

Lu, Meng, Shu, dan Yu (2005) menginvestigasi variasi algoritma penggabungan hasil pencarian meta search engine. Dujmovic dan Bai (2006) melakukan evaluasi dan perbandingan search engine dengan metode Logic Scoring of Preference (LSP). Model pendekatan kuantitatif ini cukup efektif mengukur fungsionalitas, penggunaan, dan performa search engine karena menggunakan mekanisme struktur dekomposisi yang meliputi keseluruhan atribut sistem yang berpengaruh terhadap search engine yang sedang dievaluasi.

Taksa dan Spink (2007) menganalisis pemakaian query yang bersifat kompleks pada meta search engine dengan mengukur efektivitas, efisiensi, dan tingkat kepuasan.   

Kumar dan Pavithra (2010) menguji kapabilitas meta search engine dengan melakukan perbandingan dengan search engine. Penelitian ini membuktikan bahwa meta search engine mampu menghasilkan nilai precision yang lebih baik dari search engine. Sebaliknya, nilai relative recall meta search engine masih rendah meskipun memiliki berbagai keunggulan teoretis dalam hal pencarian ke database-database tunggal.

Srinivas, Srinivas, dan Govardhan (2011) melakukan survey komprehensif meta search engine dengan menggunakan paramater, antara lain, keterhubungan meta search engine dengan search engine lokal, waktu respon, dan algoritma pemeringkatan. Hasil studi membuktikan bahwa meta search engine memiliki superioritas dibandingkan search engine biasa dalam hal relative recall and precision.

Mahabhashyam dan Singitham (2012) mengevaluasi strategi pemeringkatan meta search engine. Dari hasil evaluasi ditemukan bahwa kompleksitas komputasional dari algoritma pemeringkatan dan performa meta search engine adalah parameter yang saling bertentangan.

Meta search engine
Istilah meta search engine digunakan untuk menjelaskan paradigma pencarian ke banyak sumber data secara real time. Meta search engine menyediakan akses tunggal ke berbagai search engine dan mengkombinasikan hasil penelusuran yang kemudian  digabungkan dan ditampilkan berdasarkan peringkat. Meta search engine dirancang untuk dapat situs-situs yang sulit ditemukan (deep web). Hal ini didasari fakta bahwa pesatnya pertumbuhan web menyebabkan efektivitas pencarian search engine semakin berkurang.

Dengan demikian, meta search engine beroperasi berdasarkan premis bahwa dunia web terlalu besar bagi satu search engine manapun untuk dapat mengindeks keseluruhannya.

Pengembangan meta search-engine secara konsisten terus dilakukan dengan tujuan, antara lain, meningkatkan cakupan pencarian web, memfasilitasi pencarian informasi ke banyak search engine, mengatasi skalabilitas penelusuran web, dan meningkatkan efektivitas temu kembali informasi (Meng, Yu, dan Liu 2002). Sementara itu, Dreiliner (1996) dalam tesisnya menyebutkan setidaknya ada tiga komponen utama dalam arsitektur dasar meta search engine, pertama, mekanisme pengiriman query (disptach mechanism), penghubung antarmuka (interface agent),  dan mekanisme display hasil pencarian (display mechanism).

Meta search engine bekerja dengan melakukan skema penggabungan (fusion) search engine sehingga dapat menjangkau database-database besar serta meningkatkan nilai relative recall dan precision.

Tiga kelebihan meta search engine lainnya antara lain:
Pertama, performa meta search engine lebih konsisten karena mampu mengkombinasikan kekuatan dan kelemahan yang ada pada masing-masing search engine.

Kedua, meta search engine dapat mengatasi problem arsitektur modular search engine dalam proses pencarian informasi seperti frekuensi kata dan frase, struktur tekstual dokumen, dan struktur hyperlink antardokumen.

Ketiga, meta search engine menggunakan model algoritma pemeringkatan yang terfokus sehingga dapat menghasilkan informasi yang lebih spesifik.

Meskipun meta search engine dapat mengatasi beberapa kekurangan search engine biasa, adakalanya nilai precision yang dihasilkan rendah karena heteroginitas search engine-search engine yang mendasarinya. Dengan kata lain, query yang digunakan untuk mendapatkan informasi yang dimaksud secara optimal dapat berbeda-beda antara satu search engine dengan yang lainnya.

Metodologi dan Test Environment
Lima meta search engine dipilih secara acak untuk diuji efektivitas hasil pencariannya. Kelima search engine tersebut adalah Sperse, Ixquick, Meta Search Engine, Clusty, dan Polymeta.  Lima belas istilah yang mewakili topik dibidang Ilmu Informasi dan Perpustakaan dipilih yang kemudian diklasifikasi menjadi konsep tunggal (annotation, bibliography, monograph, librarianship, cataloguing), konsep majemuk (controlled vocabulary, digital library, special libraries, resource description and access,MARC format), dan konsep kompleks (evaluation of library collection, library and censorship, bibliometrics research method, library metadata standards, information literacy and libraries).

Penulis membatasi penelitian pada sepuluh website hasil penelusuran yang muncul pada halaman pertama saja. Hal ini sejalan dengan penelitian yang dilakukan Google bahwa hampir 85% pengguna hanya melihat hasil penelusuran pada halaman pertama saja.

Masing-masing istilah yang mewakili konsep tunggal, gabungan, dan kompleks kemudian diujikan pada lima meta search engine. Pengujian kueri pada lima meta search engine menggunakan advanced mode dengan metode “exact phrase”. Metode ini dipilih agar penjaringan informasi menghasilkan tingkat precision yang lebih tinggi dan dikontrol dengan hanya menggunakan bahasa Inggris agar pengukuran tingkat relevansi lebih mudah dilakukan. Pengujian dilakukan pada waktu yang berdekatan untuk meminimalisasi variasi temporal system dan pemutakhiran indeks meta search engine.   

Nilai precision dilihat dari seberapa baik kualitas sistem dalam menampilkan hasil pencarian secara benar dan akurat. Pada penelitian ini, hasil penelusuran meta search engine dikategorikan sebagai “lebih relevan”, “kurang relevan”, “tidak relevan”, “links”, dan “situs tidak bisa diakses” dengan kriteria dasar masing-masing sebagai berikut:
– Jika isi halaman web sesuai dengan pokok subjek yang dimaksud dalam istilah pencarian dan menampilkan dokumen-dokumen makalah penelitian, prosiding seminar/konferensi, paten, dan standar, maka dikategorikan sebagai “lebih relevan” dengan nilai skor 2.

– Jika isi halaman web tidak berkaitan dengan pokok subjek yang dimaksud dalam istilah pencarian namun terdapat beberapa aspek relevan dengan pokok subjek, termasuk didalamnya kamus, ensiklopedi, organisasi, blog, maka dikategorikan sebagai “kurang relevan” dengan nilai skor 1.

– Jika isi halaman web hanya menampilkan kumpulan tautan atau links maka dikategorikan sebagai “tautan” dengan nilai skor 0.5, dengan catatan terdapat satu atau dua tautan terbukti relevan

– Jika isi halaman web tidak berkaitan sama sekali dengan pokok subjek yang dimaksud dalam istilah pencarian maka dikategorikan sebagai “tidak relevan” dengan nilai skor 0.

– Jika alamat website tidak bisa diakses setelah dicek berulang-ulang maka dikategorikan sebagai “situs tidak bisa diakses” dengan nilai skor 0.

Kriteria-kriteria tersebut digunakan untuk mengkalkulasi nilai relative recall dan precsision masing-masing meta search engine dengan formula sebagai berikut:

Precision = Jumlah skor situs yang ditemukan
                Jumlah total situs yang dievaluasi

Relative recall = Jumlah total situs yang ditemukan satu meta search engine
                        Jumlah total situs yang ditemukan lima meta search engine    

Relative Recall & precision
Dari hasil pengujian lima meta search engine, maka diperoleh nilai tengah relative recall and precision sebagai berikut:

Istilah “recall” mengacu pada kemampuan sistem temu kembali informasi untuk menjaring seluruh atau sebagian besar dokumen-dokumen relevan dalam sistem. Pada tabel di atas Polymeta memiliki nilai tengah relative recall tertinggi (0.47), diikuti Clusty (0.27), Meta search engine (0.12), Sperse (0.10), dan Ixquick (0.02). Variasi nilai tengah relative recall sangat dipengaruhi oleh bagaimana meta search engine mengirimkan query ke beberapa search engine dan keterhubungannya dengan search engine. dan bagaimana meta search engine mengkombinasikan hasil pencarian dengan menghindari redundancy hasil pencarian.

Sedangkan untuk nilai tengah precision, Sperse mendapat skor tertinggi (1.21) diikuti Meta Search Engine (1.16), Clusty (1.13), Polymeta (1.10), dan Ixquick (1.01). Dalam hal precision, perbedaan nilai tengah tidak jauh berbeda karena pada dasarnya meta search engine tidak menjaring langsung informasi dan membangun indeks dokumen website. Fungsi utama meta search engine adalah mendiversifikasi hasil pencarian yang diperoleh dari masing-masing search engine dan menampilkannya kepada user berdasarkan peringkat yang juga diperoleh dari masing-masing search engine. Namun demikian, meta search engine tetap menyaring peringkat hasil pencarian teratas secara real time.

Kesimpulan

Skema penggabungan hasil pencarian diterapkan pada sistem pengindeksan meta search engine merupakan metodologi baru dalam dunia temu kembali informasi yang membantu user memperoleh sebanyak mungkin dokumen relevan. Efektivitas kinerja meta search engine berkaitan erat dengan algoritma homogen yang digunakan untuk menggabungkan hasil pencarian yang diperoleh dari search engine tunggal. Penelitian ini memperlihatkan bahwa nilai tengah relative recall dan precision lima meta search engine tidak memiliki gap yang signifikan. Dalam observasi juga ditemukan, bahwa secara keseluruhan nilai precision meta search engine masih lebih baik dari search engine tunggal, tetapi untuk relative recall, perolehan dokumen meta search engine berada di bawah level search engine tunggal.

Daftar Pustaka

Dujmovic, Jozo and Bai, Haishi, Evaluation and comparison of search engines using the LSP method, ComSIS, 3 (2) (2006), Available at http://www.doiserbia.nb.rs/img/doi/1820-0214/2006/1820-02140602031D.pdf (Diakses 20 September 2012).

Hardi, Wishnu, Evaluasi aplikasi DNS sebagai search engine untuk pencarian nama domain best universities dan top leading banks di Indonesia (2007), available at http://eprints.rclis.org/bitstream/10760/10422/1/Artikel_Evaluasi_Aplikasi_DNS_Sebagai_Search_Engine.pdf (Diakses tanggal 21 September 2012).

Hardi, Wishnu, Mengukur kinerja search engine: sebuah eksperimentasi penilaian precision and recall untuk informasi ilmiah bidang Ilmu Perpustakaan dan Informasi, Visi Pustaka, 8 (1) (2006), available at http://www.pnri.go.id/MajalahOnlineAdd.aspx?id=31 (Diakses tanggal 21 September 2012).

Kumar, B.T. Sampath and Pavithra, S.M., Evaluating the searching capabilities of search engines and meta search engines: a comparative study, Annals of Library and Information Studies, 57 (June) 2010, available at http://nopr.niscair.res.in/bitstream/123456789/9745/1/ALIS%2057%282%29%2087-97.pdf (Diakses tanggal 20 September 2012).

Lu, Yiyao, Meng, W., Shu, L., Yu, C., and Liu, K., Evaluation of result merging strategies for meta search engines (2005), available at http://www.cs.binghamton.edu/~ylu0/papers/Lu_p211.pdf (Diakses tanggal 20 September 2012).

Mahabhashyam, Mahathi S. And Singitham, Pavan, Tadpole: a meta search engine evaluation of meta search ranking strategis, available at http://www.provesearch.com/doc/1280/tadpole-a-meta-search-engine-and-evaluation-of-ranking-strategies (Diakses tanggal 2 Oktober 2012).

Meng, W., Yu C., and Liu, K., Building efficient and effective meta search engines, Journal ACM Computing Surveys (CSUR), 34 (1) 2002, available at http://dl.acm.org/citation.cfm?id=505284 (Diakses tanggal 28 September 2012).

Netcraft, March 2012 web server survey, available at http://news.netcraft.com/archives/2012/03/05/march-2012-web-server-survey.html (Diakses tanggal 21 September 2012).

Srinivas, K., Srinivas, P.V.S., and Govardhan, A., A survey on the performance evaluation of various meta search engines, IJCSI International Journal of Computer Science Issues, 8 (2) 2011, available at http://www.doaj.org/doaj?func=abstract&id=807884 (Diakses tanggal 20 September 2012).

Sutter, John D., How many pages are on the internet?, CNN Tech, available at http://articles.cnn.com/2011-09-12/tech/web.index_1_internet-neurons-human-brain?_s=PM:TECH (Diakses tanggal 21 September 2012).

Taksa, Isak and Spink, Amanda, Evaluating usability of a long query meta search engine, Proceedings of the 40th Hawaii International Conference on System Sciences, (2007), available at http://eprints.qut.edu.au/14297/1/14297.pdf (Diakases tanggal 20 September 2012).