Minggu, 30 September 2012

Search Engine


Search engine
http://cdn1.blogsdna.com/wp-content/uploads/2010/05/google_logo.jpg


Sejarah search engine, tolong dibaca yaa.. :p
Alat yang pertama kali digunakan untuk melakukan pencarian melalui internet disebut “Archie”. Diciptakan tahun 1990 oleh Alan Emtage, seorang siswa dari Universitas Mcgill di Montreal. Program tersebut mendownload daftar direktori dari semua file dan ditempatkan pada alamat FTP, menciptakan suatu filename database yang bisa dicari.

Jika program Archie meng-index file komputer, “Gopher” meng-index teks dokumen. Gopher diciptakan pada tahun 1991 oleh Mark Mccahill di Universitas Minnesota. Karena berbentuk file teks, hampir semua situs gopher menjadi website setelah terciptanya World Wide Web.

Program yang lainnya yaitu “Veronica” dan “Jughead”, yang berfungsi untuk mencari file yang disimpan di dalam sistem index Gopher. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) menyediakan pencarian dengan menggunakan kata kunci di menu judul dalam seluruh daftar Gopher. Jughead ( Jonzy’s Universal Gopher Hierarchy Excavation And Display ) adalah suatu alat untuk memperoleh menu informasi dari beberapa jenis Gopher server.


Search engine pada web yang pertama adalah “Wandex”, suatu nowdefunct index yang dikumpulkan oleh World Wide Web Wanderer, suatu Web Crawler yang dikembangkan oleh Matthew Gray lulusan MIT tahun 1993. Pada tahun yang sama, sebuah search engine lainnya keluar yaitu Aliweb, yang saat ini masih ada. Search engine pertama kalinya yang “full text” atau search engine yang hampir semuanya tulisan adalah Web Crawler yang muncul pada tahun 1994. tidak seperti search engine sebelumnya, web crawler yang muncul pada tahun 1994. Tidak seperti search engine sebelumnya, web crawler mengijinkan para pemakai mencari informasi dengan menggunakan kata apa saja pada halaman web mana saja. Inilah yang menjadi standarisasi dari semua search engine yang ada sekarang ini.

Setelah itu, banyak search engine yang bermunculan dan saling berlomba untuk mendapatkan ketenaran. Diantaranya Excite, Infosee, Inktomi, Northern Light, dan AltaVista. Dalam beberapa hal, mereka bersaing dengan direktori terkenal seperti Yahoo!.

Sebelum web muncul, terdapat search engine untuk protokol atau pengguna lain, seperti Archie untuk situs anonymous FTP dan Veronica untuk protokol Gopher. Baru-baru ini muncul juga search engine online yang menggunakan XML atau RSS. Dengan ini search engine menjadi lebih efisien mengindex data pada website tanpa tuntutan yang rumit. Sehingga website hanya menyediakan suatu timbal balik XML dengan index-index search engine. Timbal-balik XML secara meningkat disediakan secara otomatis oleh weblogs atau blogs. Contoh search engine ini adalah feedster, seperti LjFind Search yang menyediakan jasa pencarian untuk Livejournal blogs.

Pengertian Search Engine
Mesin pencari web atau yang lebih dikenal dengan istilah web search engine merupakan program komputer yang dirancang untuk mencari informasi yang tersedia didalam dunia maya. Berbeda halnya dengan direktori web (seperti dmoz.org) yang dikerjakan oleh manusia untuk mengelompokkan suatu halaman informasi berdasarkan kriteria yang ada, web search engine mengumpulkan informasi yang tersedia secara otomatis.

Fungsi search engine adalah untuk mencari alamat-alamat website yang berisi berbagai bentuk informasi seperti tulisan, gambar, video, dsb. dengan mudah dan cepat.

Bagaimana cara kerja search engine?
Search engine itu bergantung pada program robot yang sangat rumit biasa disebut algoritma. Robot ini melakukan 4 hal, yaitu menjelajahi internet, mengumpulkan data ke dalam indexnya, menilai penekanan relevansi pada setiap halaman, dan memberikan ranking pada setiap halaman berdasarkan relevansinya dengan suatu kata kunci.

Komponen utama dalam search engine
Sebuah search engine memiliki beberapa komponen agar dapat menyediakan layanan utamanya sebagai sebuah mesin pencari informasi. Komponen tersebut antara lain :
1.    Web Crawler
Web crawler atau yang dikenal juga dengan istilah web spider bertugas untuk mengumpulkan semua informasi yang ada di dalam halaman web. Web crawler bekerja secara otomatis dengan cara memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung didalamnya. Setiap kali web crawler mengunjungi sebuah website, maka dia akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu.

Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Beberapa websites, khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat salinan secara sebhagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat dip roses lebih lanjut oleh system pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.

Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya.

Dalam melakukan prosesnya, web crawler juga mempunyai beberapa persoalan yang harus mampu di atasinya. Permasalahan tersebut mencakup :
Halaman mana yang harus dikunjungi terlebih dahulu.
Aturan dalam proses mengunjungi kembali sebuah halaman.
Performansi, mencakup banyaknya halaman yang harus dikunjungi.
Aturan dalam setiap kunjungan agar server yang dikunjungi tidak kelebihan beban.
Kegagalan, mencakup tidak tersedianya halaman yang dikunjungi, server down, timeout, maupun jebakan yang sengaja dibuat oleh webmaster.
Seberapa jauh kedalaman sebuah website yang akan dikunjungi.
Hal yang tak kalah pentingnya adalah kemampuan web crawler untuk mengikuti
perkembangan teknologi web, dimana setiap kali teknologi baru muncul, web crawler harus dapat menyesuaikan diri agar dapat mengunjungi halaman web yang menggunakan teknologi baru tersebut.

Proses sebuah web crawler untuk mendata link – link yang terdapat didalam sebuah halaman web menggunakan pendekatan regular expression. Crawler akan menelurusi setiap karakter yang ada untuk menemukan hyperlink tag html (<a>). Setiap hyperlink tag yang ditemukan diperiksa lebih lanjut apakah tag tersebut mengandung atribut nofollow rel, jika tidak ada maka diambil nilai yang terdapat didalam attribute href yang merupakan sebuah link baru.

2.    Indexing system
Indexing system bertugas untuk menganalisa halaman web yang telah tersimpan sebelumnya dengan cara mengindeks setiap kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.

Indexing system mengumpulkan, memilah dan menyimpan data untuk memberikan kemudahan dalam pengaksesan informasi secara tepat dan akurat. Proses pengolahan halaman web agar dapat digunakan untuk proses pencarian berikutnya dinakamakan web indexing. Dalam implementasinya index system dirancang dari penggabungan beberapa cabang ilmu antara lain ilmu bahasa, psikologi, matematika, informatika, fisika, dan ilmu komputer.

Tujuan dari penyimpanan data berupa indeks adalah untuk performansi dan kecepatan dalam menemukan informasi yang relevan berdasarkan inputan user. Tanpa adanya indeks, search engine harus melakukan scan terhadap setiap dokumen yang ada didalam database. Hal ini tentu saja akan membutuhkan proses sumber daya yang sangat besar dalam proses komputasi. Sebagai contoh, indeks dari 10.000 dokumen dapat diproses dalam waktu beberapa detik saja, sedangkan penulusuran secara berurutan setiap kata yang terdapat di dalam 10.000 dokumen akan membutuhkan waktu yang berjam lamanya. Tempat tambahan mungkin akan dibutuhkan di dalam computer untuk penyimpanan indeks, tapi hal ini akan terbayar dengan penghematan waktu pada saat pemrosesan pencarian dokumen yang dibutuhkan.

3.    Search system
Search system inilah yang berhubungan langsung dengan pengguna, meyediakan hasil pencarian informasi yang diinginkan. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan kata pencarian biasanya dengan beberapa kata kunci, search system akan mencari data dari indeks database, data yang cocok kemudian akan ditampilkan, biasanya disertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.


Macam-macam Search Engine :
contoh :

Berbeda dengan web directory yang meng-index halaman website di internet secara manual. Manual yang dimaksud adalah mereka menggunakan orang biasa untuk menganalisa setiap halaman web yang masuk. Tidak menggunakan spider atau crawler seperti halnya search engine. Keunggulan directory dibanding search engine adalah memberikan hasil pencarian yang lebih relevan dengan kualitas yang relatif lebih baik. Tapi karena semua proses dilakukan secara manual (menggunakan editor manusia), jumlah database yang dimiliki bisasanya jauh lebih kecil dibandingkan dengan search engine.
Itulah sebabnya sekarang ini banyak perusahaan yang mengelola directory menerapkan sistem ganda, yaitu menggunakan directory + search engine. Contoh nyata adalah Yahoo yang menggandeng Google sebagai search engine default-nya. Contoh beberapa directory terkenal selain Yahoo adalah Open Directory Project, Looksmart, dan NBCi.
Direktori web adalah suatu situs direktori yang berisikan kumpulan link ke situs web lain yang diletakkan berdasarkan kategori atau sub kategori sesuai keinginan webmaster, si pengelolah Direktori website.

Aplikasi Direktori Website
Berbeda dengan sistem pada situs mesin pencari (search engine), sistem pada direktori web menyajikan daftar situs berdasarkan kategori dan sub-kategori. Direktori web diatur oleh pengelolah web dan sistem pengkategoriannya tidak berdasarkan kata kunci tertentu, tetapi berdasarkan intisari sebuah situs.

Selanjutnya para webmaster yang memiliki situs diperkenankan untuk mendaftarkan situs miliknya untuk dimasukkan dalam daftar kategori di sebuah direktori. Setiap pendaftaran situs tergantung aturan si pengelolah direktori website (ada yang harus bayar, ada yang mengharuskan tautan balik/reciprocal link, dan ada juga yang sama sekali gratis namun harus melalui proses review/pemeriksaan seperti yang diterapkan pada situs http://www.dmoz.org).
Apa itu DMOZ??
DMOZ (Directory Mozilla Project), juga dikenal sebagai ODP (Open Directory Project) atau project direktori terbuka, adalah kumpulan direktori tentang websites dan webpages yang besar dan terkategori, dimana dikelola oleh sukarelawan. Setiap websites dan webpage yang dimasukkan ke dalam direktori harus secara manual sudah direview sebelum dimasukkan. Untuk mendaftar ke dalam direktory tidak dipungut biaya/gratis.

Tidak banyak orang yang benar-benar menggunakan DMOZ untuk pencarian seperti yang biasa dilakukan pada Yahoo! ataupun Google. Jadi direktori itu sendiri mempunyai nilai yang kecil dalam menghasilkan lalu lintas internet. Faktanya, direktori dari Google tidak lebih dari direktori DMOZ yang sudah didownload.
Beberapa kelebihan dan kekurangan search engine dapat kita lihat di :

Mau tau cara kerja search engine??? Please, check this out J

Beberapa sumber yang saya ambil :
http://republikbm.blogspot.com/2008/03/akhirnya-listing-juga-di-dmoz.html

Tidak ada komentar:

Posting Komentar