Search
engine
Sejarah search engine, tolong dibaca yaa.. :p
Alat yang pertama kali digunakan untuk
melakukan pencarian melalui internet disebut “Archie”. Diciptakan tahun 1990
oleh Alan Emtage, seorang siswa dari Universitas Mcgill di Montreal. Program
tersebut mendownload daftar direktori dari semua file dan ditempatkan pada
alamat FTP, menciptakan suatu filename database yang bisa dicari.
Jika program Archie meng-index file
komputer, “Gopher” meng-index teks dokumen. Gopher diciptakan pada tahun 1991
oleh Mark Mccahill di Universitas Minnesota. Karena berbentuk file teks, hampir
semua situs gopher menjadi website setelah terciptanya World Wide Web.
Program yang lainnya yaitu “Veronica”
dan “Jughead”, yang berfungsi untuk mencari file yang disimpan di dalam sistem
index Gopher. Veronica (Very Easy Rodent-Oriented Net-wide Index to
Computerized Archives) menyediakan pencarian dengan menggunakan kata kunci di
menu judul dalam seluruh daftar Gopher. Jughead ( Jonzy’s Universal Gopher
Hierarchy Excavation And Display ) adalah suatu alat untuk memperoleh menu
informasi dari beberapa jenis Gopher server.
Search engine pada web yang pertama
adalah “Wandex”, suatu nowdefunct index yang dikumpulkan oleh World Wide Web
Wanderer, suatu Web Crawler yang dikembangkan oleh Matthew Gray lulusan MIT
tahun 1993. Pada tahun yang sama, sebuah search engine lainnya keluar yaitu
Aliweb, yang saat ini masih ada. Search engine pertama kalinya yang “full text”
atau search engine yang hampir semuanya tulisan adalah Web Crawler yang muncul
pada tahun 1994. tidak seperti search engine sebelumnya, web crawler yang
muncul pada tahun 1994. Tidak seperti search engine sebelumnya, web crawler
mengijinkan para pemakai mencari informasi dengan menggunakan kata apa saja
pada halaman web mana saja. Inilah yang menjadi standarisasi dari semua search
engine yang ada sekarang ini.
Setelah itu, banyak search engine yang
bermunculan dan saling berlomba untuk mendapatkan ketenaran. Diantaranya
Excite, Infosee, Inktomi, Northern Light, dan AltaVista. Dalam beberapa hal,
mereka bersaing dengan direktori terkenal seperti Yahoo!.
Sebelum web muncul, terdapat search
engine untuk protokol atau pengguna lain, seperti Archie untuk situs anonymous
FTP dan Veronica untuk protokol Gopher. Baru-baru ini muncul juga search engine
online yang menggunakan XML atau RSS. Dengan ini search engine menjadi lebih
efisien mengindex data pada website tanpa tuntutan yang rumit. Sehingga website
hanya menyediakan suatu timbal balik XML dengan index-index search engine.
Timbal-balik XML secara meningkat disediakan secara otomatis oleh weblogs atau
blogs. Contoh search engine ini adalah feedster, seperti LjFind Search yang
menyediakan jasa pencarian untuk Livejournal blogs.
Pengertian Search Engine
Mesin pencari web atau yang lebih
dikenal dengan istilah web search engine merupakan program komputer yang
dirancang untuk mencari informasi yang tersedia didalam dunia maya. Berbeda
halnya dengan direktori web (seperti dmoz.org) yang dikerjakan oleh manusia
untuk mengelompokkan suatu halaman informasi berdasarkan kriteria yang ada, web
search engine mengumpulkan informasi yang tersedia secara otomatis.
Fungsi search engine adalah untuk mencari alamat-alamat
website yang berisi berbagai bentuk informasi seperti tulisan, gambar, video,
dsb. dengan mudah dan cepat.
Bagaimana cara kerja search engine?
Search engine itu bergantung pada
program robot yang sangat rumit biasa disebut algoritma. Robot ini melakukan 4
hal, yaitu menjelajahi internet, mengumpulkan data ke dalam indexnya,
menilai penekanan relevansi pada setiap halaman, dan memberikan
ranking pada setiap halaman berdasarkan relevansinya dengan suatu kata
kunci.
Komponen utama dalam search engine
Sebuah search engine memiliki beberapa
komponen agar dapat menyediakan layanan utamanya sebagai sebuah mesin pencari
informasi. Komponen tersebut antara lain :
1. Web
Crawler
Web crawler atau yang dikenal juga
dengan istilah web spider bertugas untuk mengumpulkan semua informasi yang ada
di dalam halaman web. Web crawler bekerja secara otomatis dengan cara
memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua
informasi yang terkandung didalamnya. Setiap kali web crawler mengunjungi
sebuah website, maka dia akan mendata semua link yang ada dihalaman yang
dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu.
Proses web crawler dalam mengunjungi
setiap dokumen web disebut dengan web crawling atau spidering. Beberapa
websites, khususnya yang berhubungan dengan pencarian menggunakan proses
spidering untuk memperbaharui data data mereka. Web crawler biasa digunakan
untuk membuat salinan secara sebhagian atau keseluruhan halaman web yang telah
dikunjunginya agar dapat dip roses lebih lanjut oleh system pengindexan. Crawler
dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti
memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh
data yang khusus seperti mengumpulkan alamat e-mail.
Web crawler termasuk kedalam bagian
software agent atau yang lebih dikenal dengan istilah program bot. Secara umum
crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website
untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web
dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan
menambahkan kedalam daftar seeds sebelumnya.
Dalam melakukan prosesnya, web crawler
juga mempunyai beberapa persoalan yang harus mampu di atasinya. Permasalahan
tersebut mencakup :
Halaman mana yang harus dikunjungi
terlebih dahulu.
Aturan dalam proses mengunjungi kembali
sebuah halaman.
Performansi, mencakup banyaknya halaman
yang harus dikunjungi.
Aturan dalam setiap kunjungan agar
server yang dikunjungi tidak kelebihan beban.
Kegagalan, mencakup tidak tersedianya
halaman yang dikunjungi, server down, timeout, maupun jebakan yang sengaja
dibuat oleh webmaster.
Seberapa jauh kedalaman sebuah website
yang akan dikunjungi.
Hal yang tak kalah pentingnya adalah
kemampuan web crawler untuk mengikuti
perkembangan teknologi web, dimana
setiap kali teknologi baru muncul, web crawler harus dapat menyesuaikan diri
agar dapat mengunjungi halaman web yang menggunakan teknologi baru tersebut.
Proses sebuah web crawler untuk mendata
link – link yang terdapat didalam sebuah halaman web menggunakan pendekatan
regular expression. Crawler akan menelurusi setiap karakter yang ada untuk
menemukan hyperlink tag html (<a>). Setiap hyperlink tag yang ditemukan
diperiksa lebih lanjut apakah tag tersebut mengandung atribut nofollow rel, jika
tidak ada maka diambil nilai yang terdapat didalam attribute href yang
merupakan sebuah link baru.
2. Indexing
system
Indexing system bertugas untuk
menganalisa halaman web yang telah tersimpan sebelumnya dengan cara mengindeks
setiap kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan
disimpan dalam sebuah database indeks untuk digunakan dalam pencarian
selanjutnya.
Indexing system mengumpulkan, memilah
dan menyimpan data untuk memberikan kemudahan dalam pengaksesan informasi
secara tepat dan akurat. Proses pengolahan halaman web agar dapat digunakan
untuk proses pencarian berikutnya dinakamakan web indexing. Dalam
implementasinya index system dirancang dari penggabungan beberapa cabang ilmu
antara lain ilmu bahasa, psikologi, matematika, informatika, fisika, dan ilmu
komputer.
Tujuan dari penyimpanan data berupa
indeks adalah untuk performansi dan kecepatan dalam menemukan informasi yang
relevan berdasarkan inputan user. Tanpa adanya indeks, search engine harus
melakukan scan terhadap setiap dokumen yang ada didalam database. Hal ini tentu
saja akan membutuhkan proses sumber daya yang sangat besar dalam proses
komputasi. Sebagai contoh, indeks dari 10.000 dokumen dapat diproses dalam
waktu beberapa detik saja, sedangkan penulusuran secara berurutan setiap kata
yang terdapat di dalam 10.000 dokumen akan membutuhkan waktu yang berjam
lamanya. Tempat tambahan mungkin akan dibutuhkan di dalam computer untuk
penyimpanan indeks, tapi hal ini akan terbayar dengan penghematan waktu pada
saat pemrosesan pencarian dokumen yang dibutuhkan.
3. Search
system
Search system inilah yang berhubungan
langsung dengan pengguna, meyediakan hasil pencarian informasi yang diinginkan.
Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan kata pencarian
biasanya dengan beberapa kata kunci, search system akan mencari data dari
indeks database, data yang cocok kemudian akan ditampilkan, biasanya disertai
ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.
Macam-macam Search Engine :
contoh :
Berbeda dengan web directory yang meng-index halaman website di
internet secara manual. Manual yang dimaksud adalah mereka menggunakan orang
biasa untuk menganalisa setiap halaman web yang masuk. Tidak menggunakan spider
atau crawler seperti halnya search engine. Keunggulan directory dibanding
search engine adalah memberikan hasil pencarian yang lebih relevan dengan
kualitas yang relatif lebih baik. Tapi karena semua proses dilakukan secara
manual (menggunakan editor manusia), jumlah database yang dimiliki bisasanya
jauh lebih kecil dibandingkan dengan search engine.
Itulah sebabnya
sekarang ini banyak perusahaan yang mengelola directory menerapkan sistem
ganda, yaitu menggunakan directory + search engine. Contoh nyata adalah Yahoo
yang menggandeng Google sebagai search engine default-nya. Contoh beberapa
directory terkenal selain Yahoo adalah Open Directory Project, Looksmart, dan
NBCi.
Direktori web adalah suatu situs
direktori yang berisikan kumpulan link ke situs web lain yang diletakkan
berdasarkan kategori atau sub kategori sesuai keinginan webmaster, si
pengelolah Direktori website.
Aplikasi Direktori Website
Berbeda dengan sistem pada situs mesin
pencari (search engine), sistem pada direktori web menyajikan daftar situs
berdasarkan kategori dan sub-kategori. Direktori web diatur oleh pengelolah web
dan sistem pengkategoriannya tidak berdasarkan kata kunci tertentu, tetapi
berdasarkan intisari sebuah situs.
Selanjutnya para webmaster yang
memiliki situs diperkenankan untuk mendaftarkan situs miliknya untuk dimasukkan
dalam daftar kategori di sebuah direktori. Setiap pendaftaran situs tergantung
aturan si pengelolah direktori website (ada yang harus bayar, ada yang
mengharuskan tautan balik/reciprocal link, dan ada juga yang sama sekali gratis
namun harus melalui proses review/pemeriksaan seperti yang diterapkan pada
situs http://www.dmoz.org).
Apa itu DMOZ??
DMOZ (Directory Mozilla Project), juga
dikenal sebagai ODP (Open Directory Project) atau project direktori terbuka,
adalah kumpulan direktori tentang websites dan webpages yang besar dan
terkategori, dimana dikelola oleh sukarelawan. Setiap websites dan webpage yang
dimasukkan ke dalam direktori harus secara manual sudah direview sebelum
dimasukkan. Untuk mendaftar ke dalam direktory tidak dipungut biaya/gratis.
Tidak banyak orang yang benar-benar
menggunakan DMOZ untuk pencarian seperti yang biasa dilakukan pada Yahoo!
ataupun Google. Jadi direktori itu sendiri mempunyai nilai yang kecil dalam
menghasilkan lalu lintas internet. Faktanya, direktori dari Google tidak lebih
dari direktori DMOZ yang sudah didownload.
Beberapa kelebihan dan kekurangan
search engine dapat kita lihat di :
Mau tau cara kerja search engine???
Please, check this out J
Beberapa sumber yang saya ambil :
http://republikbm.blogspot.com/2008/03/akhirnya-listing-juga-di-dmoz.html
Tidak ada komentar:
Posting Komentar