perayap situs web atau crawler

Perayap situs web, dijelaskan juga crawler dan crawlability

Kalau Anda ingin lebih baik dari pesaing Anda, Anda harus tahu dasar-dasar teknik SEO. Anda juga harus punya konten yang bagus dan relevan di situs. Beberapa plugin bisa membantu Anda mengatur hal-hal teknis di WordPress. Tapi, Anda tetap perlu tahu tentang crawlability, yaitu kemampuan Google untuk menelusuri website Anda. ‘Crawler’ adalah perayap situs web milik Google.

Pengambil data (crawler) memulai dengan mengunjungi daftar situs web yang diketahui. Kemudian, ia mengikuti tautan di situs web tersebut untuk menemukan situs web baru. Perayap hanya mengunjungi situs web yang bersifat publik. Ia tidak akan mengunjungi situs web yang terlindungi oleh kata sandi atau yang telah diblokir oleh file robots.txt.

Ketika perayap mengunjungi sebuah situs web, ia mengumpulkan informasi tentang konten situs web tersebut, termasuk judul, teks, gambar, dan tautan ke situs web lain. Pengambil data juga menyimpan URL situs web dan tanggal kunjungan.

Informasi yang ia kumpulkan akan ia simpan dalam indeks Google. Indeks adalah database besar yang berisi informasi tentang miliaran situs web. Ketika pengguna mencari kata kunci, Google menggunakan indeks untuk menemukan situs web yang mengandung kata kunci tersebut.

Pengambil data adalah bagian penting dari mesin pencari Google. Ia bertanggung jawab dalam menemukan situs web baru dan menjaga agar indeks tetap terkini. Tanpa crawler, Google tidak akan dapat memberikan hasil pencarian.

Apa itu crawler?

Crawler, dari bahasa Inggris, artinya ‘perayap’, adalah bagian dari mesin pencari Google yang bekerja untuk menemukan dan menyimpan informasi dari situs web. Perayap ini akan terus-menerus merayap mengikuti tautan di internet selama 24 jam penuh. Kemudian dia akan menyimpan versi website hasil perayapan dalam basis data besar yang bernama indeks. Setiap kali crawler mengunjungi website, indeks akan diperbarui dengan versi baru atau yang telah direvisi. 

Seberapa sering perayap mengunjungi sebuah website tergantung pada seberapa penting website tersebut di mata Google dan jumlah perubahan atau pembaruan di situs web itu.

Perayap ini juga dapat kita sebut sebagai robot, bot, atau laba-laba. Sementara Googlebot adalah nama lain untuk perayap situs web milik Google. Lalu lintas robot ke situs web kita kenal dengan istilah bot traffic.

Pelajari juga: Apa itu bot dan bagaimana cara kerjanya.

Apa itu crawlability?

Crawlability adalah kemampuan dari Google untuk mengunjungi situs web Anda dan memasukkan informasi dari situs web tersebut ke dalam hasil penelusuran. Namun, jika Anda tidak ingin Google merayapi situs web Anda, Anda dapat memblokirnya. Artinya, dengan memblokir Google, Anda mengatakan kepada Google: “Jangan datang ke sini.” Akibatnya, situs web atau halaman yang terkait tidak akan muncul di hasil penelusuran Google, kecuali jika Google mendapatkan informasi dari sumber lain.

Untuk memblokir Google merayapi situs web Anda, ada beberapa cara yang dapat Anda lakukan.

  • Pertama, Anda bisa menggunakan file robots.txt untuk memblokir perayap Google agar tidak mengunjungi halaman atau situs web tertentu Anda.
  • Kedua, tajuk HTTP pada halaman website Anda juga bisa memengaruhi apakah Google akan merayapi situs Anda atau tidak. Jika kode status pada tajuk HTTP menunjukkan bahwa halaman tidak ditemukan, maka Google tidak akan merayapi situs Anda.
  • Ketiga, tag meta robot pada halaman tertentu juga dapat Anda gunakan untuk memblokir Google agar tidak menambahkan halaman tersebut ke dalam indeksnya meskipun perayap sudah merayapinya.

Pelajari: Apa itu HTTPS.

Perayap situs web Google memengaruhi lingkungan

Crawler memiliki pengaruh yang besar terhadap lingkungan. ‘Crawler’ adalah program milik Google yang bertugas mengunjungi situs web Anda beberapa kali setiap hari. Tujuannya adalah untuk mencari konten baru atau memeriksa apakah ada pembaruan terbaru di situs Anda.

Setiap kali crawler mengunjungi situs Anda, mereka akan merayapi semua halaman yang mereka lihat sebagai URL. Hal ini menyebabkan URL sering dirayapi beberapa kali sehari. Dampaknya adalah konsumsi listrik data center Google menjadi lebih tinggi untuk menyimpan hasil pencarian. Ini juga berarti menghasilkan emisi karbon yang lebih tinggi.

Jika kita tetap membiarkan perayap mengakses URL tersebut, maka mereka akan terus merayapinya, berulang kali, setiap kali mereka menemukannya. Hal ini menyebabkan penggunaan sumber daya yang banyak dan berbahaya bagi lingkungan kita. Oleh karena itu, lebih baik kita mencegah si crawler untuk melakukan perayapan yang tidak perlu untuk menjaga kelestarian planet kita.


Comments

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *