Googlebot

0
791

Googlebot is de webcrawlingbot van Google (soms ook wel een ‘spider’ genoemd). Crawlen of doorzoeken is het proces waarmee Googlebot nieuwe en bijgewerkte pagina’s opspoort die moeten worden toegevoegd aan de index van Google.

Het crawlproces van Googlebot begint met een lijst van URL’s van webpagina’s, die wordt gegenereerd aan de hand van vorige crawlprocessen en die wordt uitgebreid met sitemapgegevens die worden geleverd door webmasters. Googlebot bezoekt al deze websites. Links (SRC en HREF) die op elke pagina worden aangetroffen, worden toegevoegd aan de lijst van pagina’s die moeten worden gecrawld. Nieuwe sites, wijzigingen in bestaande sites en verbroken links worden allemaal geregistreerd en worden gebruikt om de index van Google bij te werken.

Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina’s om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.

De werkingswijze is eenvoudig: de spider begint met een lijst met URL’s en bezoekt deze één voor één, waarbij alle hyperlinks die in de bezochte pagina’s voorkomen aan de lijst van te bezoeken URL’s worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina’s op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden.

Spiders dienen zich tijdens hun rondgang te gedragen omdat ze pagina’s nu eenmaal sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina’s van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt.

Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van spiders te beïnvloeden. Zo kan in de hoofdmap van de website een tekstbestandje genaamd ‘robots.txt’ worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven.

Sommige spiders negeren robots.txt. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver de IP-adressen van de betreffende spiders blokkeren. Robots die zich goed gedragen houden zich aan de regels die in robots.txt staan.

Een spider meldt zich aan met een bepaalde User Agent. Bijvoorbeeld, de spiders van Google melden zich met user agent Googlebot of om compleet te zijn ‘Googlebot/2.X (+http://www.googlebot.com/bot.html)’. Bedrijven die spiders inzetten doen er goed aan om uit te leggen wat ze beogen met de spider en welk gedrag deze vertonen. De grotere zoekmachines doen dat al.

Spiders worden niet alleen ingezet om data te verzamelen voor zoekmachines. Er zijn spiders actief die op soortgelijke wijze het internet afstruinen op zoek naar e-mailadressen. Een e-mailadres heeft een standaard opmaak en is daardoor goed herkenbaar. De verzamelde e-mailadressen worden vervolgens verkocht om er spam naar te verzenden.

zie ook http://support.google.com/webmasters/bin/answer.py?hl=nl&answer=182072

Vorig artikelIs het Miljonairsmodel van Casper Camps oplichting ?
Volgend artikelEuroClix Review