Googlebot

Google BotDer Googlebot gehört zu den wichtigsten Werkzeugen der Internetsuchmaschine aus dem US-amerikanischen Mountain View. Denn es handelt sich hierbei um einen Webcrawler – ein Computerprogramm, welches automatisiert das Web durchsucht und Webseiten indexiert. Der Googlebot sorgt demnach dafür, dass Webseiten als Suchergebnisse bei Google auffindbar sind.

Besucht der Googlebot eine Seite, lädt er die entsprechende Dateiversion herunter und aktualisiert diese im Google Index. Je nach Anzahl der externen Backlinks sowie der Wichtigkeit einer Seite besucht ein Googlebot eine Webseite in entsprechender Häufigkeit wieder. Denn der Roboter hangelt sich entlang der Links, die zwischen Webseiten existieren. Mit der Übermittlung einer sitemap.xml Datei kann das Crawling des Googlebots erheblich erhöht und verbessert werden. In Google Webmaster Tools wird hinterlegt welche sitemap.xml Datei verwendet werden soll und wo sich diese befindet, bei Inhalten über 50.000 Seiten muss die sitemap.xml Datei in mehrere Unterdateien verteilt werden.

Werden alle Seiten einer Domain durch den Googlebot indexiert?

Nicht jede Seite wird vom Webcrawler von Google besucht. Dies liegt unter anderem daran, ob es sich um dynamische Seiteninhalte wie zum Beispiel PHP-Sessions handelt. Diese kann der Googlebot nur schwer oder gar nicht indexieren. Zum anderen hat der Webmaster die Möglichkeit, bestimmte Seiten von der Aufnahme in den Index auszuschliessen. Dies erfolgt über die Datei robots.txt. Der Webmaster kann hierin festlegen, ob und in welcher Form eine Seite vom Googlebot besucht werden soll. Die Datei sorgt allerdings nicht dafür, dass die Seiten nicht zu erreichen oder verschlüsselt sind.

Soll eine Seite indexiert werden, muss der Webmaster dies dem Googlebot aufzeigen – anhand der robots.txt-Datei. Dies ist unter anderem wichtig, damit der Webcrawler nicht unnötig viel Zeit mit dem crawlen von unwichtigen Seiten verschwendet. Hintergrund ist, dass das Computerprogramm für jede Webseite ein bestimmtes Zeitbudget zur Verfügung hat. Dies hängt unter anderem von der Wichtigkeit der Webseite abhängt. Je nach Zeitbudget kann der Googlebot mehr oder weniger Unterseiten einer URL einlesen. Ziel ist es, unwichtige Seiten auszuschliessen, damit die wichtigsten Unterseiten eingelesen werden.

Für jede Version der passende Webcrawler

Die Suchmaschine Google verwendet nicht nur einen Webcrawler zur Indexierung von Webseiten, sondern hat unterschiedliche Googlebots entwickelt. So gibt es einen Roboter für die herkömmliche Websuche, für mobile Webseiten, für Bilder und Videos sowie für News. Damit schafft es Google entsprechend der Suchanfragen die passenden Informationen zu liefern. Darüber hinaus liefert der Googlebot auch Informationen für das Werbeprogramm Adsense, so dass thematisch passende Anzeigen auf den Webseiten geschaltet werden können.