Robots.txt
Hinter der Bezeichnung Robots.txt steckt eine Datei, die in der oberen Verzeichnisebene einer Webseite hinterlegt wird, um die Webcrawler von Suchmaschinen wie Google, Yahoo und Bing für bestimmte Bereiche auszuschliessen. Das bedeutet: Trifft ein Bot auf eine Domain, wird er zuerst die Robots.txt Datei im Stammverzeichnis (root) lesen und folglich erkennen, welche weiteren Verzeichnisse und Teilbereiche der Webseite zu crawlen sind und welche nicht. Es können auch Bereiche einzelner Seiten ausgeschlossen werden – beispielsweise Anzeigen.
Wichtig erscheint dieser Ausschluss unter anderem für Unterseiten, die sich noch im Aufbau befinden. Die Einrichtung einer Robots.txt Datei ist keine Garantie für den Ausschluss der gekennzeichneten Seite. Das liegt unter anderem daran, dass der Bot auch über Verlinkungen auf eine Seite gelangen kann und diese dann indexiert, obwohl sie im Stammverzeichnis der Domain von der Indexierung ausgeschlossen wurde. Der konsequente Ausschluss von Webseiten und Unterverzeichnissen muss mit anderen Methoden wie der HTTP-Authentifizierung erfolgen.
Was steckt hinter der Robots.txt Datei?
Hinter Robots.txt steckt eine unabhängige Gemeinschaft, die 1994 den Robots Exclusion Standard entwickelte. In 2008 haben sich einige Suchmaschinen wie Google, Microsoft und Yahoo dazu bereit erklärt, einige Aspekte des Webcrawlings einheitlich zu gestalten, so dass das Robots Exclusion Standard heute tatsächlich als Standard gilt. In der Textdatei werden die Anweisungen für den Bot durch zwei Bereiche markiert, die von einem Doppelpunkt getrennt werden. Durch die Bezeichnung „User-agent“ wird der entsprechende Bot (beispielsweise von Google) auf seine Aufgabe aufmerksam gemacht, die in der zweiten Zeile durch ein „allow“ oder „disallow“ mit dem jeweiligen Seitenbereich beschrieben wird. Da dem Webcrawler für gewöhnlich erlaubt wird, die Seiten zu indexieren, arbeitet man hauptsächlich mit dem Attribut „disallow“.
Bei der Erstellung einer Robots.txt Datei greift man in der Regel auf einen einfachen Editor zurück. Alternativ gibt es auch Online-Tools, die bei der Erstellung behilflich sind. Wichtig ist, dass auf die Gross- und Kleinschreibweise geachtet wird. So wird Robots.txt streng genommen immer klein geschrieben. Grundsätzlich muss jeder Bot einzeln angewiesen werden. Das bedeutet, man muss Anweisungen für den Googlebot (Websuche), den Bot der Google News und Shopping sowie der anderen Suchmaschinenanbieter verfassen. Bestimmte Bezeichnungen und Befehle helfen bei der Umsetzung der Robots.txt.