Was ist die Robots.txt Datei?

Roboter oder Spider nennt sich die Software, die Suchmaschinen benutzen, um Seiten zu indizieren. Doch bevor etwas untersucht wird, schauen die Spider in eine extra für sie geschriebene Datei - den robots.txt. Enttäuschen Sie die Spider nicht!

Ein robots.txt ist kein Zugriffschutz. Im Gegenteil, jeder interessierte Websurfer kann diese Datei mit dem Browser aufrufen. Die Datei verhindert lediglich, dass Informationen in die Indices (=Datenbasis) der Suchmaschinen gelangen, die dort nichts zu suchen haben, zum Beispiel: Demo-Pages. Seiten, die nicht verlinkt sind, brauchen nicht gesperrt zu werden, da ein Spider sie ohnehin nicht finden kann.

Das funktioniert folgendermaßen: Besucht ein Robot Ihre Website, schaut er zuerst einmal nach dem robots.txt und den darin enthaltenen Informationen. Die Datei robots.txt muss im Stammverzeichnis liegen. Es darf nur eine pro Domain geben. Es gilt die Kleinschreibung, also nur "robots.txt" und niemals "Robots.txt" oder "robots.TXT".

User-Agent bezeichnet den Spider. Das Sternchen * gilt als Jokerzeichen und bedeutet, dass die folgenden Zeilen für alle Spider gelten.

Mit "Disallow" werden bestimmte Verzeichnisse (Ordner) für die Robots gesperrt. Pro Verzeichnis ist eine Zeile notwendig.

Alle Roboter ausschließen

User-agent: *
Disallow: /

Alle Roboter einladen
Eine leere Datei erfüllt den gleichen Zweck

User-agent: *
Disallow:

Alle Roboter von bestimmten Verzeichnissen fernhalten

User-agent: *
Disallow: /unwichtig/
Disallow: /cgi-local/

Einen bestimmten Robot ausschließen

User-agent: Sidewinder
Disallow: /

Einen bestimmten Robot einladen

User-agent: WebCrawler
Disallow:


Mehrere Dateien ausschließen

# Meine Roboter Info
User-agent: *
Disallow: /diesunddas.html
Disallow: /unddiesehier.html
Disallow: /verbotenr.html