Zum Hauptinhalt springen
Drucken

Crawler

Ein Crawler ist ein Programm, das automatisch das Internet durchsucht, Webseiten aufruft und deren Inhalte einliest. Man nennt ihn auch Spider oder Bot. Suchmaschinen wie Google setzen Crawler ein, um zu erfahren, welche Seiten es überhaupt gibt und was auf ihnen steht.

Wie ein Crawler arbeitet

So kann man sich das vorstellen: Der Crawler öffnet eine Seite, liest den Text, folgt allen Links zu den nächsten Seiten, liest auch die – und so weiter, Link für Link, quer durchs Netz. Daher der Name „crawlen“, also krabbeln. Die gefundenen Inhalte landen anschließend im Index, dem riesigen Verzeichnis der Suchmaschine. Nur was ein Crawler erfasst hat, kann später in den Suchergebnissen auftauchen.

Warum das für jede Website zählt

Kann ein Crawler eine Seite nicht erreichen oder lesen, existiert sie für Google praktisch nicht. Häufige Stolpersteine sind kaputte Links, extrem langsame Ladezeiten oder eine unübersichtliche Struktur, in der sich der Crawler verläuft.

Man kann Crawler auch gezielt steuern. Über eine Datei namens robots.txt lässt sich festlegen, welche Bereiche ein Crawler besuchen darf und welche nicht. Neu ist, dass neben den Suchmaschinen-Crawlern immer mehr KI-Crawler unterwegs sind, die Inhalte für Sprachmodelle sammeln. Für Website-Betreiber heißt das: Wer im Netz gefunden werden will – ob bei Google oder in KI-Antworten – muss dafür sorgen, dass Crawler die eigene Seite problemlos lesen können.

Inhaltsverzeichnis
Nach oben scrollen