Crawling: Definition, Funktionsweise, Steuerungselemente

Was ist Crawling?

Crawling ist der digitale Entdeckungsprozess, bei dem automatisierte Programme das World Wide Web systematisch nach Inhalten durchsuchen. Diese Programme heißen „Spider“ und „Bots“ und sie leiten die gefunden Daten zur Analyse an die Suchmaschine weiter. Das Crawling ist die Vorstufe zur Indexierung. Nur solche Inhalte können im Index landen, die vorher durch einen Crawler entdeckt und erfolgreich ausgelesen wurden.

So definiert Google das Crawling:

„Crawling ist die Art und Weise, wie Google das Web ’sieht‘ “
Quelle: https://developers.google.com/crawling/docs/about-crawling?hl=de#what-is-crawling-in-short,-crawling-is-how-google-sees-the-web zuletzt abgerufen am 22.04.2026

Wie funktioniert Crawling technisch?

1. Der Startpunkt: Die URL-Liste & Seeds

Ein Crawler startet nicht bei Null. Er greift auf eine Liste von Seed-URLs zurück. Diese stammen aus:

Bereits bekannten Seiten im Index.
Neu eingereichten XML-Sitemaps über die Google Search Console.
Links auf anderen, bereits gecrawlten Webseiten.

2. Die Scheduler-Logik (Crawl-Steuerung)

Bevor der Bot eine Seite besucht, entscheidet ein komplexes Planungssystem (der Scheduler), welche URLs als Nächstes abgerufen werden. Dabei spielen zwei Faktoren die Hauptrolle:

Crawl-Priorität: Wie wichtig ist die Seite? (Häufig aktualisierte News-Seiten werden öfter besucht als statische Impressum-Seiten).
Crawl-Frequenz: Wie oft ändert sich der Inhalt?

3. Der Abruf & Das Crawl-Budget

Beim eigentlichen Abruf (Request) fordert der Bot die Daten vom Server der Webseite an. Hier kommt das Crawl-Budget ins Spiel. Dies ist die Anzahl der URLs, die ein Bot auf einer Website crawlen kann und will, bevor er die Ressourcen für andere Seiten nutzt.

Zwei Faktoren begrenzen dieses Budget:

Crawl Capacity: Wie viel Last verträgt dein Server, ohne langsamer zu werden?
Crawl Demand: Wie populär oder aktuell ist deine Seite?

4. Rendering: HTML vs. JavaScript

Moderne Crawler (wie der „Evergreen“ Googlebot) laden nicht nur den reinen HTML-Code. Sie führen heute auch JavaScript aus, um den Inhalt so zu sehen, wie ein echter Nutzer ihn sehen würde.

Phase 1: Schnelles Auslesen des statischen HTML.
Phase 2: Rendering (Berechnen) von komplexen Layouts und Skripten. Dies ist rechenintensiv und erfolgt oft zeitversetzt.

Technische Steuerungselemente

Der Crawler kann durch die folgenden Elemente gesteuert werden:

Element	Funktion
Robots.txt	Hier sagst du dem Bot, welche Verzeichnisse er nicht betreten darf.
Sitemap.xml	Eine Liste aller wichtigen URLs, die gecrawlt werden sollen.
Meta-Robots (noindex)	Der Bot darf die Seite zwar crawlen, sie aber nicht im Suchindex speichern.
Canonical Tag	Verhindert „Duplicate Content“, indem er dem Bot sagt, welche Version einer Seite die „Originale“ ist.

Crawling in der Google Search Console analysieren

Bericht „Seiten“

Gecrawlt – zurzeit nicht indexiert: Das bedeutet, Google war da, hat die Seite gesehen, aber entschieden, sie (noch) nicht in den Index aufzunehmen. Oft liegt das an mangelnder Qualität oder Duplicate Content.

Gefunden – zurzeit nicht indexiert: Das ist ein klassisches Crawling-Problem. Google kennt die URL (z. B. durch die Sitemap), hat sie aber noch nicht einmal besucht. Das passiert oft bei neuen Seiten oder wenn das Crawl-Budget erschöpft ist.

Crawling-Statistiken

Host-Status: Zeigt dir, ob Google in den letzten 90 Tagen Verbindungsprobleme zu deinem Server hatte (DNS, Serververbindung, Robots.txt-Abruf).

Crawl-Anfragen nach Antwort: Hier siehst du den Prozentsatz an 200 (OK) vs. 404 (Nicht gefunden) oder 5xx (Serverfehler). Ein hoher Anteil an Fehlern verschwendet dein Crawl-Budget.

Durchschnittliche Antwortzeit: Wenn dein Server zu langsam reagiert, drosselt Google die Crawling-Geschwindigkeit, um die Seite nicht zu überlasten.

Das URL-Prüftool

Gib die URL ein.
Klicke auf „Live-URL testen“.
Schau dir den Reiter „Gecrawlte Seite“ an. Hier siehst du den HTML-Code und – besonders wichtig – den Screenshot. So erkennst du sofort, ob CSS oder JavaScript blockiert werden und der Bot nur eine weiße Seite sieht.

Warum ist Crawling für SEO wichtig?

Kurze Antwort: Ohne Crawling existiert deine Website für Suchmaschinen nicht.

Kein Crawling = Keine Indexierung

Wenn der Bot eine Seite aufgrund technischer Fehler (z. B. 5xx-Serverfehler) oder Blockaden (robots.txt) nicht besuchen kann, landet sie nicht im Index.

Nur was gecrawlt wurde, hat die Chance, überhaupt in den Top 100 der Suchergebnisse zu erscheinen.

Fazit

Das Crawling ist der erste Schritt bei der Suchmaschinenoptimierung, daher ist es wichtig, dass der Googlebot die Website gut erreichen kann. Die technische SEO ist daher auch der erste Bereich, der bei einer Optimierung berücksichtigt werden sollte.

Quellen

Google Search Central: https://developers.google.com/search/docs/crawling-indexing?hl=de, zuletzt abgerufen am 22.04.2026

Crawling Infrastructure: https://developers.google.com/crawling/docs/crawlers-fetchers/overview-google-crawlers?hl=de, zuletzt abgerufen am 22.04.2026

Crawling Definition: https://developers.google.com/crawling/docs/about-crawling?hl=de#what-is-crawling-in-short,-crawling-is-how-google-sees-the-web, zuletzt abgerufen am 22.04.2026