Crawling & Indexierung: Wie der Google-Index funktioniert [Guide 2026]

Crawling & Indexierung: So findet und speichert Google deine Inhalte

Das Wichtigste in Kürze:

Bevor deine Website ranken kann, muss Google sie finden (Crawling) und verstehen (Indexierung). Dieser zweistufige Prozess ist das unsichtbare Fundament jeder SEO-Strategie – und die häufigste Ursache für fehlende Rankings.

  • Der Googlebot durchsucht das Web systematisch über Links, Sitemaps und die Search Console. Das Crawl Budget bestimmt, wie oft und wie viele Seiten besucht werden.
  • Googles Caffeine-System analysiert gecrawlte Seiten in Echtzeit und speichert sie in verschiedenen Index-Tiers (Base, Zeppelins, Landfills). Die Tier-Zuordnung zu Speicherhierarchien stammt aus Mike Kings Analyse der API Leaks (iPullRank, 2024).
  • Canonical Tags, robots.txt, Meta-Robots, hreflang und strukturierte Daten sind Pflicht – Fehler hier bedeuten, dass Google deine Inhalte nicht findet oder versteht.
  • Seit Oktober 2023 crawlt und indexiert Google vollständig die mobile Version deiner Website. Desktop-only Inhalte werden möglicherweise gar nicht erfasst.

Bevor deine Website in den Suchergebnissen erscheinen kann, muss Google sie erst einmal finden und verstehen. Dieser Prozess – bestehend aus Crawling und Indexierung – bildet das unsichtbare Fundament jeder SEO-Strategie. Ohne ihn ist selbst der beste Content wertlos.

Ich sehe es in meinen technischen SEO-Audits immer wieder: Teams investieren Monate in Keyword-Recherche und Content-Produktion – und entdecken dann in der Search Console, dass hunderte ihrer wichtigsten URLs den Status „Gecrawlt, derzeit nicht indexiert“ tragen. Sie optimieren für Rankings, die nie stattfinden können, weil die technische Grundlage fehlt. Das ist, als würdest du ein Geschäft eröffnen und die Adresse bei Google Maps nicht eintragen – dein Angebot kann noch so gut sein, niemand findet dich.

Dieser Artikel ist Teil meines umfassenden Guides zum Google Suchalgorithmus: Von Crawling bis Ranking. Hier tauchen wir tief in die technischen Grundlagen ein – mit Erkenntnissen aus den Google API Leaks 2024, die erstmals interne Systemnamen wie Index Tiers und Crawl-Priorisierung enthüllt haben. Nachdem deine Seiten indexiert sind, übernehmen die nächsten Phasen: Query Processing, Ranking und Re-Ranking mit Twiddlern.

Warum Crawling & Indexierung die Basis von SEO sind

Key Takeaway: Der Weg in die Suchergebnisse folgt einer klaren Hierarchie: Crawling → Indexierung → Ranking → Sichtbarkeit. Wenn eine dieser Stufen fehlschlägt, erreicht dein Content nie die Nutzer. Die meisten SEO-Probleme sind keine Ranking-Probleme, sondern Crawling- oder Indexierungsprobleme.

Der Weg einer Webseite in die Suchergebnisse folgt einer klaren Hierarchie: Crawling, dann Indexierung, dann Ranking, und schließlich Sichtbarkeit. Wenn eine dieser Stufen fehlschlägt, erreicht dein Content nie die Nutzer. Die brutale Wahrheit ist: Die meisten SEO-Probleme sind keine Ranking-Probleme, sondern Crawling- oder Indexierungsprobleme.

Die Google API Leaks haben bestätigt, was viele SEOs lange vermutet haben: Google verwaltet nicht einen einzigen Index, sondern mehrere Ebenen (Tiers) mit unterschiedlicher Priorität. Eine Seite im sogenannten „Landfills“-Tier wird praktisch nie für wichtige Suchanfragen angezeigt – selbst wenn der Content hervorragend ist. Das Ziel muss also sein, nicht nur indexiert zu werden, sondern in den richtigen Index-Tier zu gelangen.

Ein typisches Szenario aus der Praxis

Nehmen wir ein hypothetisches, aber realistisches Beispiel: Ein mittelständischer Online-Shop mit tausenden Produktseiten – trotzdem ranken nur wenige hundert für relevante Keywords. Die Search Console zeigt „Gecrawlt, derzeit nicht indexiert“ für einen Großteil der URLs. Die typische Ursache? Die facettierte Navigation erzeugt zehntausende Filter-URLs ohne einzigartigen Content, die Googles Crawl Budget verschlingen. Genau dieses Muster sehe ich in meinen technischen Audits regelmäßig.

Der Lösungsweg ist in der Regel dreistufig: Erstens werden nicht-kanonische Filter-Kombinationen per robots.txt oder Canonical Tags vom Crawling bzw. der Indexierung ausgeschlossen. Zweitens erhalten die wichtigen Kategorie- und Produktseiten eine verbesserte interne Verlinkung. Drittens wird die Sitemap auf die tatsächlich indexierungswürdigen URLs bereinigt. In meiner Erfahrung steigt die Indexierungsrate nach solchen Maßnahmen typischerweise deutlich – oft verdoppelt sich der organische Traffic innerhalb weniger Monate.

Hinweis: Laut Google-Mitarbeiter John Mueller indexiert Google durchschnittlich nur zwischen 30 und 60 Prozent der Seiten einer Website. Der überwiegende Rest besteht aus Duplikaten, qualitativ minderwertigen Seiten, nicht auffindbaren URLs oder aktiv von der Indexierung ausgeschlossenen Inhalten. Dein Ziel: Sicherstellen, dass deine wichtigen Seiten zum indexierten Anteil gehören.

Was ist Crawling? Der Googlebot erklärt

Key Takeaway: Crawling ist der Prozess, bei dem Googles automatisierte Crawler das Web durchsuchen, um neue und aktualisierte Seiten zu entdecken. Der Googlebot springt von Link zu Link, verarbeitet HTTP-Anfragen und reiht JavaScript-lastige Seiten in eine separate Rendering-Queue ein.

Crawling ist der Prozess, bei dem Googles automatisierte Programme – die Crawler oder Spider – das Web durchsuchen, um neue und aktualisierte Seiten zu entdecken. Der bekannteste dieser Crawler ist der Googlebot, aber Google betreibt tatsächlich eine ganze Familie spezialisierter Crawler für unterschiedliche Inhaltstypen.

Wie der Googlebot funktioniert

Der Googlebot arbeitet wie ein unermüdlicher Leser, der von Link zu Link springt. Er beginnt mit einer Liste bekannter URLs aus früheren Crawls, eingereichten Sitemaps oder der Search Console. Für jede URL sendet er eine HTTP-Anfrage an den Server und lädt den HTML-Code herunter. Dabei extrahiert er alle Links auf der Seite und fügt sie seiner Warteschlange hinzu.

Bei modernen JavaScript-lastigen Websites ist der Prozess komplexer. Der Googlebot lädt zunächst nur den initialen HTML-Code und reiht die Seite dann in eine separate Rendering-Queue ein. Dort wird das JavaScript ausgeführt und der vollständig gerenderte DOM analysiert. Dieser zweistufige Prozess kann zu Verzögerungen führen, weshalb Server-Side Rendering für SEO-kritische Seiten so wichtig ist.

Google setzt spezialisierte Crawler für unterschiedliche Aufgaben ein:

Crawler User-Agent Aufgabe
Googlebot Smartphone Googlebot/2.1 (Mobile) Mobile-First Crawling (primär seit Oktober 2023)
Googlebot Desktop Googlebot/2.1 Desktop-Seiten (nur noch sekundär)
Googlebot Images Googlebot-Image/1.0 Bilder für die Google Bildersuche
Googlebot Video Googlebot-Video/1.0 Videos für die Videosuche
Googlebot News Googlebot-News Nachrichteninhalte für Google News
AdsBot AdsBot-Google Landingpage-Qualität für Google Ads
Wichtig seit Oktober 2023: Der Googlebot Smartphone ist der primäre Crawler. Google crawlt und indexiert standardmäßig die mobile Version deiner Website. Desktop-only Inhalte riskieren, komplett übersehen zu werden.

Crawl Budget: Wie Google Prioritäten setzt

Key Takeaway: Das Crawl Budget setzt sich aus Crawl Rate Limit (Server-Kapazität) und Crawl Demand (Googles Interesse) zusammen. Duplicate Content, Soft Errors und endlose Parameter-URLs verschwenden es massiv.

Google kann nicht jede URL im Internet gleichzeitig crawlen – selbst mit massiver Infrastruktur. Deshalb weist Google jeder Website ein sogenanntes Crawl Budget zu: die Anzahl der Seiten, die der Googlebot innerhalb eines bestimmten Zeitraums crawlen kann und will.

Das Crawl Budget setzt sich aus zwei Komponenten zusammen. Die erste ist das Crawl Rate Limit, also die maximale Crawl-Frequenz, ohne deinen Server zu überlasten. Google passt dieses Limit automatisch an deine Server-Antwortzeiten an. Wenn dein Server langsam antwortet, reduziert Google die Crawl-Rate, um ihn nicht zu überlasten. Die zweite Komponente ist der Crawl Demand – wie sehr „will“ Google deine Seiten überhaupt crawlen? Diese Nachfrage basiert auf der Popularität deiner Seiten, ihrer Aktualität und der wahrgenommenen Wichtigkeit. Häufig verlinkte und oft aktualisierte Seiten haben eine deutlich höhere Priorität.

Was dein Crawl Budget verschwendet

Bestimmte technische Probleme können dein Crawl Budget massiv verschwenden. Duplicate Content ist einer der häufigsten Übeltäter: Wenn dieselben Inhalte unter mehreren URLs erreichbar sind, crawlt Google sie alle separat. Facettierte Navigation in Online-Shops erzeugt oft tausende Filter-Kombinationen ohne einzigartigen Content. Session-IDs in URLs generieren unendliche URL-Varianten für denselben Inhalt.

Besonders tückisch sind sogenannte Soft-Error-Seiten: Seiten, die dem Nutzer eine Fehlermeldung zeigen, aber dem Googlebot einen 200-Status zurückgeben. Der Bot crawlt sie immer wieder, ohne zu erkennen, dass sie wertlos sind. Ähnlich problematisch sind „Infinite Spaces“ wie endlos paginierte Archive oder Kalender, die theoretisch unendlich viele URLs erzeugen können. Und wenn deine Website gehackt wurde, können Spam-Seiten dein gesamtes Crawl Budget auffressen – hier greift Googles SpamBrain-System, um manipulative Inhalte zu erkennen.

Für eine detaillierte Anleitung zur Optimierung lies meinen spezialisierten Guide: Crawl Budget optimieren: So werden deine Inhalte schneller indexiert.

Crawling steuern: robots.txt, Sitemaps & Search Console

Key Takeaway: Die robots.txt blockiert nur das Crawlen, nicht die Indexierung. Für echte Indexierungskontrolle brauchst du den noindex-Tag. XML-Sitemaps und die Search Console ergänzen die Steuerung.

Du hast mehrere Werkzeuge, um zu beeinflussen, wie Google deine Website crawlt. Das wichtigste ist die robots.txt-Datei, die im Root-Verzeichnis deiner Domain liegt und Crawlern Anweisungen gibt.

robots.txt – Die Zutrittskontrolle

Mit der robots.txt kannst du bestimmte Bereiche deiner Website vom Crawling ausschließen. Das ist sinnvoll für Admin-Bereiche, Checkout-Prozesse oder interne Suchseiten, die nicht in den Index gehören. Du kannst auch unterschiedliche Regeln für verschiedene Crawler definieren – etwa den AdsBot anders behandeln als den regulären Googlebot.

# Beispiel robots.txt
User-agent: *
Disallow: /admin/
Disallow: /checkout/
Disallow: /search?

User-agent: Googlebot
Crawl-delay: 1

Sitemap: https://example.com/sitemap.xml
Achtung: Die robots.txt verhindert nur das Crawlen, nicht die Indexierung! Wenn andere Seiten auf eine per robots.txt gesperrte URL verlinken, kann Google sie trotzdem indexieren – nur ohne den Inhalt zu kennen. Das Ergebnis ist ein Suchergebnis ohne Snippet. Für echte Indexierungskontrolle brauchst du den noindex-Tag.

XML-Sitemaps – Die Landkarte deiner Website

Eine XML-Sitemap listet alle wichtigen URLs deiner Website und hilft Google bei der Entdeckung. Sie ist besonders wertvoll für neue Websites ohne viele Backlinks, für große Websites mit komplexer Struktur und für Seiten, die nicht gut intern verlinkt sind.

Bei der Sitemap-Pflege gibt es einige Best Practices zu beachten. Nimm nur indexierbare, kanonische URLs auf – keine Seiten mit noindex, keine Duplikate, keine Weiterleitungsziele. Das lastmod-Datum solltest du nur bei echten inhaltlichen Änderungen aktualisieren, denn Google lernt, ob du „lügst“, und ignoriert dann deine lastmod-Angaben komplett – John Mueller hat das explizit bestätigt. Pro Sitemap sind maximal 50.000 URLs erlaubt; bei größeren Websites nutzt du einen Sitemap-Index. Reiche die Sitemap unbedingt in der Google Search Console ein. Für Google Discover-Traffic solltest du außerdem max-image-preview:large in den Meta-Robots setzen.

Search Console – Die Direktverbindung zu Google

Die Search Console bietet dir eine direkte Kommunikationslinie zu Google. Mit der URL-Prüfung kannst du den exakten Status jeder einzelnen URL checken. Du siehst, wann sie zuletzt gecrawlt wurde, ob sie indexiert ist, welche Canonical Google erkannt hat und ob es Mobile-Usability-Probleme gibt. Für wichtige neue Seiten kannst du direkt eine Indexierung beantragen – wobei das keine Garantie ist, sondern nur ein Signal an Google.

Der Seitenindexierungsbericht unter „Indexierung → Seiten“ zeigt dir alle Crawling- und Indexierungsprobleme auf einen Blick. Die aktuelle Darstellung unterscheidet zwischen „Indexed“ (grün) und „Not Indexed“ (grau) mit jeweils detaillierten Untergründen. Hier findest du Seiten, die durch robots.txt blockiert sind, versehentlich auf noindex stehen oder als Duplikate erkannt wurden. Das Entfernen-Tool ermöglicht es dir, URLs temporär aus den Suchergebnissen zu nehmen – nützlich bei sensiblen Inhalten oder schwerwiegenden Fehlern.

Was ist Indexierung? Von Caffeine zu Index Tiers

Key Takeaway: Indexierung ist der Prozess, bei dem Google gecrawlte Seiten analysiert, versteht und in seiner Datenbank speichert. Seit 2010 arbeitet das Caffeine-System inkrementell und nahezu in Echtzeit. Nur indexierte Seiten können ranken.

Indexierung ist der Prozess, bei dem Google die gecrawlten Seiten analysiert, versteht und in seiner Datenbank speichert. Nur indexierte Seiten können in den Suchergebnissen erscheinen. Crawling allein reicht nicht – eine Seite kann gecrawlt, aber trotzdem nicht indexiert werden, wenn Google sie als minderwertig oder redundant einstuft.

Das Caffeine-System

Seit 2010 nutzt Google das Caffeine-System für die Indexierung. Anders als das alte System, das den gesamten Index in großen Batches aktualisierte, arbeitet Caffeine inkrementell und nahezu in Echtzeit. Das bedeutet, dass neue Inhalte deutlich schneller im Index erscheinen können – vorausgesetzt, sie erfüllen die Qualitätskriterien.

Wenn der Googlebot eine Seite heruntergeladen hat, beginnt die eigentliche Analysearbeit. Zuerst wird der HTML-Code in eine DOM-Struktur umgewandelt, ein Prozess namens Parsing. Dann extrahiert Google alle relevanten Inhalte: Text, Bilder, Videos und strukturierte Daten werden erfasst und kategorisiert.

Strukturierte Daten verdienen besondere Aufmerksamkeit. Sie sind maschinenlesbare Informationen im JSON-LD-, Microdata- oder RDFa-Format, die Google helfen, den Inhalt einer Seite eindeutig zu verstehen. Ein Rezept wird als Rezept erkannt (mit Zutaten, Kochzeit, Bewertungen), ein Produkt als Produkt (mit Preis, Verfügbarkeit, Bewertungen), eine FAQ als FAQ. Diese Daten ermöglichen Rich Snippets in den Suchergebnissen – die auffälligen Zusatzinformationen wie Sternebewertungen, Preise oder FAQ-Akkordeons, die deine Klickrate deutlich steigern können.

Besonders wichtig ist die linguistische Analyse. Hier erkennt Google die Sprache des Dokuments, identifiziert die behandelten Themen und verknüpft Entitäten wie Personen, Orte und Konzepte mit dem Knowledge Graph. Diese semantische Analyse geht weit über einfaches Keyword-Matching hinaus – mehr dazu in meinem Artikel zur Semantischen Suche & dem Knowledge Graph.

Parallel dazu prüft Google, ob der Inhalt ein Duplikat oder eine Variation bestehender Seiten ist. Bei ähnlichen Inhalten werden diese gruppiert und Google wählt eine kanonische Version als „Original“. Außerdem werden erste Qualitätssignale erfasst – hier spielen bereits E-E-A-T-Faktoren eine Rolle. Am Ende des Prozesses wird die Seite im passenden Index-Tier abgelegt.

Welche Signale die Indexierungspriorität beeinflussen

Google entscheidet basierend auf verschiedenen Faktoren, ob und wie schnell eine Seite indexiert wird. Die interne Verlinkung spielt eine zentrale Rolle: Wie prominent ist die Seite in deiner Seitenstruktur? Seiten, die von der Startseite aus mit wenigen Klicks erreichbar sind, werden als wichtiger eingestuft. Externe Backlinks verstärken diesen Effekt – wenn vertrauenswürdige Websites auf deine Seite verlinken, signalisiert das Google, dass der Inhalt relevant ist.

Die Content-Qualität selbst ist natürlich entscheidend. Ist der Inhalt einzigartig und bietet er echten Mehrwert? Oder handelt es sich um eine weitere generische Seite zu einem übersättigten Thema? Technische Signale wie Ladezeit und mobile Nutzbarkeit fließen ebenfalls ein. Und schließlich spielt die Autorität der gesamten Domain eine Rolle – etablierte Websites mit guter Reputation bekommen einen Vertrauensvorschuss.

Die drei Index-Ebenen: Base, Zeppelins & Landfills

Key Takeaway: Die Google API Leaks 2024 haben enthüllt, dass Google mehrere Index-Ebenen verwaltet. Laut Mike Kings Analyse (iPullRank) entsprechen Base, Zeppelins und Landfills unterschiedlichen Speicherhierarchien – von schnellem Flash Memory bis zu Standard-Festplatten.

Die Google API Leaks 2024 haben eine der spannendsten Enthüllungen geliefert: Google verwaltet nicht einen einheitlichen Index, sondern mehrere Ebenen mit unterschiedlicher Priorität und Aktualisierungsfrequenz. Eine tiefgehende Analyse dieser Leak-Erkenntnisse findest du in: Google Leak: Warum Nutzersignale wichtiger sind als Google zugab.

In den geleakten API-Dokumenten taucht das Attribut scaledSelectionTierRank mit dem Hinweis „over the serving tier (Base, Zeppelins, Landfills)“ auf. Die genauen Tier-Namen sind damit bestätigt – die inhaltliche Interpretation, welcher Tier welchem Speichertyp entspricht, stammt allerdings aus der Analyse von Mike King bei iPullRank (Mai 2024). King leitete aus Kontextsignalen in der Dokumentation ab, dass die Tiers einer physischen Speicherhierarchie folgen:

Index Tier Speichertyp (laut King) Aktualisierung Typische Inhalte
Base Index Flash Memory Häufig (Stunden bis Tage) Hochwertige Hauptseiten, News, autoritative Domains
Zeppelins Solid State Drives (SSD) Gelegentlich (Wochen) Archiv-Seiten, tiefe Hierarchien, geringere Autorität
Landfills Standard-Festplatten (HDD) Selten (Monate oder nie) Alte Inhalte, Low-Quality-Seiten, kaum verlinkte URLs
Hinweis zur Quellenlage: Die Tier-Namen Base, Zeppelins und Landfills stammen direkt aus den geleakten Google-API-Dokumenten. Die Zuordnung zu konkreten Speichertypen (Flash/SSD/HDD) ist Mike Kings interpretative Schlussfolgerung – nicht von Google bestätigt. King stützt sich dabei auf Kontexthinweise wie „For TeraGoogle, this data resides in very limited serving memory (Flash storage)“ aus der internen Dokumentation.

Seiten im Base Index werden für wettbewerbsfähige Keywords berücksichtigt. Seiten in den Zeppelins können zwar ranken, haben aber bei kompetitiven Suchanfragen schlechtere Chancen. Inhalte in den Landfills haben praktisch keine Chance auf Rankings für relevante Suchanfragen – egal wie gut der Content theoretisch ist.

Was die Tier-Zuordnung beeinflusst

Die Leaks deuten auf mehrere Faktoren hin, die bestimmen, in welchem Tier eine Seite landet. Das siteAuthority-Signal bewertet die gesamte Domain – ja, eine Art Domain Authority existiert tatsächlich, auch wenn Google das lange abgestritten hat. Der gute alte PageRank spielt immer noch eine Rolle, wenn auch in modifizierter Form. Content Freshness, also wie aktuell der Inhalt ist, und User Engagement, also wie Nutzer mit der Seite interagieren, fließen ebenfalls ein. Schließlich beeinflusst auch die Crawl Frequency, also wie oft sich die Seite ändert, die Tier-Zuordnung.

Praxis-Tipp: Seiten im Landfills-Tier haben praktisch keine Chance auf Rankings für wettbewerbsfähige Keywords. Wenn wichtige Seiten dort landen, musst du ihre Qualität, Verlinkung und Aktualität verbessern, um sie in höhere Tiers zu „befördern“. Nach Google Core Updates kann sich die Tier-Zuordnung ändern – sowohl positiv als auch negativ.

Indexierung steuern: Canonical, noindex & hreflang

Key Takeaway: Canonical Tags, noindex und hreflang sind essenzielle Steuerungsinstrumente. Der Canonical ist ein Hinweis, keine Direktive – Google kann sich anders entscheiden. hreflang muss bidirektional implementiert werden.

Du hast mehrere Möglichkeiten, die Indexierung aktiv zu beeinflussen. Diese Tags und Signale sind keine optionale Kür, sondern essenzielle Werkzeuge für jede professionelle SEO-Strategie.

Canonical Tags – Die bevorzugte Version definieren

Bei Duplikaten oder sehr ähnlichen Seiten zeigt der Canonical Tag auf die „Original“-Version. Das ist besonders wichtig, wenn derselbe Inhalt unter mehreren URLs erreichbar ist – etwa ein Produkt, das über verschiedene Kategorien verlinkt wird, oder Parameter-URLs für Sortierung und Filterung.

<link rel="canonical" href="https://example.com/original-seite/" />

Der Canonical Tag ist ein Hinweis, keine Direktive. Google kann sich entscheiden, eine andere URL als kanonisch zu behandeln, wenn die Signale widersprüchlich sind. Deshalb ist Konsistenz wichtig: Interne Links, Sitemap-Einträge und Canonical sollten alle auf dieselbe URL zeigen. Typische Anwendungsfälle sind HTTP/HTTPS-Varianten, www/non-www-Versionen, Tracking-Parameter und syndizierte Inhalte auf anderen Domains.

Meta Robots – Indexierung gezielt verhindern

Der noindex-Tag verhindert, dass eine Seite im Google-Index erscheint. Anders als die robots.txt, die nur das Crawling blockiert, ist noindex eine echte Indexierungsanweisung.

<meta name="robots" content="noindex, follow" />

Die Kombination „noindex, follow“ ist besonders nützlich: Die Seite selbst wird nicht indexiert, aber Google folgt trotzdem den Links darauf. Das ist ideal für Übersichtsseiten, die nur der Navigation dienen, oder für Login-Bereiche, deren Inhalte nicht in der Suche erscheinen sollen, die aber auf indexierbare Inhalte verlinken.

Weitere nützliche Direktiven sind noarchive, das verhindert, dass Google eine Cache-Version speichert, und max-snippet, das die Länge des Snippets in den Suchergebnissen begrenzt. Mit nosnippet kannst du Snippets komplett unterdrücken – was allerdings selten sinnvoll ist, da es die Klickrate massiv senkt.

hreflang – Internationale Versionen verknüpfen

Bei mehrsprachigen oder länderspezifischen Websites zeigt hreflang die verschiedenen Sprachversionen einer Seite an. Das hilft Google, Nutzern die richtige Version anzuzeigen und verhindert, dass die Versionen als Duplikate behandelt werden.

<link rel="alternate" hreflang="de" href="https://example.com/de/seite/" />
<link rel="alternate" hreflang="en" href="https://example.com/en/page/" />
<link rel="alternate" hreflang="x-default" href="https://example.com/" />

Der x-default-Wert zeigt auf die Fallback-Version für Nutzer, deren Sprache nicht explizit bedient wird. Entscheidend ist, dass hreflang bidirektional sein muss: Wenn Seite A auf Seite B verweist, muss Seite B auch auf Seite A verweisen. Fehlerhafte hreflang-Implementierungen sind eine der häufigsten technischen SEO-Probleme bei internationalen Websites.

JavaScript & Rendering: Die versteckte Hürde

Key Takeaway: Google crawlt und rendert in zwei separaten Schritten. JavaScript-Inhalte werden erst durch den Web Rendering Service (WRS) verarbeitet – mit potenzieller Zeitverzögerung. Server-Side Rendering ist die robusteste Lösung.

Moderne Websites nutzen oft JavaScript, um Inhalte dynamisch zu laden. Was für Nutzer ein flüssiges Erlebnis schafft, stellt Google vor erhebliche Herausforderungen. Der Googlebot kann JavaScript ausführen, aber der Prozess ist komplex und zeitverzögert.

Googles zweistufiger Rendering-Prozess

Google crawlt und rendert in zwei separaten Schritten. Beim ersten Crawl wird nur der initiale HTML-Code erfasst – das, was der Server direkt ausliefert. Die Seite wird dann in eine Rendering-Queue eingereiht, wo sie auf die Ausführung durch den Web Rendering Service (WRS) wartet. Erst dort wird das JavaScript ausgeführt und der vollständig gerenderte DOM extrahiert. Anschließend erfolgt eine zweite Indexierung mit dem gerenderten Inhalt.

Das Problem ist die Zeitverzögerung zwischen erstem Crawl und Rendering. Diese kann nach bisherigen Analysen Stunden, Tage oder in Einzelfällen sogar Wochen betragen – abhängig von Googles aktueller Kapazität und der Priorität deiner Website. In dieser Zeit sieht Google möglicherweise nicht deinen vollständigen Content. Wenn dein Hauptinhalt erst durch JavaScript geladen wird, riskierst du, dass er bei der initialen Indexierung fehlt.

Lösungen für JavaScript-SEO

Server-Side Rendering (SSR) ist die robusteste Lösung. Der Server generiert den vollständigen HTML-Code inklusive aller Inhalte, bevor er an den Browser oder Googlebot gesendet wird. So sieht Google beim ersten Crawl bereits alles. Frameworks wie Next.js oder Nuxt.js machen SSR auch für JavaScript-Anwendungen praktikabel.

Dynamic Rendering ist ein Mittelweg: Crawlern wird eine vorgerenderte Version ausgeliefert, während reguläre Nutzer die JavaScript-Version erhalten. Google akzeptiert diese Praxis, solange die Inhalte identisch sind. Es ist eine gute Option für Websites, die aus technischen Gründen nicht vollständig auf SSR umstellen können.

Mindestens solltest du Progressive Enhancement praktizieren: Der Kern-Content muss auch ohne JavaScript verfügbar sein. Lazy Loading ist für Bilder und Videos unterhalb des sichtbaren Bereichs sinnvoll, aber Above-the-fold-Content sollte sofort laden. Und besonders wichtig: Interne Links müssen als echte HTML-Links im initialen HTML existieren, nicht nur durch JavaScript generiert werden.

So prüfst du, ob Google deine JS-Seite richtig sieht

Die einfachste Methode ist die URL-Prüfung in der Search Console. Klicke auf „Live-URL testen“ und dann auf „Gerenderte Seite anzeigen“. Du siehst einen Screenshot, wie Google deine Seite nach dem Rendering wahrnimmt. Vergleiche ihn mit der echten Seite – fehlen Inhalte, hast du ein Problem.

Alternativ kannst du in Chrome die Entwicklertools öffnen, JavaScript deaktivieren (F12 → Einstellungen → Debugger → JavaScript deaktivieren) und die Seite neu laden. Was du jetzt siehst, ist ungefähr das, was Google beim ersten Crawl sieht. Der Google Rich Results Test unter search.google.com/test/rich-results zeigt dir ebenfalls den gerenderten HTML-Code und eventuelle Fehler bei strukturierten Daten.

Achtung: Single Page Applications (SPAs), die Inhalte erst nach User-Interaktion laden, werden von Google oft nicht vollständig erfasst. Der Bot klickt keine Buttons, füllt keine Formulare aus und scrollt nicht. Alles, was eine Nutzeraktion erfordert, bleibt für Google unsichtbar.

Mobile-First Indexierung: Der neue Standard

Key Takeaway: Google hat die Mobile-First Indexierung im Oktober 2023 offiziell für alle Websites abgeschlossen. Der Googlebot Smartphone ist der primäre Crawler – die mobile Version deiner Website bestimmt Indexierung und Ranking.

Google hat die Umstellung auf Mobile-First Indexierung im Oktober 2023 offiziell abgeschlossen, wie John Mueller im Google-Blog bestätigte. Der Googlebot Smartphone ist seitdem der primäre Crawler, und die mobile Version deiner Website ist die Grundlage für Indexierung und Ranking. Die Desktop-Version wird nur noch sekundär betrachtet – für eine sehr kleine Zahl von Websites, die auf Mobilgeräten gar nicht funktionieren, crawlt Google weiterhin mit dem Legacy-Desktop-Crawler.

Die Umstellung hatte eine lange Geschichte: Google kündigte Mobile-First Indexing erstmals im November 2016 an, begann den Rollout im März 2018, setzte mehrfach Deadlines (September 2020, dann März 2021), die jeweils verschoben wurden, und führte im Mai 2023 den letzten Batch durch. Die offizielle Bestätigung der Fertigstellung erfolgte am 31. Oktober 2023.

Diese Umstellung spiegelt das Nutzerverhalten wider. Mehr als 60% aller Google-Suchen erfolgen mittlerweile von Mobilgeräten. Es macht für Google keinen Sinn, primär Desktop-Versionen zu indexieren, wenn die Mehrheit der Nutzer mobile Versionen sieht.

Was Mobile-First praktisch bedeutet

Die wichtigste Konsequenz: Inhalte, die nur auf der Desktop-Version deiner Website existieren, werden möglicherweise nicht indexiert. Wenn du auf Mobile bestimmte Abschnitte ausblendest, kürzere Texte zeigst oder weniger Bilder einbindest, könnte Google diese Inhalte komplett ignorieren. Das betrifft auch strukturierte Daten, Meta-Tags und interne Links – alles muss auf der mobilen Version vorhanden sein.

Die mobile User Experience beeinflusst außerdem direkt das Ranking. Die Core Web Vitals werden auf Mobilgeräten gemessen. Touch-Targets müssen groß genug sein, Schriften ohne Zoom lesbar, und die Navigation muss mit dem Daumen bedienbar sein. Mehr dazu im Artikel Core Web Vitals & Page Experience: Der komplette Optimierungs-Guide.

Die gute Nachricht: Wenn du ein responsives Design verwendest und mobile und Desktop-Version denselben Content haben, bist du bereits gut aufgestellt. Problematisch wird es bei separaten Mobile-URLs (m.example.com) oder Dynamic Serving, wo unterschiedliche HTML-Versionen je nach Gerät ausgeliefert werden. Hier musst du sicherstellen, dass die mobile Version vollständig und gleichwertig ist.

Mobile-First Checkliste

Prüfe diese Punkte, um sicherzustellen, dass deine Website Mobile-First-ready ist:

  • Content-Parität: Alle wichtigen Texte, Bilder und Videos sind auf Mobile identisch mit Desktop
  • Meta-Tags: Title, Description und Robots-Tags sind auf Mobile vorhanden
  • Strukturierte Daten: JSON-LD ist auch in der mobilen Version eingebunden
  • Interne Links: Die mobile Navigation enthält alle wichtigen Links
  • Bilder: Alt-Attribute sind auf Mobile vorhanden, Bilder werden nicht per CSS versteckt
  • Lazy Loading: Above-the-fold-Inhalte laden sofort, ohne Interaktion
  • Touch-Targets: Buttons und Links sind mindestens 48×48 Pixel groß
  • Lesbarkeit: Schriftgröße mindestens 16px, kein horizontales Scrollen nötig

Crawling- & Indexierungsprobleme diagnostizieren

Key Takeaway: Der Seitenindexierungsbericht der Search Console ist dein wichtigstes Diagnosewerkzeug. Die aktuelle Darstellung unterscheidet zwischen „Indexed“ und „Not Indexed“ mit detaillierten Untergründen. Log File Analysen zeigen Googles echtes Crawl-Verhalten.

Die Google Search Console ist dein wichtigstes Werkzeug, um Crawling- und Indexierungsprobleme zu identifizieren. Der Seitenindexierungsbericht unter „Indexierung → Seiten“ zeigt alle URLs und ihren aktuellen Status.

Die zwei Hauptkategorien verstehen

Seit der Überarbeitung der Search-Console-Oberfläche unterscheidet Google im Seitenindexierungsbericht zwischen zwei Hauptkategorien:

Status Farbe Bedeutung Handlung
Indexed Grün Seite ist im Google-Index und kann in den Suchergebnissen erscheinen Alles OK ✓ – prüfe gelegentlich, ob wichtige Seiten enthalten sind
Not Indexed Grau Seite ist aus einem bestimmten Grund nicht im Index Prüfe den detaillierten Untergrund – gewollt oder Fehler?

Unter „Not Indexed“ listet Google die konkreten Gründe auf, warum eine Seite nicht im Index ist. Seit dem November-2025-Update der Search Console sind diese Untergründe noch granularer geworden – für „Gecrawlt, derzeit nicht indexiert“ zeigt Google jetzt teilweise spezifischere Hinweise wie „Low quality signals“ an.

Häufige Ausschlussgründe und ihre Lösungen

Diese Status-Meldungen triffst du unter „Not Indexed“ am häufigsten an:

  • Durch robots.txt blockiert: Das Crawling wird verhindert. Prüfe, ob das beabsichtigt ist.
  • Noindex-Tag erkannt: Du oder ein Plugin hat die Indexierung explizit deaktiviert.
  • Duplikat ohne kanonische URL: Google hat selbst eine Canonical gewählt, weil du keine definiert hast.
  • Gefunden, derzeit nicht indexiert: Google kennt die URL, hat sie aber noch nicht gecrawlt.
  • Gecrawlt, derzeit nicht indexiert: Google hält die Seite nicht für indexierenswert – oft ein Qualitätsproblem.

Besonders frustrierend sind die letzten beiden Status-Meldungen. Im ersten Fall kannst du nur warten und die Seite durch interne Links stärken. Im zweiten Fall wurde gecrawlt, aber Google stuft die Seite als nicht wertvoll genug ein. Die Lösung ist meist, den Content zu verbessern, mehr interne und externe Links aufzubauen und die Seite insgesamt wertvoller zu machen.

Diagnose-Tipp: Mit der URL-Prüfung kannst du den exakten Status jeder einzelnen URL untersuchen. Du siehst das letzte Crawl-Datum, den Indexierungsstatus, die erkannte Canonical, die Mobile-Usability und kannst sogar eine Live-Prüfung durchführen, um zu sehen, wie Google die Seite aktuell wahrnimmt.

Log File Analyse – Der Blick hinter die Kulissen

Die Search Console zeigt dir, was Google indexiert hat. Aber sie zeigt nicht, was Google wirklich auf deiner Website tut. Dafür brauchst du eine Log File Analyse. Die Server-Logs protokollieren jeden einzelnen Request – auch die des Googlebots.

Mit einer Log File Analyse siehst du: Welche URLs crawlt Google tatsächlich? Wie oft? Welche Bereiche ignoriert er komplett? Verschwendet er Crawl Budget auf unwichtige Seiten? Bekommt er 404- oder 500-Fehler, die du in der Search Console nicht siehst? Diese Daten sind Gold wert, weil sie Googles echtes Verhalten zeigen – nicht nur das, was er dir mitteilt.

Für die Analyse kannst du spezialisierte Tools wie Screaming Frog Log File Analyser oder JetOctopus nutzen. Auch Excel oder Google Sheets reichen für einfache Analysen, wenn du die Logs nach User-Agent „Googlebot“ filterst.

Empfohlene Tools für Crawling- und Indexierungsanalyse

Neben der Search Console gibt es spezialisierte Tools, die dir tiefere Einblicke geben:

  • Screaming Frog SEO Spider: Der Industriestandard für technische SEO-Audits. Crawlt deine Website wie Google und findet Probleme mit Canonicals, Weiterleitungen, Duplicate Content, fehlenden Meta-Tags und mehr. Die kostenlose Version analysiert bis zu 500 URLs.
  • Sitebulb: Visuell aufbereitete technische Audits mit Priorisierung der Probleme. Besonders gut für die Analyse der internen Verlinkung und Seitenarchitektur.
  • Ryte (ehemals OnPage.org): Cloud-basierte Plattform für kontinuierliches Monitoring. Warnt automatisch bei neuen technischen Problemen.
  • Ahrefs / Semrush Site Audit: Integrierte Crawling-Tools in den großen SEO-Suiten. Gut für regelmäßige Checks, wenn du diese Tools ohnehin nutzt.
Best Practice: Führe mindestens einmal im Quartal einen vollständigen technischen Audit mit Screaming Frog oder Sitebulb durch. Bei großen Websites oder nach Relaunches häufiger. Die Search Console allein reicht nicht, um alle Probleme zu finden.

Infografik: Der Weg einer URL in den Google-Index

Infografik: Der Weg einer URL durch Crawling und Indexierung in den Google-Index - von der Entdeckung über Rendering bis zur Tier-Zuordnung
Der vollständige Prozess von der URL-Entdeckung bis zum Index-Tier – inklusive der 2024 durch API Leaks bestätigten Speicherhierarchie (Interpretation: Mike King / iPullRank). seo-kreativ.de – Christian Ott

Fazit: Die unsichtbare Grundlage deines Rankings

Key Takeaway: Technische SEO ist keine optionale Ergänzung, sondern das Fundament. Crawling und Indexierung entscheiden, ob dein Content überhaupt eine Chance auf Rankings bekommt. Die Google API Leaks haben bestätigt: Qualität beginnt bei der technischen Infrastruktur.

Crawling und Indexierung sind die oft übersehenen Grundlagen jeder erfolgreichen SEO-Strategie. Die beste Keyword-Recherche und der wertvollste Content nützen nichts, wenn Google deine Seiten nicht findet oder nicht versteht. Technische SEO ist keine optionale Ergänzung, sondern das Fundament, auf dem alles andere aufbaut.

Die vier Säulen technischer SEO lassen sich so zusammenfassen: Auffindbarkeit durch saubere Seitenstruktur, aktuelle Sitemaps und durchdachte interne Verlinkung. Crawlbarkeit durch schnelle Server, keine technischen Blockaden und ein effizient genutztes Crawl Budget. Indexierbarkeit durch korrekte Canonical Tags, kein versehentliches noindex und einzigartigen Content. Und Renderbarkeit durch JavaScript-freundliche Architektur und Mobile-First-Optimierung.

Die Google API Leaks haben bestätigt: Qualität beginnt nicht beim Content, sondern bei der technischen Infrastruktur. Seiten, die es nicht in den Base Index schaffen, haben kaum Chancen auf Top-Rankings – egal wie gut der Inhalt ist.

„Was Google nicht crawlen kann, wird nie ranken. Was Google nicht indexiert, wird nie gefunden.“

Investiere Zeit in die technischen Grundlagen. Sie sind das unsichtbare Fundament, auf dem alles andere aufbaut. Für das große Bild, wie diese Phasen in Googles Gesamtsystem zusammenwirken, lies den Hauptartikel: Wie funktioniert der Google Suchalgorithmus? Und wenn du verstehen willst, was nach der Indexierung passiert – wie Google Suchanfragen verarbeitet, interpretiert und die besten Ergebnisse findet – lies weiter im nächsten Kapitel: Query Processing: So versteht Google deine Suchanfrage.

Checkliste: Prüfe deine Website regelmäßig auf Crawling- und Indexierungsprobleme. Nutze die Search Console als Pflicht-Tool, ergänzt durch quartalsweise technische Audits mit Screaming Frog oder Sitebulb. Und vergiss nicht: Jede Seite, die du im Index haben willst, muss crawlbar, indexierbar und renderbar sein.

Häufig gestellte Fragen (FAQ)

Wie lange dauert es, bis Google meine neue Seite indexiert?

Das variiert stark – von wenigen Stunden bis zu mehreren Wochen. Die wichtigsten Faktoren sind die Autorität deiner Website, die Crawl-Frequenz, die Content-Qualität und wie die Seite entdeckt wird. Bei etablierten Websites mit guter Reputation kann eine neue Seite innerhalb von Stunden indexiert sein. Bei neuen Websites ohne Autorität oder Backlinks dauert es oft Wochen. Du kannst den Prozess beschleunigen, indem du die URL in der Search Console zur Indexierung anmeldest und starke interne Links setzt.

Warum wird meine Seite nicht indexiert?

Die häufigsten Gründe sind technischer Natur: ein versehentlich gesetzter noindex-Tag, eine robots.txt-Blockade, ein Canonical Tag, der auf eine andere Seite zeigt, oder zu wenig interne Links zur Seite. Es kann aber auch an der Qualität liegen – wenn Google den Content als dünn, duplikat oder minderwertig einstuft, wird er nicht indexiert. Nutze die URL-Prüfung in der Search Console, um den genauen Status und mögliche Probleme zu identifizieren.

Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling bedeutet, dass Google deine Seite findet und herunterlädt. Indexierung bedeutet, dass Google die Seite analysiert, versteht und in seiner Datenbank speichert. Eine Seite kann gecrawlt werden, aber trotzdem nicht indexiert werden – etwa wenn Google sie als Duplikat erkennt oder als qualitativ minderwertig einstuft. Nur indexierte Seiten können in den Suchergebnissen erscheinen.

Wie oft crawlt Google meine Website?

Das hängt von deinem Crawl Budget, der Änderungsfrequenz deiner Inhalte und der wahrgenommenen Wichtigkeit deiner Seiten ab. Große News-Websites werden mehrmals täglich gecrawlt, kleine statische Websites vielleicht nur alle paar Wochen. In der Search Console unter „Einstellungen → Crawling-Statistiken“ kannst du sehen, wie oft Google deine Website besucht.

Wie weiß ich, in welchem Index-Tier meine Seiten sind?

Google kommuniziert die Tier-Zuordnung nicht öffentlich. Es gibt aber Indizien: Wenn eine Seite indexiert ist, aber nie für relevante Keywords rankt, befindet sie sich möglicherweise in einem niedrigen Tier. Seiten, die nach Content-Updates schnell neu gecrawlt werden, sind wahrscheinlich in höheren Tiers. Regelmäßige Updates, gute Verlinkung und Nutzerengagement helfen beim „Aufstieg“ in höhere Tiers.

Was ist besser: robots.txt-Disallow oder noindex?

Das hängt von deinem Ziel ab. robots.txt verhindert das Crawling, spart also Crawl Budget, aber verhindert nicht zuverlässig die Indexierung – wenn andere Seiten auf die URL verlinken, kann Google sie trotzdem indexieren (nur ohne den Inhalt zu kennen). noindex erlaubt das Crawling, verhindert aber definitiv die Indexierung. Für Inhalte, die auf keinen Fall in den Suchergebnissen erscheinen sollen, ist noindex die sicherere Wahl.

Letztes Update: 24.04.2026 – Content-Refresh: Quellenattributionen praezisiert, veraltete Fakten und Daten korrigiert, TL;DR umstrukturiert, neue Infografik.
Christian Ott - Gründer von www.seo-kreativ.de

Christian Ott – SEO kreativ denken & Wissen teilen

Als Gründer von SEO-Kreativ lebe ich meine 2014 entdeckte Leidenschaft für SEO. Mein Weg vom Hobby-Blogger zum SEO-Experten und Product Developer hat dabei meinen Ansatz geprägt: Ich teile Wissen verständlich, praxisnah und ohne Fachchinesisch.