Crawling ist die Entdeckungsreise: Der Googlebot durchsucht das Web systematisch über Links, Sitemaps und die Search Console. Er folgt einem intelligenten Zeitplan basierend auf Crawl Budget, Seitenpriorität und Änderungsfrequenz – nicht jede Seite wird gleich oft besucht.
Indexierung ist das Verstehen: Googles Caffeine-System analysiert gecrawlte Seiten in Echtzeit, extrahiert Text, Bilder und strukturierte Daten, und speichert sie in verschiedenen Index-Tiers (Base, Zeppelins, Landfills). Nur indexierte Seiten können ranken.
Technische SEO entscheidet: Canonical Tags, robots.txt, Meta-Robots, hreflang und strukturierte Daten sind keine Kür, sondern Pflicht. Fehler hier bedeuten: Google findet oder versteht deine Inhalte nicht – und sie ranken nie.
Mobile-First ist Standard: Google crawlt und indexiert primär die mobile Version deiner Website. Desktop-only Inhalte werden möglicherweise gar nicht erfasst.
- Warum Crawling & Indexierung die Basis von SEO sind
- Was ist Crawling? Der Googlebot erklärt
- Crawl Budget: Wie Google Prioritäten setzt
- Crawling steuern: robots.txt, Sitemaps & Search Console
- Was ist Indexierung? Von Caffeine zu Index Tiers
- Die drei Index-Ebenen: Base, Zeppelins & Landfills
- Indexierung steuern: Canonical, noindex & hreflang
- JavaScript & Rendering: Die versteckte Hürde
- Mobile-First Indexierung: Der neue Standard
- Crawling- & Indexierungsprobleme diagnostizieren
- Fazit: Die unsichtbare Grundlage deines Rankings
- Häufig gestellte Fragen (FAQ)
Bevor deine Website in den Suchergebnissen erscheinen kann, muss Google sie erst einmal finden und verstehen. Dieser Prozess – bestehend aus Crawling und Indexierung – bildet das unsichtbare Fundament jeder SEO-Strategie. Ohne ihn ist selbst der beste Content wertlos.
Stell dir vor, du hast das perfekte Restaurant eröffnet: exzellentes Essen, einzigartiges Ambiente, faire Preise. Aber es gibt kein Schild an der Tür, keine Adresse im Telefonbuch, keine Einträge auf Karten-Apps. Niemand weiß, dass du existierst. Genau das passiert mit Webseiten, die nicht korrekt gecrawlt und indexiert werden.
Dieser Artikel ist Teil meines umfassenden Guides zum Google Suchalgorithmus: Von Crawling bis Ranking. Hier tauchen wir tief in die technischen Grundlagen ein – mit Erkenntnissen aus den Google API Leaks 2024, die erstmals interne Systemnamen wie Index Tiers und Crawl-Priorisierung enthüllt haben. Nachdem deine Seiten indexiert sind, übernehmen die nächsten Phasen: Query Processing, Ranking und Re-Ranking mit Twiddlern.
Warum Crawling & Indexierung die Basis von SEO sind
Der Weg einer Webseite in die Suchergebnisse folgt einer klaren Hierarchie: Crawling, dann Indexierung, dann Ranking, und schließlich Sichtbarkeit. Wenn eine dieser Stufen fehlschlägt, erreicht dein Content nie die Nutzer. Die brutale Wahrheit ist: Die meisten SEO-Probleme sind keine Ranking-Probleme, sondern Crawling- oder Indexierungsprobleme.
Viele Website-Betreiber investieren Monate in Keyword-Recherche, Content-Erstellung und Linkaufbau – nur um dann festzustellen, dass ihre wichtigsten Seiten gar nicht im Google-Index sind. Sie optimieren für Rankings, die nie stattfinden können, weil die technische Grundlage fehlt.
Die Google API Leaks haben bestätigt, was viele SEOs lange vermutet haben: Google verwaltet nicht einen einzigen Index, sondern mehrere Ebenen (Tiers) mit unterschiedlicher Priorität. Eine Seite im sogenannten „Landfills“-Tier wird praktisch nie für wichtige Suchanfragen angezeigt – selbst wenn der Content hervorragend ist. Das Ziel muss also sein, nicht nur indexiert zu werden, sondern in den richtigen Index-Tier zu gelangen.
Ein Beispiel aus der Praxis
Ein mittelständischer Online-Shop für Bürobedarf hatte ein typisches Problem: Trotz 15.000 Produktseiten rankten nur etwa 2.000 davon für relevante Keywords. Die Search Console zeigte „Gecrawlt, derzeit nicht indexiert“ für tausende URLs. Die Ursache? Die facettierte Navigation erzeugte über 50.000 Filter-URLs ohne einzigartigen Content, die Googles Crawl Budget verschlangen.
Die Lösung bestand aus drei Schritten: Erstens wurden alle Filter-Kombinationen per robots.txt vom Crawling ausgeschlossen. Zweitens erhielten die wichtigen Kategorie- und Produktseiten Canonical Tags und eine verbesserte interne Verlinkung. Drittens wurde die Sitemap auf die 15.000 echten Produktseiten reduziert. Das Ergebnis nach drei Monaten: Die Indexierungsrate stieg von 13% auf 78%, der organische Traffic verdoppelte sich.
Was ist Crawling? Der Googlebot erklärt
Crawling ist der Prozess, bei dem Googles automatisierte Programme – die Crawler oder Spider – das Web durchsuchen, um neue und aktualisierte Seiten zu entdecken. Der bekannteste dieser Crawler ist der Googlebot, aber Google betreibt tatsächlich eine ganze Familie spezialisierter Crawler für unterschiedliche Inhaltstypen.
Wie der Googlebot funktioniert
Der Googlebot arbeitet wie ein unermüdlicher Leser, der von Link zu Link springt. Er beginnt mit einer Liste bekannter URLs aus früheren Crawls, eingereichten Sitemaps oder der Search Console. Für jede URL sendet er eine HTTP-Anfrage an den Server und lädt den HTML-Code herunter. Dabei extrahiert er alle Links auf der Seite und fügt sie seiner Warteschlange hinzu.
Bei modernen JavaScript-lastigen Websites ist der Prozess komplexer. Der Googlebot lädt zunächst nur den initialen HTML-Code und reiht die Seite dann in eine separate Rendering-Queue ein. Dort wird das JavaScript ausgeführt und der vollständig gerenderte DOM analysiert. Dieser zweistufige Prozess kann zu Verzögerungen führen, weshalb Server-Side Rendering für SEO-kritische Seiten so wichtig ist.
Google setzt spezialisierte Crawler für unterschiedliche Aufgaben ein:
| Crawler | User-Agent | Aufgabe |
|---|---|---|
| Googlebot Smartphone | Googlebot/2.1 (Mobile) | Mobile-First Crawling (primär seit 2021) |
| Googlebot Desktop | Googlebot/2.1 | Desktop-Seiten (nur noch sekundär) |
| Googlebot Images | Googlebot-Image/1.0 | Bilder für die Google Bildersuche |
| Googlebot Video | Googlebot-Video/1.0 | Videos für die Videosuche |
| Googlebot News | Googlebot-News | Nachrichteninhalte für Google News |
| AdsBot | AdsBot-Google | Landingpage-Qualität für Google Ads |
Crawl Budget: Wie Google Prioritäten setzt
Google kann nicht jede URL im Internet gleichzeitig crawlen – selbst mit massiver Infrastruktur. Deshalb weist Google jeder Website ein sogenanntes Crawl Budget zu: die Anzahl der Seiten, die der Googlebot innerhalb eines bestimmten Zeitraums crawlen kann und will.
Das Crawl Budget setzt sich aus zwei Komponenten zusammen. Die erste ist das Crawl Rate Limit, also die maximale Crawl-Frequenz, ohne deinen Server zu überlasten. Google passt dieses Limit automatisch an deine Server-Antwortzeiten an. Wenn dein Server langsam antwortet, reduziert Google die Crawl-Rate, um ihn nicht zu überlasten. Die zweite Komponente ist der Crawl Demand – wie sehr „will“ Google deine Seiten überhaupt crawlen? Diese Nachfrage basiert auf der Popularität deiner Seiten, ihrer Aktualität und der wahrgenommenen Wichtigkeit. Häufig verlinkte und oft aktualisierte Seiten haben eine deutlich höhere Priorität.
Was dein Crawl Budget verschwendet
Bestimmte technische Probleme können dein Crawl Budget massiv verschwenden. Duplicate Content ist einer der häufigsten Übeltäter: Wenn dieselben Inhalte unter mehreren URLs erreichbar sind, crawlt Google sie alle separat. Facettierte Navigation in Online-Shops erzeugt oft tausende Filter-Kombinationen ohne einzigartigen Content. Session-IDs in URLs generieren unendliche URL-Varianten für denselben Inhalt.
Besonders tückisch sind sogenannte Soft-Error-Seiten: Seiten, die dem Nutzer eine Fehlermeldung zeigen, aber dem Googlebot einen 200-Status zurückgeben. Der Bot crawlt sie immer wieder, ohne zu erkennen, dass sie wertlos sind. Ähnlich problematisch sind „Infinite Spaces“ wie endlos paginierte Archive oder Kalender, die theoretisch unendlich viele URLs erzeugen können. Und wenn deine Website gehackt wurde, können Spam-Seiten dein gesamtes Crawl Budget auffressen – hier greift Googles SpamBrain-System, um manipulative Inhalte zu erkennen.
Für eine detaillierte Anleitung zur Optimierung lies meinen spezialisierten Guide: Crawl Budget optimieren: So werden deine Inhalte schneller indexiert.
Crawling steuern: robots.txt, Sitemaps & Search Console
Du hast mehrere Werkzeuge, um zu beeinflussen, wie Google deine Website crawlt. Das wichtigste ist die robots.txt-Datei, die im Root-Verzeichnis deiner Domain liegt und Crawlern Anweisungen gibt.
robots.txt – Die Zutrittskontrolle
Mit der robots.txt kannst du bestimmte Bereiche deiner Website vom Crawling ausschließen. Das ist sinnvoll für Admin-Bereiche, Checkout-Prozesse oder interne Suchseiten, die nicht in den Index gehören. Du kannst auch unterschiedliche Regeln für verschiedene Crawler definieren – etwa den AdsBot anders behandeln als den regulären Googlebot.
# Beispiel robots.txt
User-agent: *
Disallow: /admin/
Disallow: /checkout/
Disallow: /search?
User-agent: Googlebot
Crawl-delay: 1
Sitemap: https://example.com/sitemap.xml
XML-Sitemaps – Die Landkarte deiner Website
Eine XML-Sitemap listet alle wichtigen URLs deiner Website und hilft Google bei der Entdeckung. Sie ist besonders wertvoll für neue Websites ohne viele Backlinks, für große Websites mit komplexer Struktur und für Seiten, die nicht gut intern verlinkt sind.
Bei der Sitemap-Pflege gibt es einige Best Practices zu beachten. Nimm nur indexierbare, kanonische URLs auf – keine Seiten mit noindex, keine Duplikate, keine Weiterleitungsziele. Das lastmod-Datum solltest du nur bei echten inhaltlichen Änderungen aktualisieren, denn Google lernt, ob du „lügst“, und ignoriert dann deine lastmod-Angaben komplett. Pro Sitemap sind maximal 50.000 URLs erlaubt; bei größeren Websites nutzt du einen Sitemap-Index. Reiche die Sitemap unbedingt in der Google Search Console ein. Für Google Discover-Traffic solltest du außerdem max-image-preview:large in den Meta-Robots setzen.
Search Console – Die Direktverbindung zu Google
Die Search Console bietet dir eine direkte Kommunikationslinie zu Google. Mit der URL-Prüfung kannst du den exakten Status jeder einzelnen URL checken. Du siehst, wann sie zuletzt gecrawlt wurde, ob sie indexiert ist, welche Canonical Google erkannt hat und ob es Mobile-Usability-Probleme gibt. Für wichtige neue Seiten kannst du direkt eine Indexierung beantragen – wobei das keine Garantie ist, sondern nur ein Signal an Google.
Der Abdeckungsbericht zeigt dir alle Crawling- und Indexierungsprobleme auf einen Blick. Hier findest du Seiten, die durch robots.txt blockiert sind, versehentlich auf noindex stehen oder als Duplikate erkannt wurden. Das Entfernen-Tool ermöglicht es dir, URLs temporär aus den Suchergebnissen zu nehmen – nützlich bei sensiblen Inhalten oder schwerwiegenden Fehlern.
Was ist Indexierung? Von Caffeine zu Index Tiers
Indexierung ist der Prozess, bei dem Google die gecrawlten Seiten analysiert, versteht und in seiner Datenbank speichert. Nur indexierte Seiten können in den Suchergebnissen erscheinen. Crawling allein reicht nicht – eine Seite kann gecrawlt, aber trotzdem nicht indexiert werden, wenn Google sie als minderwertig oder redundant einstuft.
Das Caffeine-System
Seit 2010 nutzt Google das Caffeine-System für die Indexierung. Anders als das alte System, das den gesamten Index in großen Batches aktualisierte, arbeitet Caffeine inkrementell und nahezu in Echtzeit. Das bedeutet, dass neue Inhalte deutlich schneller im Index erscheinen können – vorausgesetzt, sie erfüllen die Qualitätskriterien.
Wenn der Googlebot eine Seite heruntergeladen hat, beginnt die eigentliche Analysearbeit. Zuerst wird der HTML-Code in eine DOM-Struktur umgewandelt, ein Prozess namens Parsing. Dann extrahiert Google alle relevanten Inhalte: Text, Bilder, Videos und strukturierte Daten werden erfasst und kategorisiert.
Strukturierte Daten verdienen besondere Aufmerksamkeit. Sie sind maschinenlesbare Informationen im JSON-LD-, Microdata- oder RDFa-Format, die Google helfen, den Inhalt einer Seite eindeutig zu verstehen. Ein Rezept wird als Rezept erkannt (mit Zutaten, Kochzeit, Bewertungen), ein Produkt als Produkt (mit Preis, Verfügbarkeit, Bewertungen), eine FAQ als FAQ. Diese Daten ermöglichen Rich Snippets in den Suchergebnissen – die auffälligen Zusatzinformationen wie Sternebewertungen, Preise oder FAQ-Akkordeons, die deine Klickrate deutlich steigern können.
Besonders wichtig ist die linguistische Analyse. Hier erkennt Google die Sprache des Dokuments, identifiziert die behandelten Themen und verknüpft Entitäten wie Personen, Orte und Konzepte mit dem Knowledge Graph. Diese semantische Analyse geht weit über einfaches Keyword-Matching hinaus – mehr dazu in meinem Artikel zur Semantischen Suche & dem Knowledge Graph.
Parallel dazu prüft Google, ob der Inhalt ein Duplikat oder eine Variation bestehender Seiten ist. Bei ähnlichen Inhalten werden diese gruppiert und Google wählt eine kanonische Version als „Original“. Außerdem werden erste Qualitätssignale erfasst – hier spielen bereits E-E-A-T-Faktoren eine Rolle. Am Ende des Prozesses wird die Seite im passenden Index-Tier abgelegt.
Welche Signale die Indexierungspriorität beeinflussen
Google entscheidet basierend auf verschiedenen Faktoren, ob und wie schnell eine Seite indexiert wird. Die interne Verlinkung spielt eine zentrale Rolle: Wie prominent ist die Seite in deiner Seitenstruktur? Seiten, die von der Startseite aus mit wenigen Klicks erreichbar sind, werden als wichtiger eingestuft. Externe Backlinks verstärken diesen Effekt – wenn vertrauenswürdige Websites auf deine Seite verlinken, signalisiert das Google, dass der Inhalt relevant ist.
Die Content-Qualität selbst ist natürlich entscheidend. Ist der Inhalt einzigartig und bietet er echten Mehrwert? Oder handelt es sich um eine weitere generische Seite zu einem übersättigten Thema? Technische Signale wie Ladezeit und mobile Nutzbarkeit fließen ebenfalls ein. Und schließlich spielt die Autorität der gesamten Domain eine Rolle – etablierte Websites mit guter Reputation bekommen einen Vertrauensvorschuss.
Die drei Index-Ebenen: Base, Zeppelins & Landfills
Die Google API Leaks 2024 haben eine der spannendsten Enthüllungen geliefert: Google verwaltet nicht einen einheitlichen Index, sondern mehrere Ebenen mit unterschiedlicher Priorität und Aktualisierungsfrequenz. Eine tiefgehende Analyse dieser Leak-Erkenntnisse findest du in: Google Leak: Warum Nutzersignale wichtiger sind als Google zugab.
Der Base Index ist die erste Liga. Hier landen hochwertige Hauptseiten, aktuelle News und Inhalte von autoritativen Domains. Die Zeppelins bilden den sekundären Index für weniger wichtige Seiten. Die Landfills sind das Archiv für Low-Priority-Content.
| Index Tier | Beschreibung | Aktualisierung | Typische Inhalte |
|---|---|---|---|
| Base Index | Primärer Index für wichtige Seiten | Häufig (Stunden bis Tage) | Hochwertige Hauptseiten, News, autoritative Domains |
| Zeppelins | Sekundärer Index für weniger wichtige Seiten | Gelegentlich (Wochen) | Archiv-Seiten, tiefe Hierarchien, geringere Autorität |
| Landfills | Archiv für Low-Priority-Content | Selten (Monate oder nie) | Alte Inhalte, Low-Quality-Seiten, kaum verlinkte URLs |
Seiten im Base Index werden für wettbewerbsfähige Keywords berücksichtigt. Seiten in den Zeppelins können zwar ranken, haben aber bei kompetitiven Suchanfragen schlechtere Chancen. Inhalte in den Landfills haben praktisch keine Chance auf Rankings für relevante Suchanfragen – egal wie gut der Content theoretisch ist.
Was die Tier-Zuordnung beeinflusst
Die Leaks deuten auf mehrere Faktoren hin, die bestimmen, in welchem Tier eine Seite landet. Das siteAuthority-Signal bewertet die gesamte Domain – ja, eine Art Domain Authority existiert tatsächlich, auch wenn Google das lange abgestritten hat. Der gute alte PageRank spielt immer noch eine Rolle, wenn auch in modifizierter Form. Content Freshness, also wie aktuell der Inhalt ist, und User Engagement, also wie Nutzer mit der Seite interagieren, fließen ebenfalls ein. Schließlich beeinflusst auch die Crawl Frequency, also wie oft sich die Seite ändert, die Tier-Zuordnung.
Indexierung steuern: Canonical, noindex & hreflang
Du hast mehrere Möglichkeiten, die Indexierung aktiv zu beeinflussen. Diese Tags und Signale sind keine optionale Kür, sondern essenzielle Werkzeuge für jede professionelle SEO-Strategie.
Canonical Tags – Die bevorzugte Version definieren
Bei Duplikaten oder sehr ähnlichen Seiten zeigt der Canonical Tag auf die „Original“-Version. Das ist besonders wichtig, wenn derselbe Inhalt unter mehreren URLs erreichbar ist – etwa ein Produkt, das über verschiedene Kategorien verlinkt wird, oder Parameter-URLs für Sortierung und Filterung.
<link rel="canonical" href="https://example.com/original-seite/" />
Der Canonical Tag ist ein Hinweis, keine Direktive. Google kann sich entscheiden, eine andere URL als kanonisch zu behandeln, wenn die Signale widersprüchlich sind. Deshalb ist Konsistenz wichtig: Interne Links, Sitemap-Einträge und Canonical sollten alle auf dieselbe URL zeigen. Typische Anwendungsfälle sind HTTP/HTTPS-Varianten, www/non-www-Versionen, Tracking-Parameter und syndizierte Inhalte auf anderen Domains.
Meta Robots – Indexierung gezielt verhindern
Der noindex-Tag verhindert, dass eine Seite im Google-Index erscheint. Anders als die robots.txt, die nur das Crawling blockiert, ist noindex eine echte Indexierungsanweisung.
<meta name="robots" content="noindex, follow" />
Die Kombination „noindex, follow“ ist besonders nützlich: Die Seite selbst wird nicht indexiert, aber Google folgt trotzdem den Links darauf. Das ist ideal für Übersichtsseiten, die nur der Navigation dienen, oder für Login-Bereiche, deren Inhalte nicht in der Suche erscheinen sollen, die aber auf indexierbare Inhalte verlinken.
Weitere nützliche Direktiven sind noarchive, das verhindert, dass Google eine Cache-Version speichert, und max-snippet, das die Länge des Snippets in den Suchergebnissen begrenzt. Mit nosnippet kannst du Snippets komplett unterdrücken – was allerdings selten sinnvoll ist, da es die Klickrate massiv senkt.
hreflang – Internationale Versionen verknüpfen
Bei mehrsprachigen oder ländersspezifischen Websites zeigt hreflang die verschiedenen Sprachversionen einer Seite an. Das hilft Google, Nutzern die richtige Version anzuzeigen und verhindert, dass die Versionen als Duplikate behandelt werden.
<link rel="alternate" hreflang="de" href="https://example.com/de/seite/" />
<link rel="alternate" hreflang="en" href="https://example.com/en/page/" />
<link rel="alternate" hreflang="x-default" href="https://example.com/" />
Der x-default-Wert zeigt auf die Fallback-Version für Nutzer, deren Sprache nicht explizit bedient wird. Entscheidend ist, dass hreflang bidirektional sein muss: Wenn Seite A auf Seite B verweist, muss Seite B auch auf Seite A verweisen. Fehlerhafte hreflang-Implementierungen sind eine der häufigsten technischen SEO-Probleme bei internationalen Websites.
JavaScript & Rendering: Die versteckte Hürde
Moderne Websites nutzen oft JavaScript, um Inhalte dynamisch zu laden. Was für Nutzer ein flüssiges Erlebnis schafft, stellt Google vor erhebliche Herausforderungen. Der Googlebot kann JavaScript ausführen, aber der Prozess ist komplex und zeitverzögert.
Googles zweistufiger Rendering-Prozess
Google crawlt und rendert in zwei separaten Schritten. Beim ersten Crawl wird nur der initiale HTML-Code erfasst – das, was der Server direkt ausliefert. Die Seite wird dann in eine Rendering-Queue eingereiht, wo sie auf die Ausführung durch den Web Rendering Service (WRS) wartet. Erst dort wird das JavaScript ausgeführt und der vollständig gerenderte DOM extrahiert. Anschließend erfolgt eine zweite Indexierung mit dem gerenderten Inhalt.
Das Problem ist die Zeitverzögerung zwischen Schritt eins und drei. Diese kann Stunden, Tage oder sogar Wochen betragen – abhängig von Googles aktueller Kapazität und der Priorität deiner Website. In dieser Zeit sieht Google möglicherweise nicht deinen vollständigen Content. Wenn dein Hauptinhalt erst durch JavaScript geladen wird, riskierst du, dass er bei der initialen Indexierung fehlt.
Lösungen für JavaScript-SEO
Server-Side Rendering (SSR) ist die robusteste Lösung. Der Server generiert den vollständigen HTML-Code inklusive aller Inhalte, bevor er an den Browser oder Googlebot gesendet wird. So sieht Google beim ersten Crawl bereits alles. Frameworks wie Next.js oder Nuxt.js machen SSR auch für JavaScript-Anwendungen praktikabel.
Dynamic Rendering ist ein Mittelweg: Crawlern wird eine vorgerenderte Version ausgeliefert, während reguläre Nutzer die JavaScript-Version erhalten. Google akzeptiert diese Praxis, solange die Inhalte identisch sind. Es ist eine gute Option für Websites, die aus technischen Gründen nicht vollständig auf SSR umstellen können.
Mindestens solltest du Progressive Enhancement praktizieren: Der Kern-Content muss auch ohne JavaScript verfügbar sein. Lazy Loading ist für Bilder und Videos unterhalb des sichtbaren Bereichs sinnvoll, aber Above-the-fold-Content sollte sofort laden. Und besonders wichtig: Interne Links müssen als echte HTML-Links im initialen HTML existieren, nicht nur durch JavaScript generiert werden.
So prüfst du, ob Google deine JS-Seite richtig sieht
Die einfachste Methode ist die URL-Prüfung in der Search Console. Klicke auf „Live-URL testen“ und dann auf „Gerenderte Seite anzeigen“. Du siehst einen Screenshot, wie Google deine Seite nach dem Rendering wahrnimmt. Vergleiche ihn mit der echten Seite – fehlen Inhalte, hast du ein Problem.
Alternativ kannst du in Chrome die Entwicklertools öffnen, JavaScript deaktivieren (F12 → Einstellungen → Debugger → JavaScript deaktivieren) und die Seite neu laden. Was du jetzt siehst, ist ungefähr das, was Google beim ersten Crawl sieht. Der Google Rich Results Test unter search.google.com/test/rich-results zeigt dir ebenfalls den gerenderten HTML-Code und eventuelle Fehler bei strukturierten Daten.
Mobile-First Indexierung: Der neue Standard
Seit März 2021 verwendet Google für alle Websites die Mobile-First Indexierung. Das bedeutet: Der Googlebot Smartphone ist der primäre Crawler, und die mobile Version deiner Website ist die Grundlage für Indexierung und Ranking. Die Desktop-Version wird nur noch sekundär betrachtet.
Diese Umstellung spiegelt das Nutzerverhalten wider. Mehr als 60% aller Google-Suchen erfolgen mittlerweile von Mobilgeräten. Es macht für Google keinen Sinn, primär Desktop-Versionen zu indexieren, wenn die Mehrheit der Nutzer mobile Versionen sieht.
Was Mobile-First praktisch bedeutet
Die wichtigste Konsequenz: Inhalte, die nur auf der Desktop-Version deiner Website existieren, werden möglicherweise nicht indexiert. Wenn du auf Mobile bestimmte Abschnitte ausblendest, kürzere Texte zeigst oder weniger Bilder einbindest, könnte Google diese Inhalte komplett ignorieren. Das betrifft auch strukturierte Daten, Meta-Tags und interne Links – alles muss auf der mobilen Version vorhanden sein.
Die mobile User Experience beeinflusst außerdem direkt das Ranking. Die Core Web Vitals werden auf Mobilgeräten gemessen. Touch-Targets müssen groß genug sein, Schriften ohne Zoom lesbar, und die Navigation muss mit dem Daumen bedienbar sein. Mehr dazu im Artikel Core Web Vitals & Page Experience: Der komplette Optimierungs-Guide.
Die gute Nachricht: Wenn du ein responsives Design verwendest und mobile und Desktop-Version denselben Content haben, bist du bereits gut aufgestellt. Problematisch wird es bei separaten Mobile-URLs (m.example.com) oder Dynamic Serving, wo unterschiedliche HTML-Versionen je nach Gerät ausgeliefert werden. Hier musst du sicherstellen, dass die mobile Version vollständig und gleichwertig ist.
Mobile-First Checkliste
Prüfe diese Punkte, um sicherzustellen, dass deine Website Mobile-First-ready ist:
- Content-Parität: Alle wichtigen Texte, Bilder und Videos sind auf Mobile identisch mit Desktop
- Meta-Tags: Title, Description und Robots-Tags sind auf Mobile vorhanden
- Strukturierte Daten: JSON-LD ist auch in der mobilen Version eingebunden
- Interne Links: Die mobile Navigation enthält alle wichtigen Links
- Bilder: Alt-Attribute sind auf Mobile vorhanden, Bilder werden nicht per CSS versteckt
- Lazy Loading: Above-the-fold-Inhalte laden sofort, ohne Interaktion
- Touch-Targets: Buttons und Links sind mindestens 48×48 Pixel groß
- Lesbarkeit: Schriftgröße mindestens 16px, kein horizontales Scrollen nötig
Crawling- & Indexierungsprobleme diagnostizieren
Die Google Search Console ist dein wichtigstes Werkzeug, um Crawling- und Indexierungsprobleme zu identifizieren. Der Abdeckungsbericht unter „Indexierung → Seiten“ zeigt alle URLs und ihren aktuellen Status.
Die vier Status-Kategorien verstehen
| Status | Bedeutung | Handlung |
|---|---|---|
| Gültig | Seite ist indexiert | Alles OK ✓ |
| Gültig mit Warnungen | Indexiert, aber mit Hinweisen | Prüfen und ggf. optimieren |
| Ausgeschlossen | Bewusst oder unbewusst nicht indexiert | Prüfen: Gewollt oder Fehler? |
| Fehler | Technisches Problem verhindert Indexierung | Dringend beheben! |
Häufige Ausschlussgründe und ihre Lösungen
Diese Status-Meldungen triffst du am häufigsten an:
- Durch robots.txt blockiert: Das Crawling wird verhindert. Prüfe, ob das beabsichtigt ist.
- Noindex-Tag erkannt: Du oder ein Plugin hat die Indexierung explizit deaktiviert.
- Duplikat ohne kanonische URL: Google hat selbst eine Canonical gewählt, weil du keine definiert hast.
- Gefunden, derzeit nicht indexiert: Google kennt die URL, hat sie aber noch nicht gecrawlt.
- Gecrawlt, derzeit nicht indexiert: Google hält die Seite nicht für indexierenswert – oft ein Qualitätsproblem.
Besonders frustrierend sind die letzten beiden Status-Meldungen. Im ersten Fall kannst du nur warten und die Seite durch interne Links stärken. Im zweiten Fall wurde gecrawlt, aber Google stuft die Seite als nicht wertvoll genug ein. Die Lösung ist meist, den Content zu verbessern, mehr interne und externe Links aufzubauen und die Seite insgesamt wertvoller zu machen.
Log File Analyse – Der Blick hinter die Kulissen
Die Search Console zeigt dir, was Google indexiert hat. Aber sie zeigt nicht, was Google wirklich auf deiner Website tut. Dafür brauchst du eine Log File Analyse. Die Server-Logs protokollieren jeden einzelnen Request – auch die des Googlebots.
Mit einer Log File Analyse siehst du: Welche URLs crawlt Google tatsächlich? Wie oft? Welche Bereiche ignoriert er komplett? Verschwendet er Crawl Budget auf unwichtige Seiten? Bekommt er 404- oder 500-Fehler, die du in der Search Console nicht siehst? Diese Daten sind Gold wert, weil sie Googles echtes Verhalten zeigen – nicht nur das, was er dir mitteilt.
Für die Analyse kannst du spezialisierte Tools wie Screaming Frog Log File Analyser oder JetOctopus nutzen. Auch Excel oder Google Sheets reichen für einfache Analysen, wenn du die Logs nach User-Agent „Googlebot“ filterst.
Empfohlene Tools für Crawling- und Indexierungsanalyse
Neben der Search Console gibt es spezialisierte Tools, die dir tiefere Einblicke geben:
- Screaming Frog SEO Spider: Der Industriestandard für technische SEO-Audits. Crawlt deine Website wie Google und findet Probleme mit Canonicals, Weiterleitungen, Duplicate Content, fehlenden Meta-Tags und mehr. Die kostenlose Version analysiert bis zu 500 URLs.
- Sitebulb: Visuell aufbereitete technische Audits mit Priorisierung der Probleme. Besonders gut für die Analyse der internen Verlinkung und Seitenarchitektur.
- Ryte (ehemals OnPage.org): Cloud-basierte Plattform für kontinuierliches Monitoring. Warnt automatisch bei neuen technischen Problemen.
- Ahrefs / Semrush Site Audit: Integrierte Crawling-Tools in den großen SEO-Suiten. Gut für regelmäßige Checks, wenn du diese Tools ohnehin nutzt.
Fazit: Die unsichtbare Grundlage deines Rankings
Crawling und Indexierung sind die oft übersehenen Grundlagen jeder erfolgreichen SEO-Strategie. Die beste Keyword-Recherche und der wertvollste Content nützen nichts, wenn Google deine Seiten nicht findet oder nicht versteht. Technische SEO ist keine optionale Ergänzung, sondern das Fundament, auf dem alles andere aufbaut.
Die vier Säulen technischer SEO lassen sich so zusammenfassen:
- Auffindbarkeit: Saubere Seitenstruktur, aktuelle Sitemaps und durchdachte interne Verlinkung sorgen dafür, dass Google alle wichtigen Seiten entdeckt.
- Crawlbarkeit: Schnelle Server, keine technischen Blockaden und ein effizient genutztes Crawl Budget ermöglichen Google, deine Seiten regelmäßig zu besuchen.
- Indexierbarkeit: Korrekte Canonical Tags, kein versehentliches noindex und einzigartiger Content stellen sicher, dass gecrawlte Seiten auch im Index landen.
- Renderbarkeit: JavaScript-freundliche Architektur und Mobile-First-Optimierung garantieren, dass Google deine Inhalte vollständig erfasst.
Die Google API Leaks haben bestätigt: Qualität beginnt nicht beim Content, sondern bei der technischen Infrastruktur. Seiten, die es nicht in den Base Index schaffen, haben kaum Chancen auf Top-Rankings – egal wie gut der Inhalt ist.
„Was Google nicht crawlen kann, wird nie ranken. Was Google nicht indexiert, wird nie gefunden.“
Investiere Zeit in die technischen Grundlagen. Sie sind das unsichtbare Fundament, auf dem alles andere aufbaut. Für das große Bild, wie diese Phasen in Googles Gesamtsystem zusammenwirken, lies den Hauptartikel: Wie funktioniert der Google Suchalgorithmus?
Häufig gestellte Fragen (FAQ)
Wie lange dauert es, bis Google meine neue Seite indexiert?
Das variiert stark – von wenigen Stunden bis zu mehreren Wochen. Die wichtigsten Faktoren sind die Autorität deiner Website, die Crawl-Frequenz, die Content-Qualität und wie die Seite entdeckt wird. Bei etablierten Websites mit guter Reputation kann eine neue Seite innerhalb von Stunden indexiert sein. Bei neuen Websites ohne Autorität oder Backlinks dauert es oft Wochen. Du kannst den Prozess beschleunigen, indem du die URL in der Search Console zur Indexierung anmeldest und starke interne Links setzt.
Warum wird meine Seite nicht indexiert?
Die häufigsten Gründe sind technischer Natur: ein versehentlich gesetzter noindex-Tag, eine robots.txt-Blockade, ein Canonical Tag, der auf eine andere Seite zeigt, oder zu wenig interne Links zur Seite. Es kann aber auch an der Qualität liegen – wenn Google den Content als dünn, duplikat oder minderwertig einstuft, wird er nicht indexiert. Nutze die URL-Prüfung in der Search Console, um den genauen Status und mögliche Probleme zu identifizieren.
Was ist der Unterschied zwischen Crawling und Indexierung?
Crawling bedeutet, dass Google deine Seite findet und herunterlädt. Indexierung bedeutet, dass Google die Seite analysiert, versteht und in seiner Datenbank speichert. Eine Seite kann gecrawlt werden, aber trotzdem nicht indexiert werden – etwa wenn Google sie als Duplikat erkennt oder als qualitativ minderwertig einstuft. Nur indexierte Seiten können in den Suchergebnissen erscheinen.
Wie oft crawlt Google meine Website?
Das hängt von deinem Crawl Budget, der Änderungsfrequenz deiner Inhalte und der wahrgenommenen Wichtigkeit deiner Seiten ab. Große News-Websites werden mehrmals täglich gecrawlt, kleine statische Websites vielleicht nur alle paar Wochen. In der Search Console unter „Einstellungen → Crawling-Statistiken“ kannst du sehen, wie oft Google deine Website besucht.
Soll ich alle meine Seiten in die Sitemap aufnehmen?
Nein, definitiv nicht. Die Sitemap sollte nur indexierbare, kanonische Seiten enthalten, die du in den Suchergebnissen haben möchtest. Keine URLs mit noindex, keine Duplikate, keine Weiterleitungsziele, keine Parameter-URLs, keine Seiten mit Thin Content. Eine aufgeblähte Sitemap verwässert die Signale und kann dazu führen, dass Google die wirklich wichtigen Seiten übersieht.
Schadet es meinem Crawl Budget, wenn ich viele Seiten habe?
Für die meisten Websites ist Crawl Budget kein limitierender Faktor. Google selbst sagt, dass es erst bei sehr großen Websites mit 100.000+ URLs oder bei Websites mit technischen Problemen relevant wird. Wichtiger ist, dass die vorhandenen Seiten effizient crawlbar sind – schnelle Server, keine Crawl-Fallen, keine endlosen Parameter-Kombinationen.
Wie weiß ich, in welchem Index-Tier meine Seiten sind?
Google kommuniziert die Tier-Zuordnung nicht öffentlich. Es gibt aber Indizien: Wenn eine Seite indexiert ist, aber nie für relevante Keywords rankt, befindet sie sich möglicherweise in einem niedrigen Tier. Seiten, die nach Content-Updates schnell neu gecrawlt werden, sind wahrscheinlich in höheren Tiers. Regelmäßige Updates, gute Verlinkung und Nutzerengagement helfen beim „Aufstieg“ in höhere Tiers.
Was ist besser: robots.txt-Disallow oder noindex?
Das hängt von deinem Ziel ab. robots.txt verhindert das Crawling, spart also Crawl Budget, aber verhindert nicht zuverlässig die Indexierung – wenn andere Seiten auf die URL verlinken, kann Google sie trotzdem indexieren (nur ohne den Inhalt zu kennen). noindex erlaubt das Crawling, verhindert aber definitiv die Indexierung. Für Inhalte, die auf keinen Fall in den Suchergebnissen erscheinen sollen, ist noindex die sicherere Wahl.
Kann ich die Indexierung meiner Seiten beschleunigen?
Teilweise. Hilfreiche Maßnahmen sind: die URL in der Search Console zur Indexierung anmelden, starke interne Links von bereits indexierten Seiten setzen, die Seite in der Sitemap aufnehmen, hochwertigen und einzigartigen Content erstellen, und externe Links von vertrauenswürdigen Websites aufbauen. Es gibt aber keine Garantie für schnelle Indexierung – Google entscheidet letztlich selbst, basierend auf Relevanz, Qualität und verfügbaren Ressourcen.


