Wie funktioniert Indexierung im Internet?

Wie funktioniert Indexierung im Internet?

Der Begriff Indexierung steht allgemein für eine Informationserfassung. Im Internet wird damit die Aufnahme von Dokumenten in den Index von Suchmaschinen bezeichnet.

Dabei werden, ähnlich wie in Bibliotheken, Inhalte mit Deskriptoren versehen, mit denen sie sich gezielt ausfindig machen lassen. Während typische Deskriptoren in Bibliotheken Autorennamen oder ISBN-Nummern sind, handelt es sich bei Suchmaschinen um Keywords.

Im Bereich Suchmaschinenoptimierung spielt die Indexierung eine zentrale Rolle. Webmaster bzw. Seitenbetreiber können gezielt dafür sorgen, dass Seiten schneller in den Index aufgenommen werden. Manchmal ist es dagegen sinnvoll, die Indexierung einer Website oder von Teilen davon zu verhindern.

In jedem Fall gilt: Nur wenn eine Webseite im Index einer Suchmaschine ist, wird sie von dieser auch gefunden.

Wie funktioniert Indexierung im Internet?

Die Indexierung von Internetseiten durch große Suchmaschinen wie Google oder Bing ist ein komplexer Vorgang, der sich aus mehreren Prozessen zusammensetzt:

  • Crawler durchsuchen das Internet, lesen den Quellcode von Seiten aus und senden diesen an den Index.
  • Im Index werden Seiten nach bestimmten Kriterien sortiert und in eine Hierarchisierung gebracht.
  • Anschließend erscheinen die indexierten Seiten bei relevanten Suchanfragen.

Um die Nutzererfahrung bei einer Suche möglichst positiv zu gestalten, optimieren Suchmaschinen die Indexierung regelmäßig. Deshalb und weil sich sowohl Rankingfaktoren als auch Webseiten fortwährend ändern, ist der Google Index dynamisch. Neue Seiten kommen hinzu und die Hierarchie – und damit die Reihenfolge von Suchergebnissen – ändert sich. Außerdem entfernt Google Seiten, die massiv gegen die eigenen Richtlinien verstoßen, aus dem Index. Damit tauchen diese Seiten auch nicht mehr in Suchergebnissen auf.

Die Indexierung einer Webseite

Ist eine neue Webseite online, befindet sie sich nicht automatisch im Index einer Suchmaschine. Zwar durchsuchen beispielsweise Crawler von Google ständig das Internet nach neuen Inhalten. Trotzdem kann es dauern, bis sie eine Seite indexieren und diese auffindbar ist.

Der Vorgang lässt sich beschleunigen, indem Webmaster bzw. Seitenbetreiber Google eine Sitemap zur Verfügung stellen. Das lässt sich auf zwei Arten bewerkstelligen:

  • Sie fügen die Sitemap ihrer robots.txt-Datei hinzu.
  • Sie reichen die Sitemap aktiv bei der Google Search Console ein.

Erstellen lässt sich eine Sitemap unkompliziert mit der Hilfe von Drittanbietertools. Um Google zu bitten, eine Webseite noch einmal zu crawlen und zu indexieren, besteht die Möglichkeit, die „Ping“-Funktion zu verwenden.

Über das URL-Prüftool lässt sich das Crawling einzelner Seiten anfordern. Nähere Informationen dazu stellt https://support.google.com/webmasters/answer/6065812?hl=de bereit.

Indexierung verhindern

Manchmal wollen Webmaster eine Indexierung von Seiten durch die Suchmaschine verhindern oder zumindest aufschieben. Dafür gibt es mehrere mögliche Gründe:

  • Die Seite befindet sich im Aufbau oder im Relaunch. Dann ist es besser, wenn sie bis zur Fertigstellung nicht in den Suchergebnissen auftaucht.
  • Es handelt sich um Admin-Zugänge.
  • Die Seite ist minderwertig. In einem Onlineshop kann das eine Kategorieseite mit wenigen Produkten sein, auf der Besucher wahrscheinlich nicht fündig werden.
  • Es gibt datenschutzrechtliche oder urheberrechtliche Gründe für ein „Verstecken“ der Seite.
  • Die Webseite ist ausschließlich für die private Verwendung gedacht.
  • Es besteht die Gefahr von duplicate content, der sich negativ auf die SEO auswirkt.

Um eine Indexierung zu verhindern, können Seitenbetreiber oder Webmaster auf unterschiedliche Arten vorgehen:

  • Sie integrieren den Meta-Tag noindex in den HTML Code der betreffenden Seite oder geben einen „noindex“-Header in der HTTP-Anfrage zurück.
  • Sie informieren Crawler durch eine robots.txt-Datei über Seiten bzw. Dateien, die diese nicht anfordern dürfen.
  • Sie speichern vertrauliche Inhalte in einem passwortgeschützten Serververzeichnis. Darauf kann der Google Crawler nicht zugreifen.

Um Webseiten mit doppelten Inhalten richtig auszuzeichnen, fügt man Canonical Tags in den Header der Seiten ein. Das ist zum Beispiel bei Blogs relevant, wenn ein Artikel unter mehreren Kategorien angezeigt wird. Durch einen Canonical Tag wird die Aufnahme doppelter Inhalte in den Index und eine eventuelle Abwertung durch die Suchmaschine verhindert.

Noindex oder robots.txt: Wann ist welches Instrument das Richtige?

Google rät davon ab, eine robots.txt-Datei zu verwenden, damit Webseiten nicht in Suchergebnissen auftauchen. Denn wenn andere Seiten mit beschreibendem Text auf diese Seite verweisen, kann sie trotzdem indexiert werden. Sie erscheint dann ohne Beschreibung in den Suchergebnissen.

Sinnvoll sind robots.txt-Dateien dagegen, um

  • den Crawling-Traffic zu verwalten und eine Überlastung zu vermeiden,
  • das Anzeigen von Video-, Bild- und Audiodateien in Suchergebnissen zu verhindern oder
  • unwichtige Ressourcendateien, zum Beispiel Bilddateien, zu blockieren.

Um eine Indexierung zu vermeiden, ist es sicherer, auf noindex bzw. passwortgeschützte Verzeichnisse zurückzugreifen.

Quellen

Durchschnittliche Bewertung: 4.5 / 5. | Anzahl der Bewertungen: 2