Crawler- und Indexierungsfragen
Wieso wird meine Seite im Index der Suchmaschine nicht aktualisiert?
Häufig tritt das Problem auf, dass, obwohl eine Seite aktualisiert wurde, immer noch die alte Fassung im Index der Suchmaschinen vorhanden ist. Begründet liegt das darin, dass die Zahl der täglich, wöchentlich und monatlich aktualisierten Seiten auch für große Suchmaschinen begrenzt ist. Suchmaschinen müssen als, ähnlich wie beim normalen Ranking, auch bei der Aktualisierung von Seiten entscheiden, welche Seiten wichtig sind und folglich häufig gecrawled werden und welche weniger wichtig sind, sich vielleicht nicht häufig ändern und somit eine niedrigere Crawlfrequenz für diese ausreichend ist.
Neben der Qualität und Quantität der eingehenden Links – wie schon beim herkömmlichen Ranking – spielen hier bei den großen Suchmaschinen auch die Häufigkeit der Aktualisierung einer Seite eine entscheidende Rolle. Wenn ein Suchmaschinencrawler in der ersten Zeit täglich wiederkommt und bemerkt, dass auf der Seite keine Änderungen vorgenommen wurde, so wird die Häufigkeit der Aktualisierungen in Zukunft niedriger ausfallen. Regelmäßig gepflegte Blogs können, neben vielen weiteren Vorteilen, auch hier hilfreich sein.
Wieso indexiert die Suchmaschine nicht meine komplette Seite sondern nur die Startseite und ein paar Unterseiten?
Wie schon bei der Aktualisierungshäufigkeit, besteht hier das Problem in den begrenzten Kapazitäten der Suchmaschinen. Auch, wenn Google oder Yahoo aktuell eine Indexgröße jenseits der 20 Milliarden Dokumente haben, so ist dies nur ein Bruchteil der wirklich vorhandenen Seiten. Also müssen auch hier die Suchmaschinen entscheiden, welche Seiten wichtig genug sind, in den Index aufgenommen zu werden und welche draußen bleiben müssen. Neben einer sauberen und für Suchmaschinen gut zu durchsuchenden Seiten- und URL-Struktur spielt hier, wie so oft, die Qualität und Quantität der eingehenden Links wieder eine große Rolle. Auch Deeplinks, also Links auf Unterseiten, können helfen.
Wie kann ich erkennen, ob ein Crawler von Google/Yahoo/MSN auf meiner Seite war?
Webserver, die Ihre Seiten an reale Besucher und Suchmaschinencrawler ausliefern, schreiben sogenannte Logfiles. In denen wird jeder Zugriff dokumentiert. Neben Daten zu der abgerufenen Webseite, dem Datum und dem Statuscode werden bei vielen Webservern wie beispielsweise dem Apache auch die IP und der Useragent des zugreifenden Clients festgehalten. Beispielhafte Zugriffsdaten für die drei großen Suchmaschinen von Google, Yahoo und Microsoft werden im ersten Teil dieser Suchmaschinenoptimierungseinführung gezeigt. Sie können jetzt also die Logfiles nach den jeweiligen Useragents oder auch Hostnamen durchsuchen und so genau sehen, wann welcher Suchmaschinencrawler welche Seiten Ihres Projektes eingelesen hat.
Wieso erscheint meine Seite nicht bei Google, obwohl der Googlebot sie abgerufen hat?
Bei Google erscheinen nicht alle Seiten, die der Googlebot abgerufen hat, auch zwangsläufig sofort oder überhaupt im Index. So scheint ein Zwischenschritt zwischen dem Crawler und dem Index eine automatisierte Überprüfung der Qualität zu sein. Besteht die Seite diese Überprüfung problemlos, landet sie im Hauptindex, gibt es Zweifel an der Qualität, hält Google den sogenannten Supplemental Index
umfangreiches Blogposting zu dem Thema bereit und fällt die Seite durch, wird sie gar nicht aufgenommen. Ein Grund für letzteres könnte neben kopiertem oder doppeltem Inhalt auch die Verlinkung zu Spam-Seiten sein.
Ich kann meine Seite auf einmal nicht mehr im Index finden! Wieso ist sie rausgeflogen?
Prüfen Sie zuerst, ob ihre Seite wirklich komplett aus dem Index der Suchmaschine genommen wurde. Bei den meisten Suchmaschinen funktioniert das mit der Abfrage
site:example.org. Sollte Ihre Seite da noch zu finden sein, so ist sie nicht wirklich rausgeflogen sondern scheint nur unter den Ihnen bekannten Suchbegriffen nicht mehr so gut, wie zuvor zu ranken. Sollte Ihre Seite gar nicht mehr zu finden sein, so kann dies verschiedenen Ursachen haben:
- Schluckauf der Suchmaschine - Die Datenmengen, die Suchmaschinen verwalten und aktualisieren müssen, sind extrem umfangreich. Da kann es schonmal sein, dass ein Teil der Daten bei einem Update auf der Strecke bleibt oder das Update noch nicht fertig ist. Versuchen Sie die Abfrage in ein paar Tagen erneut.
- Keine oder zu wenig eingehende Links - Seiten, die nicht von anderen Seiten verlinkt, also empfohlen werden, sind für Suchmaschinen eher uninteressant und können so, wenn viele neue und interessante Domains dazu kommen, hinten runterfallen. Sorgen Sie für eingehende Links auf Ihr Projekt.
- Unsaubere Methoden - Sie haben sich nicht an die Regeln der Suchmaschinen gehalten. Bad Neighbourhood, Linknetzwerke, Linkkauf oder Doorwaypages sind hier nur wenige der vielen Techniken, die nicht gerne gesehen werden. Säubern Sie Ihr Projekt komplett davon und versuchen Sie einen Reinclusion Request zu stellen. Sollten die unsauberen Methoden durch eine fremde Firma auf Ihrer Seite eingebaut worden sein, so trennen Sie sich von dieser Firma und schreiben dies auch in den Request.
Wie kann ich eine Seite aus dem Index entfernen?
Seiten, die auf dem Webserver nicht mehr existieren, werden in den meisten Fällen nicht umgehend aus dem Index einer Suchmaschine entfernt. Zuerst muss der Suchmaschinencrawler auf die Seite zugreifen und einen Fehlercode erhalten. Hier ist der Code
410 Gone besser geeignet als
404 Not Found da letzterer nur aussagt, dass die Datei gerade nicht gefunden wird, während der erste eine permanenten Fehler darstellt. Damit der Suchmaschinencrawler überhaupt erstmal soweit kommt, darf das Verzeichnis, in dem die zu löschenden Dateien liegt, auf keinen Fall per robots.txt gesperrt sein – andernfalls darf der Crawler die nicht mehr vorhandenen Dateien erst gar nicht anfordern, bekommt so keine Fehlermeldung zurück und belässt sie im Index.
Wenn es besonders schnell gehen muss, so stellt Google die Möglichkeit, Löschungen per Webformular (
Google-URL-Console) vorzunehmen, bereit. Wenn Sie Entfernungen aus dem Index über diesen Weg vornehmen, beachten Sie jedoch bitte, dass einmal gelöschte Dateien in den nächsten 6 Monaten nicht mehr im Index auftauchen werden, egal was Sie unternehmen.
Wie setzte ich einen Providerwechsel möglichst komplikationslos um?
Für diese Frage muss der Sachverhalt etwas umfassender beleuchtet werden. Jeder Computer, so auch jeder Server im Internet hat eine einzigartige IP-Adresse wie beispielsweise 192.168.1.1. Um Domains diesen IP-Adressen zuzuordnen, gibt es Nameserver. Bei diesen fragen Clients wie Webbrowser oder auch Suchmaschinencrawler an und erhalten die zugehörige IP-Adresse einer Domain. Bei einem Providerwechsel wird sich jetzt diese IP-Adresse ändern, da der Server des neuen Providers eine andere Adresse hat. Damit der Providerwechsel möglichst komplikationslos über die Bühne geht, müssen die extakt gleichen Inhalt des Projektes während des Umzuges zugleich sowohl auf dem alten, als auch auf dem neuen Server hinterlegt sein. Konkret hat sich folgendes Vorgehen als sinnvoll erwiesen:
- Hosting beim neuen Provider bestellen. Die Domain allerdings noch nicht per KK-Antrag zu dem neuen Provider umziehen sondern warten, bis der neue Provider Zugangsdaten für den FTP/SCP-Server versendet.
- Nun die Inhalte des Projektes auf den Webspace beim neuen Provider kopieren. Änderungen an den Inhalten sollten ab diesem Zeitpunkt unterbleiben.
- KK-Antrag beim neuen Provider stellen. Der neue Provider wird nun den alten Provider kontaktieren und dafür sorgen, dass die Domain an ihn geht und zeitgleich die Nameserver aktualisiert werden.
- Jetzt für ein paar Tage abwarten. Clients, so auch die Webcrawler haben Zwischenspeicher für aufgelöste Domainnamen, so dass sie nicht bei jedem Zugriff den Nameserver fragen müssen. Sie müssen nun abwarten, bis alle Clients die neue IP-Adresse haben und auf den neuen Webspace zugreifen. Wenn Sie noch Zugriff auf Logfiles des alten Provider haben, können Sie dort nachverfolgen, ob es noch Besucher oder Suchmaschinenrobots gibt, die die dort hinterlegten Inhalte abrufen.
- Hosting beim alten Provider kündigen. Nach einigen Wochen, wenn keine Zugriffe auf den alten Webspace mehr zu verzeichnen sind, können Sie den Vertrag mit dem alten Provider künden.
Wenn Sie diese Reihenfolge einhalten, so sollte Ihr Webhosterwechsel problemlos über die Bühne gehen - die meisten Besucher und auch Suchmaschinencrawler werden davon nichtmal etwas merken. Wichtig ist jedoch, die Inhalte für die Zeit des Übergangs sowohl auf dem alten, als auch auf dem neuen Server vorzuhalten. Sollten Sie Ihre Domains selber verwalten und eigene Nameserver betreiben, so ist es sinnvoll für die Zeit des IP-Wechsels die TTL (Time-To-Live) im Nameserver runterzusetzen. Werte unter 5 Minuten, also 300 Sekunden, haben sich hier bewährt und verkürzen die Zeit, in der Clients noch auf die alte IP zugreifen. Reduzieren Sie diese Zeit aber nicht zu sehr – es gibt Provider und Clients, die eine Mindestzeit vorschreiben und bei Unterschreitung dieser eine Standard-TTL von über einem Tag benutzen.
Wie ziehe ich ein Projekt auf eine neue Domain um?
Der beste Domainwechsel ist der, der gar nicht erst stattfindet. Wenn Sie es also irgendwie bewerkstelligen können, so versuchen Sie, die bisherige Domain weiterzubetreiben. Sollte das nicht möglich sein, so ist es wichtig, folgende Punkte zu beachten:
Ziehen Sie rechtzeitig auf die neue Domain um. Kopieren Sie die Inhalte eins zu eins auf die neue Domain, während die alte noch in Betrieb ist. Dann sollten Sie eine 301 Weiterleitung von der alten auf die neue Domain einrichten. Wenn Sie einen Webserver, der mod_rewrite unterstützt, nutzen, können Sie dafür folgenden Code einsetzen:
RewriteEngine On
RewriteRule ^(.*)$ http://www.neue-domain.tld/$1 [R=301,L]
Jetzt ist noch wichtig, eingehende Links von der alten auf die neue Domain abändern zu lassen. Nutzen Sie die Backlink-Suche von MSN oder den Yahoo-Siteexplorer und schreiben Sie möglichst viele der Webmaster, die Ihre Seite verlinken an und informieren sie darüber, dass die Adresse sich geändert hat und die Inhalte nun unter einer neuen Domain zu finden sind.
Wieso zeigt Google nicht alle Backlinks meiner Seite an?
Google ist vor einiger Zeit dazu übergegangen, Backlinks nur noch teilweise anzuzeigen. Es wird vermutet, dass Google damit verhindern will, dass der Einblick in den Google-Algorithmus, der ja hauptsächlich auf Verlinkungen basiert, zu groß wird. Auch konnte so unterbunden werden, dass die Links von erfolgreichen Seiten ausgewertet und nachgebaut werden können.
Funktionierende Backlinkanzeigen gibt es jedoch noch immer bei Microsoft und durch den Yahoo-Site-Explorer. Hierbei sollte allerdings natürlich im Hinterkopf behalten werden, dass der Index von Microsoft und Yahoo sich von dem Googleindex unterschiedet und so nicht alle Links, die Google auch findet angezeigt werden.