Suchmaschinen

Volltextsuchmaschinen wie die von Google, Yahoo oder auch Microsoft haben sich als erste Wahl für die Internetsuche etabliert. Zu groß, schnellwachsend und sich häufig ändernd ist das Web, als dass es von Hand in Webverzeichnissen katalogisiert werden könnte. Auch, wenn aktuelle Zahlen fehlen, so kann man davon ausgehen, dass der Index von Google mindestens 25 Milliarden Webseiten umfasst - eine Datenmenge, die von Menschen unmöglich zu bewältigen ist.

Geschichte der Suchmaschinen

Gegen Mitte der 90er Jahre war das World Wide Web bereits groß genug, dass es einer Hilfe zum Auffinden gesuchter Dokumente bedurfte. Als eine der ersten Suchmaschinen ging WebCrawler 1994 online - nach einem Umweg über AOL wurde aus ihr Excite. Kurze Zeit später wurde auch Lycos gegründet. Die ersten kommerziellen Suchmaschinen waren Infoseek und AltaVista im Jahr darauf. Vor der Jahrtausendwende wurde der Suchmaschinenmarkt noch von den so genannten Metasuchmaschinen beherrscht. Diese durchsuchten eine Vielzahl bestehender Suchmaschinen und werteten die Ergebnisse aus, bevor sie diese dem Nutzer präsentieren. Heute sind Metasuchmaschinen beinahe vollkommen von der Bildfläche verschwunden. Zu komplex sind die Rankingverfahren geworden, als dass man ohne Zugriff auf weitere Informationen wie Linkstrukturen oder zur Vergangenheit der Domains nur Ergebnisse anderer Suchmaschinen sortieren könnte. Mit der Veröffentlichung des Artikels The Anatomy of a Large-Scale Hypertextual Web Search Engine (Google.pdf) gaben Larry Page und Sergey Brin Ende 1998 den Startschuss für den Erfolg Googles. Eine übersichtliche Benutzeroberfläche, die sich wohltuend von den Portalansätzen der anderen, damals dominierenden Suchmaschinen absetzte sowie die Geschwindigkeit, mit der Ergebnisse geliefert wurden, legte den Grundstein für den Erfolg. Durch Übernahmen und Zukäufe sicherten sich sowohl Yahoo als auch Microsoft in den Jahren 2003 und 2004 den Anschluss an Google und beherrschen diesen als Trio bis heute. Der Suchmaschinenmarkt in Deutschland gleicht derzeit beinahe einem Monopol: Google sowie Partner von Google, die den Index von Google benutzen, haben über 90% Marktanteil. Weit abgeschlagen folgen auf den Rängen 2 und 3 Yahoo beziehungsweise MSN/Live mit jeweils knapp über 3 Prozent. Für Sie bedeutet dies, dass, wenn es mit Ihrer Seite bei Google gut läuft, 90 Prozent der Suchenden auf einen Schlag erreicht werden können - wenn es allerdings schlecht läuft, 90 Prozent verloren sind.

Überblick über die Technik

Die Technik einer Suchmaschine besteht im Wesentlichen aus den folgenden drei Teilen:
Schematische Darstellung einer Suchmaschine
Die Informationen, die eine Suchmaschine liefert, können also immer maximal so aktuell sein, wie der Crawler sie zusammengesucht und dem Index übergeben hat. Dies führt dazu, dass Änderungen an Webseiten häufig erst mit einiger Verzögerung zu sehen sind. Auch ist wichtig zu verinnerlichen, dass die Suchmaschinencrawler ganz normale „Besucher“ Ihrer Webseite sind, die lediglich den HTML-Code, den jeder Besucher erhält, auslesen und in einer - zugegebenermaßen großen - Datenbank speichern. Wie dieser HTML-Code erzeugt wird - ob als statische HTML-Seiten oder per serverseitiger Scriptsprache wie PHP oder Perl - ist hierbei egal; relevant ist der HTML-Code, den der Server an den Client sendet.

„Die Großen Drei

- Google, Yahoo und Microsoft“

Google

Google hat mit seinem Markteintritt den Suchmaschinenmarkt im Jahre 1998 revolutioniert. Bislang wurde das Ranking hauptsächlich durch OnPage-Faktoren wie Keywordhäufigkeit, Vorkommen des Keywords im Title oder den Metatags oder ähnlichem durchgeführt. Google bezog als erste Suchmaschine so genannte OffPage-Faktoren mitein. Herauszustellen ist hier der PageRank. Nach seinem Entwickler Larry Page benannt, wertete der PageRank eingehende Links als Stimme für die Webseite und konnte das Rankingverfahren so verfeinern. Die Googlesoftware, die auf tausenden preisgünstiger Standard-PCs läuft, lieferte die Ergebnisse schnell und übersichtlich - ein weiterer Vorteil gegenüber dem damaligen Marktführer AltaVista. Neben der Suche bietet Google mittlerweile eine Vielzahl weiterer Dienste an: den Mailservice Google Mail, die Routensoftware Google Maps oder aber auch Software wie die Bildverwaltung Picassa.

Rankingfaktoren

Da sich der herkömmliche PageRank als zu manipulierbar herausgestellte (ein Link von einer PageRank-starken Seiten konnte eine vormals unwichtige Seite in komplett neue Sphären heben), wurde er im Laufe der Zeit abgewandelt. Derzeit scheint Google viel Wert auf eine ausgeglichene, natürlich gewachsene Linkstruktur zu legen. Auch das Alter sowie die Qualität der Links scheinen in das Ranking mit einzugehen. Näheres zu den einzelnen Rankingfaktoren sowie deren Signifikanz im Kapitel Webseitenoptimierung für Suchmaschinen.

PageRank

Einst die Grundlage für den Erfolg Googles, ist der PageRank mittlerweile nur noch ein Rankingfaktor unter vielen. Trotzdem hat sich in den Köpfen vieler Webmaster der PageRank als der Königsweg zu einem guten Ranking bei Google eingebrannt. Lassen Sie sich davon nicht verwirren: PageRank ist zwar nicht unwichtig, aber ein hoher PageRank garantiert genauso wenig ein gutes Ranking wie ein schlechtes Ranking zwangsläufig mit einem niedrigen PageRank verknüpft sein muss.

Der Googlebot

Der Crawler von Google hört auf den Namen Googlebot und ist derzeit mit dem Useragent (Der Useragent ist eine Browserkennung, die Besucher einer Webseite an den Webserver übermitteln. Er wird meistens in den Webserverlogs festgehalten.) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) unterwegs. Der Hostname des Bots endet immer auf googlebot.com und auch ein Reverse-Lookup funktioniert. Viele Crawler, die Inhalte für Spam zusammensuchen, tarnen sich derzeit als Googlebot aber nur der echte Googlebot wird die 3 Kriterien (Useragent, IP-zu-Host und Host-zu-IP-Auflösungen) erfüllen. Ein Logfileeintrag im Webserverlog (Apache-Webserver) sieht wie folgt aus:
66.249.66.48 - - [10/Nov/2006:06:55:25 +0100] "GET /info.html HTTP/1.1" 200 10592
"-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Wie oben beschrieben, löst die IP-Adresse des Googlebot auf *.googlebot.com auf. Der Host löst dann wiederum auf die IP-Adresse aus dem Logfile auf:
s09:~# host 66.249.65.178
Name: crawl-66-249-65-178.googlebot.com
s09:~# host crawl-66-249-65-178.googlebot.com
crawl-66-249-65-178.googlebot.com       A       66.249.65.178
Wenn Ihnen die Überprüfung per Hand zu umständlich und zeitaufwändig ist, so können Sie auch Tools (Echtheit eines Botzugriffs überprüfen: tools.sistrix.com/ve/) benutzen, die diese Aufgaben in einem Schritt ausführen. Diese Möglichkeit besteht nicht nur für den Googlebot, sondern funktioniert auch bei Yahoo und Microsoft.

Aufbau der Google-Ergebnislisten

Am Beispiel von Google möchte in den Aufbau von Suchergebnislisten (kurz SERPS für SearchEngineResultPages) erläutern. Dazu habe ich einen Screenshot (Abbildung 2.1) der SERPs für den Suchbegriff „Helmut Kohl“ angefertigt und interessante Bereiche farblich hinterlegt. Der gelbe Bereich kennzeichnet die über das AdWords-System gebuchte Textwerbung. Wie auf dem Screenshot zu sehen, ist dafür sowohl über den eigentlich Ergebnissen als auch rechts von diesen Platz reserviert. Über den Ergebnissen werden maximal drei Anzeigen, rechts davon bis zu zehn Anzeigen eingeblendet. Der blaue Bereich ist für vertikale Suchen von Google reserviert und wird suchanfrage-abhängig eingeblendet. Wenn Google der Meinung ist, dass eine der vielen vertikalen Suchen wie Google Books, Google News, Google Maps und so weiter relevante Treffer zu diesem Keyword liefert, werden die besten Treffer dort angezeigt - in diesem Fall Bücher sowie Nachrichten. Mittlerweile ist Google mit der Einführung von Google Universal Search dazu übergegangen, diese Ergebnisse nicht nur noch oberhalb der eigentlichen Treffer zu präsentieren, sondern teilweise auch am Ende oder in der Mitte dieser. So kann es vorkommen, dass sich ein komplettes Video von YouTube oder eine Karte von Google Maps innerhalb der SERPs wiederfindet. Die eigentlichen Suchergebnisse aus dem Webindex von Google sind rot hinterlegt. In der Standardeinstellung werden zehn Ergebnisse pro Seite angezeigt. Wenn von einem Host mehr als ein Treffer auf dieser Seite angezeigt wird, so wird der zweite eingerückt unter dem ersten dargestellt. Angezeigt wird sowohl der Titel des Dokumentes, ein Auszug aus dem Dokument selber sowie die Adresse des Treffers. Das Suchwort wird in diesen, wenn es dort vorkommt, fettgedruckt hervorgehoben. Im grünen Bereich werden häufig ähnliche Suchanfragen angezeigt. Dieser Bereich kann insbesondere dann hilfreich sein, wenn man auf der Suche nach ähnlichen und verwandten Keywords für seine Seite ist.
Farblich hinterlegter Screenshot der Google-Ergebnisse der Suche nach „Helmut Kohl

Yahoo

Gestartet als Webverzeichnis, in dem zwei Studenten ihre Bookmarks sammelten, entstand mit Yahoo ein großer Webkatalog. Während in den Anfangsjahren der redaktionell erstellte Katalog im Vordergrund stand, erkannte Yahoo, dass der Volltextsuche die Zukunft gehört und kaufte 2003 mit Inktomi und Overture zwei wichtige Technologieträger. Neben eigenen Diensten hat Yahoo in letzter Zeit durch den Aufkauf bekannter Web2.0 (Web2.0 ist der Oberbegriff für eine Reihe neuer Internettechnologien und Dienste.)-Projekte auf sich aufmerksam gemacht. So ist die Onlinebilderseite FlickR und die Bookmarkverwaltung del.ici.us an Yahoo gegangen. Vor dem Hintergrund, dass Social-Search, als eine der Zukunftstechnologien für den Suchmaschinenmarkt gesehen wird, sicherlich eine nachvollziehbare Entscheidung.

Rankingfaktoren

Yahoo setzt, ebenso wie Google, mit der Linkpopularität und dem Linktext stark auf externe Rankingfaktoren. Häufig ist es so, dass Seiten, die bei Google gute Positionen einnehmen, auch bei Yahoo vorne mit dabei sind. Keywords in der Domain sowie Verzeichnis- und Dateinamen sind neben häufiger Aktualisierung und dem Keyword im Titel wichtig.

Slurp, der Yahoo-Crawler

Der Crawler von Yahoo heißt Slurp, kommt mit dem Useragent Mozilla/5.0 (compatible; Yahoo Slurp; http://help.yahoo.com/help/us/ysearch/slurp) und einem Host aus der Domain yahoo.net. Im Unterschied zum Googlebot, der Zeiten sehr unterschiedlicher Crawlfrequenz hat, crawled der Slurp das Web gleichmäßiger. Dokumente, die der Yahoo-Crawler eingelesen hat, werden meistens relativ schnell in den Yahoo-Index aufgenommen. Eine beispielhafte Logzeile für den Yahoo-Crawler sieht so aus:
74.6.69.232 - - [10/Nov/2006:09:27:03 +0100] "GET /info.html HTTP/1.0" 200 10842 "-"
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

Microsoft

Microsoft stieg mit MSN erst relativ spät in den Suchmaschinenmarkt ein. Man hatte den Anschluss an den Internetboom verschlafen und versucht seitdem, mal mehr, mal weniger erfolgreich, eine eigene Suchmaschinentechnologie zu entwickeln. Die aktuelle Beta nennt sich Windows Live und soll, was die Sache interessant macht, ein Teil von Windows Vista werden.

Rankingfaktoren

Durch die unstetige Entwicklung lässt sich zu den Rankingfaktoren wenig Genaues sagen. Wie Google und Yahoo scheinen externe Faktoren eine Rolle zu spielen. Für gute Positionen reicht aber auch häufig das Vorkommen des Keywords in der Domain, im Titel und im Text. Spamfilter sind nur rudimentär vorhanden und lassen die Suche derzeit in keinem guten Licht erscheinen. Vor dem Hintergrund der nicht ganz unerheblichen finanziellen Möglichkeiten, die Microsoft besitzt, sollte man die Entwicklung trotzdem nicht aus den Augen verlieren.

msnbot

Der sich mit dem Useragent msnbot meldende Crawler von MSN kommt vom Host msnbot.com. Ähnlich wie der Yahoo-Crawler ist seine Crawlfrequenz gleichmäßig aber ausdauernd. Seiten finden sich schubweise im Index wieder. Es kann auch mal passieren, dass längere Zeit keine neuen Seiten aufgenommen werden.
65.54.188.134 - - [10/Nov/2006:11:30:31 +0100] "GET /info.html HTTP/1.0" 200
10402 "-" "msnbot/1.0 (+http://search.msn.com/msnbot.htm)"

Weitere Suchmaschinen

Auch, wenn Google, Yahoo und Microsoft deutlich über 95 Prozent des Gesamtsuchmarktes beherrschen, so kann es Fälle geben, in denen es sinnvoll ist, weitere Suchmaschinen in seine Überlegungen mit einzubeziehen. So haben kleinere Suchmaschinen für ihre Thema oder ihre Nische häufig einen nicht uninteressanten Marktanteil. Auch hinken sie in der Regel der technischen Entwicklung um einige Jahre hinterher, so dass eine Optimierung in kurzer Zeit und mit verhältnismäßig wenig Ressourcen zu bewerkstelligen ist.

Nischen-, Lokale- und Vertikale Suchmaschinen

Nischen oder auch Vertikale Suchmaschine werden solche genannt, die sich auf ein Thema spezialisiert haben und damit - in ihrem Bereich - einen teils deutlichen Marktanteil erobern konnten. Ein Beispiel hierfür ist die von Jobscout24 betriebene Suchmaschine „jobs.de“, die selbständig das Internet nach neuen Stellenangeboten durchsucht. Lokale Suchmaschinen versuchen, nur Treffer aus einer bestimmten Region oder einem vorher definierten Radius um einen Ort anzuzeigen. Gerade für Webseiten, die sich für solche Anfragen eignen, wie Restaurants, Hotels oder Ladengeschäfte, kann hier qualifizierter Traffic gewonnen werden. Google betreibt mit Google Maps eine eigene lokale Suchmaschine, die bei bestimmten Suchanfragen in den normalen Ergebnislisten inklusive einer interaktiven Karte eingeblendet wird - die Klickrate auf Treffer innerhalb dieses Blocks in den SERPs ist deutlich höher als üblich; Eine Eintragung über das „Branchencenter“ von Google somit besonders zu empfehlen. Auch das Ranking innerhalb dieser lokalen Suchmaschine unterliegt eigenen Regeln. Da diese aber nur für einen recht kleinen Teil der Leser relevant ist, verweise ich an dieser Stelle auf meinen Blogbeitrag „Wie funktioniert eigentlich Google-Maps“ (Google Maps) in meinem SEO-Blog.

Ausblick in die Zukunft

Suchmaschinen entwickeln ihre Technik und somit die Qualität der Suchergebnisse beständig weiter, die Geschwindigkeit der Neuerungen hat allerdings in den letzten Jahren abgenommen. Eine so starke Verbesserung der Qualität wie sie durch die Einbeziehung der Verlinkung durch Google erreicht wurde, hat es nicht mehr gegeben - Evolution statt Revolution ist derzeit an der Tagesordnung. Trotzdem forschen natürlich alle großen Suchmaschinen und auch viele kleine an „the next big thing“: Einbeziehung von Benutzern in die Bewertung der Seiten oder auch Semantik, um die Inhalte zu verstehen sind derzeit ein heißes Thema, überzeuge Umsetzungen gibt es allerdings noch nicht. Aus Sich des Webmasters oder Seitenbetreibers kann dies nur heißen - so er denn daran interessiert ist, seine Seite langfristig zu betreiben - sich nicht so sehr von einzelnen, derzeit vorherrschenden Suchmaschinen beeinflussen zu lassen. Seiten baut man für Besucher, nicht für Suchmaschinen.