Yahoo mit neuer Crawlerversion

Im Zuge der Umstellung weiter Teile der Suchinfrastruktur, hat sich Yahoo endlich auch seines Crawlers angenommen. Die weltweit größte Hadoop-Installation, die Yahoo als Grundlage der Websuche betreibt (10k CPUs, 5 PetaByte Festplattenplatz) wird jetzt von „Slurp/3.0“ befüllt. Der Crawler ist bereits aktiv und ich konnte ihn schon in Webserverlogs in freier Wildbahn beobachten:

llf320021.crawl.yahoo.net - - [15/Apr/2008:03:16:05 +0200] "GET /news/ HTTP/1.0" 200 34962 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"

Yahoo scheint einige der Kritikpunkte an dem Crawlverhalten des „alten“ Slurps behoben zu haben. So erscheint mir das Vorgehen der neuen Version deutlich geplanter und bandbreitenschonender. Auch gehören Eigenheiten, wie das Weglassen des „Trailing-Slashes“ bei Verzeichnissen nun hoffentlich der Vergangenheit an. Der neuen Crawler arbeitet von neuen IP-Adressen, wer also Cloaking auf IP-Basis betreibt, sollte ich spätestens jetzt überlegen, zur Erkennung von Suchmaschinencrawlern auf die „DNS-ReverseDNS-Methode“ zu wechseln.
Eintrag geschrieben am 15.04.2008 um 12:56 Uhr - Trackback-URL - Tags: Crawler Yahoo

Kommentare & Trackbacks

Ralph - 15.04.2008 13:49
Interessant. Was ändert sich noch ausser die Fehlerbeseitigung? Da ich dies zum ersten Mal erlebe, dass ein Crawler eine neue Version bekommt, bin ich natürlich neugierig, wie die Auswirkungen sind. Werden die Suchergebnisse nachher genauer oder ging es "nur" um die Beseitigung der Fehler?

Ralph

DJTonic - 15.04.2008 14:05
Mir persönlich würde schon reichen wenn slurp endlich mal alle Seiten gleich oft holt. Manche 100 mal zu holen wärend mal andere komplett ignoriert macht einfach keinen Sinn...

michael - 15.04.2008 15:26
Es wurde ja auch mal Zeit!

Trackback - emn|seo.thinking - 15.04.2008 19:43
Er hat sicher einige genervt, der Bot von Yahoo, der sich immer als Slurp ausgibt und massenhaft Traffic erzeugt. Kleines Beispiel: Eine niederfrequentierte Sportverein-Seite, mit etwa einem neuen Beitrag pro Woche. Die Sitemap der Seite fast ca. 300 S...

Christian - 17.04.2008 13:28
Mir ist aufgefallen, dass auch der Googlebot seit kurzem mit einem neuen IP-Block arbeitet 74.125.0.0/16. Slurp crawlt seit neuestem vom Block 74.6.0.0/16

Trackback - KlonBlog - 17.04.2008 17:25
Yahoo! macht nun das Web mit einer neue Crawl-Technologie unsicher. Die alten Yahoo-Crawler wurden oft kritisiert, da sie viel zu oft eine Seite durchsuchten und damit deutlich mehr Traffic verursachten als z.B. die Google-Bots. [...]


SucheSuche