Suche nach dem User Agent in der robots.txt

Dezember 18, 2006 | In Misc | von

Knapp 30.000 Hosts, vorwiegend deutsche Betreiber, sperren Hyros “thesubot” aus… und ähnlich viele mögen den Miragobot nicht an ihre Inhalte lassen. Die robots.txt Suche von Alexa ermöglicht es auf Crawler-Inhalte zuzugreifen (in dem Fall auf die User Agents in der robots.txt), die sonst nur in den Datenbeständen der Suchmaschinenbetreiber, meist ungenutzt, verborgen sind. Weitere interessante Such-Applikationen findet man in der Alexa Developer’s Corner. Alexa bietet eine offene Schnittstelle zur Entwicklung eigener Applikationen auf der Basis der Alexa Crawlerdaten (4.5 Mrd Seiten).

1 Star2 Stars3 Stars4 Stars5 Stars (Bewerten Sie den Beitrag)


Ähnliche Beiträge:

TrackBack URI

  1. Ganz so ist es nicht: Die Suche zeigt nur welche Bots überhaupt in der robots.txt gelistet sind. Sucht man nach “googlebot” findet man reichlich Webseiten die Teile der Seite (wie CGI-Skripte) für Googlebot sperren.
    Es wäre also denkbar, dass mancher Webmaster thesubot nur für Teile seiner Domain sperrt…ok, weit hergeholt.

    Kommentar von Mario W. — 19. Dezember 2006 #

  2. Es wäre also denkbar, dass mancher Webmaster thesubot nur für Teile seiner Domain sperrt…ok, weit hergeholt.

    OK, weil Weihnachten ist, lass ich das mal so stehen :) Soll doch jeder Glauben was er will….

    Kommentar von Uwe Tippmann — 19. Dezember 2006 #

Einen Kommentar hinterlassen

HTML Hinweise für Profis: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


¹ Keine Rechtsberatung!

Powered by WordPress with Pool theme design by Borja Fernandez.
Uwe Tippmann