Suche nach dem User Agent in der robots.txt

Knapp 30.000 Hosts, vorwiegend deutsche Betreiber, sperren Hyros „thesubot“ aus… und ähnlich viele mögen den Miragobot nicht an ihre Inhalte lassen. Die robots.txt Suche von Alexa ermöglicht es auf Crawler-Inhalte zuzugreifen (in dem Fall auf die User Agents in der robots.txt), die sonst nur in den Datenbeständen der Suchmaschinenbetreiber, meist ungenutzt, verborgen sind. Weitere interessante Such-Applikationen findet man in der Alexa Developer’s Corner. Alexa bietet eine offene Schnittstelle zur Entwicklung eigener Applikationen auf der Basis der Alexa Crawlerdaten (4.5 Mrd Seiten).

Über Uwe Tippmann

Ich bin jung, dynamisch und motiviert - gepaart mit der Flexibilität eines Kaugummis. Meine Erfahrungen basieren auf der Tatsache in den letzten 10 Jahren keinen Tag verpasst zu haben, den Rechner aus zu lassen. Manch einer bezeichnet mich als netzbessessen oder tastensüchtig andere kennen mich als zielstrebig und erfolgsorientiert und wieder andere kennen mich gar nicht :)
Dieser Beitrag wurde unter Misc veröffentlicht. Setze ein Lesezeichen auf den Permalink.

2 Antworten zu Suche nach dem User Agent in der robots.txt

  1. Mario W. sagt:

    Ganz so ist es nicht: Die Suche zeigt nur welche Bots überhaupt in der robots.txt gelistet sind. Sucht man nach „googlebot“ findet man reichlich Webseiten die Teile der Seite (wie CGI-Skripte) für Googlebot sperren.
    Es wäre also denkbar, dass mancher Webmaster thesubot nur für Teile seiner Domain sperrt…ok, weit hergeholt.

  2. Uwe Tippmann sagt:

    Es wäre also denkbar, dass mancher Webmaster thesubot nur für Teile seiner Domain sperrt…ok, weit hergeholt.

    OK, weil Weihnachten ist, lass ich das mal so stehen 🙂 Soll doch jeder Glauben was er will….

Kommentare sind geschlossen.