Bots mittels User Agent blockieren

In meinem Blogbeitrag „Spam-Schutz auf Webseiten-Infos.de“ hatte ich auch ein Beispiel für einen von mir geblockten User-Agent gebracht.

Zwar bin ich ein Laie in Sachen Administration eines Apache-Servers, aber soviel habe ich mitbekommen:

Bots (Robots, Webcrawler), die sich nicht an die robots.txt halten, kann man guten Gewissens von der Website aussperren.

Hier mein aktuelles Praxisbeispiel:

In den Logdaten meiner chCounter-Installation auf Webseiten-Infos.de tauchte sehr häufig der Crawler 80legs mit folgendem User Agent, aber ständig wechselnden IP-Adressen und Hosts auf:

1
2
3
Mozilla/5.0 (compatible; 008/0.83;
http://www.80legs.com/spider.html;)
Gecko/2008032620

Ich überprüfte die im User Agent enthaltene Website http://www.80legs.com/spider.html. Danach handelte es sich um einen Webcrawler und nach den FAQ hierzu sollte ein Ausschluss des Crawlers in der robots.txt beachtet werden:

1
2
User-agent: 008
Disallow: /

Wie ich aber den Logdaten von chCounter entnehmen konnte, war dem aber leider nicht so. Auch nach dieser Ergänzung der robots.txt tauchten viele Logdaten mit diesem User Agent auf.

Nun war ich mir sicher, dass es sich um einen sogenannten ungezogenen Jungen (bad guy) handelte, sprich einen Bot (Robot, Webcrawler), der nur vorgibt zu 80legs zu gehören. Also wollte und konnte ich diesen Bot (Robot, Webcrawler) ohne schlechtes Gewissen blockieren.

Das Aussperren dieses Bots (Robots, Webcrawlers) von Webseiten-Infos.de gelang mir mit folgender Ergänzung der .htaccess auf meinem Webspace:

1
2
3
4
5
6
7
SetEnvIfNoCase User-Agent "Mozilla/5\.0 \(compatible; 008/0\.83; http\://www\.80legs\.com/spider\.html;\)" bad_bot

<Limit GET POST PUT HEAD>
order allow,deny
allow from all
deny from env=bad_bot
</Limit>

Wie oben schon erwähnt, bin ich kein Experte für den Webserver Apache. Leider fand ich im Netz (Web) auch keine gut lesbaren Einsteigerinfos zur richtigen Schreibweise von solchen Einträgen in der .htaccess. Ich dachte mir lediglich, dass es wohl erforderlich sein dürfte, alle Zeichen, die keine Buchstaben oder Schrägstrich (Slash) sind, durch einen sogenannten umgekehrten Schrägstrich (Backslash) zu maskieren.

Darüber hinaus dachte ich mir, dass es nichts schaden könnte, wenn ich die Funktionsfähigkeit dieser Ergänzung der .htaccess testen könnte.

Und tatsächlich: Das geht mittels dem Firefox-Addon User Agent Switcher 0.7.2.

Dieses Addon kann auch um beliebige User Agents ergänzt werden. Ich habe bei mir das Addon User Agent Switcher 0.7.2 um oben genannten User-Agent ergänzt und dann meinen Firefox auf diesen User Agent umgestellt. Ein Neuladen der Webseite Webseiten-Infos.de führte dann zu folgender Meldung:

Forbidden

You don’t have permission to access / on this server.

Mit den anderen User Agents für die gängigen Browser lässt sich dagegen die Website Webseiten-Infos.de problemlos aufrufen.

Seitdem ich die .htaccess entsprechend ergänzt habe, finden sich in den Logdaten auch keine neuen Zugriffe mit diesem User Agent mehr.

Die Aussperrung dieses User Agent scheint also zu funktionieren.

Solltest Du Anmerkungen oder Verbesserungsvorschläge haben, dann nur her damit.

15 Kommentare

  1. 1. Thomas Scholz

    Kommentar vom 11. März 2010 um 02:58

    Was für Spam hat der denn hinterlassen?

  2. 2. Dieter

    Kommentar vom 11. März 2010 um 07:08

    Ich sollte so spät nachts keine Blogbeiträge schreiben. ;-)

    Du hast mal wieder den Nagel auf den Kopf getroffen.

    Die einzige von mir beobachtete Aktivität des Bots war die Missachtung der robots.txt.

    Er war mir mit seinen weiterhin extrem häufigen Zugriffen auf meine Webseiten, die mir die Besucherstatistik verfälschen und Serverressourcen verbrauchen, lediglich suspekt. Werde den Titel des Blogbeitrags gleich mal korrigieren.

    Danke für den Gedankenschubser!

  3. 3. Andreas

    Kommentar vom 14. März 2010 um 14:36

    Von solchen Bots habe ich bisher noch nichts gehört, aber der Artikel ist dennoch interessant. Ich werde mit den Link mal abspeichern, und wenn ich dann doch Besuch von einem solchen Bot bekomme, weiß ich ja, was ich zu tun habe. Bekäme man Spambots denn auf dieselbe Weise los? Vielleicht bekomme ich von so einem ja über kurz oder lang mal Besuch.

  4. 4. Dieter

    Kommentar vom 14. März 2010 um 14:56

    @Andreas
    Geht auch mit Spambots, wenn die einen unüblichen User Agent verwenden oder immer von der gleichen IP-Adresse kommen.

    Und im Übrigen kann ich Dir das WordPress-Plugin Antispam Bee gegen automatisierte Spam-Kommentare uneingeschränkt empfehlen.

    Ich hoffe, das hilft Dir im Bedarfsfall weiter.

    Beste Grüße
    Dieter

  5. 5. Thomas

    Kommentar vom 14. März 2010 um 17:55

    Bin auch gerade auf der Suche nach einer besseren Lösung. Leider kommen die SpamBots bei mir immer mit unterschiedlicher IP und auch mit wechselndem UserAgent. Danke für den Tipp mit „Antispam Bee“ – kannte ich bisher noch nicht – werd ich mir gleich mal ansehen. Zu der Misachtung der robots.txt solltest du mal auf bot-trap.de schauen.

  6. 6. Dieter

    Kommentar vom 14. März 2010 um 19:08

    @Thomas
    Die fleißige Biene Antispam Bee kannst Du auch so einstellen, dass sie die automatischen Spam-Kommentare direkt blockt.

    Dann bekommen Du und Deine WordPress-Datenbank diesen Spam noch nicht einmal mehr zu sehen.

    Danke für den Hinweis auf bot-trap.de. Steht bei mir schon auf der Liste der Websites, die ich mir noch näher ansehen will. Hast Du denn schon Erfahrungen mit bot-trap.de gemacht?

    Beste Grüße
    Dieter

  7. 7. Icem@n

    Kommentar vom 14. März 2010 um 20:47

    Auf der Suche nach Infos zu diesem Bot, bin ich auf diesen Eintrag gestoßen. Heute Nacht kam das Ding auch bei mir vorbei und bescherte mir rund 500 Besucher in knappen 4 Stunden. In den Logfiles habe ich bisher nichts Ungewöhnlichliches entdeckt, außer, dass sehr oft das Gästebuch und der Veranstaltungskalender besucht wurde. Ist mir jedenfalls höchst suspekt. Hast du noch weitere Infos zu diesem Spider finden können?

  8. 8. Dieter

    Kommentar vom 14. März 2010 um 21:14

    @Icem@n
    Habe leider keine weiteren Infos zu dem Spider gefunden. Da er sich aber entgegen der Website nicht an die robots.txt hält, gehe ich stark davon aus, dass es sich um einen vorgetäuschten User Agent handelt und der Bot mit Sicherheit nicht mein Freund, sondern mein Feind ist.

  9. 9. Thomas

    Kommentar vom 15. März 2010 um 12:22

    @Dieter: Nein, ich habe bisher nur gelesen und gehört, dass das mit der Bot-Falle super funktionieren soll. Wenn bei der Antispam Bee die Beiträge nichtmal mehr in der Datenbank landen, wäre das ja ein echter Vorteil gegenüber SpamKarma – wobei man das dort vielleicht auch einstellen kann und ich habs nur noch nicht gefunden.

  10. 10. Dieter

    Kommentar vom 15. März 2010 um 15:49

    @Thomas
    Dann werde ich demnächst mal bot-trap.de ausprobieren.

    SpamKarma habe ich noch nicht eingesetzt. Dazu kann ich deshalb nichts sagen.

    Antispam Bee blockiert in der Standardeinstellung automatische Spam-Kommentare. Diesbezüglich zitiere ich mal aus der Dokumentation von Antispam Bee:

    Im Auslieferungszustand entfernt Antispam Bee jeden Spam-Kommentar, ohne dies irgendwo zu notieren. Diese Vorgehensweise hat den wesentlichen Vorteil, dass sich keine Liste mit Spam-Einträgen bildet, die in bestimmten Abständen zeitintensiv und mühselig kontrolliert und geleert werden muss.

  11. 11. Thomas Scholz

    Kommentar vom 15. März 2010 um 16:06

    @Dieter: Das kann aber auch ein Nachteil sein, denn ein Versehen kann man dann nicht mehr korrigieren.

    Ich würde die rabiate Methode des unkontrollierten Löschens nur benutzen, wenn täglich so viel Spam einschlägt, daß eine manuelle Kontrolle ohnehin nicht mehr zu bewältigen ist. Nur dann.

    Einmal am Tag 50—100 Spamkommentare zu überfliegen, halte ich noch für vertretbar.

  12. 12. Dieter

    Kommentar vom 15. März 2010 um 17:12

    @Thomas
    Wie Du der Grafik in meinem Blogbeitrag „Spamschutz nur mit Antispam Bee“ entnehmen kannst, habe ich den Haken bei Spam markieren, nicht löschen gesetzt.

    Ich teile Deine Einschätzung, dass die rabiate Methode des unmittelbaren automatischen Löschens nur in Ausnahmefällen gewählt werden sollte.

    Über 50 Spam-Kommentare an einem Tag sind bisher auf Webseiten-Infos.de die absolute Ausnahme. Unabhängig davon untersuche ich gerne kurz die Spam-Kommentare hinsichtlich irgendwelcher Auffälligkeiten (insbesondere IP-Adressen sowie User Agent mit chCounter).

  13. 13. Robert

    Kommentar vom 11. November 2010 um 14:26

    Danke für den Hinweis mit der htaccess. Denn immer wieder fallen Bots auf, die sich nicht an die robots.txt halten. Bislang habe ich es immer mit der IP versucht, was aber einerseits nur begrenzt funktionierte und andererseits auch „echte“ Besucher blockierte. Die htaccess-Lösung scheint soweit ganz gut zu funktionieren und ist perfekt ergänzbar.

  14. 14. Dieter

    Kommentar vom 12. November 2010 um 10:48

    @Robert
    Gern geschehen.

    Mit der htaccess-Datei kann man viel machen. Schade nur, dass ich bisher keine umfassende Einführung hierzu gefunden habe.

  15. 15. Jay2k1

    Kommentar vom 6. Mai 2013 um 12:16

    Hallo,

    vielen Dank für den Artikel, war gerade sehr hilfreich. Bei mir hat der Webcrawler dafür gesorgt, dass der Webserver eine Load von über 50 hatte und angefangen hat zu swappen. ~3000 Zugriffe in 47 Minuten von verschiedenen IP-Adressen. Dein Artikel war sehr hilfreich und hat bei mir auch funktioniert, auch wenn der User Agent etwas anders aussah:

    Mozilla/5.0 (compatible; 008/0.85; http://www.80legs.com/webcrawler.html) Gecko/2008032620

    Laut Internet ist 80legs ein Dienstleister, der Webcrawler als Service anbietet. Er baut dabei nicht auf eine Serverfarm, sondern benutzt freiwillig zur Verfügung gestellte Rechenleistung ungenutzter PCs (wie z.B. bei SETI@Home und anderen Distributed Computing-Anwendungen). Das erklärt die vielen unterschiedlichen IP-Adressen. Das könnte man schon fast als DDoS-Attacke werten, auch wenn bei mir die Anfragen auf ca. 64 Requests pro Minute gekommen sind, was nicht übermäßig viel ist, aber im aktuellen Fall war es nunmal zu viel für Website und Server.

Kommentar schreiben (Datenschutzerklärung)

Kommentarformular





Erstkommentare und Kommentare mit Links werden moderiert.

Übersicht der Tastaturkürzel für Smilies

Abonnieren ohne einen Kommentar abzugeben

 

Durch die weitere Nutzung der Seite stimmst Du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.

Schließen