11. März 2010 von Dieter | 12 Kommentare | drucken
Bots mittels User Agent blockieren
In meinem Blogbeitrag “Spam-Schutz auf Webseiten-Infos.de” hatte ich auch ein Beispiel für einen von mir geblockten User-Agent gebracht.
Zwar bin ich ein Laie in Sachen Administration eines Apache-Servers, aber soviel habe ich mitbekommen:
Bots (Robots, Webcrawler), die sich nicht an die robots.txt halten, kann man guten Gewissens von der Website aussperren.
Hier mein aktuelles Praxisbeispiel:
In den Logdaten meiner chCounter-Installation auf Webseiten-Infos.de tauchte sehr häufig der Crawler 80legs mit folgendem User Agent, aber ständig wechselnden IP-Adressen und Hosts auf:
1 2 3 | Mozilla/5.0 (compatible; 008/0.83; http://www.80legs.com/spider.html;) Gecko/2008032620 |
Ich überprüfte die im User Agent enthaltene Website http://www.80legs.com/spider.html. Danach handelte es sich um einen Webcrawler und nach den FAQ hierzu sollte ein Ausschluss des Crawlers in der robots.txt beachtet werden:
1 2 | User-agent: 008 Disallow: / |
Wie ich aber den Logdaten von chCounter entnehmen konnte, war dem aber leider nicht so. Auch nach dieser Ergänzung der robots.txt tauchten viele Logdaten mit diesem User Agent auf.
Nun war ich mir sicher, dass es sich um einen sogenannten ungezogenen Jungen (bad guy) handelte, sprich einen Bot (Robot, Webcrawler), der nur vorgibt zu 80legs zu gehören. Also wollte und konnte ich diesen Bot (Robot, Webcrawler) ohne schlechtes Gewissen blockieren.
Das Aussperren dieses Bots (Robots, Webcrawlers) von Webseiten-Infos.de gelang mir mit folgender Ergänzung der .htaccess auf meinem Webspace:
1 2 3 4 5 6 7 | SetEnvIfNoCase User-Agent "Mozilla/5\.0 \(compatible; 008/0\.83; http\://www\.80legs\.com/spider\.html;\)" bad_bot <Limit GET POST PUT HEAD> order allow,deny allow from all deny from env=bad_bot </Limit> |
Wie oben schon erwähnt, bin ich kein Experte für den Webserver Apache. Leider fand ich im Netz (Web) auch keine gut lesbaren Einsteigerinfos zur richtigen Schreibweise von solchen Einträgen in der .htaccess. Ich dachte mir lediglich, dass es wohl erforderlich sein dürfte, alle Zeichen, die keine Buchstaben oder Schrägstrich (Slash) sind, durch einen sogenannten umgekehrten Schrägstrich (Backslash) zu maskieren.
Darüber hinaus dachte ich mir, dass es nichts schaden könnte, wenn ich die Funktionsfähigkeit dieser Ergänzung der .htaccess testen könnte.
Und tatsächlich: Das geht mittels dem Firefox-Addon User Agent Switcher 0.7.2.
Dieses Addon kann auch um beliebige User Agents ergänzt werden. Ich habe bei mir das Addon User Agent Switcher 0.7.2 um oben genannten User-Agent ergänzt und dann meinen Firefox auf diesen User Agent umgestellt. Ein Neuladen der Webseite Webseiten-Infos.de führte dann zu folgender Meldung:
Forbidden
You don’t have permission to access / on this server.
Mit den anderen User Agents für die gängigen Browser lässt sich dagegen die Website Webseiten-Infos.de problemlos aufrufen.
Seitdem ich die .htaccess entsprechend ergänzt habe, finden sich in den Logdaten auch keine neuen Zugriffe mit diesem User Agent mehr.
Die Aussperrung dieses User Agent scheint also zu funktionieren.
Solltest Du Anmerkungen oder Verbesserungsvorschläge haben, dann nur her damit.
Infos
Webseite veröffentlicht am Donnerstag, den 11. März 2010, um 02:14 Uhr, zuletzt geändert am Freitag, den 30. Juli 2010, um 21:22 Uhr.
Kategorie: Sonstiges
Schlagworte: .htaccess, IP-Adresse, robots.txt, User Agent, Webseiten
Statistik: 250 Blogbeiträge, 670 Schlagworte, 1,179 Kommentare, 122 Feedleser
1. Thomas Scholz
Kommentar vom 11. März 2010 um 02:58
Was für Spam hat der denn hinterlassen?
2. Dieter
Kommentar vom 11. März 2010 um 07:08
Ich sollte so spät nachts keine Blogbeiträge schreiben.
Du hast mal wieder den Nagel auf den Kopf getroffen.
Die einzige von mir beobachtete Aktivität des Bots war die Missachtung der robots.txt.
Er war mir mit seinen weiterhin extrem häufigen Zugriffen auf meine Webseiten, die mir die Besucherstatistik verfälschen und Serverressourcen verbrauchen, lediglich suspekt. Werde den Titel des Blogbeitrags gleich mal korrigieren.
Danke für den Gedankenschubser!
3. Andreas
Kommentar vom 14. März 2010 um 14:36
Von solchen Bots habe ich bisher noch nichts gehört, aber der Artikel ist dennoch interessant. Ich werde mit den Link mal abspeichern, und wenn ich dann doch Besuch von einem solchen Bot bekomme, weiß ich ja, was ich zu tun habe. Bekäme man Spambots denn auf dieselbe Weise los? Vielleicht bekomme ich von so einem ja über kurz oder lang mal Besuch.
4. Dieter
Kommentar vom 14. März 2010 um 14:56
@Andreas
Geht auch mit Spambots, wenn die einen unüblichen User Agent verwenden oder immer von der gleichen IP-Adresse kommen.
Und im Übrigen kann ich Dir das WordPress-Plugin Antispam Bee gegen automatisierte Spam-Kommentare uneingeschränkt empfehlen.
Ich hoffe, das hilft Dir im Bedarfsfall weiter.
Beste Grüße
Dieter
5. Thomas
Kommentar vom 14. März 2010 um 17:55
Bin auch gerade auf der Suche nach einer besseren Lösung. Leider kommen die SpamBots bei mir immer mit unterschiedlicher IP und auch mit wechselndem UserAgent. Danke für den Tipp mit “Antispam Bee” – kannte ich bisher noch nicht – werd ich mir gleich mal ansehen. Zu der Misachtung der robots.txt solltest du mal auf bot-trap.de schauen.
6. Dieter
Kommentar vom 14. März 2010 um 19:08
@Thomas
Die fleißige Biene Antispam Bee kannst Du auch so einstellen, dass sie die automatischen Spam-Kommentare direkt blockt.
Dann bekommen Du und Deine WordPress-Datenbank diesen Spam noch nicht einmal mehr zu sehen.
Danke für den Hinweis auf bot-trap.de. Steht bei mir schon auf der Liste der Websites, die ich mir noch näher ansehen will. Hast Du denn schon Erfahrungen mit bot-trap.de gemacht?
Beste Grüße
Dieter
7. Icem@n
Kommentar vom 14. März 2010 um 20:47
Auf der Suche nach Infos zu diesem Bot, bin ich auf diesen Eintrag gestoßen. Heute Nacht kam das Ding auch bei mir vorbei und bescherte mir rund 500 Besucher in knappen 4 Stunden. In den Logfiles habe ich bisher nichts Ungewöhnlichliches entdeckt, außer, dass sehr oft das Gästebuch und der Veranstaltungskalender besucht wurde. Ist mir jedenfalls höchst suspekt. Hast du noch weitere Infos zu diesem Spider finden können?
8. Dieter
Kommentar vom 14. März 2010 um 21:14
@Icem@n
Habe leider keine weiteren Infos zu dem Spider gefunden. Da er sich aber entgegen der Website nicht an die robots.txt hält, gehe ich stark davon aus, dass es sich um einen vorgetäuschten User Agent handelt und der Bot mit Sicherheit nicht mein Freund, sondern mein Feind ist.
9. Thomas
Kommentar vom 15. März 2010 um 12:22
@Dieter: Nein, ich habe bisher nur gelesen und gehört, dass das mit der Bot-Falle super funktionieren soll. Wenn bei der Antispam Bee die Beiträge nichtmal mehr in der Datenbank landen, wäre das ja ein echter Vorteil gegenüber SpamKarma – wobei man das dort vielleicht auch einstellen kann und ich habs nur noch nicht gefunden.
10. Dieter
Kommentar vom 15. März 2010 um 15:49
@Thomas
Dann werde ich demnächst mal bot-trap.de ausprobieren.
SpamKarma habe ich noch nicht eingesetzt. Dazu kann ich deshalb nichts sagen.
Antispam Bee blockiert in der Standardeinstellung automatische Spam-Kommentare. Diesbezüglich zitiere ich mal aus der Dokumentation von Antispam Bee:
11. Thomas Scholz
Kommentar vom 15. März 2010 um 16:06
@Dieter: Das kann aber auch ein Nachteil sein, denn ein Versehen kann man dann nicht mehr korrigieren.
Ich würde die rabiate Methode des unkontrollierten Löschens nur benutzen, wenn täglich so viel Spam einschlägt, daß eine manuelle Kontrolle ohnehin nicht mehr zu bewältigen ist. Nur dann.
Einmal am Tag 50—100 Spamkommentare zu überfliegen, halte ich noch für vertretbar.
12. Dieter
Kommentar vom 15. März 2010 um 17:12
@Thomas
Wie Du der Grafik in meinem Blogbeitrag “Spamschutz nur mit Antispam Bee” entnehmen kannst, habe ich den Haken bei Spam markieren, nicht löschen gesetzt.
Ich teile Deine Einschätzung, dass die rabiate Methode des unmittelbaren automatischen Löschens nur in Ausnahmefällen gewählt werden sollte.
Über 50 Spam-Kommentare an einem Tag sind bisher auf Webseiten-Infos.de die absolute Ausnahme. Unabhängig davon untersuche ich gerne kurz die Spam-Kommentare hinsichtlich irgendwelcher Auffälligkeiten (insbesondere IP-Adressen sowie User Agent mit chCounter).