Bots, die über das Internet automatisiert nach ausnutzbaren Schwachstellen in Systemen suchen. Bots, die tausendfach Hassbotschaften in die sozialen Netzwerke spülen, um die Demokratie auszuhöhlen. Bots, die bei einem DDoS-Angriff ein System mit einer überwältigenden Anzahl von Zugriffen gleichzeitig in die Knie zwingen. Bots, die den Inhalt von sozialen Netzwerken oder anderen Websites in großem Maßstab ungenehmigt kopieren, um ihn als Trainingsmaterial für KI-Systeme zu verwenden. In vielen Fällen verbindet man mit “Bots” eher Dinge, die man nicht auf seiner Website haben möchte.

Um diese Bots draußen zu halten, stellen Anbieter wie Cloudflare die passenden Funktionen zur Verfügung. Dazu können beispielsweise Captchas eingesetzt werden, die ein automatisiertes System (hoffentlich noch nicht) lösen kann. Oder man orientiert sich grob an der IP-Adresse: Stammt die IP-Adresse, von der die Anfrage kommt, aus einem Addressbereich, der für Internetzugänge für “echte Menschen” verwendet wird, oder aus einem Block, in dem eher Server angesiedelt sind? In letzterem Fall liegt die Vermutung nahe, dass es sich bei dem Besucher um ein automatisiertes System handelt.

Wie auch immer man die Bots im Detail draußen hält, man sollte dabei nicht vergessen, dass es auch erwünschte Bots gibt. Ein wichtiger Vertreter aus dieser Gruppe sind Feedreader. Kurz zur Erklärung, falls jemand mit diesen sehr nützlichen Werkzeugen noch nicht vertraut sein sollte: Web-Feeds stellen Inhalte einer Website, beispielsweise kürzliche Änderungen oder die neuesten Beiträge, in einem definierten Format zur Verfügung. Diese Feeds können dann von speziellen Programmen, eben Feedreadern, verarbeitet werden. Aus Sicht des Lesers kann man mit einem Feedreader sehr einfach mehreren bis vielen Websites folgen, ohne sie regelmäßig von Hand abklappern zu müssen, ob es dort wohl etwas neues gibt. Die wichtigsten Formate für Web-Feeds sind RSS und Atom.

Diese Feedreader sind nun allerdings, genauso wie die eher übelwollenden Beispiele von weiter oben, automatisierte Systeme oder, wenn man so will, Bots. Deshalb kann es durchaus passieren, dass sie von Cloudflare & Co. an der Tür abgewiesen werden. Dann funktioniert das Aktualisieren der Feeds nicht, und die potentiellen Leser der Website werden beispielsweise nicht über neue Beiträge informiert. Darüber hinaus gibt es noch weitere automatisierte Systeme, von denen man möchte, dass sie auf die eigene Website zugreifen, beispielsweise Crawler von Suchmaschinen. Es ist also sinnvoll, nicht pauschal alle Bots auszusperren, sondern sich etwas detaillierter Gedanken zu machen, wer rein dürfen soll und wer nicht, unter welchen Bedingungen, in welchem Umfang und so weiter.

Cloudflare und andere Sicherheits-Dienstleister bieten üblicherweise die Möglichkeit, Ausnahmen für die Bot-Abwehr einzurichten. Beispielsweise können sich diese Ausnahmen am User Agent (engl.) orientieren, oder man nimmt bestimmte URLs (etwa https://meine.website.tld/feed) gezielt aus der Abwehr aus. Die Details hängen unter anderem von der Struktur und dem Angebot der eigenen Website ab, und davon, was der jeweilige Sicherheits-Dienstleister zur Verfügung stellt.

Zusammengefasst kann man sagen: So wichtig die Abwehr von Gefahren aus dem Internet natürlich ist, ohne weiteres Nachdenken die Tür einfach komplett zuzumachen kann ungewollt auch “Nützlinge” draußen halten.

Dieser Blog hat übrigens auch einen Feed im Atom-Format, der nicht von einer Bot-Abwehr geschützt ist.