Spam in Google Analytics ist nicht nur nervig, sondern erschwert auch das professionelle und konzentrierte Arbeiten mit den Daten. Der Spam-Amount stieg seit den letzten Jahren um ein Vielfaches an. Dies bestätigt nicht nur die Google Suche nach dem Begriff „google analytics spam“, sondern auch eine aktuelle Umfrage des Software-Giganten
Was genau ist Spam in Google Analytics?
Es gibt viele Nutzer im Internet, die schnelles Geld verdienen und dabei für ihre eigene Webseite Werbung machen möchten. Da echte und professionelle Werbung sehr teuer sein kann, benutzen sie sogenannte Bots. Dabei handelt es sich um Programme oder Skripte, die ein und den selben Ablauf auf einem anderen Endgerät (hier ein anderer Server) wieder und wieder ausführen. Diese Bots verursachen somit einen Traffic Ihrer Daten, den es so gar nicht gibt, welcher jedoch trotzdem im Zugriffsbericht auftaucht. Diese fake Daten können die Auswertung erschweren und sind sehr nervig.
Wie umgeht man den Spam im eigenen Google Analytics Account?
Es gibt einige Einstellungen, die Sie anwenden müssen, um den meisten Spam zu entfernen. Das Anwenden dieser Einstellungen dauert ungefähr 15 Minuten.
Zuerst benötigen Sie eine Liste mit Domains, die Ihren Google Analytics Code enthält. Dies sollten in erster Linie Ihre eigene Webseite, sowie ihre Unterdomains sein. Es reicht aus, wenn Sie sich nur die Hauptdomain notieren, da mit dieser auch alle Unterdomains abgearbeitet werden. Vergessen Sie nicht, auch an andere Anbieter wie YouTube oder Google zu denken, bei denen sich Ihr Code unter Umständen ebenso finden lässt. Nach diesem Schritt sollten Sie eine Liste mit Webseiten haben, auf denen Ihr Code zu finden ist. Diese Liste muss nun in eine sogenannte „Regular Expression“ (kurz regex) umgewandelt werden.
Ein regex ist für den Computer eine Art Anweisung, wie er einen bestimmten Text modifizieren soll. Regex wurde zuerst für Unix-Systeme entwickelt, um Textbearbeitung zu vereinfachen. Mit Regex lassen sich z.B. Zeichenfolgen in einem Text suchen, bearbeiten, ersetzen usw.
Angenommen, Sie haben sich die drei Webseiten notiert: webseiteA.com (mit Unterdomains), webseiteB.com und webseiteC.com. Diese drei Webseiten fügen Sie nun zu folgender Regular Expression zusammen:
webseiteA\.com|webseiteB\.com|webseiteC\.com
Falls Sie mit regex nicht vertraut sind, müssen Sie nicht sofort das Manual zum Programm lesen, es reicht völlig aus, diese Regel so anzuwenden. Sie notieren zuerst den Namen der Domain, gefolgt von einem Backslash (\) und der Domain-Endung. Die einzelnen Domains werden durch einen senkrechten Strich (|) getrennt. Zwischen den einzelnen Zeichen dürfen keine Leerzeichen sein (wichtig!). Sollte im späteren Verlauf etwas nicht wie gewünscht funktionieren, so liegt es wahrscheinlich an einem fehlerhaften regex. Nun stellen Sie die Einstellungen so ein, dass nur noch Traffic von diesen Domains in Ihre Daten hinzugefügt wird. Hierfür loggen Sie sich in Ihren Google Analytics Account ein, gehen zu „Administrator“, dann zu „Filter“ in der Reportansicht. Dort finden Sie den Button „Filter hinzufügen“, danach wählen Sie „Eigener Filter“ aus. Darunter können Sie zwischen „einschließen“ oder „ausschließen“ aussuchen – wählen Sie bitte „ausschließen“. In das darunterlegende Textfeld geben Sie nun die regex ein, die Sie vorher erstellt hatten. Oben können Sie noch einen Namen für den Filter vergeben, hier gibt es keine Regeln, denen Sie folgen müssen. Abschließend klicken Sie auf „speichern“, um die eingegebenen Daten zu sichern.
Dieser Schritt entfernt den Spam leider nicht vollständig. Es existieren sogenannte „Crawler“ – haben diese einmal Ihren Domainnamen, werden diese immer wieder neue Fakedomains Traffic auf Ihrer Seite generieren lassen, somit würden Sie den ersten Schritt immer wieder aktualisieren müssen.
Im zweiten Schritt können Sie eine Liste an Domains zu Ihrem Filter hinzufügen, die eine Menge an Spam-Domains erhält. Es gibt einige dieser Listen im Internet, unter dem folgenden Link finden Sie eine aktuelle Liste von Spam-Domains bei GitHub:
https://github.com/ddofborg/analytics-ghost-spam-list/blob/master/adwordsrobot.com-spam-list.txt
Später erfahren Sie, wie Sie diese Liste einfach zu Ihrem Filter hinzufügen. Bevor Sie das tun, können Sie Ihre Daten zuerst „aufräumen“. Dies ist zwar mühsam und dauert eine Weile, Sie können sich aber sicher sein, dass Sie nur die fake Daten entfernen und keine wichtigen Daten löschen. Gehen Sie dazu in Ihrem Report auf „Datennahme“ und dann auf „Quelle/Medium“ und halten Sie Ausschau nach Traffic, der Ihnen merkwürdig vorkommt. Dabei handelt es sich meist um ausländische Seiten, oft aus dem russischen oder asiatischen Raum. Entfernen Sie diese Domains, indem Sie wieder einen passenden Filter erstellen (wie vorher). Eine Besonderheit ergibt sich bei Webseiten, in deren Namen Zahlen und Sonderzeichen vorkommen, wie z.B. „5-3-spam.com“. Der regex für solch eine Domain würde folgendermaßen aussehen:
5\-3\-spam\.com
Sonderzeichen werden von regex als interne Befehle erkannt und müssen daher auch mit dem Backslash versehen werden. Falls Sie eine große Menge an Domains haben, die Sie ausschließen möchten, müssen Sie folgendes beachten: das Textfeld mit der regex hat eine Länge von nur 255 Zeichen. Sie benötigen also unter Umständen mehrere Filter, um alle Domains auszuschließen.
Spam kann auch im Sprach-Report auftauchen und Ihre Daten komplett unbrauchbar machen. Spam-Sprachen bestehen dabei nicht aus den gewöhnlichen Sprachen wie z.B. de-de oder en-us, sondern aus Sätzen, die zu Handlungen auffordern oder Werbung für andere Domains machen. Um diese zu entfernen, können Sie ebenfalls einen Filter mit einem regex erstellen, dieser sieht in dem Fall folgendermaßen aus:
.{13,}\.
Dieser Filter schließt alle Sprachen aus, die mehr als 13 Zeichen enthalten (die meisten besitzen 5 Zeichen), sowie alle Sprachen, die ein Leerzeichen besitzen. Den Filter erstellen Sie nach dem selben Prozedere, wie auch die Filter beim vorhergehenden Report.
Der letzte Schritt besteht nun darin, für alle einen Bot-Filter einrichten. Damit richten Sie Ihren Google Analytics Account so ein, dass kein Traffic aufgezeichnet wird, der von Bots automatisch erstellt wurde. Dazu gehen Sie zu „Administrator“, danach auf „Einstellungen anzeigen“ und wählen nachfolgend das Kontrollkästchen „Bot Filter“ aus. Damit schließen Sie jeglichen Datenverkehr aus, der von Bots erstellt wird.
Fazit
Zur Zeit arbeitet Google an einer permanenten Lösung für die Bekämpfung des Spams in Google Analytics und in E-Mails. Bis diese Lösung fertig wird, kann diese kurze Anleitung benutzt werden, um Spam schnell und sicher zu entfernen. Denken Sie daran, die Filter bei neuen Spam-Domains zu aktualisieren.
Jetzt Unterstützung in Webanalyse erhalten