Identität und Privatsphäre Online
(Update: Weblin, DHL und Plugin-Hersteller werden die Daten nicht aus. Wurde mir gesagt.
Immer mehr Web 2.0 Services buhlen um die Gunst des Nutzers. Dabei geht der Trend immer mehr zu solchen, die das Verhalten der Nutzer speichern und analysieren. Dies geschieht selbstverständlich zunächst zum Nutzen des Nutzers. Doch hinter den Kulissen entstehen ganz nebenbei Datenmengen, die den jeweiligen Firmen zum Teil sehr tiefe Einblicke in “die Seele des Users” geben kann. Die folgende Aufzählung basiert auf meiner Erinnerung. Ich gehe davon aus, dass es noch viele andere entsprechende Beispiele gibt.
Das erste entsprechende Programm, an das ich mich erinnern kann, ist WinAmp. Nach entsprechender Nachfrage sendete WinAmp die gespielten Titel “nach Hause”. Aber es muss ja gar nicht aktiv gesendet werden. Eine Abfrage der Titel einer CD bei einem Dienst wie der CDDB reicht schon. Theoretisch ist FreeCDDB.org in der Lage eine Hitparade zu erstellen, basierend auf den Abrufdaten der unterschiedlichen CDs. Diese Charts sind noch recht ungenau, da die Abfragen aufgrund des verwendeten Protokolls (HTTP) bzw. auch direkt im Player gespeichert werden können. Einen groben Eindruck vermittelt das ganze jedoch schon.
Suche und Traffic-Analyse
Dann kamen die Suchmaschienen, allen voran Google. Die Liste der meistgesuchten Worte “Google Zeitgeist” bot schon früh einen Einblick, welche Themen im Internet wohl am meisten Erfolg haben. Anscheinend hat Google irgendwann Ende 2005 beschlossen, diese Top-Listen nicht mehr so regelmäßig unters Volk zu streuen. Auch wenn es Zweifel an der tatsächlichen Relevanz dieser Listen gibt, so werden sie sicher intern genutzt.
Auch die gängigen Analyse-Tools für Webseiten bieten eine Auflistung der meistgesuchten Begriffe. So kamen im Juni die meisten Besucher, die über Google dieses Blog fanden wegen der Infos über “Mark Selby”, “Dear Mr. President” und “Flashgames” hierher. Auch über die Nationalität und die Verteilung über Tageszeiten und Wochentage wird Auskunft gegeben.
Aber aufgrund von “Offenen APIs”, wie sie bei jedem besseren Web 2.0 Service dazugehören holt sich Google noch mehr Daten. Software wie OWL analysieren Webtraffic mit Hilfe von Google. Somit erhält Google sogar Daten über Traffic, der gar nicht über Google selbst läuft, also auch von Seiten, die kein AdSense-Banner haben und die direkt aufgerufen wurden.
Aber Google ist da ja auch nicht alleine: Jedes Traffic-Tool, jeder Counter, jedes Widget/Gadget/Trashget und jeder Button, der von einem anderen Server eingebunden wird, erhalten die ganzen Informationen über den Besucher.
Web-Desktops
Dirk Von Gehlen hat in “Auf dem Weg zur Weltherrschaft: Was Google noch alles vorhat” die Gefahren der Datenmassen bei Google aufgezeigt. (siehe auch “My Soul, and 10 Other Things that Google Owns“)
Und wie man bei “ Lebensretender Cache” und “Use Google Calendar as your longterm memory” zeigt, wird dieses Datensammeln von vielen nicht als negativ empfunden: Man kann damit prima noch mehr Daten versenken, die man selbst und Google dann nutzen kann. Google natürlich nur annonymisiert per Data-Mining, und man selbst nur wenn man sie wiederfindet. Eine Suchanfrage, die ich mir nach der Lektüre des obigen Artikels gut vorstellen könnte ist z.B.: “Was ist der Durchschnitt der in Terminen des Typs “Geburtstag” gespeicherten Geldbeträge?”
Schon alleine die Google-eigenen Dienste veranlassen BoingBoing dazu, einen für ihre Verhältnisse doch sehr langen Artikel zu veröffentlichen: “Privacy Int’l: Google fails our privacy test. Google: test wasn’t fair.”
Überwachung der Browser-History
Was Mozilla “Chronik” und der IE “Verlauf” nennt, birgt wahre Schätze für Datensammler: Laut New software can identify you from your online habits trauen sich erste Firmen bereits zu, einzelne Personen aufgrund der Browser-History identifizieren zu können. In diesem Zusammenhang ist es dann auch verständlich, dass immer mehr Firmen zugriff auf genau diese Liste der Besuchten Webseiten haben will.
Weblin oder die erhältlichen Pagerank-Plugins für Browser sind Beispiele dafür, dass man dieses Ziel auch “nebenbei” erreichen könnte und den Anwendern dafür nur ein wenig Spaß bzw. Nutzen bieten muss. Auch wenn von diesen Diensten diese Daten weder erhoben noch ausgewertet werden, so führt es doch vor Augen, wie leicht man als Nutzer diesen Teil seiner Privatspäre unbedacht aufgeben kann. Selbstverständlich gehe ich davon aus, dass Weblin, DHL und die Plugin-Hersteller diese Daten nicht sammeln und auswerten - wesentlich “hygienischer” wäre es jedoch, diese Daten erst gar nicht zu erzeugen.
Den gleichen Einwand könnte man übrigens auch gegen den “Paketscheinausfülldienst” der DHL erheben.
Selbst hosten bringt die Kontrolle über die Daten
Aber auch die scheinbar immer mehr in Mode kommenden Web-Desktops haben den großen Nachteil, dass sie vertrauliche Daten auf Servern von fremden Firmen speichern. Jedoch kann man mit etwas Aufwand sich selbst die meisten Applikationen dieser Web-Desktops auf den eigenen Server holen: Software hierfür steht mit Roundcube, Squirrelmail, EyeOS, Hurd (URL?), DokuWiki, Mailman und vielen anderen zur Verfügung.
Das kostet einiges an eigener Arbeit und ist dann vielleicht nicht ganz so integriert wie die “Großen, fertigen Lösungen”.
Nicht so “chique”, aber dafür auf dem eigenen Server. Unter eigener Kontrolle. Meine Daten gehören mir!
Weitere Maßnahmen zur Datenhygiene sind bezahlte Mail-Accounts und regelmäßiges Löschen der Cookies. Und auch ein Tag ohne Google ist eigentlich etwas, was man nicht nur heute machen könnte…

Hallo,
als Mitarbeiter von weblin möchte ich anmerken, dass keine Webseitenverläufe gespeichert werden. Unsere Topcloud, die man auf dem von ihnen verlinkten Blog sehen kann, gibt wieder, wo überall gerade “sichtbare” Weblins surfen. Entscheidet man, nicht sichtbar zu sein, werden angesurfte Seiten nicht in der Topcloud berücksichtigt. Außerdem kann jeder User in seinen Einstellungen auch die Übermittlung seines Standortes an die Topcloud generell deaktivieren (also auch wenn er sichtbar ist).
Ich bin davon ausgegangen, dass Weblin die geltenden Gesetze beachtet und die Daten weder erhebt noch auswertet. Ich habe die entsprechende Passage dahingehend klarer formuliert.
Jedoch habe ich (aufgrund anderer, im Artikel verlinkter Webseiten) den Eindruck, dass seitens der Werbeindustrie entsprechende Begehrlichkeiten vorhanden sind - die nur durch Gesetze gezügelt ist.
Deshalb ist es sehr wichtig aus die eigene “Datenhygiene” zu achten.