Offener Brief an Google / Open Letter to Google
Folgenden offenen Brief möchte ich nach dem AOL-Suchdaten-Skandal an Google richten. Verbesserungsvorschläge sind sehr willkommen, wer sich dem Brief anschließen möchte, möge einen Kommentar oder ein Trackback hinterlassen.
Sehr geehrtes Google-Team,
die Katastrope, die AOL mit den Daten ihrer Suchanfragen „gelungen“ ist, dürfte Ihnen ja bekannt sein. Der einzige Weg, so etwas sicher zu vermeiden, ist es, solche Daten nicht zu speichern. Die US-Regierung hat ebenfalls die Herausgabe von Suchdaten gefordert. Wo keine Suchdaten sind, können keine gestohlen, veröffentlicht, herausgegeben oder beschlagnahmt werden. Ich bitte Sie daher: Sammeln Sie bitte keine derartigen Daten. Vernichten Sie bitte alle derartige Daten, die Sie bereits gesammelt haben. Der mögliche Nutzen, den solche Daten sicherlich bergen, ist das Risiko nicht wert. (Etwas anderes ist es, wenn Benutzer z. B. die personalisierte Suche benutzen wollen. Dann sollten aber nur die Daten der Benutzer, die diese Funktion verwenden, gesammelt werden, und auch da nur die absolut notwendige Menge.)
Eine wirkliche Anonymisierung der Daten z. B. durch Zusammenfassen, vollständiges Entkoppeln von Benutzer-IDs etc. wäre denkbar, nur selten gesuchte (und für die Analyse daher vermutlich unwichtige Begriffe) sollten nur sehr kurz gespeichert werden, um Suchen nach Sozialversicherungsnummern und ähnlichem nicht zu speichern, da Identitätsdiebstahl ein äußerst ernstzunehmendes Risiko ist.
mit freundlichen Grüßen
Jan Schejbal
[eng]I intend to send the following open letter to Google. Suggestions are highly welcome, if you want to support this letter, leave a comment or trackback.Dear Google-Team,the messup AOL managed to make with their search log data is probably known to you. The only way to safely avoid such things is not to collect such data. The US government also demanded the release of search data to them. If there are no search data, none can be stolen, published, leaked, given away or be seized. Therefore I am asking you: Please do not collect such data. Destroy all such data you have already collected. The possible advantage such data can provide is not worth the risk. (It is something different if users want to use the personalized search or similar features. However, then only data from users using these features should be collected, and also here only the absolutely necessary amount.)
A real anonymization of the data, for example by aggregation, completely removing any kind of user ID or similar measures would also be possible, terms that are searched for only very few times (and are therefor probably worthless for analysis anyway) should be discarded after a short time to avoid storing searches containing social security numbers and similar things. (Identity theft is a big risk.)
with best regards
Jan Schejbal
