Etwas über Apple, Differential Privacy und die Sache mit den Daten

Apple hat angekündigt Differential Privacy für die Analyse von Kundendaten zu nutzen. Einige Gedanken hierzu.

Alle wollen deine Daten! Zumindest fast alle der großen Mega-Tech-Hyper-Super-Social-Cloud-Mobile-Follower-Anbieter wollen deine Daten. Google, Facebook, Microsoft und Co brauchen die Informationen der Konsumenten – der Menschen – um ihre Algorithmen zu füttern und stärker zu machen. Sie erhoffen sich davon, dich als Menschen besser kennenzulernen, dein Verhalten vorherzusagen und dieses Wissen im besten Falle zu monetarisieren. Nebenbei verkaufen sie ihre Algorithmen, ihre kognitiven intelligenten APIs und smarten Services.

Doch mit den Daten ist es so eine Sache. Auch wenn kaum noch jemand seine (digitale) Privatsphäre schützt, reagieren einige Menschen auf die Verarbeitung ihrer Daten sensibel. Diese schaffen es, auch Menschen auf die Barrikaden zu bringen, die sich zuvor nicht sonderlich für Datenschutz interessiert haben. Kurzum: Privacy ist ein Thema. Daher positionieren sich auch sehr viele Anbieter von IT und Digitalem mit dem vermeintlichen Schutz des ach so hohen Gutes Privacy.

Bis jetzt war Apple in der Vorreiterrolle, wenn es um den Schutz der Privatsphäre seiner Kunden ging, zumindest wurde das den Kunden suggeriert. Starkes Marketing – gute Positionierung gegen die Wettbewerber. Nicht mehr und nicht weniger. Im Marketingsprech klingt das dann ungefähr so: Ja, unser Ziel ist es, tolle Produkte zu verkaufen.

Aber gerade diese „tollen Produkte“ müssen natürlich ebenfalls weiterentwickelt werden. Eine Auswertung des Nutzungsverhaltens der Apple-User ist dafür ein probates Mittel. So ist das halt. Kannste gut finden, musste aber nicht. Wird aber trotzdem so gemacht.

Erschwerend kommt noch hinzu, dass es gerade jetzt, wo zwar noch immer Milliarden verdient werden, aber die Wachstumsgeschichte nicht mehr stimmt und so langsam das Talent ausgeht, gilt, neue Umsatzquellen zu erschließen. Scheiß auf Marketing, scheiß auf den Kunden, scheiß auf den letzten Funken von Moral und Ethik. Gesagt, getan. Da das Image also eh schon ruiniert ist, steigt Apple in die Verarbeitung der Daten der Kunden ein.

Businessman works and designs with futuristic technology
©alphaspirit/Fotolia

So richtig will man sich die Finger aber noch nicht schmutzig machen, die eigene Weste soll ja zumindest weißer bleiben als die der Konkurrenz. Rückschlüsse aus dem Verhalten und den Kommunikationsgewohnheiten der einzelnen Nutzer sollen nicht gezogen, sondern den Kunden lediglich nützlichere Empfehlungen angeboten werden. Frei nach dem Motto: Wasch mich, aber mach mich nicht nass.

Eigentlich will man alles über den Anwender wissen, aber dann irgendwie doch nicht – jedenfalls nicht auf Ebene des Individuums, wenigstens nicht sofort und schon gar nicht öffentlich. Und des Weiteren …

Ach, machen wir es kurz: Apple nutzt Differential Privacy. Differential what? Privacy wer? Was soll das denn sein?

Ninja. Robber hiding behind a door with space for text
©Andrey_Burmakin/Fotolia

Was ist Differential Privacy?

Erklären wir es zunächst am Beispiel Apple: Wie bereits erwähnt, will Apple tolle Produkte verkaufen. Das ging lange gut, jetzt nicht mehr so. Okay – frei nach Henry Ford: Frag‘ ich also mal den Kutscher, ob er schnellere Pferde will; oder so. Heutzutage wird aber keiner mehr gefragt, sondern persönliche Nutzerdaten werden einfach analysiert.

Das lässt sich am besten bewerkstelligen, indem das Nutzungsverhalten der Apple-Nutzer ausgewertet wird. Gerade für solche Auswertungen müssen Daten gesammelt werden. Und wie es nun mal so ist, erhält man durch das Sammeln von anonymen Daten in der Regel weniger aussagekräftige Resultate. Deshalb müssen also personalisierte Daten erhoben werden. Dabei soll – im Falle von Apple – der Unterschied zu anderen Unternehmen aber darin bestehen, dass die gesammelten Daten auf eine andere Art und Weise ausgewertet werden. Das aktuelle Marketingversprechen dabei ist, zwar personalisierte Nutzerdaten zu sammeln, diese aber so auszuwerten, dass am Ende keine Rückschlüsse auf ein einzelnes Individuum möglich sind. Schließlich wird so dann auch die Privatsphäre der Benutzer gewahrt, vorausgesetzt, die Daten werden nicht weitervermittelt oder gar veröffentlicht.

Abstract digital communication technology background. Vector illustration
©Alex/Fotolia

Das Konzept, bei der Verarbeitung von Daten die Privatsphäre eines Einzelnen zu bewahren, ist bereits seit längerem bekannt und wird als „Differential Privacy“ bezeichnet. Es geht dabei darum, so viel wie möglich über eine Zielgruppe zu lernen, andererseits aber nichts über eine einzelne Person zu erfahren. Das ist möglich, indem die Daten so ausgewertet werden, dass die Privatsphäre eines Einzelnen geschützt wird.

Hä, wie jetzt? Verstehe ich nicht!

Also: Zunächst ist generell eher unklar, wie Privatsphäre überhaupt definiert sein soll. So könnte man meinen, dass diese bereits durch das bloße Erheben von Daten verletzt wird. Das Prinzip von „Differential Privacy“ beruht aber darauf, dass die Auswirkung des Ergebnisses einer Studie (einer Analyse) unabhängig von der Teilnahme eines Individuums an besagter Studie sein soll. Angenommen, es werden Alter, Geschlecht, Partner, Kinder, Qualifikation und Erwerbstätigkeit einer Zielgruppe, natürlich auf Basis eines jeden Individuums, erhoben. Das Ergebnis ist: „Menschen mit geringem Einkommen sind häufiger krank“. Die Wirkung dieses Ergebnisses könnte sein, dass Versicherungen ihre Beitragssätze anpassen, sodass Personen mit einem geringen Einkommen einen höheren Beitrag entrichten müssen. Durch das Ergebnis der Studie wären Teilnehmer mit niedrigem Einkommen also unmittelbar betroffen. Andererseits ist es aber wichtig festzuhalten, dass keine individuellen Informationen veröffentlicht wurden. Höhere Beitragssätze würden allein dadurch zustande kommen, dass Versicherungen Informationen über das Einkommensverhältnis jedes Versicherten besitzen. Dieses Prinzip bedeutet gerade, dass das Ergebnis der Studie zustande gekommen ist, ohne persönliche Daten der Teilnehmer preiszugeben. Welche Auswirkungen das Gesamtergebnis auf ein Individuum hat, hat nichts mit „Differential Privacy“ zu tun.

Diskretion
©Everett Collection/Shutterstock

„Differential Privacy“ versichert also, immer dasselbe Ergebnis zu erreichen, unabhängig davon, ob eine einzelne Person in der Zielgruppe ist oder nicht. Insbesondere wird hierbei aber auch abgesichert, dass das Auftreten jeder Reihe von Ergebnissen, also die Ergebnisse mehrerer Studien basierend auf verschiedenen Teilmengen derselben Grundmenge, im Grunde gleich wahrscheinlich ist, unabhängig von der Teilnahme eines Individuums. Die Wahrscheinlichkeiten werden nämlich aus zufällig ausgewählten Teilmengen bestimmt und die Aussage „im Grunde gleich wahrscheinlich“ wird durch einen Parameter ɛ beschrieben. Desto kleiner ɛ ist, desto besser wird die Privatsphäre bewahrt.

Weiter sollte auch festgehalten werden, dass „Differential Privacy“ eine Definition und kein Algorithmus ist. Aber natürlich werden die gesammelten Daten mithilfe von Algorithmen ausgewertet. Für diesen Kontext benutzte Algorithmen sollten also die Eigenschaft haben, dass sie die Privatsphäre schützen. Dabei soll außerdem angenommen werden, dass sich die gesammelten Daten in einer sicheren Datenbank D befinden. Im Grunde gibt es viele solche Algorithmen, die sich aber in der Genauigkeit der Geheimhaltung ɛ unterscheiden. Für eine gegebene Aufgabe T und eine gegebene Geheimhaltungsquote ɛ gibt es dann eine Vielzahl von Algorithmen um die Aufgabe T umzusetzen, wovon manche eine bessere Genauigkeit haben als andere. Für ein sehr kleines ɛ, kann es jedoch schwierig sein, einen passenden Algorithmus zu finden, der zudem noch sehr genaue Ergebnisse liefert.

Rear view of security guard searching on stairway with flashlight in office building
©Andrey_Popov/Fotolia

Etwas genauer bitte!

Das Vorgehen eines Verfahrens, welches das Konzept „Differential Privacy“ anwendet, kann aber trotzdem beschrieben werden. Dazu soll angenommen werden, dass es eine vertrauensvolle Person gibt, die die sichere Datenbank D verwaltet. Zunächst werden die erhobenen personalisierten Daten in die Datenbank D eingespielt, wobei jede Reihe in der Datenbank die Daten einer einzelnen Person enthält.

Das Ziel ist es, gleichzeitig jede einzelne Reihe zu schützen während eine statistische Auswertung auf die gesamte Datenbank angewandt wird. Dazu wird im Offline- bzw. Überwachungsmodus ein Objekt von der Datenbank erstellt, also eine Art „synthetische Datenbank“. Diese „synthetische Datenbank“ entsteht durch Verfremden der Originaldaten; dies geschieht nur einmalig und danach nie wieder. Nachdem die synthetische Datenbank erstellt wurde, können die Originaldaten gelöscht werden. Nachfolgend werden verschiedene Abfragen an das nun interaktive Modell gestellt.

Die Abfragen werden automatisch angepasst, je nachdem, welches Resultat die Daten aufgrund der vorherigen Abfrage lieferten. Falls alle Abfragen im Voraus bekannt sind, sollte das interaktive Modell die beste Genauigkeit liefern, da es aufgrund der Kenntnis über die auszuführenden Abfragen in der Lage ist, Störungen zu korrelieren. Ist allerdings im Vornherein nicht klar, welche Abfragen an das Modell gestellt werden sollen, so steht das interaktive Modell vor einer Herausforderung.

Schließlich müssen dann alle möglichen Fragen beantwortet werden. Um die Privatsphäre zu beschützen, also die Geheimhaltungsquote ɛ zu erfüllen, lässt sich dann beobachten, dass sich die Genauigkeit verschlechtert je mehr Abfragen ausgeführt werden müssen.

Die Abfragen werden von einem sogenannten Privatsphäre-Mechanismus ausgeführt. Dieser bekommt als Eingabe die Datenbank, einige zufällige Bits und optional eine Reihe von Abfragen. Der Mechanismus erzeugt dann eine Ausgabezeichenfolge.

Die Hoffnung ist, dass diese Ausgabezeichenfolge decodiert werden kann um eine relativ genaue Antwort auf die Fragen zu erhalten. Falls im Vornherein keine Abfragen in den Mechanismus übergeben wurden, so ist die Hoffnung, dass die Ausgabezeichenfolge interpretiert werden kann, um zukünftige Abfragen zu beantworten.

Es ist also ersichtlich, dass die Umsetzung von „Differential Privacy“ recht kompliziert sein kann. Im Hinblick auf persönliche Daten kann man aber ziemlich sicher sein, dass keine individuellen Daten nach außen dringen, sofern alles richtig implementiert wurde. Dabei kommt es natürlich auch auf den Schutz der Datenbank vor Löschung der Originaldaten an.

Neben dem „Differential-Privacy-Ansatz“ gibt es natürlich auch einige andere Ansätze, um die Privatsphäre eines Individuums zu beschützen. Gerade hinsichtlich dieser Ansätze gibt es aber durchaus Bedenken. Eine These ist zum Beispiel, dass Daten nicht gleichzeitig völlig anonymisiert und nützlich sein können. Gemeinhin gelten schließlich detailliertere Daten als interessanter und nützlicher. Das führt dazu, dass die Daten mitsamt persönlichen Informationen ausgewertet werden und individuelle Informationen erst im Nachhinein gelöscht werden. Hierbei ist es allerdings möglich, eine individuelle anonyme Person aufgrund der ihr zugeordneten Daten zu bestimmen. Dieses Ergebnis kann wiederum dazu benutzt werden, die anonymisierten Daten mit nicht-anonymisierten Daten abzugleichen. Auf diesem „Umweg“ lassen sich dann Rückschlüsse über die Originaldaten ziehen.

Ein weiterer Kritikpunkt ist die Behauptung, dass sogenannte zusammengefasste Ergebnisse nicht sicher sind. Auch hier können Rekonstruierungsangriffe in solchen Datenbanken, in denen jedes Individuum einen eigenen geheimen Schlüssel besitzt, gestartet werden. Das Ziel ist es, Anfragen an die Datenbank, wie zum Beispiel „Wie viele Personen erfüllen Bedingung P und haben den geheimen Schlüssel 1?“, zu stellen. Durch diese Abfrage wird die Chance erhöht, die geheimen Schlüssel von Individuen zu bestimmen.

Businessman looking to the internet through the computer
©alphaspirit/Fotolia

„Differential Privacy“ hat hier den Vorteil, dass das Zurückführen auf die Originaldaten nicht möglich ist. Das liegt daran, dass die vorliegenden Daten nicht anonymisiert, sondern wirklich verändert werden, und zwar bevor auch nur eine statistische Auswertung durchgeführt wird. Dadurch lässt sich später mit mathematischer Gewissheit sagen, dass die Daten eine Geheimhaltungsquote von ɛ erfüllen, das heißt, je kleiner ɛ, desto sicherer sind die Daten.

Wie genau die Daten zu Beginn verfremdet werden, lässt sich nicht so leicht beantworten. So hat auch Apple über diesen Punkt bisher noch keine Aussage getroffen. Durch das Hinzufügen eines „Rauschens“, also einer Art Störung, in die Daten, ist es aber in jedem Fall möglich, die Daten zu verfremden und gleichzeitig die gewünschten Eigenschaften zu behalten. Die gestörten Daten werden dann in neuen Einträgen gespeichert. Um den Voraussetzungen für „Differential Privacy“ zu genügen, müssen die gestörten und die Originaldaten aber ununterscheidbar voneinander sein.

Von Apple ist wohl zu erwarten, dass die Verfremdung der Daten und auch die Umsetzung eines Algorithmus der die Privatsphäre bewahrt, mit viel Aufwand und konsequent implementiert wird. Jedenfalls zunächst. So lange bis der Hunger, die Gier noch größer wird. Ganz nach dem Motto: Wer einmal dran geleckt, der weiß wie‘s schmeckt!

©everett/Shutterstock

Sollten andere Unternehmen dem Beispiel folgen?

Theoretisch ist es aber auch für andere große oder kleine Unternehmen möglich, statistische Auswertungen unter Beachtung von „Differential Privacy“ durchzuführen. Die Theorie hinter diesem Konzept ist für jeden zugänglich und es existiert bereits eine Vielzahl konkreter Algorithmen. Diese beziehen sich zwar auf spezielle Fallstudien, Anpassungen sind aber gleichwohl möglich. Natürlich sollten die oben beschriebenen Schritte beachtet werden. Bei dem Verfremden der Daten kann dabei auch auf relativ einfache Ansätze zurückgegriffen werden.

Der einfachste Ansatz ist dabei, die Anzahl der verschiedenen Datensätze zu bestimmen und sie mithilfe der Laplace-Verteilung in Verbindung mit dem Parameter 1/ɛ zu verschieben. Aufgrund der Eigenschaften der Laplace-Verteilung sind dann auch die Eigenschaften von „Differential Privacy“ mit ɛ-Privatsphäre gewährleistet. Ein Algorithmus der die statistischen Auswertungen durchführt, müsste schließlich noch an das jeweilige Problem angepasst werden. Durch das konsequenten Einhalten der Voraussetzungen lässt sich somit die Privatsphäre von Nutzerdaten bewahren.

 

Andererseits sollte aber auch beachten werden, dass der Aufwand zur Implementierung eines solchen Verfahrens groß ist. Das Verfahren liefert zwar gute Ergebnisse und bewahrt zudem noch die Privatsphäre, im Allgemeinen sollte die Anzahl der Datensätze aber so umfangreich sein, dass auch eine statistische Aussagekraft gewährleistet werden kann. Des Weiteren werden eine Menge Ressourcen benötigt, um das Verfahren zu implementieren. Deshalb sollte der zu erwartende Nutzen stets größer sein als die Kosten für die Entwicklung oder einen Dienstleister.

Insgesamt lässt sich also zusammenfassen, dass es durchaus einige Ansätze gibt, um persönliche Nutzerdaten geheim zu halten. Mit dem „Differential-Privacy-Prinzip“ kann genau berechnet werden, wie sicher ein Algorithmus ist. Das ist momentan der große Vorteil gegenüber anderen Ansätzen, bei denen sich beispielsweise anonymisierte Daten auf die Ursprungsdaten zurückführen lassen und somit keine Sicherheit gewährleistet ist. Ein Algorithmus, der das „Differential-Privacy-Prinzip“ umsetzt, ist die bessere Wahl. Dennoch sollte zunächst abgewogen werden, ob sich der Aufwand zur Umsetzung eines solchen Verfahrens lohnt.

boy with green apples showing biceps
©ruslanshug/Fotolia

Was bleibt

Was Apple hier abzieht, ist gutes Marketing. Andere Unternehmen sollten dem Beispiel folgen und nicht nur auf Algorithmen setzen, sondern auch auf Definitionen. Ein grundsätzlich gut genordeter moralischer Kompass kann auch nicht schaden.

Disclaimer: Da ich an dem Tag, an dem Statistik und Analytics in der Uni gelehrt wurde, krank war, habe ich mich für den Artikel durch meine Kollegin Mabelle Franke, die bei Avispador für das Thema Datenanalyse verantwortlich ist, coachen lassen. Vielen Dank hierfür.

Axel Oppermann
Axel Oppermann ist seit über 15 Jahren als IT-Marktanalyst tätig. Aktuell arbeitet er für das Beratungs- und Analystenhaus Avispador als Analyst. Axel schreibt bei Denkhandwerker über Trends und nachhaltige Entwicklungen.