# Pseudonymisierung und Anonymisierung

Da ich zurzeit eine Weiterbildung im Bereich Datenschutz absolviere, ist es kein Wunder, dass ich der Datenschutzgrundverordnung (DSGVO) sehr viel Zeit widme. In diesem Zusammenhang, selbst wenn die datenschutzrechtliche Regulierung für spannende Diskussionen sorgt, sind manche Konzepte und Begriffe der DSGVO nicht sofort ersichtlich, insbesondere wegen der Platzierung der Verordnung an der Schnittstelle zwischen Jura und IT.

Zwei Konzepte, die meine Aufmerksamkeit immer gezogen haben, sind die Pseudonymisierung und die Anonymisierung. Diese Techniken sind sehr wichtig, denn sie erlauben demjenigen, der für die Datenverarbeitung verantwortlich ist (oder dem Auftragsverarbeiter) die Anforderungen der DSGVO zu erfüllen. Trotzdem kann es schwierig zu visualisieren sein, wie die zwei Methoden sich umsetzen lassen. 

Aus diesem Grund möchte ich hiermit einige Insights über Anonymisierung und Pseudonymisierung teilen, erklären warum sie wichtig sind, zeigen, wie man sie durchführt und hoffentlich Anderen helfen, ein besseres Verständnis der Technik zu bekommen. 

# Warum sind Anonymisierung und Pseudonymisierung wichtig?

Von einer sozialen Perspektive sind die zwei Techniken wichtig, um die Privatheit derjenigen gewährzuleisten, denen die Daten gehören. Ist eine Datenbank nicht ordentlich anonymisiert oder pseudonymisiert, so kann jemand, der Zugriff auf diese Informationen hat, die Daten eventuell einer bestimmten Person zuordnen und somit Adresse, Telefonnummer, Gehalt, Vorerkrankungen usw. des Betroffenen herausfinden.

Von einer rechtlichen Perspektive sind Anonymisierung und Pseudonymisierung wichtig, um die Anforderungen der DSGVO einzuhalten. Das Ziel der Datenschutzgrundverordnung ist die im letzten Absatz erwartete Privatheit sicherzustellen und dafür verpflichtet die Verordnung den Verantwortlichen der Datenverarbeitung Maßnahmen zu ergreifen, um die Risiken eines Datenlecks oder eines unbefugten Angriffs zu reduzieren. Zu diesen "technischen und organisatorischen Maßnahmen" gehören die Anonymisierung und Pseudonymisierung.

# Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?

Der Unterschied lässt sich leichter anhand des Begriffs "personenbezogene Daten" erklären.

## Personenbezogene Daten

Personenbezoge Daten sind gemäß der DSGVO "alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen". Der erste wichtige Punkt ist, dass Daten von Unternehmen, also von juristischen Personen, nicht unter den Anwendungsbereich der DSGVO fallen.

Der zweite wichtige Punkt ist der Begriff "identifizierbarkeit". Der DSGVO nach gilt eine Person als identifizierbar, wenn sie mittels der Zuordnung zu einem Namen, zu einer Kennnummer, zu einem Standort usw. identifiziert werden kann. Der europäische Gerichtshof hat den Begriff noch präzisiert und gesagt, dass in Anbetracht des Stands der Technik gilt eine Person als identifizierbar, wenn ein Dritter durch die Verwendung von verhältnismäßigen finanziellen, personellen und zeitlichen Mittel in der Lage ist, den Bezug zu der betroffenen Person herzustellen.

Diese Defition seitens des Gerichts unterstreicht die Wichtigkeit von Anonymisierung und Pseudonymisierung, denn diese Maßnahmen erschweren die Herstellung der Verbindung zwischen der betroffenen Person und ihren Daten durch einen Dritten.

## Pseudonymisierung

Die DSGVO bietet eine Definition von "Pseudonymisierung":

- "Die Verarbeitung in einer Weise, dass die personengezogene Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und teschnichen und organisatorischen Maßnahmen unterliegen[...]
    
Im Grund genommen, um die Daten zu anonymisieren, muss der Verantwortliche "ein Stück" der Daten entfernen und durch einen Code z.B ersetzen, so dass die betroffene Person nicht mehr erkannt werden kann. 

Wir können es visualisieren mithilfe des folgenden Datensatzes, der auf [Kaggle](https://www.kaggle.com/democracy-fund/2016-voter-survey) öffentlich zugänglich und aus einer Umfrage von [Voter Study Group](https://www.voterstudygroup.org/about) aus dem Jahr 2016 stammen. Er enthält Angaben von 8000 Wählern aus dem Vereinigten Staaten und sieht wie folgend aus:

In [2]:
import pandas as pd
survey = pd.read_csv(r"C:\Users\celio\Data Analysis\Projects\Random\Voter_Survey/VOTER_Survey_December16_Release1.csv",
                    low_memory = False)
survey.head()

Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
0,779,0.358213,Republican Party,In the Democratic primary,Hillary Clinton,,California,94952,Yes,Yes,...,,,Shelley Berkley,Democratic,Dean Heller,Republican,,,29nov2016 22:59:43,29nov2016 23:28:24
1,2108,0.562867,Republican Party,In the Republican primary,,Donald Trump,Arizona,85298,Yes,Yes,...,,,Richard Carmona,Democratic,Jeff Flake,Republican,,,29nov2016 15:41:28,29nov2016 18:58:28
2,2597,0.552138,Republican Party,In the Democratic primary,Hillary Clinton,,Wisconsin,54904,Yes,Yes,...,,,Tammy Baldwin,Democratic,Tommy Thompson,Republican,,,29nov2016 16:08:39,29nov2016 16:32:43
3,4148,0.207591,Democratic Party,In the Democratic primary,Someone else,,Oklahoma,74104,Yes,Yes,...,,,,,,,,,14dec2016 18:46:33,14dec2016 19:11:20
4,4460,0.333729,Republican Party,In the Republican primary,,Marco Rubio,Texas,78253,Yes,Yes,...,,,Paul Sadler,Democratic,Ted Cruz,Republican,,,01dec2016 10:17:47,01dec2016 10:59:48


Jede Zeile im Datensatz entspricht die Angaben eines Umfrageteilnehmers. Wir können prinzipiell dennoch nicht herausfinden, wer diese Person ist, denn der Name der betroffenen Person wurde durch den Code in der Spalte "case_identifier" ersetzt.

## Anonymisierung

Anonyme Daten sind Daten, die keinen Bezug mehr zu der betroffenen Person haben, und deswegen dem Anwendungsbereich der DSGVO nicht unterliegen. Die Anonymisierung ist zudem eng mit zwei wichtigen Grundsätzen der DSGVO verflochten, nämlich die Zweckbindung und die Datenminimierung:

**Zweckbindung**: diesem Prinzip nach setzt jede Verarbeitung die Festlegung eines Zwecks voraus. Somit ist die anlasslose Erhebung von personenbezogenen Daten verboten. 

**Datenminimierung**: gemäß diesem Grundsatz muss der Verantwortliche nur diejenigen Daten erheben, die absolut erforderlich sind für die Erfüllung des Zwecks. 

Was diese zwei Grundsätze uns zussamen sagen ist, dass wir ein bestimmtes Ziel haben müssen, um Daten zu verarbeiten. Anhand dieses Ziels können wir schon voraussehen welche Daten wir benötigen, um den Zweck der Verarbeitung zu erfüllen. So können wir auch den Grundsatz der Datenminimierung einhalten, der uns verbietet mehr Daten zu sammeln als eigentlich erforderlich.

Diese zwei Grundsätze nehmen nun Bezug zu der Anonymisierung, weil in manchen Fällen die Erhebung von personenbezogenen Daten überhaupt nicht erforderlich ist, um den Zweck der Verarbeitung zu erfüllen. Als Beispiel können wir nennen ein Politiker, der Wissen will, wo seine Wähler sind, um die Wahlkampagne dementsprechend zu gestalten. Bei der Erhebung der Daten muss es nicht nach dem Namen, Nachnamen, Hausnummer, Telefonnummer usw. fragen. Um den Zweck zu erfüllen reicht wahrscheinlich die politische Gesinnung des Befragten sowie die Straßenname oder Viertelnamen aus. 

Wenn nur generelle Daten erhoben werden und es keinen Bezug zu der betroffenen Person besteht, greift die DSGVO nicht.

# Wenn das so leicht ist, warum ist Anonymisierung und Pseudonymisierung so ein großen Problem?

Der Hacken liegt an der zusätzliche Anforderung des europäischen Gerichtshofs. In manchen Fällen reicht es nicht, einige Angaben durch einen Code zu ersetzen (pseudonymisierung), weil die Herstellung einen Bezug zu einer Person immer noch möglich ist.

Wir können das visualisieren mithilfe einer kurzen Analyse des Datensatzes, den wir oben bereits gesehen haben. Um das Beispiel nicht zu überkomplizieren, werden wir davon ausgehen, dass wir wissen, ein Freund von uns aus "Sherwood", North Dakota hat an der Umfrage teilgenommen - das sind die "zusätzliche Informationen, die wir zu den bestehenden Daten hinzuziehen können, um die Person "identifiziebar zu machen". Sherwood ist eine kleine Stadt mit 242 Einwohnern an der kanadischen Grenze, die wir gezielt als Beispiel genommen haben, um die Anonymisierung/Pseudonymisierung Problem extra zu verdeutlichen.

### The "inputstate_2016" Column

Diese Spalte enthält Informationen zum Wohnort der Umfrageteilnehmer.

In [3]:
survey["inputstate_2016"].value_counts().tail()

Vermont                 22
Alaska                  21
District of Columbia    20
Wyoming                 18
North Dakota            13
Name: inputstate_2016, dtype: int64

Die Staaten mit den wenigsten Teilnehmern ist North Dakota - nur 13 Teilnehmer. Wir können nun die Ergebnisse aus diesem Staat näher betrachten

### North Dakota

In [4]:
nd = survey.loc[survey["inputstate_2016"]=="North Dakota"]

The "PARTY_AGENDAS_rand_2016" column enthält Angaben über die Parteiaffinität der Teilnehmer. In North Dakota gibt es mehr Anhänger der republikanischen Partei als der demokratischen Partei.

In [5]:
nd["PARTY_AGENDAS_rand_2016"].value_counts()

Republican Party    9
Democratic Party    4
Name: PARTY_AGENDAS_rand_2016, dtype: int64

### Democrats in North Dakota

In North Dakota gibt es nur 4 Anhänger der amerikanischen demokratischen Partei, die an der Umfrage teilgenommen haben. Die "izip_2016" Spalte kann uns helfen herauszufinden, in welchen Städten sie wohnen (bereits hier sind einige Pseudonymisierungsprobleme zu sehen, denn es gibt nur einen Teilnehmer für jede Postleitzahl).

In [6]:
nd.loc[nd["PARTY_AGENDAS_rand_2016"]== "Democratic Party"]

Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
1846,34593173,0.403734,Democratic Party,In the Republican primary,,John Kasich,North Dakota,58102,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,09dec2016 18:23:33,09dec2016 18:39:39
2511,36673244,0.728252,Democratic Party,"No, not in either",,,North Dakota,58103,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,02dec2016 19:19:31,02dec2016 19:32:19
2863,39494234,0.265941,Democratic Party,In the Democratic primary,Bernie Sanders,,North Dakota,58782,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,07dec2016 20:03:44,07dec2016 20:28:06
3662,46800131,0.476999,Democratic Party,In the Democratic primary,Hillary Clinton,,North Dakota,58701,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,18dec2016 20:42:21,18dec2016 21:07:16


Die Postleitzahl von Sherwood ist 58782. Wir können nun gezielt nach der Person suchen, die wir wissen, hat an der Umfrage teilgenommen.

### Sherwood, North Dakota

In [7]:
sherwood = nd.loc[nd["izip_2016"]==58782]
cols = ["case_identifier","PARTY_AGENDAS_rand_2016","pp_primary16_2016","pp_demprim16_2016","pp_repprim16_2016",
        "presvote16post_2016",
       "inputstate_2016","izip_2016","milstat_1_2016","milstat_2_2016","milstat_3_2016","milstat_4_2016",
        "race_baseline","gender_baseline","birthyr_baseline"]
sherwood[cols]

Unnamed: 0,case_identifier,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,presvote16post_2016,inputstate_2016,izip_2016,milstat_1_2016,milstat_2_2016,milstat_3_2016,milstat_4_2016,race_baseline,gender_baseline,birthyr_baseline
2863,39494234,Democratic Party,In the Democratic primary,Bernie Sanders,,Gary Johnson,North Dakota,58782,No,No,Yes,Yes,White,Female,1954


Sehr schnell konnten wir auf "unseren Freund" aus Sherwood einzoomen. Jetzt haben wir Zugriff auf viele seiner Informationen, einschliesslich Daten über seine politische Gesinnung, die nach der DSGVO besonders schutzwürdig sind.

Nach dieser kurzen Analyse, wissen wir:

- Geburtsjahr: 1954 (und folglich auch das Alter)

- Geschlecht: weiblich

- Ethnie: Weiß

- Wohnort: Sherwood, North Dakota (war bereits bekannt)

- Politische Gesinnung: Wähler der "Democratic Party"

Andere Informationen wären auch noch verfügbar (z.B. welche Themen sind dieser Person wichtig,) wenn wir den Datensatz weiter analysieren).

# Zwischenfazit

Das erwähnte Beispiel ist natürlich vereinfacht, aber ausreicheinde Anonymisierung und Pseudonymisierung sollten nicht unterschätzt werden, denn sogar [Unternehmen mit vielen Kunden und mit vielen Ressourcen haben manchmal Probleme damit](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/)

# Wie soll man dann vorgehen?

Wenn Sie Daten verarbeiten müssen, bevor Sie die Verarbeitung einstellen, ihre Tätigkeit kündigen und in die Bergen ziehen, sollten Sie wissen, dass es Maßnahmen gibt, um die Daten zu schützen (Ausreichende technische und organisatorische Maßnahmen sind ja am Stand der Technik zu messen) 

Einige Bekannte Techniken sind:

- **K-Anonymity:** um dieses Maßstab zu verstehen, können wir uns vorstellen, dass die Umfrageteilnehmer nach einigen Kriterien gruppiert werden können (z.B. die Gruppierung nach Postleitzahl im oben erwähnten Beispiel). Für jede Gruppe soll es wenigstens die betroffene Person plus eine K-Anzahl von Individueen geben, ansonsten können die Daten nicht in die Analysis einbeziehen werden.

Um den Datensatz dann tatsächlich anonym zu gestalten, sollte man entweder die Einträge, welche die K-Anonymity rule nicht einhalten entweder löschen ("suppression") oder das Kriterium verallgemeinern(generalisation). Wir können ein konkretes Beispiel davon sehen [in einem anderen Datensatz der Voter Study Group, allerdings aus dem Jahr 2019](https://www.voterstudygroup.org/publication/2019-voter-survey-full-data-set). Anstatt die Postleitzahl zu erheben, haben sie Angaben zu der "Region" gesammelt.

In [19]:
survey_2019 = pd.read_csv(r"C:\Users\celio\Data Analysis\Projects\Random\Voter_Survey\VOTER_Survey_Jan217_Release1-csv.csv",
                         encoding = "mbcs", low_memory = False)
pd.DataFrame(survey_2019["region_2019"].replace({1:"Northeast",
                                    2:"Midwest",
                                    3:"South",
                                    4:"West"}).value_counts())

Unnamed: 0,region_2019
South,2388
West,1656
Midwest,1484
Northeast,1251


**- L-Diversity:** L diversity heißt, dass jede identifizierende Angabe eine Vielfaltigkeit von L in der Gruppe haben soll. Es ist möglich mithilfe des Datensatzes aus 2016 nochmal ein Beispiel zu nennen. Angenommen, dass wir wüssten, eine bestimmte Person aus West Fargo an der Umfrage teilgenommen hat, könnten wir herausfinden, welche politische Affinität sie hat. Das ergibt sich daraus, dass die beiden Umfrageteilnehmer aus West Fargo, North Dakota mit dem Agenda der "Republican Party" einverstanden sind. 

In [37]:
survey.loc[(survey["inputstate_2016"]=="North Dakota")&(survey["izip_2016"]==58078)]

Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
240,6346148,0.481677,Republican Party,In the Republican primary,,Donald Trump,North Dakota,58078,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,13dec2016 07:37:44,13dec2016 07:52:59
5426,61422071,0.482571,Republican Party,"No, not in either",,,North Dakota,58078,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,09dec2016 15:26:53,09dec2016 15:48:03


Anhand dieser Daten, auch wenn es mehr als ein Individuum in der Gruppe gibt (k-anonymity besteht) ist es immer noch möglich, einem Rückschluss auf die Parteiaffinität der betroffenen Person hinzuziehen, weil die Gruppe nicht divers ist.

Um den Datensatz zu korrigieren, könnte man verallgemeinern (was in diesem konkreten Fall es allerdings schwierig wäre, da nur zwei Parteien beherrschen die politische Landschaft in den USA) oder die Einträge löschen.

- T-Closeness: nach diesem Maßstabe muss die Verteilung einer Angabe in einer bestimmten Gruppe, der Verteilung einer Angabe im gesamten Datensatz ähnlich sein. 

Unten können wir sehen, wie die Verteilung durch den Datensatz aussieht.

In [52]:
verteilung_total = survey["presvote16post_2016"].value_counts().reset_index()
verteilung_total["Percentage(%)"]=verteilung_total["presvote16post_2016"]/verteilung_total["presvote16post_2016"].sum()*100
verteilung_total

Unnamed: 0,index,presvote16post_2016,Percentage(%)
0,Hillary Clinton,3545,46.607941
1,Donald Trump,3479,45.740205
2,Gary Johnson,231,3.037076
3,Other,182,2.392848
4,Jill Stein,112,1.472522
5,Did not vote for President,33,0.433868
6,Evan McMullin,24,0.31554


Die Lage sieht in North Dakota wie folgend aus:

In [58]:
verteilung_nd = survey.loc[survey["inputstate_2016"]=="North Dakota","presvote16post_2016"].value_counts().reset_index()
verteilung_nd["Percentage(%)"] =verteilung_nd["presvote16post_2016"]/verteilung_nd["presvote16post_2016"].sum()*100
verteilung_nd

Unnamed: 0,index,presvote16post_2016,Percentage(%)
0,Donald Trump,7,53.846154
1,Hillary Clinton,4,30.769231
2,Other,1,7.692308
3,Gary Johnson,1,7.692308


Aus den unterschieden ergibt sich, dass die Anzahl der Wähler von Donald Trump und Hillary Clinton in der Gesamtbevölkerung sich nicht stark unterscheiden. Wenn man dennoch den Staat von North Dakota näher betrachtet, hat Trump einen gewissen Vorsprung und es lässt sich darüber streiten, ob die Verteilung der Wähler das Prinzip des t-closeness einhält.

An dieser Stelle muss auch erwähnt werden, dass T-closeness zu der "Nutzlosigkeit" der Daten führen kann. Genau diese Spitzfindigkeiten von einigen Gruppen sind die Elementen, nach denen man bei Data Mining sucht. Wenn die Daten so sehr verallgemeneiert werden müssen, verlieren sie natürlich auch einiges an Wert für den Verantwortlicher der Datenverarbeitung.

Hier ist allerdings zu beachten, dass die DSGVO die Verarbeitung nicht verbietet. Es heißt, die Daten müssen immer noch präzis genug sein, um den Zweck der Verarbeitung zu erfüllen. Aus diesem Grund ist wichtig, sowohl IT-ler als auch Juristen in die Gestaltung der Verarbeitung einzubeziehen, denn es besteht die Möglichkeit, dass einige Anonymisierungsmaßnahmen, die zwangsläufig die Daten "nutzlos" machen würden, durch andere technische und organisatorische Maßnahmen ersetzt werden.

# Fazit

Pseudonymisierung und Anonymisierung sind sehr wichtige Maßnahmen für die Einhaltung der datenschutzrechtlichen Anforderungen. Während anonymisierte Daten dem Anwendungsbereich der DSGVO nicht mehr unterliegen, müssen pseudonymisierte Daten weiterhin geschützt werden. Deswegen muss man darauf achten, dass die Daten ausreichend pseudonymisiert sind, denn wie wir gesehen haben in den oben gezeigten Beispielen, erlauben pseudonymisierte Daten manchmal doch Rückschlüsse auf die betroffene Person.

Um dies zu verhindern, muss man oft auf Anonymisierungsmethoden zurückgreifen. Diese Methoden können dennoch dazu führen, dass die Daten an Wert verlieren, deswegen ist wichtig, dass man sowohl Juristen als auch IT-ler die Verarbeitung mitgestalten können. Nur so ist es möglich im Einzelfall den Sweet Spot zu finden zwischen der Erfüllung der Anforderung der DSGVO und den Möglichkeiten, die mit Data Mining einhergehen.