# Pseudonymisierung und Anonymisierung

Da ich zurzeit eine Weiterbildung im Bereich Datenschutz absolviere, ist es kein Wunder, dass ich der Datenschutzgrundverordnung (DSGVO) sehr viel Zeit widme. In diesem Zusammenhang, selbst wenn die datenschutzrechtliche Regulierung für spannende Diskussionen sorgt, sind manche Konzepte und Begriffe der DSGVO nicht sofort ersichtlich, insbesondere wegen der Platzierung der Verordnung an der Schnittstelle zwischen Jura und IT.

Zwei Konzepte, die meine Aufmerksamkeit immer gezogen haben, sind die Pseudonymisierung und die Anonymisierung. Diese Techniken sind sehr wichtig, denn sie erlauben demjenigen, der für die Datenverarbeitung verantwortlich ist (oder dem Auftragsverarbeiter) die Anforderungen der DSGVO zu erfüllen. Trotzdem kann es schwierig zu visualisieren sein, wie die zwei Methoden sich umsetzen lassen. 

Aus diesem Grund möchte ich hiermit einige Insights über Anonymisierung und Pseudonymisierung teilen, erklären warum sie wichtig sind, zeigen, wie man sie durchführt und hoffentlich Anderen helfen, ein besseres Verständnis der Technik zu bekommen. 

# Warum sind Anonymisierung und Pseudonymisierung wichtig?

Von einer sozialen Perspektive sind die zwei Techniken wichtig, um die Privatheit derjenigen gewährzuleisten, denen die Daten gehören. Ist eine Datenbank nicht ordentlich anonymisiert oder pseudonymisiert, so kann jemand, der Zugriff auf diese Informationen hat, die Daten eventuell einer bestimmten Person zuordnen und somit Adresse, Telefonnummer, Gehalt, Vorerkrankungen usw. des Betroffenen herausfinden.

Von einer rechtlichen Perspektive sind Anonymisierung und Pseudonymisierung wichtig, um die Anforderungen der DSGVO einzuhalten. Das Ziel der Datenschutzgrundverordnung ist die im letzten Absatz erwartete Privatheit sicherzustellen und dafür verpflichtet sie den Verantwortlichen der Datenverarbeitung Maßnahmen zu ergreifen, um die Risiken eines Datenlecks oder eines unbefugten Angriffs zu reduzieren. Zu diesen "technische und organisaotirsche Maßnahmen" gehören die Anonymisierung und Pseudonymisierung.

# Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?

Der Unterschied lässt sich leichter anhand des Begriffs "personenbezogene Daten" erklären.

## Personenbezogene Daten

Personenbezoge Daten sind gemäß der DSGVO "alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen". Der erste wichtige Punkt ist, dass Daten von Unternehmen, also von juristischen Personen, nicht unter den Anwendungsbereich der DSGVO fallen.

Der zweite wichtige Punkt ist der Begriff "identifizierbarkeit". Der DSGVO nach gilt eine Person als identifizierbar, wenn sie mittels der Zuordnung zu einem Namen, zu einer Kennnummer, zu einem Standort usw. identifiziert werden kann. Der europäische Gerichtshof hat den Begriff noch präzisiert und gesagt, dass in Anbetracht des Stands der Technik gilt eine Person als identifizierbar, wenn ein Dritter durch die Verwendung von verhältnismäßigen finanziellen, personellen und zeitlichen Mittel in der Lage ist, den Bezug zu der betroffenen Person herzustellen.

Diese Defition seitens des Gerichts unterstreicht die Wichtigkeit von Anonymisierung und Pseudonymisierung, denn diese Maßnahmen erschweren die Herstellung der Verbindung zwischen der betroffenen Person und ihren Daten durch einen Dritten.

## Pseudonymisierung

Die DSGVO bietet eine Defition von "Pseudonymisierung":

    - "Die Verarbeitung in einer Weise, dass die personengezogene Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und teschnichen und organisatorischen Maßnahmen unterliegen[...]
    
Im Grund genommen, um die Daten zu anonymisieren, muss der Verantwortliche "ein Stück" der Daten entfernen und durch einen Code z.B ersetzen, so dass die betroffene Person nicht mehr erkannt werden kann. 

Wir können es visualisieren mithilfe des folgenden Datensatzes, der auf [Kaggle](https://www.kaggle.com/democracy-fund/2016-voter-survey) öffentlich zugänglich und aus einer Umfrage von [Voter Study Group](https://www.voterstudygroup.org/about) stammen. Er enthält Angaben von 8000 Wählern aus dem Vereinigten Staaten erhoben hat und sieht wie folgend aus:

In [3]:
import pandas as pd
survey = pd.read_csv(r"C:\Users\celio\Data Analysis\Projects\Random\Voter_Survey/VOTER_Survey_December16_Release1.csv",
                    low_memory = False)
survey.head()

Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
0,779,0.358213,Republican Party,In the Democratic primary,Hillary Clinton,,California,94952,Yes,Yes,...,,,Shelley Berkley,Democratic,Dean Heller,Republican,,,29nov2016 22:59:43,29nov2016 23:28:24
1,2108,0.562867,Republican Party,In the Republican primary,,Donald Trump,Arizona,85298,Yes,Yes,...,,,Richard Carmona,Democratic,Jeff Flake,Republican,,,29nov2016 15:41:28,29nov2016 18:58:28
2,2597,0.552138,Republican Party,In the Democratic primary,Hillary Clinton,,Wisconsin,54904,Yes,Yes,...,,,Tammy Baldwin,Democratic,Tommy Thompson,Republican,,,29nov2016 16:08:39,29nov2016 16:32:43
3,4148,0.207591,Democratic Party,In the Democratic primary,Someone else,,Oklahoma,74104,Yes,Yes,...,,,,,,,,,14dec2016 18:46:33,14dec2016 19:11:20
4,4460,0.333729,Republican Party,In the Republican primary,,Marco Rubio,Texas,78253,Yes,Yes,...,,,Paul Sadler,Democratic,Ted Cruz,Republican,,,01dec2016 10:17:47,01dec2016 10:59:48


Jede Zeile im Datensatz entspricht die Angaben eines Umfrageteilnehmers. Wir können prinzipiell dennoch nicht herausfinden, wer diese Person ist, denn der Name der betroffenen Person wurde durch den Code in der Spalte "case_identifier" ersetzt.

## Anonymisierung

Anonyme Daten sind Daten, die keinen Bezug mehr zu der betroffenen Person haben, und deswegen dem Anwendungsbereich der DSGVO nicht unterliegen. Die Anonymisierung ist zudem eng mit zwei wichtigen Grunsätzen der DSGVO verflochten, nämlich die Zweckbindung und die Datenminimierung:

**Zweckbindung**: diesem Prinzip nach setzt jede Verarbeitung die Festlegung eines Zwecks voraus. Somit ist die anlasslose Erhebung von personenbezogenen Daten verboten. 

**Datenminimierung**: gemäß diesem Grundsatz muss der Verantwortliche nur diejenigen Daten erheben, die absolut erforderlich sind für die Erfüllung des Zwecks. 

Zusammen, was diese zwei Grundsätze uns sagen ist, dass wir ein bestimmtes Ziel haben müssen, um Daten zu verarbeiten. Anhand dieses Ziels können wir schon voraussehen welche Daten wir benötigen, um den Zweck der Verarbeitung zu erfüllen. So können wir auch den Grundsatz der Datenminimierung einhalten, der uns verbietet mehr Daten zu sammeln als eigentlich erforderlich.

Diese zwei Grundsätze nehmen nun Bezug zu der Anonymisierung, weil in manchen Fällen die Erhebung von personenbezogenen Daten überhaupt nicht erforderlich ist, um den Zweck der Verarbeitung zu erfüllen. Als Beispiel können wir nennen ein Politiker, der Wissen will, wo seine Wähler sind, um die Wahlkampagne dementsprechend zu gestalten. Bei der Erhebung der Daten muss es nicht nach dem Namen, Nachnamen, Hausnummer, Telefonnummer usw. fragen. Um den Zweck zu erfüllen reicht wahrscheinlich die politische Gesinnung des Befragten sowie die Straßenname oder Viertelnamen aus. 

Wenn nur generelle Daten erhoben werden und es keinen Bezug zu der betroffenen Person besteht, greift die DSGVO nicht.

# Wenn das so leicht ist, warum ist Anonymisierung und Pseudonymisierung so ein großen Problem?

Der Hacken liegt an der zusätzliche Anforderung des europäischen Gerichtshofs. In manchen Fällen reicht es nicht, einige Angaben durch einen Code zu ersetzen (pseudonymisierung), weil die Herstellung den Bezug zu einer Person immer noch möglich ist.

Wir können das visualisieren mithilfe einer kurzen Analyse des Datensatzes, den wir oben bereits gesehen haben. Um das Beispiel nicht zu überkomplizieren, werden wir davon ausgehen, dass wir wissen, ein Freund von uns aus "Sherwood", North Dakota hat an der Umfrage teilgenommen - das sind die "zusätzliche Informationen, die wir zu den bestehenden Daten hinzuziehen können, um die Person "identifiziebar zu machen". Sherwood ist eine kleine Stadt mit 242 Einwohnern an der kanadischen Grenze, die wir gezielt als Beispiel genommen haben, um die Anonymisierung/Pseudonymisierung Problem extra zu verdeutlichen.

### The "inputstate_2016" Column

Diese Spalte enthält Informationen zum Wohnort der Umfrageteilnehmer.

In [4]:
survey["inputstate_2016"].value_counts().tail()

Vermont                 22
Alaska                  21
District of Columbia    20
Wyoming                 18
North Dakota            13
Name: inputstate_2016, dtype: int64

Die Staaten mit den wenigsten Teilnehmern ist North Dakota - nur 13 Teilnehmer. Wir können nun die Ergebnisse aus diesem Staat näher betrachten

### North Dakota

In [7]:
nd = survey.loc[survey["inputstate_2016"]=="North Dakota"]

The "PARTY_AGENDAS_rand_2016" column enthält Angaben über die Parteiaffinität der Teilnehmer. In North Dakota gibt es mehr Anhänger der republikanischen Partei als der demokratischen Partei.

In [8]:
nd["PARTY_AGENDAS_rand_2016"].value_counts()

Republican Party    9
Democratic Party    4
Name: PARTY_AGENDAS_rand_2016, dtype: int64

### Democrats in North Dakota

In North Dakota gibt es nur 4 Anhänger der amerikanischen demokratischen Partei, die an der Umfrage teilgenommen haben. Die "izip_2016" Spalte kann uns helfen herauszufinden, in welchen Städten sie wohnen (bereits hier sind einige Pseudonymisierungsprobleme zu sehen, denn es gibt nur einen Teilnehmer für jede Postleitzahl).

In [10]:
nd.loc[nd["PARTY_AGENDAS_rand_2016"]== "Democratic Party"]

Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
1846,34593173,0.403734,Democratic Party,In the Republican primary,,John Kasich,North Dakota,58102,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,09dec2016 18:23:33,09dec2016 18:39:39
2511,36673244,0.728252,Democratic Party,"No, not in either",,,North Dakota,58103,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,02dec2016 19:19:31,02dec2016 19:32:19
2863,39494234,0.265941,Democratic Party,In the Democratic primary,Bernie Sanders,,North Dakota,58782,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,07dec2016 20:03:44,07dec2016 20:28:06
3662,46800131,0.476999,Democratic Party,In the Democratic primary,Hillary Clinton,,North Dakota,58701,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,18dec2016 20:42:21,18dec2016 21:07:16


Die Postleitzahl von Sherwood ist 58782. Wir können nun gezielt nach der Person suchen, die wir wissen, hat an der Umfrage teilgenommen.

### Sherwood, North Dakota

In [14]:
sherwood = nd.loc[nd["izip_2016"]==58782]
cols = ["case_identifier","PARTY_AGENDAS_rand_2016","pp_primary16_2016","pp_demprim16_2016","pp_repprim16_2016",
        "presvote16post_2016",
       "inputstate_2016","izip_2016","milstat_1_2016","milstat_2_2016","milstat_3_2016","milstat_4_2016",
        "race_baseline","gender_baseline","birthyr_baseline"]
sherwood[cols]

Unnamed: 0,case_identifier,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,presvote16post_2016,inputstate_2016,izip_2016,milstat_1_2016,milstat_2_2016,milstat_3_2016,milstat_4_2016,race_baseline,gender_baseline,birthyr_baseline
2863,39494234,Democratic Party,In the Democratic primary,Bernie Sanders,,Gary Johnson,North Dakota,58782,No,No,Yes,Yes,White,Female,1954


Sehr schnell konnten wir auf "unseren Freund" aus Sherwood einzoomen. Jetzt haben wir Zugriff auf viele seiner Informationen, einschliesslich Daten über seine politische Gesinnung, die nach der DSGVO besonders schutzwürdig sind.

Nach dieser kurzen Analyse, wissen wir:

- Geburtsjahr: 1954 (und folglich auch das Alter)

- Geschlecht: weiblich

- Ethnie: Weiß

- Wohnort: Sherwood, North Dakota (war bereits bekannt)

- Politische Gesinnung: Wähler der "Democratic Party"

Andere Informationen wären auch noch verfügbar (z.B. welche Themen sind dieser Person wichtig, wenn wir den Datensatz weiter analysieren).

# Zwischenfazit

Das erwähnte Beispiel ist natürlich vereinfacht, aber ausreicheinde Anonymisierung und Pseudonymisierung sollten nicht unterschätzt werden, denn sogar [Unternehmen mit vielen Kunden und mit vielen Ressourcen haben manchmal Probleme damit](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/)

# Wie soll man dann vorgehen?

Wenn Sie Daten verarbeiten müssen, bevor Sie die Verarbeitung einstellen, ihre Tätigkeit kündigt und in die Bergen zieht, sollten Sie wissen, dass es Maßnahmen gibt, um die Daten zu schützen (Ausreichende technische und organisatorische Maßnahmen sind ja am Stand der Technik zu messen) 

Einige Bekannte Techniken sind:

- K-Anonymity

- L-Diversity

- T-Closeness

In [121]:
state_freq_count = survey["inputstate_2016"].value_counts().reset_index().rename({"index":"state",
                                                                                 "inputstate_2016":"n_voters"},
                                                                                 axis = "columns")
state_freq_count.sort_values("n_voters").head(5)

Unnamed: 0,state,n_voters
50,North Dakota,13
49,Wyoming,18
48,District of Columbia,20
47,Alaska,21
46,Vermont,22


Wir können nun die Teilnehmer aus North Dakota, der nur 13 Teilnehmer hatte, näher betrachten. Dabei können wir die Ergebnisse filtern, um nur Informationen zu enthalten, die für uns relevant sind.

In [135]:
nd = survey.loc[survey["inputstate_2016"]=="North Dakota"]
cols = ["case_identifier","PARTY_AGENDAS_rand_2016","pp_primary16_2016","pp_demprim16_2016","pp_repprim16_2016",
        "presvote16post_2016",
       "inputstate_2016","izip_2016","milstat_1_2016","milstat_2_2016","milstat_3_2016","milstat_4_2016",
        "race_baseline","gender_baseline","birthyr_baseline"]

nd[cols]

Unnamed: 0,case_identifier,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,presvote16post_2016,inputstate_2016,izip_2016,milstat_1_2016,milstat_2_2016,milstat_3_2016,milstat_4_2016,race_baseline,gender_baseline,birthyr_baseline
240,6346148,Republican Party,In the Republican primary,,Donald Trump,Donald Trump,North Dakota,58078,No,No,No,No,White,Male,1962
319,6478346,Republican Party,"No, not in either",,,Donald Trump,North Dakota,58784,No,No,No,No,White,Male,1963
619,7005677,Republican Party,In the Democratic primary,Hillary Clinton,,Hillary Clinton,North Dakota,58048,No,No,No,Yes,White,Female,1936
1846,34593173,Democratic Party,In the Republican primary,,John Kasich,Donald Trump,North Dakota,58102,No,No,No,Yes,White,Female,1950
2307,36534569,Republican Party,In the Republican primary,,Someone else,Hillary Clinton,North Dakota,58554,No,No,No,No,White,Female,1945
2511,36673244,Democratic Party,"No, not in either",,,Donald Trump,North Dakota,58103,No,No,No,Yes,White,Female,1961
2863,39494234,Democratic Party,In the Democratic primary,Bernie Sanders,,Gary Johnson,North Dakota,58782,No,No,Yes,Yes,White,Female,1954
3662,46800131,Democratic Party,In the Democratic primary,Hillary Clinton,,Hillary Clinton,North Dakota,58701,No,No,Yes,No,White,Male,1951
5325,60519545,Republican Party,In the Republican primary,,Donald Trump,Donald Trump,North Dakota,58554,Yes,Yes,No,Yes,White,Male,1965
5426,61422071,Republican Party,"No, not in either",,,Hillary Clinton,North Dakota,58078,No,No,No,Yes,White,Female,1957


Besonders interessant sind die "PARTY_AGENDAS_rand_2016" und izip_2016 Spalte, die jeweils Daten über die Parteiaffinität der Wähler und über die PLZ der Umfrageteilnehmer enthält. Nur 4 Teilnehmer in North Dakota sind der Democratic Party affin.

In [136]:
dem = nd.loc[nd["PARTY_AGENDAS_rand_2016"]=="Democratic Party"]
dem[cols]

Unnamed: 0,case_identifier,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,presvote16post_2016,inputstate_2016,izip_2016,milstat_1_2016,milstat_2_2016,milstat_3_2016,milstat_4_2016,race_baseline,gender_baseline,birthyr_baseline
1846,34593173,Democratic Party,In the Republican primary,,John Kasich,Donald Trump,North Dakota,58102,No,No,No,Yes,White,Female,1950
2511,36673244,Democratic Party,"No, not in either",,,Donald Trump,North Dakota,58103,No,No,No,Yes,White,Female,1961
2863,39494234,Democratic Party,In the Democratic primary,Bernie Sanders,,Gary Johnson,North Dakota,58782,No,No,Yes,Yes,White,Female,1954
3662,46800131,Democratic Party,In the Democratic primary,Hillary Clinton,,Hillary Clinton,North Dakota,58701,No,No,Yes,No,White,Male,1951


Jetzt können wir uns der Postleitzahl widmen. Einer der Teilnehmerinnen (wir können wissen, dass sie eine Frau ist wegen der "gender_baseline" Spalte) hat die Nummer 58782 als PLZ. Diese Nummer gehört zu der Stadt [Sherwood](https://en.wikipedia.org/wiki/Sherwood,_North_Dakota), die an der kanadischen Grenze liegt und nur 242 Einwohner hat. 

Wir stellen die Suche nach der Identität der Frau hier ein, aber wenn wir wüssten, dass irgendjemand aus Sherwood an der Umfrage teilgenommen hat, würden wir anhand weniger Informationen auch wissen, dass diese Person eine Frau ist, die 1954 geboren ist, eine Affinität zu der Democractic Party hat und Bernie Sanders in der Democractic Primary Elections gewählt hat, sowie Gary Johnson in the Präsidentschaftswahl gewählt hat.

Diese Einblick in die politische Gesinnung eines Menschen ist sehr gravierend, denn gemäß der DSGVO sind diese Daten besonders schutzwürdig. Dies unterstreicht die Wichtigkeit davon, Anonymisierung und Pseudonymisierung richtig zu durchführen.

# Anonymisierung

## Begriff

Daten zu anonymisieren heißt sie so erheben oder zu verändern, so dass es keinen Bezug mehr zu der betroffenen Person besteht. Wenn ein Politiker daran interessiert ist, wie viele Wähler in einer Nachbarschaft eine Partei wählen würde, muss er prinzipiell nicht die Hausnummer oder Nachnamen der an der Umfrage Beteiligten erheben. 

Wenn die Daten keinen Bezug mehr zu einer Person haben, unterliegen sie nicht mehr dem Anwendungsbereich der DSGVO.

## Umsetzung

# Pseudonymisierung



## Personenbezogene Daten

Der Schlüsselfaktor, um den Unterschied zwischen Pseudonymisierung und Anonymisierung zu verstehen, liegt in der Definition von personenbezogenen Daten. Gemäß Art 4 der DSGVO haben wir folgendes:

    - Personenbezogene Daten = alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen [...].

Dies hat nun zwei Folgen:

    a) Anhand mancher Daten (Name und Nachnahmen, Sozialversicherungsnummer, Adresse usw.) ist die betroffene Person direkt identifiziert. Diese Angaben unterliegen selbstverständlich dem Geltungsbereich der DSGVO und müssen geschützt werden.
    
    b) In manchen Fällen erlauben die Daten keine direkte Zuordnung zu einer Person. Dies ist der Fall, wenn die einzelnen Angaben keinen Rückschluss auf die betroffene Personen erlauben, aber eine Zusammenführung verschiedener Informationen möglich ist, so dass bei einer Gesamtbetrachtung die betroffene Person identifzierbar ist.    
    
Der Hacken bei diesem zweiten Punkt ist, dass die DSGVO nicht erklärt, wer in der Lage sein soll diesen Bezug zu der betroffenen Person herzustellen, damit sie als "identifizierbar" gilt. 

Ein Beispiel hilft die Situation zu verdeutlichen. Das Konzern K stellt mittels des Tochterunternehmens T mehrere Mitarbeiter im IT-Bereich ein. Um das Gehalt seiner Angestellten abzurechnen, erfasst T Daten wie Namen, Nachnamen, Steuerklasse, Grundgehalt, Anzahl der  Überstunden usw.  Der Datensatz sieht ungefähr wie folgend aus:  

Unten können wir einen Datensatz sehen, der auf [Kaggle](https://www.kaggle.com/democracy-fund/2016-voter-survey) verfügbar ist. 

In [1]:
import pandas as pd
survey = pd.read_csv(r"C:\Users\celio\Data Analysis\Projects\Random\Voter_Survey/VOTER_Survey_December16_Release1.csv",
                    low_memory=False)
survey.head()

Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
0,779,0.358213,Republican Party,In the Democratic primary,Hillary Clinton,,California,94952,Yes,Yes,...,,,Shelley Berkley,Democratic,Dean Heller,Republican,,,29nov2016 22:59:43,29nov2016 23:28:24
1,2108,0.562867,Republican Party,In the Republican primary,,Donald Trump,Arizona,85298,Yes,Yes,...,,,Richard Carmona,Democratic,Jeff Flake,Republican,,,29nov2016 15:41:28,29nov2016 18:58:28
2,2597,0.552138,Republican Party,In the Democratic primary,Hillary Clinton,,Wisconsin,54904,Yes,Yes,...,,,Tammy Baldwin,Democratic,Tommy Thompson,Republican,,,29nov2016 16:08:39,29nov2016 16:32:43
3,4148,0.207591,Democratic Party,In the Democratic primary,Someone else,,Oklahoma,74104,Yes,Yes,...,,,,,,,,,14dec2016 18:46:33,14dec2016 19:11:20
4,4460,0.333729,Republican Party,In the Republican primary,,Marco Rubio,Texas,78253,Yes,Yes,...,,,Paul Sadler,Democratic,Ted Cruz,Republican,,,01dec2016 10:17:47,01dec2016 10:59:48


Der Datensatz sieht wie folgend aus.

In [56]:
survey = pd.read_csv(r"C:\Users\celio\Data Analysis\Projects\Random\Voter_Survey/VOTER_Survey_December16_Release1.csv")
survey.head()

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
0,779,0.358213,Republican Party,In the Democratic primary,Hillary Clinton,,California,94952,Yes,Yes,...,,,Shelley Berkley,Democratic,Dean Heller,Republican,,,29nov2016 22:59:43,29nov2016 23:28:24
1,2108,0.562867,Republican Party,In the Republican primary,,Donald Trump,Arizona,85298,Yes,Yes,...,,,Richard Carmona,Democratic,Jeff Flake,Republican,,,29nov2016 15:41:28,29nov2016 18:58:28
2,2597,0.552138,Republican Party,In the Democratic primary,Hillary Clinton,,Wisconsin,54904,Yes,Yes,...,,,Tammy Baldwin,Democratic,Tommy Thompson,Republican,,,29nov2016 16:08:39,29nov2016 16:32:43
3,4148,0.207591,Democratic Party,In the Democratic primary,Someone else,,Oklahoma,74104,Yes,Yes,...,,,,,,,,,14dec2016 18:46:33,14dec2016 19:11:20
4,4460,0.333729,Republican Party,In the Republican primary,,Marco Rubio,Texas,78253,Yes,Yes,...,,,Paul Sadler,Democratic,Ted Cruz,Republican,,,01dec2016 10:17:47,01dec2016 10:59:48


Anhand einiger einfachen Befehlen können wir berechnen, wie viele Wähler es in jedem Staat gibt. Das Ergbenis lautet:

In [78]:
state_freq_count = survey["inputstate_2016"].value_counts().reset_index().rename({"index":"state",
                                                                                 "inputstate_2016":"n_voters"},
                                                                                 axis = "columns")
state_freq_count.sort_values("n_voters")

Unnamed: 0,state,n_voters
50,North Dakota,13
49,Wyoming,18
48,District of Columbia,20
47,Alaska,21
46,Vermont,22
45,Hawaii,25
44,Montana,28
43,South Dakota,29
42,Delaware,30
41,Rhode Island,33


North Dakota ist der Staat mit der kleinsten Anzahl von Wählern, nur 13. Wir können nun genauer die Angaben zu diesen Personen betrachten.

In [82]:
nd = survey.loc[survey["inputstate_2016"]=="North Dakota"]
nd

Unnamed: 0,case_identifier,weight,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,votereg_f_2016,...,post_HouseCand3Name_2012,post_HouseCand3Party_2012,post_SenCand1Name_2012,post_SenCand1Party_2012,post_SenCand2Name_2012,post_SenCand2Party_2012,post_SenCand3Name_2012,post_SenCand3Party_2012,starttime_2016,endtime_2016
240,6346148,0.481677,Republican Party,In the Republican primary,,Donald Trump,North Dakota,58078,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,13dec2016 07:37:44,13dec2016 07:52:59
319,6478346,0.644694,Republican Party,"No, not in either",,,North Dakota,58784,Yes,Yes,...,,,,,,,,,04dec2016 03:05:52,04dec2016 03:38:50
619,7005677,0.207186,Republican Party,In the Democratic primary,Hillary Clinton,,North Dakota,58048,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,08dec2016 16:09:19,08dec2016 16:30:55
1846,34593173,0.403734,Democratic Party,In the Republican primary,,John Kasich,North Dakota,58102,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,09dec2016 18:23:33,09dec2016 18:39:39
2307,36534569,1.117826,Republican Party,In the Republican primary,,Someone else,North Dakota,58554,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,17dec2016 13:09:11,17dec2016 13:43:00
2511,36673244,0.728252,Democratic Party,"No, not in either",,,North Dakota,58103,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,02dec2016 19:19:31,02dec2016 19:32:19
2863,39494234,0.265941,Democratic Party,In the Democratic primary,Bernie Sanders,,North Dakota,58782,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,07dec2016 20:03:44,07dec2016 20:28:06
3662,46800131,0.476999,Democratic Party,In the Democratic primary,Hillary Clinton,,North Dakota,58701,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,18dec2016 20:42:21,18dec2016 21:07:16
5325,60519545,0.379576,Republican Party,In the Republican primary,,Donald Trump,North Dakota,58554,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,06dec2016 08:51:55,06dec2016 09:10:46
5426,61422071,0.482571,Republican Party,"No, not in either",,,North Dakota,58078,Yes,Yes,...,,,Heidei Heitkamp,Democratic,Rick Berg,Republican,,,09dec2016 15:26:53,09dec2016 15:48:03


In [85]:
survey.columns[:20]

Index(['case_identifier', 'weight', 'PARTY_AGENDAS_rand_2016',
       'pp_primary16_2016', 'pp_demprim16_2016', 'pp_repprim16_2016',
       'inputstate_2016', 'izip_2016', 'votereg2_2016', 'votereg_f_2016',
       'regzip_2016', 'turnout16_2016', 'vote_usual_2016', 'votemeth16_2016',
       'presvote16post_2016', 'presvote16post_t_2016', 'vote2016_cand2_2016',
       'vote_for_against_2016', 'Clinton_Rubio_2016', 'Clinton_Cruz_2016'],
      dtype='object')

In [97]:
nd[["PARTY_AGENDAS_rand_2016","pp_primary16_2016","pp_demprim16_2016","pp_repprim16_2016","inputstate_2016",
   "izip_2016","votereg2_2016","regzip_2016","presvote16post_2016","post_inputstate_2012","gender_baseline",
   "birthyr_baseline","race_2016"]]

Unnamed: 0,PARTY_AGENDAS_rand_2016,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg2_2016,regzip_2016,presvote16post_2016,post_inputstate_2012,gender_baseline,birthyr_baseline,race_2016
240,Republican Party,In the Republican primary,,Donald Trump,North Dakota,58078,Yes,,Donald Trump,North Dakota,Male,1962,White
319,Republican Party,"No, not in either",,,North Dakota,58784,Yes,,Donald Trump,Illinois,Male,1963,White
619,Republican Party,In the Democratic primary,Hillary Clinton,,North Dakota,58048,Yes,,Hillary Clinton,North Dakota,Female,1936,White
1846,Democratic Party,In the Republican primary,,John Kasich,North Dakota,58102,Yes,,Donald Trump,North Dakota,Female,1950,White
2307,Republican Party,In the Republican primary,,Someone else,North Dakota,58554,Yes,,Hillary Clinton,North Dakota,Female,1945,White
2511,Democratic Party,"No, not in either",,,North Dakota,58103,Yes,,Donald Trump,North Dakota,Female,1961,White
2863,Democratic Party,In the Democratic primary,Bernie Sanders,,North Dakota,58782,Yes,,Gary Johnson,North Dakota,Female,1954,White
3662,Democratic Party,In the Democratic primary,Hillary Clinton,,North Dakota,58701,Yes,,Hillary Clinton,North Dakota,Male,1951,White
5325,Republican Party,In the Republican primary,,Donald Trump,North Dakota,58554,Yes,,Donald Trump,North Dakota,Male,1965,White
5426,Republican Party,"No, not in either",,,North Dakota,58078,Yes,,Hillary Clinton,North Dakota,Female,1957,White


In [116]:
nd[["milstat_1_2016","milstat_2_2016","milstat_3_2016","milstat_4_2016"]]

Unnamed: 0,milstat_1_2016,milstat_2_2016,milstat_3_2016,milstat_4_2016
240,No,No,No,No
319,No,No,No,No
619,No,No,No,Yes
1846,No,No,No,Yes
2307,No,No,No,No
2511,No,No,No,Yes
2863,No,No,Yes,Yes
3662,No,No,Yes,No
5325,Yes,Yes,No,Yes
5426,No,No,No,Yes


In [24]:
north_dakota = survey.loc[survey["inputstate_2016"]=="North Dakota",
           ["pp_primary16_2016","pp_demprim16_2016","pp_repprim16_2016","inputstate_2016","izip_2016","votereg_f_2016"]]
north_dakota

Unnamed: 0,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg_f_2016
240,In the Republican primary,,Donald Trump,North Dakota,58078,Yes
319,"No, not in either",,,North Dakota,58784,Yes
619,In the Democratic primary,Hillary Clinton,,North Dakota,58048,Yes
1846,In the Republican primary,,John Kasich,North Dakota,58102,Yes
2307,In the Republican primary,,Someone else,North Dakota,58554,Yes
2511,"No, not in either",,,North Dakota,58103,Yes
2863,In the Democratic primary,Bernie Sanders,,North Dakota,58782,Yes
3662,In the Democratic primary,Hillary Clinton,,North Dakota,58701,Yes
5325,In the Republican primary,,Donald Trump,North Dakota,58554,Yes
5426,"No, not in either",,,North Dakota,58078,Yes


In [31]:
democrats_north_dakota = north_dakota.loc[north_dakota["pp_primary16_2016"] == "In the Democratic primary"]
democrats_north_dakota

Unnamed: 0,pp_primary16_2016,pp_demprim16_2016,pp_repprim16_2016,inputstate_2016,izip_2016,votereg_f_2016
619,In the Democratic primary,Hillary Clinton,,North Dakota,58048,Yes
2863,In the Democratic primary,Bernie Sanders,,North Dakota,58782,Yes
3662,In the Democratic primary,Hillary Clinton,,North Dakota,58701,Yes
6958,In the Democratic primary,Bernie Sanders,,North Dakota,58103,Yes


## Rechtliche Perspektive

### Einhaltung der DSGVO-Grundsätze

Von einer rechtlichen Perspektive helfen diese zwei Techniken dem Verantwortlichen den Pflichten der DSGVO nachzukommen. Zu den Grundsätzen der Verordnung gehören u.a: 

- **Zweckbindung:** gemäß diesem Prinzip setzt jede Datenverarbeitung eine festgelegte Zweck voraus. Folglich ist es nicht möglich "anlasslos" Daten zu erheben oder auszuwerten. Als Beispiel können wir nennen eine Universität, die herausfinden will, welche Berufe ihre ehemaligen Studenten haben und wo sie arbeiten, damit sie die Studiengänge nach den Anforderungen des Arbeitsmarkts neugestalten kann. Diese Absicht, den Studiengang an die Anforderungen der Berufswelt anzupassen ist der Zweck der Verarbeitung. 

Da jede Verarbeitung an einem Zweck gebunden ist, können wir basierend auf der Zweckbindung die Einhaltung anderer Grundsätze prüfen, z.B, die Datenminimierung.

- **Datenminimierung:** dieses Prinzip besagt, dass der Verantwortliche nur Daten verarbeiten darf, die absolut erforderlich für die Erfüllung des Verarbeitungszwecks sind. Um das Beispiel der Universität zu benutzen, wenn das Ziel der Umfrage ist herauszufinden in welchen Bundesländern, die ehemaligen Studenten beruflich tätig sind, müssen weitere Angaben zum Wohnort nicht erhoben werden (Straße, Hausnummer, PLZ). 

Welche Daten absolut erforderlich sind hängt vom Zweck, und somit vom konkreten Fall ab.

### Erfüllung anderer Anforderungen

Die oben genannten Prinzipien werden durch die DSGVO in anderen Anforderungen konkretisiert. Gemäß der Verordnung ist der Veranwortliche dazu verpflichtet, Datenschutz durch Technikgestaltung gewährzuleisten (Art. 25 DSGVO). Es heißt, dass die Art und Weise wie die Daten verarbeitet werden datenschutzkonform sein muss. So muss der Veranwortlich zum Beispiel dafür sorgen, dass Angaben zur Straße und zur Hausnummer oder Namen und Nachnamen pseudonymisiert werden.

Pseudonymisierung und Anonymisierung können auch technische und organisatorische Maßnahmen sein, welche die Sicherheit der Daten sichert. Des Art. 32 DSGVO zufolge obliegt dem Verantwortlichen, die Daten gegen Risiken zu schützen. In dieser Hinsicht können pseudonymisierte, anonymisierte oder verschlüsselte Daten die Schwere eines Datenlecks z.B. verringern. 

Diese Liste ist nicht abschließend, aber sie lässt bereits sehen, dass Pseudonymisierung und Anonymisierung sehr wichtige Konzepte für die DSGVO sind. 

## Perspektive der Data Analysis

Um einen Einblick in die Praxis zu gewähren, Pseudonymisierung und Anonymisierung sind wichtig um die folgende Situation zu vermeinden. In den unten stehenden Fenstern werden wir anhand weniger Code Zeilen eine Kurze Analyse eines Datensatzes durchführen.