### Musterlösung zu den Kontrollfragen des vorherigen Notebooks

* Wie können die Eigenschaften von Differential Privacy für eine Datensammlung erreicht werden?

> Fangfrage, dies ist nicht möglich. Die Eigenschaften von Differential Privacy können nur von einem Mechanismus (Funktion) erfüllt werden.

* Wie heisst das Modell, bei welchem die Daten vor der Übermittlung an einen zentralen Dienstleister (Aggregator) verändert werden?

> Das ist das lokale Modell.

* Ist die folgende Aussage korrekt? "Je höher das Epsilon ($\varepsilon$), desto höher der Schutz der Privacy."

> Nein, es ist genau umgekehrt. "Je **kleiner** das Epsilon ($\varepsilon$), desto höher der Schutz der Privacy."

* Bei welcher Kompositions-Art werden die Privacy-Budgets addiert?

> Bei der sequentiellen Komposition.

<hr>

# Notebook 3: Der Laplace Mechanismus

***Hier geht es zum vorherigen Notebook dieser Serie: [Notebook 2: Die Definition der Differential Privacy](./2_Definition-Differential-Privacy.ipynb)***

## Lernziele

Folgende Lernziele sollten mit der Bearbeitung dieses Jupyter Notebooks erreicht werden können:
- Die Teilnehmenden sind in der Lage, die Sensitivität einer einfachen Funktion abzuschätzen.
- Die Teilnehmenden sind in der Lage, zwischen der unbegrenzten und begrenzten Sensitivität zu unterscheiden.
- Die Teilnehmenden sind in der Lage, die Eigenschaften der Differential Privacy für eine einfache Funktion mittels des Laplace Mechanismus zu implementieren.

## Die Sensitivität
Für das Verständnis des Laplace Machanismus muss noch das Konzept der Sensitivität einer Funktion betrachtet werden.

Die Sensitivität einer Funktion entspricht dem Betrag, um den sich die Ausgabe der Funktion ändert, wenn sich ihre Eingabe ändert. Zur Veranschaulichung folgend einige Beispiele für die Sensitivitätswerte von drei einfachen Funktionen: 

- Die Sensitivität von $f(x) = x$ entspricht $1$, denn: ändert sich $x$ um $1$, so ändert sich auch $f(x)$ um $1$.
- Die Sensitivität von $f(x) = x + x$ entspricht $2$, denn: ändert sich $x$ um $1$, so ändert sich $f(x)$ um $2$.
- Die Sensitivität von $f(x) = 5 * x$ entspricht $5$, denn: ändert sich $x$ um $1$, so ändert sich $f(x)$ um $5$.

Bei einer Zählfunktion (`count`) entspricht in der Regel die Sensitivität = 1. Dies ist darauf zu begründen, dass wenn ein Datensatz hinzugefügt oder entfernt wird, sich die Zählfunktion um maximal $1$ ändern kann.

Im Gegensatz zur Summenfunktion (`sum`), hier hängt die Ausgabe vom Inhalt der einzelnen Datensätze ab. Zum Beispiel sind in einer Datensammlung die Anzahl Arztbesuche in einem Jahr erfasst. Die Summenfunktion zählt sämtliche Arztbesuche zusammen. Wird nun ein Datensatz hinzugefügt, in welchem 23 Arztbesuche erfasst sind, ändert sich die Ausgabe der Summenfunktion um 23, obwohl nur 1 Datensatz hinzugefügt wurde. In der Annahme, dass wohl niemand mehr als 100 Arztbesuche pro Jahr wahrnehmen würde, könnte beispielsweise eine Sensitivität für die Summenfunktion der Arztbesuche von 100 definiert werden. Wird nun jedoch ein Datensatz mit 101 Arztbesuchen hinzugefügt, ist die Sensitivität nicht mehr korrekt.

Aus diesem Grund wird zwischen der **unbegrenzten Sensitivität** und der **begrenzten Sensitivität** unterschieden. Die unbegrenzte Sensitivität beschreibt den oben genannten Fall, wenn keine Unter- und Obergrenze des Werts gegeben ist. Um eine begrenzte Sensitivität handelt es sich, wenn eine Unter- und Obergrenze definiert ist. Dies könnte beispielsweise eine Funktion sein, welche die Anzahl der verkauften Sitzplätze eines Kinos zusammenzählt. Hier ist die untere Grenze 0, wenn in keinem Saal ein Sitzplatz verkauft wurde. Die obere Grenze ist dann erreicht, wenn sämtliche Säle ausgebucht und somit alle vorhandenen Sitzplätze verkauft wurden. Die Sensitivität berechnet sich aus der Differenz der unteren und oberen Grenze. Im Beispiel des Kinos würde die Sensitivität der Summenfunktion somit der Anzahl Sitzplätze aller Säle entsprechen.

Funktionen mit unbegrenzter Sensitivität können in solche mit begrenzter Sensitivität transformiert werden. Dafür muss bei der Implementierung der Funktion eine Unter- und Obergrenze erzwungen werden. Hierzu werden zu niedrige oder zu hohe Werte abgeschnitten. Wird beispielsweise eine Funktion implementiert, welche die Alter aller Personen in der Datensammlung zusammenzählt, so könnte eine untere Grenze von 0 und obere Grenze von 125 erzwungen werden. Für den sehr seltenen Fall, dass eine Person mit einem Alter von über 125 erfasst würde, zählte die Funktion für diese Person nur ein Wert von 125 dazu. Dank der nun klar gesetzten Grenzen, kann die Sensitivität genau bestimmt werden.

In der Literatur wird oftmals zwischen lokaler und globaler Sensitivität unterschieden. Diese Unterscheidung würde die fachliche Tiefe dieser Übung übersteigen, weshalb auf eine Einführung der lokalen Sensitivität verzichtet wird. Innerhalb dieser Übung wird mit Sensitivität stets die globale Sensitivität bezeichnet.

## Definition des Laplace Mechanismus

Wie im vorherigen Notebook bereits kurz beschrieben, wird für die Erfüllung der Differential Privacy oftmals Rauschen zum Ergebnis hinzugefügt, um die Ausgabe probabilistisch zu machen (siehe "Beispiel zur Grundidee von Differential Privacy" im [Notebook 2](./2_Definition-Differential-Privacy.ipynb)). Beim Laplace Mechanismus wird das Rauschen nach der Laplace Verteilung generiert und zum Ergebnis hinzugefügt. Es ist wichtig zu erwähnen, dass der Laplace Mechanismus nur für **numerische Abfragen** funktioniert. Die Ausgabe ist also immer eine Zahl.

<div class="alert alert-success">
<b>Definition: Laplace Mechanismus</b>
    <br />
    <br /> 
Die Funktion $f$ wird über die Datensammlung $D$ ausgeführt und liefert als Resultat eine Zahl zurück. Zu dieser Zahl wird Rauschen nach Laplace hinzugefügt ($Lap(\frac{s}{\varepsilon})$). Durch das Hinzufügen des Laplace Rauschens, erfüllt der Machnismus $M(D)$ die Eigenschaften der $\varepsilon$-Differential Privacy. Wobei $s$ die Sensitivität der Funktion $f$ ist.

$$M(D) = f(D) + Lap(\frac{s}{\varepsilon})$$
</div>

Das sieht komplizierter aus, als es ist. Wir haben eine Funktion $f$, dies könnte beispielsweise COUNT() oder SUM() sein. Diese liefert eine Zahl zurück. Also z.B. "Zähle alle Männer in der Datensammlung". Zu dieser Zahl wird nun noch eine Zufallszahl nach der Laplace Verteilung dazuaddiert. So wird das Ergebnis leicht verändert und die Eigenschaften der Differential Privacy werden erfüllt. Zur Veranschaulichung wird dieser Ablauf in <a href="#abb-1">Abbildung 1</a> grafisch gezeigt.

<br>
<br>
<center>
<img src="./src/Laplace-Mechanismus.png" width="50%" alt="Funktionsweise Laplace Mechanismus">
<br>
<br>
<a name="abb-1">Abbildung 1: Funktionsweise des Laplace Mechanismus</center></a>

## Implementation des Laplace Mechanismus

Es soll eine Funktion implementiert werden, welche die Anzahl der weiblichen Personen in einem Array zurückgibt. Nachfolgend werden die Daten ins Array `datensammlung` geladen:

In [1]:
from array import *

datensammlung = [["Heinz", "Müller", 1958, "M"], 
                 ["Maria", "Meier", 1965, "F"], 
                 ["Jolanda", "Heine", 1968, "F"], 
                 ["Markus", "Inauen", 1978, "M"],
                 ["Sarah", "Hauser", 1994, "F"]]

Es wird eine Funktion `countFemales` implementiert, welche die Anzahl Frauen im Array zählt und zurückgibt.

In [2]:
def countFemales(array):
    count = 0
    for x in array:
        if x[3] == "F":
            count += 1
    return count

Nachfolgend wird das Resultat der Funktion ausgegeben.

In [3]:
print(countFemales(datensammlung))

3


Die Funktion `countFemales` ist deterministisch. Das heisst, dass egal wie oft dieselbe Funktion über derselben Datensammlung ausgeführt wird, es wird stets dasselbe Resultat zurückgegeben. Wird somit die Funktion erneut ausgeführt, kommt wieder "3" als Resultat dabei heraus:

In [4]:
print(countFemales(datensammlung))

3


Die Idee des Laplace Mechanismus ist es nun zur deterministischen Funktion noch Rauschen nach Laplace hinzuzufügen. Dadurch wird das Resultat probabilistisch, also nach bestimmten Regeln zufällig. Dies erlaubt es die Eigenschaften der $\varepsilon$-Differential Privacy zu erfüllen.

Es wird eine Version der Funktion implementiert, welche die Eigenschaften von Differential Privacy erfüllt: `dp_lap_countFemales`

In [5]:
import numpy as np

def dp_lap_countFemales(array, sensitivity, epsilon):
    return countFemales(array) + np.random.laplace(loc=0, scale=sensitivity/epsilon)

Es wird also die "normale" `countFemales` Funktion ausgeführt und zum Ergebnis eine Laplace-Zufallszahl dazuaddiert. Der Parameter `scale` ist von der Sensitivität der Funktion und dem Priavcy-Budget $\varepsilon$ abhängig.

Da die Funktion `dp_lap_countFemales` die Eigenschaften der Differential Privacy erfüllt, sprechen wir ab sofort nicht mehr von einer Funktion, sondern von einem **Mechanismus** (um den Unterschied der beiden Begriffe zu verdeutlichen).

Nachfolgend wird der Mechanismus `dp_lap_countFemales` 10 mal mit dem Privacy-Budget $\varepsilon = 0.1$ und der Sensitivität $= 1.0$ (da es sich um eine Zählfunktion handelt und sich die Ausgabe somit um maximal 1 ändern kann, wenn eine Person hinzugefügt/entfernt wird) ausgeführt und die Resultate werden ausgegeben:

In [6]:
for i in range(10):
    print(dp_lap_countFemales(datensammlung, 1, 0.1))

3.2619788770023463
7.938114271772301
-14.133685159615172
-7.366908538977647
-7.229868692374977
7.133301312118829
-1.87859469885339
21.058789009617556
-3.6459672679121553
1.2391936858323294


Es ist ersichtlich, dass der Mechanismus `dp_lap_countFemales` nicht determininistisch ist. Die Resultate weichen voneinander ab, obwohl stets dieselbe Abfrage über derselben Datensammlung ausgeführt wurde.

<div class="alert alert-danger">
    <h2>Übung: Einfluss des Privacy-Budgets auf die Ergebnisse</h2>
    <br />
Verändere beim vorherigen Code-Beispiel das Privacy-Budget und beobachte, wie sich dieses auf die Ergebnisse auswirkt. Wähle kleine und grosse Werte und beobachte deren Einfluss auf die Ergebnisse und deren Streuung.  
    
<b>Wichtig zu beachten: Bevor der Code ausgeführt werden kann (nach den eigenen Anpassungen), müssen vorab alle vorherigen Code-Abschnitte dieses Notebooks ausgeführt worden sein. Ansonsten sind die notwendigen Parameter und Funktionen nicht vorhanden.</b>
<br />
<br />
<i>Hinweis: Eine Musterlösung ist im <a href="./7_Musterlösungen-der-Übungen.ipynb">Notebook 7: Musterlösungen der Übungen</a> zu finden.</i>
</div>

Nachfolgend wird der Mechanismus `dp_lap_countFemales` erneut 10 mal ausgeführt und der Durchschnitt der jeweiligen Resultate berechnet.

In [7]:
results = 0

for i in range(10):
    results += dp_lap_countFemales(datensammlung, 1, 0.1)
    
mean = results / 10

print(mean)

4.7673721478606


Die echte Anzahl Frauen in der Datensammlung ist 3. Wir beobachten, wie sich dies verhält, wenn wir den Mechanismus statt 10 mal nun 1000 mal ausführen.

In [8]:
results = 0

for i in range(1000):
    results += dp_lap_countFemales(datensammlung, 1, 0.1)
    
mean = results / 1000

print(mean)

3.0630188637169242


Und statt 1000 mal nun 100'000 mal...

In [9]:
results = 0

for i in range(100000):
    results += dp_lap_countFemales(datensammlung, 1, 0.1)
    
mean = results / 100000

print(mean)

2.982683583816403


Und zum Abschluss noch 1'000'000 mal:

In [10]:
results = 0

for i in range(1000000):
    results += dp_lap_countFemales(datensammlung, 1, 0.1)
    
mean = results / 1000000

print(mean)

3.0064729060597326


Der Durchschnitt nähert sich immer mehr an dem echten Ergebnis (3) an, wodurch ein Angreifer natürlich auf das echte Ergebnis schliessen kann, je häufiger dieser die Funktion ausführt. Deshalb gilt das Prinzip der Komposition für das Privacy-Budget und es muss verhindern werden, dass ein Angreifer beliebig häufig den Mechanismus ausführen kann.

<div class="alert alert-warning">
<b>Wichtige Erkenntnis</b>
    <br />
    <br /> 
Wird derselbe Mechanismus mehrmals ausgeführt (wie in den vorherigen Beispielen) kommt die Komposition des Privacy-Budgets zum Zug. Wird also derselbe Mechanismus über denselben Daten bspw. 10 Mal ausgeführt, müssen die Privacy-Budgets summiert werden.

Für das obige Beispiel hiesse dies: 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 = 1.0

Beim 10 maligen Ausführen wird also nur ein Privacy-Budget von 1.0 garantiert.
</div>

### Anmerkung zum Nutzen der Daten

Das Ziel der Differential Privacy ist es die Privacy zu Schützen, ohne den eigentlichen Nutzen der Daten zu verlieren. Wir betrachten erneut das obige Beispiel.

In [11]:
print("Resultat ohne DP: " + str(countFemales(datensammlung)))
print("Resultat mit DP: " + str(dp_lap_countFemales(datensammlung, 1, 0.1)))

Resultat ohne DP: 3
Resultat mit DP: 3.5097225331848074


Nun beurteilen wir den Nutzen dieser Ergebnisse. Die tatsächliche Anzahl der Frauen ist 3. Total sind 5 Personen in der Datensammlung enthalten. Der Mechanismus soll nun 1000 mal ausgeführt werden. Anschliessend wird die absolute mittlere Abweichung der Ergebnisse zum tatsächlichen Wert (3) berechnet.

In [12]:
values = []

for i in range(1000):
    values.append(dp_lap_countFemales(datensammlung, 1, 0.1))

print("Absolute mittlere Abweichung von 3: " + str(np.mean(np.absolute(values - np.asarray(3)))))

Absolute mittlere Abweichung von 3: 10.195913853593376


Im Schnitt weichten die Ergebnisse des Mechanismus somit um ~10 Frauen vom tatsächlichen Ergebnis ab. Zur Veranschaulichung betrachten wir dies in Prozent.

Total sind **5 Personen** enthalten, dies entspricht **100%**  
Insgesamt sind davon **3 Personen** eine Frau, dies entspricht **60%**  
Die Ergebnisse des Mechanismus wichen im Schnitt um **~10 Personen** ab, was **200%** entspricht

**Auswertung der Statistik ohne Differential Privacy:**  
60% der Personen sind Frauen.

**Auswertung der Statistik mit Differential Privacy:**  
260% der Personen sind Frauen.

Ganz offensichtlich ergeben die Ergebnisse keinen Sinn mehr. Somit ist durch die Differential Privacy der Nutzen der Daten gänzlich verloren gegangen. Die Differential Privacy funktioniert besser, je grösser die Datensammlung ist. Aus diesem Grund folgt nun ein realitätsnahes Beispiel für den Laplace Mechanismus.

## Realitätsnahes Beispiel des Laplace Mechanismus

Nachfolgend wird eine Beispiel-Implementation des Laplace Mechanismus basierend auf einer grossen Datensammlung gemacht. Es sollen die Daten aus der Studie "National Longitudinal Study of Youth, NLSY79" des U.S. Bureau of Labor Statistics ausgewertet werden. Es wurde der Intelligenzquotient (gemäss AFQT - armed forces qualifying test score)
gemessen. Weiter wurden dieselben Personen nach dem jährlichen Einkommen, sowie der Anzahl Jahre Schulbildung gefragt. In der Datensammlung sind total 2584 Datensätze von ebenso vielen Personen enthalten. Zur Veranschaulichung folgend die ersten Zeilen dieser Datensammlung:

| AFQT | Jahre Schulbildung | Einkommen |
| :- | :-: | :- | 
| 6.841 | 12 | 5500 |
| 99.393 | 16 | 65000 |
| 47.412 | 12 | 19000 |
| 44.022 | 14 | 36000 |
| ... | ... | ...|

<br>
<a name="tab-1"><center>Tabelle 1: Auszug aus den Daten der Studie</center></a>

Nach <a href="https://www.census.gov/library/publications/2021/demo/p60-273.html">US Census Bureau</a> liegt das median Jahreseinkommen eines Haushaltes in der USA bei 67'521 USD. Dieses Einkommen wird in der Regel durch mehrere Personen in einem Haushalt verdient. Zur Vereinfachung wird einfach die Hälfte dieses Gesamteinkommens als einzelnes Einkommen genommen. Das heisst, dass wir davon ausgehen, dass 33'761 USD dem median Jahreseinkommen einer Einzelperson in den USA entspricht.

Gemäss den <a href="https://hdr.undp.org/en/indicators/69706">UN Human Development Reports</a> wird in den USA in der Regel die Schule für 16 Jahre besucht.

Das Ziel ist es nun einen Laplace Mechanismus zu implementieren, der die Anzahl Personen ausgibt, welche ein Einkommen von über 33'761 USD haben, obwohl diese weniger als 16 Jahre in der Schule waren.

Zunächst werden die Daten importiert und im Array `data` gespeichert. Zur Veranschlaulichung werden die ersten 4 Datensätze ausgegeben.

In [13]:
import numpy as np

data = np.genfromtxt('./src/income.dat',
                     skip_header=0,
                     skip_footer=0,
                     names=True,
                     dtype=None,
                     delimiter=' ')

print("(AFQT, Jahre Schulbildung, Einkommen)")
print(data[0])
print(data[1])
print(data[2])
print(data[3])

(AFQT, Jahre Schulbildung, Einkommen)
(6.841, 12, 5500)
(99.393, 16, 65000)
(47.412, 12, 19000)
(44.022, 14, 36000)


Die Funktion `lowEducationHighIncome` zählt die Personen, welche ein Einkommen von über 33'761 USD haben und weniger als 16 Jahre in der Schule waren.

In [14]:
def lowEducationHighIncome(array):
    
    count = 0
    
    for x in array:
        if x[1] < 16 and x[2] > 33761:
            count += 1
    
    return count

print("Resultat ohne DP: " + str(lowEducationHighIncome(data)))

Resultat ohne DP: 882


In der Datensammlung sind somit **882** Personen mit einem "hohen" Einkommen trotz "geringer" Schulbildung enthalten.

Nun wird der Mechanismus `dp_lap_lowEducationHighIncome` implementiert, der die Anzahl Personen unter Einhaltung der Differential Privacy zurückgibt.

In [15]:
def dp_lap_lowEducationHighIncome(array, sensitivity, epsilon):    
    return lowEducationHighIncome(array) + np.random.laplace(loc=0, scale=sensitivity/epsilon)

Der Mechanismus wird nun mit der Sensitivität von 1.0 (da es sich um eine Zählfunktion handelt) und einem Privacy-Budget von 0.1 ausgeführt und das Resultat ausgegeben.

In [16]:
print("Resultat mit DP: " + str(dp_lap_lowEducationHighIncome(data, 1, 0.1)))

Resultat mit DP: 884.5207973093482


Wie erwartet, weicht das "Resultat mit DP" vom "Resultat ohne DP" aufgrund des hinzugefügten Rauschens ab. Die Differential Privacy soll erlauben Erkenntnisse aus der Datensammlung zu ziehen, die zutreffend sind. Dabei soll aber verhindert werden, dass Erkenntnisse über Einzelpersonen gewonnen werden können.

Nachfolgend wird der Mechanismus 1000 mal ausgeführt und anschliessend wir die absolute mittlere Abweichung vom tatsächlichen Wert (882) gemessen und ausgegeben.

In [17]:
values = []

for i in range(1000):
    values.append(dp_lap_lowEducationHighIncome(data, 1, 0.1))

print("Absolute mittlere Abweichung von 882: " + str(np.mean(np.absolute(values - np.asarray(882)))))

Absolute mittlere Abweichung von 882: 10.162349224130608


Das heisst, dass die Ergebnisse des Mechanismus im Schnitt um ~10 Personen vom tatsächlichen Wert abgewichen sind. Für ein besseres Verständnis betrachten wir die Zahlen in Prozent.

Total sind **2584 Personen** enthalten, dies entspricht **100%**  
Insgesamt treffen davon für **882 Personen** die angegebenen Kriterien zu, dies entspricht **34%**  
Die Ergebnisse des Mechanismus wichen im Schnitt um **~10 Personen** ab, was **0.4%** entspricht  

**Auswertung der Studie ohne Differential Privacy:**  
34.0% der Personen erzielen trotz einer geringeren Schulbildung ein hohes Einkommen.

**Auswertung der Studie mit Differential Privacy:**  
34.4% der Personen erzielen trotz einer geringeren Schulbildung ein hohes Einkommen.

Die Ungenauigkeit, welche durch die Differential Privacy erreicht wurde, scheint keinen relevanten Einfluss zu haben. Es können weiterhin die richtigen Erkenntnisse gewonnen werden. Der Nutzen der Daten blieb in diesem Beispiel somit auch mit Differential Privacy erhalten.

Dies zeigt, dass die Differential Privacy für grosse Datenmengen sehr gut funktioniert. Weiter darf nicht vergessen werden, dass das Privacy-Budget eine essentielle Rolle spielt. Bei einem Privacy-Budget von bspw. 0.9 schrumpft die absolute mittlere Abweichung auf ~1 Person (0.039%), wodurch aber der Schutz der Privacy schwächer wird.

In [18]:
values = []

for i in range(1000):
    values.append(dp_lap_lowEducationHighIncome(data, 1, 0.9))

print("Absolute mittlere Abweichung von 882: " + str(np.mean(np.absolute(values - np.asarray(882)))))

Absolute mittlere Abweichung von 882: 1.1435958179320247


<div class="alert alert-warning">
<b>Wichtige Erkenntnis</b>
    <br />
    <br /> 
Je grösser die Datensammlung ist, umso besser funktioniert die Differential Privacy.
</div>

## Kontrollfragen

* Wie ist in der Regel die Sensitivität einer Zählfunktion (`COUNT`)?
* Von welchen beiden Parametern ist die Laplace-Zufallsfunktion abhängig?

_Hinweis: Eine Musterlösung der Kontrollfragen ist im nächsten Notebook zu finden._

***Hier geht es zum nächsten Notebook dieser Serie: [Notebook 4: Der Gauss Mechanismus](./4_Gauss-Mechanismus.ipynb)***