### Musterlösung zu den Kontrollfragen des vorherigen Notebooks

* Welche Eigenschaft gibt die $k$-Anonymität für eine Datensammlung vor?
> Eine Person (bzw. ein einzelner Datensatz) darf in einer Gruppe kleiner oder gleich $k$ nicht unterscheidbar sein. Es müssen somit stets mindestens $k$ identische Datensätze vorhanden sein.
* Welches sind die Identifikatoren, Quasi-Identifikatoren und sensitiven Attribute in Tabelle 1?
> Der Vor- und Nachname sind Identifikatoren. Das Geburtsdatum, Geschlecht und die PLZ sind Quasi-Identifikatoren. Die Krankheit ist ein sensitives Attribut.
* Mit welcher Technik kann (unter anderem) die $k$-Anonymität geknackt werden?
> Mit "Verlinken" bzw. dem Hinzuziehen von Hintergrundinformationen.

<hr>

# Notebook 2: Definition von Differential Privacy

***Hier geht es zum vorherigen Notebook dieser Serie: [Notebook 1: Einführung in die Thematik](./1_Einführung-in-die-Thematik.ipynb)***

## Lernziele

Folgende Lernziele sollten mit der Bearbeitung dieses Jupyter Notebooks erreicht werden:
- Die Teilnehmenden sind in der Lage, die beiden Modelle (lokal und zentral) der Differential Privacy zu unterscheiden.
- Die Teilnehmenden sind in der Lage, die Definition der $\varepsilon$-Differential Privacy zu erklären.
- Die Teilnehmenden sind in der Lage, das Konzept des Privacy-Budgets zu erklären.
- Die Teilnehmenden sind in der Lage, die Auswirkung des Privacy-Budgets auf den Wissensgewinn des Angreifers abzuschätzen.
- Die Teilnehmenden sind in der Lage, das Konzept der Komposition des Privacy-Budgets zu bezeichnen.

## Wichtige Begriffe

Die Differential Privacy ist eine Definition, welche Anforderungen an eine Funktion stellt. Entsprechend können die Eigenschaften der Differential Privacy nur für Funktionen erfüllt werden, nicht für eine Datensammlung. Dies ist ein essentieller Unterschied zu anderen Ansätzen, wie beispielsweise der $k$-Anonymität.

Eine Funktion, welche die Eigenschaften der Differential Privacy erfüllt, wird als **Mechanismus** bezeichnet. Die Institution, welche den Mechanismus implementiert und damit die Daten sammelt oder publiziert, wird als **Aggregator** bezeichnet.

Das Resultat eines Mechanismus ist vom Anwendungsfall abhängig und kann sich stark unterscheiden. Dies könnte die Ausgabe einer Datenbankabfrage, ein Histogramm, die Schnittstelle zu einem anderen Mechanismus u.v.m. sein. Das Resultat des Mechanismus wird in dieser Übung unabhängig von Anwendungsfall als **Ausgabe** bezeichnet. 

<div class="alert alert-warning">
<b>Wichtige Erkenntnis</b>
    <br />
    <br /> 
Die Differential Privacy beschreibt die Eigenschaften einer Funktion (Mechanismus) und nicht die Eigenschaften einer Datensammlung (wie bspw. bei der k-Anonymität). Die Art des Mechanismus kann vielseitig sein. Zum Beispiel könnte dies eine einfache Datenbankabfrage wie "COUNT()" sein, aber auch eine statistische Anwendung zur Erstellung eines Histogramms basierend auf einer Datensammlung.
</div>

## Zwei Modelle der Differential Privacy

Ein Mechanismus kann für das Sammeln der Daten, aber auch für das Publizieren der Daten implementiert werden. Deshalb wird allgemein zwischen zwei Modellen der Differential Privacy unterschieden.

### Das lokale Modell

Beim lokalen Modell (<a href="#abb-1">Abbildung 1</a>) wird der Mechanismus für das **Sammeln von Daten** implementiert. Hierbei wird der Mechanismus zwischen den Daten-Quellen (i.d.R. sind dies Personen, über welche Daten gesammelt wird) und dem Aggregator implementiert.
<br>
<br>
<center>
<img src="./src/Lokale-DP.png" alt="Lokales Modell">
<br>
<br>
<a name="abb-1">Abbildung 1: Das lokale Modell der Differential Privacy</center></a>

### Das zentrale Modell

Beim zentralen Modell (<a href="#abb-2">Abbildung 2</a>) wird der Mechanismus für die **Publikation von Daten** implementiert. Hierbei wird der Mechanismus zwischen dem Aggregator und der Ausgabe der Daten implementiert.
<br>
<br>
<center>
<img src="./src/Zentrale-DP.png" alt="Zentrales Modell">
<br>
<br>
<a name="abb-2">Abbildung 2: Das zentrale Modell der Differential Privacy</center></a>

## Die Grundidee von Differential Privacy

Die Grundidee von Differential Privacy liegt darin, dass ein Angreifer nicht herausfinden kann, ob eine bestimmte Person in einer Datensammlung enthalten ist oder nicht. Denn wenn ein Angreifer nicht bestimmen kann, ob eine Person enthalten ist oder nicht, kann der Angreifer auch nicht Informationen über diese Person erhalten. Dies soll auch erfüllt sein, wenn der Angreifer unbegrenzt Hintergrundinformationen hat. Das Maximum an Hintergrundinformationen ist dann erreicht, wenn ein Angreifer alle Datensätze kennt, ausser dem gesuchten Datensatz (= die gesuchte Person).

Diese Eigenschaft wird nachfolgend anhand von zwei Datensammlungen abstrahiert (siehe auch <a href="#abb-3">Abbildung 3</a>):

* Es sei eine Datensammlung $D_1$ mit Anzahl $n$ Datensätzen gegeben.
* Es existiert eine Kopie dieser Datensammlung, welche sich in genau einem Datensatz unterscheidet. Dies ist eine sogenannte **benachbarte Datensammlung** $D_2$ mit $n-1$ Datensätzen.
* In $D_1$ ist die gesuchte Person enthalten und in $D_2$ ist diese nicht enthalten. Dies ist der einzige Unterschied zwischen diesen beiden Datensammlungen.
* Ein Angreifer macht nun eine Abfrage und erhält die Ausgabe entweder von $D_1$ (gesuchte Person ist enthalten) oder $D_2$ (gesuchte Person ist nicht enthalten). Der Angreifer sieht nicht, von welcher der beiden Datensammlungen die Ausgabe stammte.
* Die Differential Privacy verlangt nun, dass ein Angreifer bei der erhaltenen Ausgabe mit sehr hoher Wahrscheinlichkeit nicht unterscheiden kann, ob es sich bei der Quelle um $D_1$ oder $D_2$ handelte. Der Angreifer soll also basierend auf der erhaltenen Ausgabe nicht bestimmen können, ob die gesuchte Person enthalten war oder nicht.
* Sind diese Eigenschaften für alle Datensätze gegeben, so kann ein Angreifer für keine der Personen herausfinden, ob sie enthalten sind oder nicht. Dadurch ist der Schutz jedes Individuums gewährleistet.
<br>
<br>
<center>
<img src="./src/Prinzip_DP.png" alt="Grundidee Differential Privacy">
<br>
<a name="abb-3">Abbildung 3: Grundidee von Differential Privacy  </center></a>

Für eine bessere Verständlichkeit wurde in diesem Beispiel in der benachbarten Datensammlung $D_2$ eine Zeile vollständig entfernt. Dies muss jedoch nicht zwingend der Fall sein. Es könnte auch ein Datensatz so verändert worden sein, dass die gesuchte Person nicht mehr enthalten ist (z.B. ersetzt durch eine andere Person). Wichtig ist, dass sich die beiden Datensammlungen in genau einem Datensatz unterscheiden.

<div class="alert alert-info">
    <b>Hinweis</b>
    <br />
    <br />
    Bei dieser Betrachtungsweise geht es um die Grundidee von Differential Privacy, nicht um die Art und Weise wie Differential Privacy impementiert wird. In den nachfolgenden Notebooks wird noch gezeigt, wie die Implementierung von Differential Privacy aussehen kann.
</div>

### Beispiel zur Grundidee von Differential Privacy

Anhand eines Beispiels soll die oben beschriebene Grundidee von Differential Privacy verdeutlicht werden. Es sei die <a href="#tab-1">Tabelle 1</a> mit Informationen zu den Augenfarben von Personen gegeben.

| Vorname | Nachname | Augenfarbe |
| :- | :- | :-| 
| Michael | Meier | blau |
| Julia | Künzler | grün |
| Karl | Lutz | blau |
| Felix | Wagner | grau |
| Maria | Ikonic | braun |
| Jolanda | Meile | grün |
| <span style="color:red">Johannes</span> | <span style="color:red">Sieber</span> | <span style="color:red">blau</span> |
| Angelina | Stucki | braun |
| Mathias | Meister | braun |
| Richard | Inauen | grün |
| Daniela | Scheibner | braun |
| Vanessa | Mayer | blau |

<br>
<a name="tab-1"><center>Tabelle 1: Tabelle zu Augenfarben von Personen</center></a>

Ziel des Angreifers: Die Augenfarbe von Johannes Sieber herausfinden. Der Angreifer verfügt über maximales Hintergrundwissen und kennt somit alle anderen Datensätze der Tabelle. 

Es wird nun eine Abfrage implementiert, welche es erlaubt die Anzahl Personen mit einer bestimmten Augenfarbe abzufragen.

**Ohne Berücksichtigung der Differential Privacy** wäre dies eine einfache Aufgabe. Man würde einfach eine Funktion implementieren, welche die Personen mit der entsprechenden Augenfarbe zählt und ausgibt. Zum Beispiel wie folgt (pseudo SQL Statement):

`COUNT(*)`  
`FROM "Tabelle 1"`  
`WHERE Augenfarbe = "blau"`  

Ausgabe: `4`

Der Angreifer weiss anhand dieser Ausgabe direkt, dass der unbekannte Datensatz offenbar die Augenfarbe "blau" haben muss. Denn der Angreifer kennt alle anderen 3 Datensätze mit der Augenfarbe "blau" ja bereits. Da die Ausgabe 4 ist, muss also der unbekannte Datensatz "blau" als Augenfarbe haben.

Nun soll die Funktion so angepasst werden, dass diese die Eigenschaften der Differential Privacy erfüllt. Der Angreifer soll auf Basis der Ausgabe nicht mehr darauf schliessen können, welche Augenfarbe Johannes Sieber hat. Dafür muss ein bestimmtes Mass an Zufälligkeit der Ausgabe erreicht werden. Dies wird in vielen Fällen (aber nicht ausschliesslich) durch Hinzufügen von **Rauschen** erreicht. Das heisst also, dass nicht mehr die exakte Anzahl der Personen mit einer bestimmten Augenfarbe ausgegeben wird, sondern eine leicht veränderte. Das könnte dann wie folgt aussehen:


`[COUNT(*)`  
`FROM "Tabelle 1"`  
`WHERE Augenfarbe = "blau"] + RANDOM(1,10)` (RANDOM soll eine Funktion sein, welche eine zufällige Ganzzahl zwischen 1-10 generiert)

Ausgabe: `6` (RANDOM hat `2` als Zahl generiert)

Aus Sicht des Angreifers sieht es nun so aus: Er zählt selbst 3 Personen mit der Augenfarbe "blau". Als Resultat der Abfrage hat er aber 6 erhalten, obwohl ja offensichtlich nur noch 1 Datensatz fehlt und somit das Ergebnis eigentlich maximal 4 hätte lauten dürfen. Da der Angreifer die zufällig addierte Zahl aber nicht kennt, weiss er nun nicht, ob Johannes Sieber in dieser Abfrage enthalten war oder nicht.

Und genau das ist (stark vereinfacht) die Grundidee von Differential Privacy. Nur müssen für einen sinnvollen Einsatz von Differential Privacy natürlich bestimmte Regeln eingehalten und weitere Aspekte berücksichtigt werden. Beispielsweise muss die Grösse der Zufallszahl sinnvoll gewählt werden.

Dazu ein Beispiel:

`[COUNT(*)`  
`FROM "Tabelle 1"`  
`WHERE Augenfarbe = "grau"] + RANDOM(1,10)`

Ausgabe: `10` (RANDOM hat `9` als Zahl generiert)

In der Tabelle ist eigentlich nur eine Person mit der Augenfarbe "grau" enthalten. Als Resultat kam jedoch 10 zurück. Dies schützt zwar die Privacy, zerstört aber jeglichen Nutzen der Abfrage.

Bei der Differential Privacy ist es von zentraler Bedeutung, dass korrekte Erkenntnisse über eine grosse Menge von Personen gewonnen werden können. Dies muss gegeben sein, ohne dass Erkenntnisse über einzelne Personen gewonnen werden können. Aus diesem Grund ist es essentiell, dass das Ergebnis nur so weit verändert wird, dass keine Erkenntnisse über Individuen gewonnen werden können, aber die Erkenntnisse über eine grosse Menge an Personen weiterhin relevant sind.

In der Differential Privacy kommen bestimmte Ausgaben jeweils mit bestimmten Wahrscheinlichkeiten vor. Das heisst, dass die Ausgabe nicht mehr deterministisch ist, sondern probabilistisch. Die Anzahl der Personen mit blauen Augen wäre im obigen Beispiel also zu einer bestimmten Wahrscheinlichkeit `4`, zu einer anderen Wahrscheinlichkeit `5`, zu einer anderen Wahrscheinlichkeit `1`, usw. 

Daraus resultiert, dass das korrekte Resultat (in dem Beispiel mit den blauen Augen wäre dies `4`) nur zu einer bestimmten Wahrscheinlichkeit herauskommt. Die Wahrscheinlichkeiten spielen also eine zentrale Rolle bei der Differential Privacy. Deshalb gilt es nun die formale Definition der Differential Privacy anzuschauen.

## Die formale Definition von Differential Privacy

Formal lässt sich das oben beschriebene Prinzip in folgende Definition übersetzen:

<div class="alert alert-success">
<b>Definition: $\varepsilon$-Differential Privacy</b>
    <br />
    <br /> 
Ein Mechanismus $M$ erfüllt dann die Eigenschaften von $\varepsilon$-Differential Privacy, wenn für alle Datensammlungen $D_1$ und $D_2$, welche sich in genau einem Datensatz unterscheiden, für alle möglichen Ausgaben $A$ gilt:

$$\mathbb{P}[M(D_1) = A] \leq e^{\varepsilon} * \mathbb{P}[M(D_2) = A]$$
</div>

Für eine bessere Verständlichkeit werden die einzelnen Teile des mathematischen Ausdrucks einzeln betrachtet:

- $\mathbb{P}[M(D_1) = A]$ beschreibt die Wahrscheinlichkeit, dass wenn der Mechanismus $M$ auf der Datensammlung $D_1$ ausgeführt wird, die Ausgabe $A$ resultiert. 

- $e^{\varepsilon}$ ist die Eulersche Exponentialfunktion mit $\varepsilon$ als Exponenten. Je kleiner das $\varepsilon$, desto näher kommt die Exponentialfunktion an 1 (das $\varepsilon$ muss per Definition $\geq 0$ sein).

- $\mathbb{P}[M(D_2) = A]$ beschreibt die Wahrscheinlichkeit, dass wenn der Mechanismus $M$ auf der Datensammlung $D_2$ ausgeführt wird, die Ausgabe $A$ resultiert. Diese Wahrscheinlichkeit wird mit $e^{\varepsilon}$ multipliziert. Das $\varepsilon$ spielt eine essentielle Rolle bei der Differential Privacy und wird auch **Privacy-Budget** genannt.


In Worte übersetzt, heisst das:

"Die Wahrscheinlichkeit, dass die Ausgabe A herauskommt, wenn die gesuchte Person enthalten ist, muss kleiner oder gleich sein, als die Wahrscheinlichkeit, dass die Ausgabe A herauskommt, wenn die gesuchte Person nicht enthalten ist. Die zweite Wahrscheinlichkeit wird mit dem Privacy-Budget multipliziert, was eine bewusste Lockerung der Definition ermöglicht. Durch das Privacy-Budget kann also festgelegt werden, wie stark man vom optimalen Schutz der Privacy abweichen möchte. Je grösser das Privacy-Budget, desto schlechter der Schutz."

Die Definition ist symmetrisch. Das heisst, dass $D_1$ und $D_2$ vertauscht werden können, was formal wie folgt dargestellt werden kann:

$$e^{-\varepsilon} * \mathbb{P}[M(D_2) = A] \leq \mathbb{P}[M(D_1) = A] \leq e^{\varepsilon} * \mathbb{P}[M(D_2) = A]$$

### Beispiel 1: Privacy-Budget von 0

Es wird angenommen, dass die Ausgabe A mit einer Wahrscheinlichkeit von 0.034 basierend auf $D_1$ resultiert und mit Wahrscheinlichkeit von 0.028 basierend auf $D_2$. Diese Wahrscheinlichkeiten sind reine Annahmen und wurden nicht hergeleitet. Weiter wird ein Privacy-Budget von 0 verwendet.

Gegeben sind somit:
- $\mathbb{P}[M(D_1) = A] = 0.034$
- $\mathbb{P}[M(D_2) = A] = 0.028$
- $\varepsilon = 0$

Diese Werte werden nun in die Definition

$$e^{-\varepsilon} * \mathbb{P}[M(D_2) = A] \leq \mathbb{P}[M(D_1) = A] \leq e^{\varepsilon} * \mathbb{P}[M(D_2) = A]$$

eingesetzt. Dies sieht dann wie folgt aus:

\begin{align*}
& e^{-0} * 0.028 &\leq 0.034 &\leq e^{0} * 0.028 \\
\equiv & 1 * 0.028 &\leq 0.034 &\leq 1 * 0.028 \\
\equiv & 0.028 &\leq 0.034 &\leq 0.028
\end{align*}

Der Term "$0.028 \leq 0.034 \leq 0.028$" ist offensichtlich FALSCH, weshalb die $0$-Differential Privacy NICHT erfüllt ist. 

Ein Privacy-Budget von 0 lässt, wie man sieht, keinen Spielraum für unterschiedliche Wahrscheinlichkeiten. Nur wenn die Wahrscheinlichkeiten $\mathbb{P}[M(D_1) = A]$ und $\mathbb{P}[M(D_2) = A]$ identisch sind, kann bei einem Privacy-Budget von 0 die Differential Privacy erfüllt werden.

Dies macht zwar zum Schutz der Privacy Sinn, denn so resultieren alle Ausgaben A mit genau denselben Wahrscheinlichkeiten, egal ob die Person enthalten ($D_1$) oder nicht enthalten ($D_2$) war. In der Praxis macht ein Privacy-Budget von 0 jedoch keinen Sinn, da dadurch der Nutzen der Daten gänzlich verloren geht. Weshalb dies so ist, wird bei den praktischen Aufgaben in den nachfolgenden Notebooks noch deutlich gezeigt.

### Beispiel 2: Privacy-Budget von ln(2)

Es werden dieselben Wahrscheinlichkeiten angenommen, wie im 1. Beispiel. Nun wird jedoch ein Privacy-Budget von ln(2) verwendet.

Gegeben sind somit:
- $\mathbb{P}[M(D_1) = A] = 0.034$
- $\mathbb{P}[M(D_2) = A] = 0.028$
- $\varepsilon = ln(2)$

Dies sieht wie folgt aus:

\begin{align*}
& e^{-ln(2)} * 0.028 &\leq 0.034 &\leq e^{ln(2)} * 0.028 \\
\equiv & 0.5 * 0.028 &\leq 0.034 &\leq 2 * 0.028 \\
\equiv & 0.014 &\leq 0.034 &\leq 0.056
\end{align*}

Der Term "$0.014 \leq 0.034 \leq 0.056$" ist WAHR und somit sind die Eigenschaften der $ln(2)$-Differential Privacy erfüllt. Dank dem Privacy Budget dürfen sich die Wahrscheinlichkeiten bis zu einem bestimmten Faktor unterscheiden, ohne dass die Differential Privacy verletzt wird.

### Beispiel 3: Privacy-Budget von ln(2) mit anderen Wahrscheinlichkeiten

In diesem Beispiel werden andere Wahrscheinlichkeiten angenommen. Das Privacy-Budget bleibt weiterhin bei ln(2).

Gegeben sind:
- $\mathbb{P}[M(D_1) = A] = 0.09$
- $\mathbb{P}[M(D_2) = A] = 0.001$
- $\varepsilon = ln(2)$


\begin{align*}
& e^{-ln(2)} * 0.001 &\leq 0.09 &\leq e^{ln(2)} * 0.001 \\
\equiv & 0.5 * 0.001 &\leq 0.09 &\leq 2 * 0.001 \\
\equiv & 0.0005 &\leq 0.09 &\leq 0.002
\end{align*}

Der Term "$0.0005 \leq 0.09 \leq 0.002$" ist FALSCH und somit sind die Eigenschaften der $ln(2)$-Differential Privacy NICHT erfüllt. Obwohl das Privacy-Budget gleich gewählt wurde wie bei Beispiel 2, sind nun die Eigenschaften der Differential Privacy nicht mehr erfüllt. Die Wahrscheinlichkeiten unterscheiden sich zu stark, um die Eigenschaften der Differential Privacy mit dem gegebenen Privacy-Budget zu erfüllen.

### Beispiel 4: Privacy-Budget von 10 und extreme Wahrscheinlichkeiten

In diesem Beispiel werden extrem unterschiedliche Wahrscheinlichkeiten angenommen. Zudem wird das Privacy-Budget mit einem Wert von 10 sehr hoch gewählt.

Gegeben sind:
- $\mathbb{P}[M(D_1) = A] = 0.999$
- $\mathbb{P}[M(D_2) = A] = 0.005$
- $\varepsilon = 10$


\begin{align*}
& e^{-10} * 0.005 &\leq 0.999 &\leq e^{10} * 0.005 \\
\cong & 0.00004539 * 0.005 &\leq 0.999 &\leq 22026 * 0.005 \\
\cong & 0.000000227 &\leq 0.999 &\leq 110
\end{align*}

Der Term "$0.000000227 \leq 0.999 \leq 110$" ist WAHR und somit sind die Eigenschaften der $10$-Differential Privacy erfüllt. Die Interpretation der konkreten Zahlen lässt jedoch an der Sinnhaftigkeit der Wahrscheinlichkeiten zweifeln, denn:

- Zu 99.9\% kommt die Ausgabe $A$ heraus, wenn der Mechanismus $M$ über $D_1$ ausgeführt wird.
- Wird der Mechanismus $M$ aber über $D_2$ ausgeführt, kommt nur zu 0.5\% die Ausgabe $A$ heraus.
- Obwohl nun also die Differential Privacy erfüllt ist, sind die Unterschiede der Ausgaben basierend auf $D_1$ und $D_2$ enorm. Dies, weil das Privacy-Budget zu hoch gewählt wurde und deshalb solch drastische Unterschiede in den Wahrscheinlichkeiten erlaubt.

<div class="alert alert-warning">
<b>Wichtige Erkenntnis</b>
    <br />
    <br /> 
Nur weil die Eigenschaften von Differential Privacy erfüllt sind, heisst das nicht zwingend, dass auch ein guter Schutz der Privacy gegeben sein muss. Wie gut die Privacy geschützt wird, bestimmt das Privacy-Budget. Wird dieses Budget falsch (also zu hoch) festgelegt, kann dies zu unzureichendem Schutz der Privacy führen.
</div>

<div class="alert alert-danger">
    <h3>Übung: Wahrscheinlichkeiten und Privacy-Budget</h3>
    <br />
Die folgenden Werte sind gegeben:
<ul>
    <li>$\mathbb{P}[M(D_1) = A] = 0.029$</li>
    <li>$\mathbb{P}[M(D_2) = A] = 0.036$</li>
    <li>$\varepsilon = 0.1$</li>
</ul>

Sind für die gegebenen Wahrscheinlichkeiten und für das gegebene Privacy-Budget die Eigenschaften der $0.1$-Differential Privacy erfüllt?
<br />
<br />
<i>Hinweis: Eine Musterlösung ist im <a href="./7_Musterlösungen-der-Übungen.ipynb">Notebook 7: Musterlösungen der Übungen</a> zu finden.</i>
</div>

## Quantifizierung des Angreiferwissens

Die Bedeutung des Privacy-Budgets wird nachfolgend anhand eines Beispiels verdeutlicht. Hierbei wird gezeigt, wie das Wissen des Angreifers quantifiziert wird und welche Auswirkungen die Wahl des $\varepsilon$-Werts hat.

Es seien folgende Rahmenbedingungen gegeben:
- Es sei ein Mechanismus $M$ gegeben, welcher die Eigenschaften von $\varepsilon$-Differential Privacy erfüllt.
- Dieser Mechanismus wird auf der Datensammlung $D$ ausgeführt, woraus die Ausgabe $M(D) = A$ resultiert.
- Ein Angreifer versucht herauszufinden, ob die Zielperson in $D$ enthalten ist oder nicht. Für den Angreifer existieren somit zwei Szenarien: Die Zielperson ist in $D$ enthalten oder sie ist nicht in $D$ enthalten. Dies kann abstrahiert werden, indem zwischen zwei Datensammlungen unterschieden wird. $D_1$ für die Datensammlung, in welcher die Zielperson enthalten ist und $D_2$ für die Datensammlung, in welcher die Zielperson fehlt. Der Angreifer versucht anhand der Ausgabe $A$ herauszufinden, ob diese basierend auf $D_1$ oder $D_2$ zustande kam.
- Es wird angenommen, dass der Angreifer maximales Hintergrundwissen hat und in der Datensammlung somit nur die Zielperson unbekannt ist. 

Der Angreifer hat einen initialen Verdacht, ob die Zielperson enthalten ist oder nicht. Dieser Verdacht kann zwischen $0$ (Angreifer weiss, dass Zielperson nicht enthalten ist) und $1$ (Angreifer weiss, dass Zielperson enthalten ist) liegen. Hat der Angreifer keinen Verdacht, ob die Zielperson enthalten ist oder nicht, liegt die Wahrscheinlichkeit bei $0.5$.

Der Mechanismus $M$ wird ausgeführt und resultiert in der Ausgabe $A$. Nun stellt sich die Frage, um wie viel der Verdacht des Angreifers geändert hat, nachdem dieser die Ausgabe $A$ erhalten hat. Wird die Wahrscheinlichkeit des initialen Verdachts mit der Wahrscheinlichkeit des neuen Verdachts verglichen, erhält man einen genauen Wert für den Wissensgewinn des Angreifers. 

In <a href="#abb-4">Abbildung 4</a> sind die unteren und oberen Grenzen des Wissensgewinns für unterschiedliche $\varepsilon$-Werte grafisch dargestellt. Die weisse Linie von $(0.0|0.0)$ zu $(1.0|1.0)$ stellt den Fall dar, wenn der Angreifer kein zusätzliches Wissen gewonnen hat und der initiale Verdacht ("initial suspicion") dem neuen Verdacht ("updated suspicion") entspricht. Es ist ersichtlich, dass bei steigendem $\varepsilon$-Wert der Wissensgewinn des Angreifers wächst. So würde ein initialer Verdacht von $0.1$ bei einem $\varepsilon$-Wert von $5$ zu einem neuen Verdacht von $0.94$ führen. Der Angreifer wäre sich also nach einer einzigen Abfrage zu 94\% sicher, dass die Zielperson in der Datensammlung enthalten ist, obwohl er sich zu Beginn nur zu 10\% sicher war.
<br>
<br>
<center>
<img src="./src/dp-epsilon-values.png" alt="Auswirkung Epsilon auf Wissensgewinn">
<br>
<br>
<a name="abb-4">Abbildung 4: Auswirkung von $\varepsilon$ auf den Wissensgewinn (Quelle: desfontain.es)</center></a>

**Dies ist ein riesiger Vorteil der Differential Privacy!** Denn der potenzielle Wissenszuwachs eines Angreifers kann bestimmt werden. Bei der $k$-Anonymität z.B. sagt das $k$ nichts darüber aus, wie "gut" die Privacy ist. Ob nun $k = 4$ oder $k = 5$ gewählt wird, es lässt sich nicht direkt darauf schliessen, wie viel Wissen ein potenzieller Angreifer gewinnen kann oder wie effektiv der Schutz von Individuen innerhalb der Datensammlung gewährleistet ist.

### Das Privacy-Budget nochmals zusammengefasst

Das $\varepsilon$ erlaubt es den Privacy-Verlust genau zu quantifizieren und wird deshalb auch als "Privacy-Budget" bezeichnet. 

Das $\varepsilon$ muss per Definition $\geq 0$ sein. Je kleiner das $\varepsilon$ wird, umso mehr nähert sich die Exponentialfunktion $e^{\varepsilon}$ an $1$ an. Die Ähnlichkeit der Wahrscheinlichkeiten hängt somit stark von $\varepsilon$ ab. Je kleiner das $\varepsilon$ ist, desto ähnlicher sind die Ausgaben und somit wird auch der maximale Wissenszuwachs eines Angreifers kleiner.

<div class="alert alert-warning">
<b>Wichtige Erkenntnis</b>
    <br />
    <br /> 
Je kleiner das $\varepsilon$, umso höher der Schutz der Privacy.
</div>

## Komposition des Privacy-Budgets

Ein weiterer grosser Vorteil von Differential Privacy ist, dass das Privacy-Budget auch für Kompositionen von mehreren Mechanismen bestimmt werden kann. Ganz im Kontrast zu beispielsweise der $k$-Anonymität. Bei der Kombination von zwei $k$-anonymen Datensammlungen, kann keine Aussage über den $k$-Wert der resultierten Datensammlung gemacht werden. Also wenn bspw. eine 3-anonyme und eine 5-anonyme Datensammlung vereint werden, kann daraus nicht direkt der neue $k$-Wert abgeleitet werden.

Bei der Differential Privacy wird zwischen paralleler und sequentieller Komposition unterschieden. 

### Parallele Komposition

Bei der **parallelen Komposition** (siehe auch <a href="#abb-5">Abbildung 5</a>)  werden mehrere Mechanismen ausgeführt, wobei jeder Mechanismus über eine disjunkte Teilmenge der gesamten Datensammlung ausgeführt wird. Das heisst, dass ein Datensatz jeweils nur Einfluss auf das Ergebnis eines Mechanismus hat.
<br>
<br>
<center>
<img src="./src/Parallele-Komposition.png" alt="Parallele Komposition">
<br>
<br>
<a name="abb-5">Abbildung 5: Parallele Komposition</center></a>


Die Komposition dieser Mechanismen ($M$) garantiert in diesem Fall das Privacy-Budget von $max(\varepsilon_1, \dots, \varepsilon_m)$, was dem grössten $\varepsilon$-Wert aller Mechanismen innerhalb der Komposition entspricht.

#### Beispiel: Parallele Komposition

Mechanismus 1: "Zähle das Alter aller Männer zusammen"  
Mechanismus 2: "Zähle das Alter aller Frauen zusammen"


Annahme: Jeder Datensatz kann nur entweder ein Mann oder eine Frau sein. 

Weiter nehmen wir folgende Privacy-Budgets für die beiden Mechanismen an:  
$\varepsilon$ Mechanismus 1 = 0.3  
$\varepsilon$ Mechanismus 2 = 0.6


Die beiden Mechanismen werden über eine disjunkte Menge ausgeführt, sprich: das Alter eines Datensatzes kann entweder in Mechanismus 1 oder in Mechanismus 2 enthalten sein, da ein Datensatz nicht gleichzeitig eine Frau und ein Mann sein kann. Deshalb handelt es sich um eine parallele Komposition.

Somit gilt: Privacy-Budget der Komposition = max(0.3, 0.6) = 0.6

### Sequentielle Komposition

Bei der **sequentiellen Komposition** (siehe auch <a href="#abb-6">Abbildung 6</a>) werden die Mechanismen sequentiell und somit nacheinander auf derselben Datensammlung ausgeführt. 
<br>
<br>
<center>
<img src="./src/Sequentielle-Komposition.png" alt="Sequentielle Komposition">
<br>
<br>
<a name="abb-6">Abbildung 6: Sequentielle Komposition</center></a>

Die Komposition dieser Mechanismen ($M$) garantiert in diesem Fall das Privacy-Budget von $\sum_{i=1}^m \varepsilon$, was der Summe der $\varepsilon$-Werte aller Mechanismen innerhalb der Komposition entspricht.

#### Beispiel: Sequentielle Komposition

Mechanismus 1: "Zähle die Anzahl Personen mit blauen Augen"  
Mechanismus 2: "Zähle die Anzahl Personen mit schwarzen Haaren"

Wir nehmen wiederum folgende Privacy-Budgets für die beiden Mechanismen an:  
$\varepsilon$ Mechanismus 1 = 0.3  
$\varepsilon$ Mechanismus 2 = 0.6

Da die beiden Mechanismen über die gesamte Datensammlung ausgeführt werden, ist es eine sequentielle Komposition. Denn eine Person mit blauen Augen kann bspw. auch schwarze Haare haben.

Somit gilt: Privacy-Budget der Komposition = sum(0.3, 0.6) = 0.9

<div class="alert alert-danger">
    <h2>Übung: Komposition des Privacy-Budgets</h2>
    <br />
Es sei eine Datensammlung zu Straftaten gegeben. Über diese Datensammlung sollen nun zwei Mechanismen ausgeführt werden:  

Mechanismus 1: "Zähle die Anzahl Personen unter 18 Jahren"  
Mechanismus 2: "Zähle die Anzahl Personen, bei welchen Drogenhandel als Straftat erfasst wurde"
    <br />
    <br />
    <b>Frage 1:</b> Welche Art von Komposition ist gegeben, wenn beide Mechanismen über der genannten Datensammlung ausgeführt werden?  
    <b>Frage 2:</b> Für beide Mechanismen wird ein Privacy-Budget von 0.4 festgelegt. Wie gross ist das Privacy-Budget der Komposition beider Mechanismen?  
<br />
<br />
<i>Hinweis: Eine Musterlösung ist im <a href="./7_Musterlösungen-der-Übungen.ipynb">Notebook 7: Musterlösungen der Übungen</a> zu finden.</i>
</div>

## Kontrollfragen

* Wie können die Eigenschaften von Differential Privacy für eine Datensammlung erreicht werden?
* Wie heisst das Modell, bei welchem die Daten vor der Übermittlung an einen zentralen Dienstleister (Aggregator) verändert werden?
* Ist die folgende Aussage korrekt? "Je höher das Epsilon ($\varepsilon$), desto höher der Schutz der Privacy."
* Bei welcher Kompositions-Art werden die Privacy-Budgets addiert?

_Hinweis: Eine Musterlösung der Kontrollfragen ist im nächsten Notebook zu finden._

***Hier geht es zum nächsten Notebook dieser Serie: [Notebook 3: Der Laplace Mechanismus](./3_Laplace-Mechanismus.ipynb)***