# Synthetische Daten

Was sind synthetische Daten?

```{admonition} Definition
Synthetische Daten sind künstlich erzeugte Werte, die in ihrer Gesamtheit die Struktur und statistischen Eigenschaften einer Datenstichprobe aus real gemessenen Werten nachbildet.
```

Synthetische Daten sind per Definition generierte Daten, die eine Modellierung (Approximation der Verteilung) der echten Datengrundlage erfordern. 

Ein generatives Model produziert synthetische Daten aus zufälligen Zahlen, die wie echte Daten aussehen, die gleiche Bedeutung tragen und bei Datenoperationen gleiche Ergebnisse liefern, **aber keiner realen Person zugeordnet werden können**. Damit sind synthetische Daten ein perfekter Proxy für die ursprüngliche echte Datenstichprobe und kann statt dieser eingesetzt werden.

## Ein Datenbeispiel

In [3]:
import pandas as pd
from sdv.metadata import SingleTableMetadata
from sdv.lite import SingleTablePreset

med_data = pd.read_excel('./data/RPAD_data_small.xlsx', engine='openpyxl') 
med_data.head(5)

Unnamed: 0,ID,Age,BMI,Sex,Height,Weight,Length_of_Stay,Management,Severity,Alvarado_Score,Paedriatic_Appendicitis_Score
0,7898,12.68,16.9,female,148.0,37.0,3.0,conservative,uncomplicated,4.0,3.0
1,6952,14.1,31.9,male,147.0,69.5,2.0,conservative,uncomplicated,5.0,4.0
2,7909,14.14,23.3,female,163.0,62.0,4.0,conservative,uncomplicated,5.0,3.0
3,8163,16.37,20.6,female,165.0,56.0,3.0,conservative,uncomplicated,7.0,6.0
4,1933,11.08,16.9,female,163.0,45.0,3.0,conservative,uncomplicated,5.0,6.0


```{admonition}
Persönliche Informationen machen einzelne Menschen in einem Datensatz identifizierbar:
```

In [12]:
med_data[(med_data['Height']==163) & (med_data['Age'] <= 12)]

Unnamed: 0,ID,Age,BMI,Sex,Height,Weight,Length_of_Stay,Management,Severity,Alvarado_Score,Paedriatic_Appendicitis_Score
4,1933,11.08,16.9,female,163.0,45.0,3.0,conservative,uncomplicated,5.0,6.0
205,9035,11.35,25.6,female,163.0,68.0,3.0,conservative,uncomplicated,6.0,4.0
240,9700,9.267625,23.335466,male,163.0,62.0,2.0,conservative,uncomplicated,2.0,2.0



```{admonition}
Synthetische Daten werden künstlich erzeugt und sind damit keiner reellen Person zuordenbar.
```

In [15]:
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(data=med_data)

synthesizer = SingleTablePreset(metadata, name='FAST_ML')
synthesizer.fit(med_data)

med_data_synth = synthesizer.sample(num_rows=med_data.shape[0])

med_data_synth.head(5)

Unnamed: 0,ID,Age,BMI,Sex,Height,Weight,Length_of_Stay,Management,Severity,Alvarado_Score,Paedriatic_Appendicitis_Score
0,7109,15.236162,21.13633,female,176.644801,63.284976,2.942523,conservative,uncomplicated,7.08731,6.049639
1,5765,3.050711,12.566346,male,103.90605,6.43898,5.257973,conservative,uncomplicated,6.905003,6.881729
2,2402,7.727097,12.196794,male,138.056399,25.037305,5.902269,conservative,uncomplicated,10.0,9.364234
3,8480,11.964649,23.336835,female,143.513145,45.516364,2.043838,conservative,uncomplicated,1.704921,3.327257
4,3978,11.20188,18.23639,male,144.011407,35.515245,3.774677,conservative,uncomplicated,6.770871,


In [16]:
med_data_synth[(med_data_synth['Height']==163) & (med_data_synth['Age'] <= 12)]

Unnamed: 0,ID,Age,BMI,Sex,Height,Weight,Length_of_Stay,Management,Severity,Alvarado_Score,Paedriatic_Appendicitis_Score


<br/><br/>
Fällt euch was auf?

```{dropdown} Spoiler
Die generierten numerischen Werte zum Beispiel bei 'Age' haben mehr Nachkommastellen als die Werte im originalen Datensatz.
```

## Besonderheiten

###### Welche Arten von synthetischen Daten gibt es?
```{figure} images/Arten_SD.png
---
figclass: boxed
width: 100%
---
Synthetische Daten unterscheiden sich nach dem Grad der Wiedergabetreue.
```

###### Was macht den Einsatz von synthetischen Daten spannend?

1. Synthetische Daten sehen aus und fühlen sich an wie echte Daten.

```{figure} images/bilder_anon.png
---
figclass: boxed
width: 100%
---
```
<br/><br/>
2. Synthetische Daten enthalten keine personenbezogenen Informationen, da sie aus zufälligen Zahlen generiert werden.

```{figure} images/ctgan_architecure.png
---
figclass: boxed
width: 100%
---
Beispiel für die Architektur eines Neuronalen Netzes zur Generierung von synthetischen Daten aus Zufallszahlen. Quelle: https://datacebo.com/blog/interpreting-ctgan-progress/

```

## Praxisbeispiele in der Verwaltung

Einsatz von synthetischen Daten in der Praxis:

1. Dummy Daten können Struktur und Aufbau von Datensätzen veranschaulichen.
2. Synthetische Daten können echte Datengrundlagen aufwerten.
3. Synthetische Daten ermöglichen das Teilen von Datengrundlagen trotz Datenschutzvorgaben.

(section-label)=
### Struktur und Aufbau von Datensätzen veranschaulichen

1. Versuchsdaten für Softwaretesting 
2. Datenbeispiele zur Verprobung von Konzepten, Forschungsvorhaben und Produktvorstellungen auf Arbeitsebe

::::{grid}
:gutter: 3

:::{grid-item-card} Projekt
```{figure} images/ADR-UK.png
---
figclass: boxed
width: 100%
---
```
Administrative Data Research UK & Economic and Social Research Council
:::

:::{grid-item-card} Ergebnis
Kritische Betrachtung der Datenqualität, dem Datenschutz und dem Verständnis von Auswirkungen bei der Nutzung
:::

:::{grid-item-card} Vorschläge
Nutzung von Dummy Daten und Ausweitung echter Datengrundlagen
Produkt: [Colab Notebook](https://colab.research.google.com/drive/1xax64hSDf15WE8v49vpqaRUKDvjppXMQ)
:::
::::

(section-label)=
### Echte Datengrundlagen aufwerten

1. Kleine Datensätze erweitern
2. Unvollständige Daten ergänzen
3. Bias in echten Datengrundlagen aufheben 

::::{grid}
:gutter: 3

:::{grid-item-card} Projekt
```{figure} images/SD_gretel_google.png
---
figclass: boxed
width: 100%
---
```
Google Cloud Platform & Gretel 
:::

:::{grid-item-card} Ergebnis
Integration der Generierung synthetischer Daten als Dienstleistung auf MLOps-Plattform von Google (Vertex AI)
:::

:::{grid-item-card} Ziel
Verbesserung der Datengrundlage zum Training von ML-Modellen
:::
::::


(section-label)=
### Schützenswerte Datengrundlagen teilen

1. Sensible Daten zur internen Verarbeitung teilen. (bspw. Software/Data Science Team)
2. Sensible Daten zu Forschungszwecken bereitstellen.

::::{grid}
:gutter: 2

:::{grid-item-card} Projekt
```{figure} images/KI-FDZ.png
---
figclass: boxed
width: 100%
---
Künstliche Intelligenz am Forschungsdatenzentrum im BfArM zur Erforschung von Anonymisierungsmöglichkeiten und AI-readiness (KI-FDZ) 
:::

:::{grid-item-card} Vorhaben
```{epigraph}
...aus den echten Gesundheitsdaten künstliche Datensätze zu erzeugen, die jedoch die gleichen statistischen Eigenschaften wie die echten haben.

-- KI-FDZ Projektbeschreibung
```
:::

::::


# Synthetische Daten mit ML

```{dropdown} Sind synthetische Daten ohne Gefahren teilbar? Nach aktueller DSGVO eigentlich ja, ...
aber es besteht das Risiko, durch Fehler im Generierungsprozess, gegen die DSGVO zu verstoßen.
```

Dadurch ergibt sich ein Bedarf an Regulierung und einheitlichen Standards für die Nutzung von synthetischen Daten.

```{admonition} Bestehende Regulierungen  
Arbeitsgruppe der Synthetic Data Industry Connections der IEEE Association erarbeitet Vorschlägen zu Privatsphärestandards und Qualitätsstandards bei KI-generierten synthetischen Daten.
```{figure} images/iee_sa.png
---
figclass: boxed
width: 50%
---
```

```{dropdown} Risikofrei? Nein, ...

aber wir können Differential Privacy in den Generierungsprozess integrieren,
       der die eingehaltene Privatsphäre im synthetischen Datensatz kontrolliert. 
```

```{admonition} Forschungsergebnisse  
Challenge der National Institute of Standards and Technology mit DP-Algorithmen zur Generierung synthetischer Daten. (GAN-Version belegte Platz 5.)
```{figure} images/NIST_challenge.png
---
figclass: boxed
width: 100%
---
```


```{admonition} Platz 1  
```{figure} images/nist1.png
---
figclass: boxed
width: 100%
---
```

```{dropdown} Platz 2
 
```{figure} images/nist2.png
---
figclass: boxed
width: 100%
---
```

```{dropdown} Platz 3
 
```{figure} images/nist3.png
---
figclass: boxed
width: 100%
---
```
```{dropdown} Platz 4
 
```{figure} images/nist4.png
---
figclass: boxed
width: 100%
---
```
```{admonition} Platz 5  
```{figure} images/nist5.png
---
figclass: boxed
width: 100%
---
```