# Anonymisierung und Pseudonymisierung synthetischer Personendaten

--- Vorbereitung ---

--- Wichtiger Hinweis zur Bearbeitung ---
  
 Jede Bearbeitungsschritt sollte immer auf einer neuen Kopie des Original-Datensatzes erfolgen.
 Warum?
 - So bleibt der Ursprungsdatensatz erhalten.
 - Verschiedene Anonymisierungsansätze können unabhängig voneinander getestet werden.
 - Fehlerhafte Bearbeitungen können einfach neu gestartet werden, ohne die Originaldaten zu verlieren.



In [4]:
from faker import Faker
import pandas as pd
import hashlib
import random
import numpy as np

# Faker-Instanz
fake = Faker('de_DE')

# Funktion zum Erstellen des synthetischen Datensatzes
def create_synthetic_dataset(n_rows):
    data = []
    for _ in range(n_rows):
        profile = fake.simple_profile()
        person = {
            "Vorname": fake.first_name(),
            "Nachname": fake.last_name(),
            "Geburtsdatum": profile['birthdate'],
            "Adresse": fake.address().replace("\n", ", "),
            "Telefonnummer": fake.phone_number(),
            "E-Mail": profile['mail'],
            "Beruf": fake.job(),
            "Kontonummer": fake.iban(),
            "Kreditkartennummer": fake.credit_card_number(card_type=None),
            "IP-Adresse": fake.ipv4_public(),
            "Nationalitaet": fake.country(),
            "Benutzername": profile['username'],
            "Geschlecht": profile['sex'],
            "Firmenname": fake.company(),
            "Steuernummer": fake.ssn()
        }
        data.append(person)
    return pd.DataFrame(data)


In [2]:

# Erzeuge Dataset
df = create_synthetic_dataset(500)
df.head()


Unnamed: 0,Vorname,Nachname,Geburtsdatum,Adresse,Telefonnummer,E-Mail,Beruf,Kontonummer,Kreditkartennummer,IP-Adresse,Nationalitaet,Benutzername,Geschlecht,Firmenname,Steuernummer
0,Mehmet,Liebelt,1920-10-01,"Klemmring 6/4, 39595 Mettmann",0759056336,jens-peterschleich@aol.de,Elektroniker,DE53364449174747866852,4170746899510121,217.255.49.175,Simbabwe,wagenknechtingbert,F,Schleich GmbH & Co. OHG,632-30-6435
1,Sergei,Hörle,1950-05-26,"Dussen vanplatz 05, 29839 Kleve",+49(0)5465 19909,edit67@aol.de,Koreanistiker,DE15322303332992593236,4978530359048309,194.137.48.222,Isle of Man,hoelzenbecherroy,M,Römer,495-78-5336
2,Annett,Schleich,1932-03-04,"Corinne-Stahr-Gasse 8, 76140 Pirmasens",03975 07360,franz-josefladeck@gmx.de,Binnenschiffer,DE27419259731490074900,180038360447553,109.219.12.61,Finnland,schlosserjuri,F,Kallert Austermühle AG,056-21-5939
3,Wally,Ebert,1974-04-03,"Zofia-Bohlander-Straße 867, 35645 Luckenwalde",+49(0) 930110511,valerijdrubin@gmail.com,Erzieher,DE55826254891357942323,3576552747739272,213.73.106.30,Bosnien und Herzegowina,serpilhande,F,Anders GmbH & Co. KGaA,677-93-7872
4,Andrei,Reuter,1955-03-19,"Sieringallee 8/2, 02692 Magdeburg",+49(0) 695589903,cstiffel@googlemail.com,Krankenschwester,DE26732619536730472887,3579309274974690,122.29.74.120,Amerikanisch-Ozeanien,lhentschel,F,Vollbrecht Fischer e.V.,130-19-2795


# ---Aufgabe 1 ---


 ## Basis-Anonymisierung


 Aufgabenstellung:
 - Telefonnummer maskieren (erste drei Ziffern ersetzen)
 - Geburtsjahr extrahieren
 - Kreditkartennummer anonymisieren (nur letzte vier Stellen behalten)
 - Adresse vereinfachen auf Stadt
 - E-Mail Domain anonymisieren


 Erklärungen der Operationen:
 - Telefonnummer: Schutz der Erreichbarkeit durch Verbergen der Vorwahl.
 - Geburtsjahr: Reduzierung der Exaktheit des Alters für bessere Anonymität.
 - Kreditkartennummer: Nur letzte Ziffern sichtbar lassen, um Missbrauch zu verhindern.
 - Adresse: Nur Stadt beibehalten, um Rückschlüsse auf Hausanschrift zu vermeiden.
 - E-Mail: Austausch der Domain, um Kontaktinformationen zu entkoppeln.


In [3]:
# Dein Code kommt hier rein


# Mittel: Pseudonymisierung und K-Anonymität

Aufgabe 2:

Aufgabenstellung:
 - Vorname und Nachname durch konsistente Pseudonyme (Hash) ersetzen
 - Benutzername hashen
 - Altersgruppen bilden (z.B. 20-29)
 - IP-Adresse entfernen
 - Nationalität reduzieren -> finde eine sinnvolle reduzierung
 - Berufsfeld in Sektoren kategorisieren

 Erklärungen der Operationen:
 - Pseudonymisierung: Ersetzen echter Namen durch Hashwerte für Nachvollziehbarkeit ohne Identifikation.
 - Altersgruppen: Gruppierung zur Reduktion der Re-Identifizierbarkeit.
 - IP-Adresse: Vollständige Entfernung, da eindeutig rückführbar.
 - Nationalität: Grobe Klassifizierung zur Wahrung regionaler Merkmale ohne konkrete Länderangabe.
 - Berufsfeld: Zusammenfassen von Berufen in Sektoren für einfachere, sicherere Verarbeitung.


In [None]:
# Dein Code kommt hier rein


# Schwer: Differential Privacy, Suppression, Perturbation

Aufgabenstellung:
 - Kleine Zufallsveränderung an Kontonummern einfügen (Rauschen)
 - Telefonnummer leicht verändern (Perturbation)
 - Seltene Berufe (weniger als 3 Vorkommen) entfernen (Suppression)
 - Altersrauschen ±3 Jahre hinzufügen
 - Steuernummer komplett entfernen

 Erklärungen der Operationen:
 - Kontonummer: Geringfügige Veränderung einzelner Ziffern für Plausibilitätswahrung ohne Echtheit.
 - Telefonnummer: Geringfügige Änderung zur Erhöhung der Anonymität.
 - Beruf: Entfernung seltener Werte zum Schutz vor Einzelidentifikation.
 - Altersrauschen: Erhöhung der Privatsphäre bei Altersangaben.
 - Steuernummer: Entfernung hochsensibler eindeutiger Identifikatoren.

In [None]:
# Dein Code kommt hier rein