# Syllabus

Explore various techniques for dealing with missing data, including data imputation methods.

---
# Einführung in Techniken zur Bereinigung fehlender Daten

Erklärung:

- Fehlende Daten treten in vielen Datensätzen auf und müssen bereinigt werden, um genaue Analysen zu gewährleisten.
- Methoden zur Behandlung fehlender Daten:
    - Entfernen: Löschen von Zeilen oder Spalten, die fehlende Werte enthalten.
    - Imputation:
        - Mean Imputation: Ersetzen fehlender Werte durch den Mittelwert der jeweiligen Spalte.
        - Median Imputation: Ersetzen fehlender Werte durch den Median.
        - Mode Imputation: Ersetzen fehlender Werte durch den häufigsten Wert (für kategoriale Daten).
        - Vorheriger/Nächster Wert: Verwenden von Werten aus benachbarten Zeilen.

In [2]:
import pandas as pd

# Beispieldaten mit fehlenden Werten
data = {'age': [25, 30, None, 22, 28],
        'income': [50000, 54000, 58000, None, 61000],
        'gender': ['male', 'female', None, 'female', 'male']}

df = pd.DataFrame(data)

# Fehlende Werte durch den Mittelwert ersetzen (numerische Spalte)
df['age'] = df['age'].fillna(df['age'].mean())

# Fehlende Werte durch den häufigsten Wert (Mode) ersetzen (kategoriale Spalte)
df['gender'] = df['gender'].fillna(df['gender'].mode()[0])


# Fehlende Werte durch den Mittelwert ersetzen (numerische Spalte)
df['income'] = df['income'].fillna(df['income'].median())


print("\nDaten nach der Imputation:")
print(df)


Daten nach der Imputation:
     age   income  gender
0  25.00  50000.0    male
1  30.00  54000.0  female
2  26.25  58000.0  female
3  22.00  56000.0  female
4  28.00  61000.0    male


---
# Wann ist es besser, fehlende Werte zu entfernen, und wann sollten sie imputiert werden?

Modellbasierte Imputation verwendet Machine-Learning- oder statistische Modelle, um fehlende Werte basierend auf den vorhandenen Daten vorherzusagen. Diese Methode berücksichtigt Beziehungen zwischen Variablen und erzeugt realistischere Vorhersagen als einfache Techniken wie Mittelwert- oder Medianimputation.

Typische Ansätze:

Regressionsbasierte Imputation: Ein Regressionsmodell sagt den fehlenden Wert auf Basis anderer Merkmale im Datensatz vorher.
Multiple Imputation: Mehrere Modelle erzeugen verschiedene plausible Werte für die fehlenden Daten, um Unsicherheiten zu berücksichtigen.
KNN-Imputation: Sucht nach ähnlichen Datenpunkten und nutzt deren Werte, um die fehlenden zu schätzen.


---
# Welche Vor- und Nachteile haben die verschiedenen Imputationstechniken?

Vorteil: Höhere Genauigkeit, da die zugrunde liegenden Beziehungen zwischen den Variablen berücksichtigt werden.

Nachteil: Höhere Komplexität und Rechenaufwand.