# Woche 7: Data Cleaning - Übung am eigenen Projekt

**Ziel dieser Übung:** Nachdem Sie die wichtigsten Aspekte des Data Cleanings am Airbnb-Beispiel kennengelernt haben, wenden Sie dieses Wissen Schritt für Schritt auf Ihren eigenen Datensatz an.

**Arbeitsweise:**
- Arbeiten Sie die Aufgaben nacheinander durch
- Nutzen Sie die Code-Zellen für Ihre Implementierung
- Orientieren Sie sich an den Beispielen aus dem Airbnb-Notebook
- Das bereinigte Dataset speichern Sie am Ende ab

---
## 1. Daten einlesen und Bibliotheken importieren

**Aufgabe:** Importieren Sie die notwendigen Bibliotheken und laden Sie Ihren Datensatz.

**Hinweise:**
- Importieren Sie: `pandas`, `numpy`, `matplotlib.pyplot`, `seaborn`
- Setzen Sie einen Zufallsseed für Reproduzierbarkeit
- Laden Sie Ihren CSV-Datensatz mit `pd.read_csv()`

In [None]:
# Bibliotheken importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

# Zufallsseed setzen


# Datensatz einlesen
df = pd.read_csv('../data/raw/Sleep_health_and_lifestyle_dataset.csv')
df_cleaned = df.copy()

---
## 2. Ersten Überblick verschaffen

**Aufgabe:** Verschaffen Sie sich einen ersten Überblick über Ihren Datensatz.

**Was Sie prüfen sollten:**
- Wie viele Zeilen und Spalten hat der Datensatz?
- Welche Spalten gibt es und welche Datentypen haben sie?
- Wie sehen die ersten Zeilen aus?

In [None]:
# Dimensionen des Datensatzes
print(f"Geladen: {df.shape[0]} Zeilen, {df.shape[1]} Spalten")

# Erste Zeilen anzeigen
df.head()

In [None]:
# Informationen zu Spalten und Datentypen
df.info()

---
## 3. Fehlende Werte identifizieren

**Aufgabe:** Untersuchen Sie Ihren Datensatz auf fehlende Werte.

**Was Sie tun sollten:**
- Zählen Sie fehlende Werte pro Spalte
- Berechnen Sie den Prozentsatz fehlender Werte
- Visualisieren Sie fehlende Werte (optional: Heatmap)

In [None]:
# Fehlende Werte zählen
missing = df_cleaned.isnull().sum()
missing_pct = (missing / len(df_cleaned)) * 100
missing_df = pd.DataFrame({
    'Spalte': missing.index,
    'Fehlend': missing.values,
    'Prozent': missing_pct.values
})
missing_df = missing_df[missing_df['Fehlend'] > 0]
missing_df
# Prozentsatz fehlender Werte berechnen


# Optional: Visualisierung mit Heatmap


---
## 4. Fehlende Werte behandeln

**Aufgabe:** Entscheiden Sie für jede Spalte mit fehlenden Werten, wie Sie damit umgehen.

**Mögliche Strategien:**
- Zeilen löschen (bei wenigen fehlenden Werten)
- Spalten löschen (bei sehr vielen fehlenden Werten)
- Fehlende Werte imputieren:
  - Numerische Spalten: Median oder Mittelwert
  - Kategoriale Spalten: Modus oder neue Kategorie

**Dokumentieren Sie Ihre Entscheidungen!**

In [None]:
# Strategie 1: Zeilen mit fehlenden Werten löschen (falls anwendbar)
# df = df.dropna(subset=['spaltenname'])


# Strategie 2: Spalten mit zu vielen fehlenden Werten löschen
# df = df.drop(columns=['spaltenname'])


# Strategie 3: Numerische Werte imputieren
# df['spaltenname'] = df['spaltenname'].fillna(df['spaltenname'].median())


# Strategie 4: Kategoriale Werte imputieren
# df['spaltenname'] = df['spaltenname'].fillna('Unknown')
df_cleaned['Sleep Disorder'].unique()
df_cleaned['Sleep Disorder'] = df_cleaned['Sleep Disorder'].fillna('None') # Jede Person bei der keine Schlafstoerung diagnostiziert wurde wird als gesund behandelt


In [None]:
# Überprüfung: Sind alle fehlenden Werte behandelt?
df_cleaned.isnull().sum()

---
## 5. Duplikate identifizieren und entfernen

**Aufgabe:** Prüfen Sie, ob Ihr Datensatz doppelte Zeilen enthält.

**Was Sie tun sollten:**
- Zählen Sie die Anzahl doppelter Zeilen
- Entfernen Sie Duplikate (falls vorhanden)
- Überprüfen Sie die neue Anzahl der Zeilen

In [None]:
# Anzahl doppelter Zeilen
dups = df_cleaned.duplicated(subset=['Person ID']).sum()
print(f"Duplikate: {dups}")

# Duplikate entfernen


# Neue Dimensionen prüfen


---
## 6. Datentypen überprüfen und anpassen

**Aufgabe:** Stellen Sie sicher, dass alle Spalten die richtigen Datentypen haben.

**Was Sie prüfen sollten:**
- Sind numerische Spalten als `int` oder `float` kodiert?
- Sind kategoriale Spalten als `object` oder `category` kodiert?
- Müssen Datentypen konvertiert werden?

In [None]:
# Datentypen anzeigen
df_cleaned.info()

# Datentypen konvertieren (falls nötig)
# df['spaltenname'] = df['spaltenname'].astype('int')
# df['spaltenname'] = df['spaltenname'].astype('category')


In [None]:
numeric_features = df_cleaned.select_dtypes(include=[np.number])
numeric_features.head()

In [None]:
categorical_features = df_cleaned.select_dtypes(include=[object])
categorical_features.head()

In [None]:
def clean_sleep_disorder(disorder):
    if disorder == 'None':
        return 0
    else:
        return 1

df_cleaned['Sleep Disorder'] = df_cleaned['Sleep Disorder'].apply(clean_sleep_disorder)
df_cleaned['Sleep Disorder'].unique()

In [None]:
df_cleaned.info()

In [None]:
df_cleaned['Blood Pressure'].head()

In [None]:
df_cleaned[['Systolic', 'Diastolic']] = df_cleaned['Blood Pressure'].str.split('/', expand=True)

df_cleaned['Systolic'] = df_cleaned['Systolic'].astype(float)
df_cleaned['Diastolic'] = df_cleaned['Diastolic'].astype(float)

df_cleaned = df_cleaned.drop(columns=['Blood Pressure', 'Person ID'])

df_cleaned.info()

In [None]:
numeric_features = df_cleaned.select_dtypes(include=[np.number])
numeric_features.head()

In [None]:
categorical_features = df_cleaned.select_dtypes(include=[object])
categorical_features.head()

In [None]:
df_cleaned.shape

---
## 7. Ausreißer identifizieren

**Aufgabe:** Identifizieren Sie Ausreißer in numerischen Spalten.

**Methoden:**
- Visualisierung mit Boxplots
- IQR-Methode (Interquartile Range)
- Statistische Analyse (describe)

**Wichtig:** Entscheiden Sie für jeden Ausreißer, ob er:
- Ein Fehler ist (→ entfernen oder korrigieren)
- Ein echter extremer Wert ist (→ behalten)

In [None]:
# Numerische Spalten auswählen
# numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns

print(df_cleaned['Physical Activity Level'].describe())

fig, axes = plt.subplots(1, 2, figsize=(12, 4))
axes[0].boxplot(df_cleaned['Physical Activity Level'].dropna())
axes[0].set_title('All Activity Levels')

filtered = df_cleaned[df_cleaned['Physical Activity Level'] < 40]
axes[1].boxplot(filtered['Physical Activity Level'].dropna())
axes[1].set_title('Physical Activity < 40')
plt.show()


In [None]:
# Ausreißer mit IQR-Methode identifizieren (Beispiel für eine Spalte)
# Q1 = df['spaltenname'].quantile(0.25)
# Q3 = df['spaltenname'].quantile(0.75)
# IQR = Q3 - Q1
# lower_bound = Q1 - 1.5 * IQR
# upper_bound = Q3 + 1.5 * IQR

# outliers = df[(df['spaltenname'] < lower_bound) | (df['spaltenname'] > upper_bound)]


---
## 8. Ausreißer behandeln

**Aufgabe:** Behandeln Sie die identifizierten Ausreißer entsprechend Ihrer Analyse.

**Mögliche Strategien:**
- Ausreißer entfernen (wenn sie Fehler sind)
- Ausreißer behalten (wenn sie valide sind)
- Ausreißer begrenzen (Capping/Flooring)

**Dokumentieren Sie Ihre Entscheidungen!**

In [None]:
# Beispiel: Ausreißer entfernen
# df = df[(df['spaltenname'] >= lower_bound) & (df['spaltenname'] <= upper_bound)]


# Beispiel: Capping anwenden
# df['spaltenname'] = df['spaltenname'].clip(lower=lower_bound, upper=upper_bound)


---
## 9. Inkonsistenzen beheben

**Aufgabe:** Suchen Sie nach Inkonsistenzen in kategorialen Spalten.

**Was Sie prüfen sollten:**
- Unterschiedliche Schreibweisen (z.B. "ja", "Ja", "JA")
- Leerzeichen am Anfang oder Ende
- Tippfehler
- Unerwartete Kategorien

In [None]:
# Kategoriale Spalten auswählen
categorical_cols = df_cleaned.select_dtypes(include=['object'])
categorical_cols.head()

# Einzigartige Werte pro kategorialer Spalte anzeigen
# for col in categorical_cols:
#     print(f"\n{col}:")
#     print(df[col].value_counts())


In [None]:
df_cleaned['Gender'].unique()

In [None]:
df_cleaned['BMI Category'].unique()

In [None]:
# Inkonsistenzen beheben
# Beispiel: Leerzeichen entfernen und in Kleinbuchstaben umwandeln
# df['spaltenname'] = df['spaltenname'].str.strip().str.lower()


# Beispiel: Werte ersetzen
df_cleaned['BMI Category'] = df_cleaned['BMI Category'].replace({'Normal': 'Underweight'})
df_cleaned['BMI Category'].unique()


---
## 10. Finale Überprüfung

**Aufgabe:** Führen Sie eine finale Qualitätskontrolle durch.

**Checkliste:**
- ✓ Keine fehlenden Werte (oder bewusst belassen)
- ✓ Keine Duplikate
- ✓ Korrekte Datentypen
- ✓ Ausreißer behandelt
- ✓ Inkonsistenzen behoben
- ✓ Datensatz ist bereit für die Analyse

In [None]:
# Finale Übersicht
print("Finale Dimensionen:")
print(df_cleaned.shape)

print("\nFehlende Werte:")
print(df_cleaned.isnull().sum())

print("\nDatentypen:")
print(df_cleaned.dtypes)

print("\nErste Zeilen des bereinigten Datensatzes:")
print(df_cleaned.head())


---
## 11. Bereinigten Datensatz speichern

**Aufgabe:** Speichern Sie Ihren bereinigten Datensatz als CSV-Datei.

**Wichtig:** Dieser bereinigte Datensatz wird in den kommenden Wochen für Visualisierung und Machine Learning verwendet!

In [None]:
# Bereinigten Datensatz speichern
df_cleaned.to_csv('../data/processed/Sleep_health_and_lifestyle_dataset_cleaned.csv', index=False)

print("Bereinigter Datensatz wurde gespeichert!")

---
## Reflexion

**Dokumentieren Sie Ihre Arbeit:**

Beantworten Sie folgende Fragen in einer Markdown-Zelle:

1. Welche Hauptprobleme hatte Ihr ursprünglicher Datensatz?
2. Welche Bereinigungsschritte waren am wichtigsten?
3. Wie viele Zeilen/Spalten haben Sie entfernt und warum?
4. Welche Herausforderungen gab es und wie haben Sie diese gelöst?
5. Ist Ihr Datensatz jetzt bereit für die Analyse?

### Ihre Reflexion:

1. **Hauptprobleme:**
   - ...

2. **Wichtigste Schritte:**
   - ...

3. **Entfernte Daten:**
   - ...

4. **Herausforderungen:**
   - ...

5. **Bereitschaft für Analyse:**
   - ...