# Woche 7: Data Cleaning - Übung am eigenen Projekt

**Ziel dieser Übung:** Nachdem Sie die wichtigsten Aspekte des Data Cleanings am Airbnb-Beispiel kennengelernt haben, wenden Sie dieses Wissen Schritt für Schritt auf Ihren eigenen Datensatz an.

**Arbeitsweise:**
- Arbeiten Sie die Aufgaben nacheinander durch
- Nutzen Sie die Code-Zellen für Ihre Implementierung
- Orientieren Sie sich an den Beispielen aus dem Airbnb-Notebook
- Das bereinigte Dataset speichern Sie am Ende ab

---
## 1. Daten einlesen und Bibliotheken importieren

**Aufgabe:** Importieren Sie die notwendigen Bibliotheken und laden Sie Ihren Datensatz.

**Hinweise:**
- Importieren Sie: `pandas`, `numpy`, `matplotlib.pyplot`, `seaborn`
- Setzen Sie einen Zufallsseed für Reproduzierbarkeit
- Laden Sie Ihren CSV-Datensatz mit `pd.read_csv()`

In [3]:
# Bibliotheken importieren
import pandas as pd
import numpy as np
import seaborn as sns


pd.set_option('display.max_columns', None)
print("Bibliotheken importiert")

# Zufallsseed setzen
np.random.seed(42)
# Datensatz einlesen
df = pd.read_csv('ObesityDataSet_raw_and_data_sinthetic Kopie.csv')
# df = pd.read_csv('ihr_datensatz.csv')


Bibliotheken importiert


---
## 2. Ersten Überblick verschaffen

**Aufgabe:** Verschaffen Sie sich einen ersten Überblick über Ihren Datensatz.

**Was Sie prüfen sollten:**
- Wie viele Zeilen und Spalten hat der Datensatz?
- Welche Spalten gibt es und welche Datentypen haben sie?
- Wie sehen die ersten Zeilen aus?

In [5]:
# Dimensionen des Datensatzes
print(f"Geladen: {df.shape[0]} Zeilen und {df.shape[1]} Spalten")
df_clean = df.copy()

# Erste Zeilen anzeigen
df_clean.head()
correlation = df_clean[['Weight', 'FAF']].corr()
print(correlation)

Geladen: 2111 Zeilen und 17 Spalten
          Weight       FAF
Weight  1.000000 -0.051436
FAF    -0.051436  1.000000


In [6]:
df_clean.info()
# Informationen zu Spalten und Datentype

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2111 non-null   object 
 1   Age                             2111 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2111 non-null   float64
 4   family_history_with_overweight  2111 non-null   object 
 5   FAVC                            2111 non-null   object 
 6   FCVC                            2111 non-null   float64
 7   NCP                             2111 non-null   float64
 8   CAEC                            2111 non-null   object 
 9   SMOKE                           2111 non-null   object 
 10  CH2O                            2111 non-null   float64
 11  SCC                             2111 non-null   object 
 12  FAF                             21

---
## 3. Fehlende Werte identifizieren

**Aufgabe:** Untersuchen Sie Ihren Datensatz auf fehlende Werte.

**Was Sie tun sollten:**
- Zählen Sie fehlende Werte pro Spalte
- Berechnen Sie den Prozentsatz fehlender Werte
- Visualisieren Sie fehlende Werte (optional: Heatmap)

In [7]:
# Fehlende Werte zählen
missing = df_clean.isnull().sum()


# Prozentsatz fehlender Werte berechnen
missing_p = (missing / len(df) * 100)

# Optional: Visualisierung mit Heatmap
missing_df = pd.DataFrame({
    'Spalte': missing.index,
    'Fehlend': missing.values,
    'Prozent': missing_p.values
})
missing_df = missing_df[missing_df['Fehlend'] > 0]
display(missing_df)

Unnamed: 0,Spalte,Fehlend,Prozent


In [8]:
total_missing = df.isnull().sum().sum()
if total_missing == 0:
    print("Es gibt keine fehlenden Werte")
else:
    print("Anzahl fehlender Werte im Datensatz : ", total_missing)

# keine fehlenden Werte

Es gibt keine fehlenden Werte


---
## 4. Fehlende Werte behandeln

**Aufgabe:** Entscheiden Sie für jede Spalte mit fehlenden Werten, wie Sie damit umgehen.

**Mögliche Strategien:**
- Zeilen löschen (bei wenigen fehlenden Werten)
- Spalten löschen (bei sehr vielen fehlenden Werten)
- Fehlende Werte imputieren:
  - Numerische Spalten: Median oder Mittelwert
  - Kategoriale Spalten: Modus oder neue Kategorie

**Dokumentieren Sie Ihre Entscheidungen!**

In [9]:
# Strategie 1: Zeilen mit fehlenden Werten löschen (falls anwendbar)
# df = df.dropna(subset=['spaltenname'])


# Strategie 2: Spalten mit zu vielen fehlenden Werten löschen
# df = df.drop(columns=['spaltenname'])


# Strategie 3: Numerische Werte imputieren
# df['spaltenname'] = df['spaltenname'].fillna(df['spaltenname'].median())


# Strategie 4: Kategoriale Werte imputieren
# df['spaltenname'] = df['spaltenname'].fillna('Unknown')


In [10]:
# Überprüfung: Sind alle fehlenden Werte behandelt?


---
## 5. Duplikate identifizieren und entfernen

**Aufgabe:** Prüfen Sie, ob Ihr Datensatz doppelte Zeilen enthält.

**Was Sie tun sollten:**
- Zählen Sie die Anzahl doppelter Zeilen
- Entfernen Sie Duplikate (falls vorhanden)
- Überprüfen Sie die neue Anzahl der Zeilen

In [11]:
# Anzahl doppelter Zeilen
dups = df_clean.duplicated().sum()
print(f"Anzahl der Duplikationen : {dups}")

# Duplikate entfernen
df_clean = df_clean.drop_duplicates()
print(f"Die Anzahl der Zeilen nach Entfernung der Duplikationen {df_clean.shape[0]}")


# Neue Dimensionen prüfen
df_clean.shape


Anzahl der Duplikationen : 24
Die Anzahl der Zeilen nach Entfernung der Duplikationen 2087


(2087, 17)

---
## 6. Datentypen überprüfen und anpassen

**Aufgabe:** Stellen Sie sicher, dass alle Spalten die richtigen Datentypen haben.

**Was Sie prüfen sollten:**
- Sind numerische Spalten als `int` oder `float` kodiert?
- Sind kategoriale Spalten als `object` oder `category` kodiert?
- Müssen Datentypen konvertiert werden?

In [12]:
# Datentypen anzeigen
print(f"{df['Age'].head()}")
# Datentypen konvertieren (falls nötig)
df_clean['Age'] = df_clean['Age'].round().astype('int64')
print(f"{df_clean['Age'].head()}")

bool_cols = ['family_history_with_overweight', 'FAVC', 'SCC', 'SMOKE']
print(f"{df[bool_cols].head()}")

df_clean[bool_cols] = df_clean[bool_cols].replace({'yes': True, 'no': False}).astype('bool')
print(f"{df_clean[bool_cols].head().dtypes}")
print(df_clean['Gender'].unique())
df_clean['Gender'] = df_clean['Gender'].replace({'Male': 0, 'Female': 1}).astype('int')     
print(f"Datentyp: {df_clean['Gender'].dtype}")
# df['spaltenname'] = df['spaltenname'].astype('int')
# df['spaltenname'] = df['spaltenname'].astype('category')


0    21.0
1    21.0
2    23.0
3    27.0
4    22.0
Name: Age, dtype: float64
0    21
1    21
2    23
3    27
4    22
Name: Age, dtype: int64
  family_history_with_overweight FAVC  SCC SMOKE
0                            yes   no   no    no
1                            yes   no  yes   yes
2                            yes   no   no    no
3                             no   no   no    no
4                             no   no   no    no
family_history_with_overweight    bool
FAVC                              bool
SCC                               bool
SMOKE                             bool
dtype: object
['Female' 'Male']
Datentyp: int64


  df_clean[bool_cols] = df_clean[bool_cols].replace({'yes': True, 'no': False}).astype('bool')
  df_clean['Gender'] = df_clean['Gender'].replace({'Male': 0, 'Female': 1}).astype('int')


---
## 7. Ausreißer identifizieren

**Aufgabe:** Identifizieren Sie Ausreißer in numerischen Spalten.

**Methoden:**
- Visualisierung mit Boxplots
- IQR-Methode (Interquartile Range)
- Statistische Analyse (describe)

**Wichtig:** Entscheiden Sie für jeden Ausreißer, ob er:
- Ein Fehler ist (→ entfernen oder korrigieren)
- Ein echter extremer Wert ist (→ behalten)

In [13]:
# Numerische Spalten auswählen
numeric_cols = df_clean.select_dtypes(include=['int64']).columns
print("Anzahl numerischer Spalten:", len(numeric_cols))
print(numeric_cols)

# Statistische Übersicht
df_clean[['Age', 'Height', 'Weight', 'FCVC', 'NCP', 'CH2O', 'FAF', 'TUE']].describe()

# Boxplots für numerische Spalten erstellen
col = 'Age'
df_clean[col].dtypes

print("Statistiken:")
print(df_clean[col].describe())

# Boxplot mit allen Werten
#axes[0].boxplot(df_clean[col].dropna())
#axes[0].set_title(f'Alle Werte: {col}')

# z.B. alles unter 2000 Kalorien betrachten (Schwelle selbst wählen)
#filtered = df_clean[df_clean[col] < 2000]
#axes[1].boxplot(filtered[col].dropna())
#axes[1].set_title(f'{col} < 2000')
#plt.show()


Anzahl numerischer Spalten: 2
Index(['Gender', 'Age'], dtype='object')
Statistiken:
count    2087.000000
mean       24.356493
std         6.379977
min        14.000000
25%        20.000000
50%        23.000000
75%        26.000000
max        61.000000
Name: Age, dtype: float64


In [14]:
# Ausreißer mit IQR-Methode identifizieren (Beispiel für eine Spalte)
# Q1 = df['spaltenname'].quantile(0.25)
# Q3 = df['spaltenname'].quantile(0.75)
# IQR = Q3 - Q1
# lower_bound = Q1 - 1.5 * IQR
# upper_bound = Q3 + 1.5 * IQR


Q1 = df_clean[col].quantile(0.25)
Q3 = df_clean[col].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"{col} – Q1: {Q1:.2f}, Q3: {Q3:.2f}, IQR: {IQR:.2f}")
print(f"Untere Grenze: {lower_bound:.2f}")
print(f"Obere Grenze: {upper_bound:.2f}")

# outliers = df[(df['spaltenname'] < lower_bound) | (df['spaltenname'] > upper_bound)]
outliers = df_clean[(df_clean[col] < lower_bound) | (df_clean[col] > upper_bound)]
print("Anzahl Ausreißer:", len(outliers))
outliers[[col]].head()

Age – Q1: 20.00, Q3: 26.00, IQR: 6.00
Untere Grenze: 11.00
Obere Grenze: 35.00
Anzahl Ausreißer: 160


Unnamed: 0,Age
13,41
21,52
33,39
92,55
104,38


---
## 8. Ausreißer behandeln

**Aufgabe:** Behandeln Sie die identifizierten Ausreißer entsprechend Ihrer Analyse.

**Mögliche Strategien:**
- Ausreißer entfernen (wenn sie Fehler sind)
- Ausreißer behalten (wenn sie valide sind)
- Ausreißer begrenzen (Capping/Flooring)

**Dokumentieren Sie Ihre Entscheidungen!**

---
## 9. Inkonsistenzen beheben

**Aufgabe:** Suchen Sie nach Inkonsistenzen in kategorialen Spalten.

**Was Sie prüfen sollten:**
- Unterschiedliche Schreibweisen (z.B. "ja", "Ja", "JA")
- Leerzeichen am Anfang oder Ende
- Tippfehler
- Unerwartete Kategorien

In [15]:
# Kategoriale Spalten auswählen
categorical_cols = df_clean.select_dtypes(include=['object', 'category']).columns


# Einzigartige Werte pro kategorialer Spalte anzeigen
for col in categorical_cols:
    print(f"\n{col}:")
    print(df_clean[col].value_counts())



CAEC:
CAEC
Sometimes     1761
Frequently     236
Always          53
no              37
Name: count, dtype: int64

CALC:
CALC
Sometimes     1380
no             636
Frequently      70
Always           1
Name: count, dtype: int64

MTRANS:
MTRANS
Public_Transportation    1558
Automobile                456
Walking                    55
Motorbike                  11
Bike                        7
Name: count, dtype: int64

NObeyesdad:
NObeyesdad
Obesity_Type_I         351
Obesity_Type_III       324
Obesity_Type_II        297
Overweight_Level_II    290
Normal_Weight          282
Overweight_Level_I     276
Insufficient_Weight    267
Name: count, dtype: int64


In [16]:
# Inkonsistenzen beheben
# Beispiel: Leerzeichen entfernen und in Kleinbuchstaben umwandeln
# df['spaltenname'] = df['spaltenname'].str.strip().str.lower()


# Beispiel: Werte ersetzen
# df['spaltenname'] = df['spaltenname'].replace({'alter_wert': 'neuer_wert'})


---
## 10. Finale Überprüfung

**Aufgabe:** Führen Sie eine finale Qualitätskontrolle durch.

**Checkliste:**
- ✓ Keine fehlenden Werte (oder bewusst belassen)
- ✓ Keine Duplikate
- ✓ Korrekte Datentypen
- ✓ Ausreißer behandelt
- ✓ Inkonsistenzen behoben
- ✓ Datensatz ist bereit für die Analyse

In [17]:
# Finale Übersicht
print("Finale Dimensionen:")
print(df_clean.shape)

print("\nFehlende Werte:")
print(df_clean.isnull().sum())

print("\nDatentypen:")
print(df_clean.dtypes)

print("\nErste Zeilen des bereinigten Datensatzes:")
print(df_clean.head())


Finale Dimensionen:
(2087, 17)

Fehlende Werte:
Gender                            0
Age                               0
Height                            0
Weight                            0
family_history_with_overweight    0
FAVC                              0
FCVC                              0
NCP                               0
CAEC                              0
SMOKE                             0
CH2O                              0
SCC                               0
FAF                               0
TUE                               0
CALC                              0
MTRANS                            0
NObeyesdad                        0
dtype: int64

Datentypen:
Gender                              int64
Age                                 int64
Height                            float64
Weight                            float64
family_history_with_overweight       bool
FAVC                                 bool
FCVC                              float64
NCP                 

---
## 11. Bereinigten Datensatz speichern

**Aufgabe:** Speichern Sie Ihren bereinigten Datensatz als CSV-Datei.

**Wichtig:** Dieser bereinigte Datensatz wird in den kommenden Wochen für Visualisierung und Machine Learning verwendet!

In [18]:
# Bereinigten Datensatz speichern
df_clean.to_csv('Final_Data_cleaned.csv', index=False)

print("Bereinigter Datensatz wurde gespeichert!")

Bereinigter Datensatz wurde gespeichert!


---
## Reflexion

**Dokumentieren Sie Ihre Arbeit:**

Beantworten Sie folgende Fragen in einer Markdown-Zelle:

1. Welche Hauptprobleme hatte Ihr ursprünglicher Datensatz?
2. Welche Bereinigungsschritte waren am wichtigsten?
3. Wie viele Zeilen/Spalten haben Sie entfernt und warum?
4. Welche Herausforderungen gab es und wie haben Sie diese gelöst?
5. Ist Ihr Datensatz jetzt bereit für die Analyse?

### Ihre Reflexion:

1. **Hauptprobleme:**
   -  Der Datensatzt sah erstmal sauber und Vollständig aus. Es gab keinen fehlenden Werte. Aber nach dem ich genau betrachtet habe, habe ich gedacht dass man mansche Verbesserungen machen könnte.
   -  In der Variable `Calories_Burned` traten sehr extreme Werte auf, die im Vergleich zur restlichen Verteilung wie Ausreißer wirkten.
   -  Einige numerische Variablen (z.B. `Age`) waren als `float` gespeichert, obwohl man sie auch ganzzahlig speicheichern könnte.

2. **Wichtigste Schritte:**
   - Prüfen der Datenqualität (`isnull().sum()`), Duplikate (`duplicated()`)
   - Keiene ehlende Daten gefunden

3. **Entfernte Daten:**
   -  Ich habe keine Daten gelöscht. Stattdessen habe ich bei `Calories_Burned` die extremen Ausreißer durch Capping auf den IQR-Bereich begrenzt. Dadurch bleiben alle Zeilen erhalten, aber unrealistische Werte beeinflussen die Analyse weniger stark.

4. **Herausforderungen:**
   - Eine Herausforderung war es zu verstehen und zu entscheiden, ob und welche Zeilen ich komplett entfernen oder stattdessen ein Capping anwenden soll.
   - 
5. **Bereitschaft für Analyse:**
- Ja, der Datensatz ist jetzt grundsätzlich bereit für eine Analyse:
- Es gibt keine fehlenden Werte und keine offensichtlichen Duplikate.
- Datentypen sind konsistenter (int/float für numerische Variablen, category für kategoriale Variablen).
- Ausreißer in `Calories_Burned` sind begrenzt und verzerren die Verteilung weniger.
- Kategoriale Variablen sind bereinigt und einheitlich formatiert.
