# Woche 7: Data Cleaning - Übung am eigenen Projekt

**Ziel dieser Übung:** Nachdem Sie die wichtigsten Aspekte des Data Cleanings am Airbnb-Beispiel kennengelernt haben, wenden Sie dieses Wissen Schritt für Schritt auf Ihren eigenen Datensatz an.

**Arbeitsweise:**
- Arbeiten Sie die Aufgaben nacheinander durch
- Nutzen Sie die Code-Zellen für Ihre Implementierung
- Orientieren Sie sich an den Beispielen aus dem Airbnb-Notebook
- Das bereinigte Dataset speichern Sie am Ende ab

---
## 1. Daten einlesen und Bibliotheken importieren

**Aufgabe:** Importieren Sie die notwendigen Bibliotheken und laden Sie Ihren Datensatz.

**Hinweise:**
- Importieren Sie: `pandas`, `numpy`, `matplotlib.pyplot`, `seaborn`
- Setzen Sie einen Zufallsseed für Reproduzierbarkeit
- Laden Sie Ihren CSV-Datensatz mit `pd.read_csv()`

In [1]:
# Bibliotheken importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


# Zufallsseed setzen
np.random.seed(42)


# Datensatz einlesen
# df = pd.read_csv('ihr_datensatz.csv')
df = pd.read_csv('maps_statistics.csv')
df2 = pd.read_csv('top_100_players.csv')
df3 = pd.read_csv('weapons_statistics.csv')


---
## 2. Ersten Überblick verschaffen

**Aufgabe:** Verschaffen Sie sich einen ersten Überblick über Ihren Datensatz.

**Was Sie prüfen sollten:**
- Wie viele Zeilen und Spalten hat der Datensatz?
- Welche Spalten gibt es und welche Datentypen haben sie?
- Wie sehen die ersten Zeilen aus?

In [4]:
# Dimensionen des Datensatzes
print(df.shape)
print(df2.shape)
print(df3.shape)

# Erste Zeilen anzeigen
print(df.head())
print(df2.head())
print(df3.head())

# Informationen zu Spalten und Datentypen
print(df.info())
print(df2.info())
print(df3.info())


(10, 5)
(100, 7)
(20, 6)
       Map Play Rate T-Win % CT-Win %  Matches
0  Dust II     26.7%   49.2%    50.8%  168,288
1   Mirage     23.9%   49.1%    50.9%  150,883
2  Inferno     13.1%   50.3%    49.7%   82,737
3     Nuke      4.3%   47.0%    53.0%   27,211
4  Vertigo      4.0%   47.8%    52.2%   25,390
   Rank                 Name CS Rating         Region  Wins  Ties  Losses
0     1      sH0oRuk YouTube    31,203           Asia   278     9      98
1     2  TTpo100Razeb Daniel    29,626         Europe   250    12     174
2     3           REZPEZTâ¢    29,588         Europe   133     2      58
3     4          rAdek1ngâ    29,548  South America    75     1       8
4     5                 ð    29,480           Asia   106     0      10
   Weapon  KPR   HS % Chest %  Leg % Total Kills
0   AK-47  1.2  17.8%   59.4%  16.7%     370,567
1  M4A1-S  1.1  14.6%   60.3%  18.3%     181,934
2     AWP  1.6  14.5%   68.7%  10.1%     164,754
3    M4A1  1.2  18.0%   60.6%  15.5%     104,012
4   

---
## 3. Fehlende Werte identifizieren

**Aufgabe:** Untersuchen Sie Ihren Datensatz auf fehlende Werte.

**Was Sie tun sollten:**
- Zählen Sie fehlende Werte pro Spalte
- Berechnen Sie den Prozentsatz fehlender Werte
- Visualisieren Sie fehlende Werte (optional: Heatmap)

In [3]:
# Fehlende Werte zählen
missing_values = 


# Prozentsatz fehlender Werte berechnen


# Optional: Visualisierung mit Heatmap


SyntaxError: invalid syntax (2599174257.py, line 2)

---
## 4. Fehlende Werte behandeln

**Aufgabe:** Entscheiden Sie für jede Spalte mit fehlenden Werten, wie Sie damit umgehen.

**Mögliche Strategien:**
- Zeilen löschen (bei wenigen fehlenden Werten)
- Spalten löschen (bei sehr vielen fehlenden Werten)
- Fehlende Werte imputieren:
  - Numerische Spalten: Median oder Mittelwert
  - Kategoriale Spalten: Modus oder neue Kategorie

**Dokumentieren Sie Ihre Entscheidungen!**

In [None]:
# Strategie 1: Zeilen mit fehlenden Werten löschen (falls anwendbar)
# df = df.dropna(subset=['spaltenname'])


# Strategie 2: Spalten mit zu vielen fehlenden Werten löschen
# df = df.drop(columns=['spaltenname'])


# Strategie 3: Numerische Werte imputieren
# df['spaltenname'] = df['spaltenname'].fillna(df['spaltenname'].median())


# Strategie 4: Kategoriale Werte imputieren
# df['spaltenname'] = df['spaltenname'].fillna('Unknown')


In [None]:
# Überprüfung: Sind alle fehlenden Werte behandelt?


---
## 5. Duplikate identifizieren und entfernen

**Aufgabe:** Prüfen Sie, ob Ihr Datensatz doppelte Zeilen enthält.

**Was Sie tun sollten:**
- Zählen Sie die Anzahl doppelter Zeilen
- Entfernen Sie Duplikate (falls vorhanden)
- Überprüfen Sie die neue Anzahl der Zeilen

In [None]:
# Anzahl doppelter Zeilen


# Duplikate entfernen


# Neue Dimensionen prüfen


---
## 6. Datentypen überprüfen und anpassen

**Aufgabe:** Stellen Sie sicher, dass alle Spalten die richtigen Datentypen haben.

**Was Sie prüfen sollten:**
- Sind numerische Spalten als `int` oder `float` kodiert?
- Sind kategoriale Spalten als `object` oder `category` kodiert?
- Müssen Datentypen konvertiert werden?

In [None]:
# Datentypen anzeigen


# Datentypen konvertieren (falls nötig)
# df['spaltenname'] = df['spaltenname'].astype('int')
# df['spaltenname'] = df['spaltenname'].astype('category')


---
## 7. Ausreißer identifizieren

**Aufgabe:** Identifizieren Sie Ausreißer in numerischen Spalten.

**Methoden:**
- Visualisierung mit Boxplots
- IQR-Methode (Interquartile Range)
- Statistische Analyse (describe)

**Wichtig:** Entscheiden Sie für jeden Ausreißer, ob er:
- Ein Fehler ist (→ entfernen oder korrigieren)
- Ein echter extremer Wert ist (→ behalten)

In [None]:
# Numerische Spalten auswählen
# numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns


# Statistische Übersicht


# Boxplots für numerische Spalten erstellen


In [None]:
# Ausreißer mit IQR-Methode identifizieren (Beispiel für eine Spalte)
# Q1 = df['spaltenname'].quantile(0.25)
# Q3 = df['spaltenname'].quantile(0.75)
# IQR = Q3 - Q1
# lower_bound = Q1 - 1.5 * IQR
# upper_bound = Q3 + 1.5 * IQR

# outliers = df[(df['spaltenname'] < lower_bound) | (df['spaltenname'] > upper_bound)]


---
## 8. Ausreißer behandeln

**Aufgabe:** Behandeln Sie die identifizierten Ausreißer entsprechend Ihrer Analyse.

**Mögliche Strategien:**
- Ausreißer entfernen (wenn sie Fehler sind)
- Ausreißer behalten (wenn sie valide sind)
- Ausreißer begrenzen (Capping/Flooring)

**Dokumentieren Sie Ihre Entscheidungen!**

In [None]:
# Beispiel: Ausreißer entfernen
# df = df[(df['spaltenname'] >= lower_bound) & (df['spaltenname'] <= upper_bound)]


# Beispiel: Capping anwenden
# df['spaltenname'] = df['spaltenname'].clip(lower=lower_bound, upper=upper_bound)


---
## 9. Inkonsistenzen beheben

**Aufgabe:** Suchen Sie nach Inkonsistenzen in kategorialen Spalten.

**Was Sie prüfen sollten:**
- Unterschiedliche Schreibweisen (z.B. "ja", "Ja", "JA")
- Leerzeichen am Anfang oder Ende
- Tippfehler
- Unerwartete Kategorien

In [None]:
# Kategoriale Spalten auswählen
# categorical_cols = df.select_dtypes(include=['object', 'category']).columns


# Einzigartige Werte pro kategorialer Spalte anzeigen
# for col in categorical_cols:
#     print(f"\n{col}:")
#     print(df[col].value_counts())


In [None]:
# Inkonsistenzen beheben
# Beispiel: Leerzeichen entfernen und in Kleinbuchstaben umwandeln
# df['spaltenname'] = df['spaltenname'].str.strip().str.lower()


# Beispiel: Werte ersetzen
# df['spaltenname'] = df['spaltenname'].replace({'alter_wert': 'neuer_wert'})


---
## 10. Finale Überprüfung

**Aufgabe:** Führen Sie eine finale Qualitätskontrolle durch.

**Checkliste:**
- ✓ Keine fehlenden Werte (oder bewusst belassen)
- ✓ Keine Duplikate
- ✓ Korrekte Datentypen
- ✓ Ausreißer behandelt
- ✓ Inkonsistenzen behoben
- ✓ Datensatz ist bereit für die Analyse

In [None]:
# Finale Übersicht
print("Finale Dimensionen:")
# print(df.shape)

print("\nFehlende Werte:")
# print(df.isnull().sum())

print("\nDatentypen:")
# print(df.dtypes)

print("\nErste Zeilen des bereinigten Datensatzes:")
# print(df.head())


Finale Dimensionen:

Fehlende Werte:

Datentypen:

Erste Zeilen des bereinigten Datensatzes:


---
## 11. Bereinigten Datensatz speichern

**Aufgabe:** Speichern Sie Ihren bereinigten Datensatz als CSV-Datei.

**Wichtig:** Dieser bereinigte Datensatz wird in den kommenden Wochen für Visualisierung und Machine Learning verwendet!

In [None]:
# Bereinigten Datensatz speichern
# df.to_csv('ihr_datensatz_cleaned.csv', index=False)

print("Bereinigter Datensatz wurde gespeichert!")

Bereinigter Datensatz wurde gespeichert!


---
## Reflexion

**Dokumentieren Sie Ihre Arbeit:**

Beantworten Sie folgende Fragen in einer Markdown-Zelle:

1. Welche Hauptprobleme hatte Ihr ursprünglicher Datensatz?
2. Welche Bereinigungsschritte waren am wichtigsten?
3. Wie viele Zeilen/Spalten haben Sie entfernt und warum?
4. Welche Herausforderungen gab es und wie haben Sie diese gelöst?
5. Ist Ihr Datensatz jetzt bereit für die Analyse?

### Ihre Reflexion:

1. **Hauptprobleme:**
   - ...

2. **Wichtigste Schritte:**
   - ...

3. **Entfernte Daten:**
   - ...

4. **Herausforderungen:**
   - ...

5. **Bereitschaft für Analyse:**
   - ...