# Kundendaten – Bereinigungs-Beispiel mit Pandas

In diesem Notebook:
1. Lese ich die komplette Kundentabelle aus einer CSV-Datei ein.
2. Zeige die Originaltabelle an.
3. Bereinige die Daten, indem ich:
   - den Eintrag mit **Male und Alter = 0** entferne,
   - den Eintrag mit **Female und Alter = 205** entferne.
4. Entferne zusätzlich alle Zeilen, in denen der Wert **2** in der Spalte _Artikel_ steht, da wir uns nur für Artikel 0 und 1 interessieren.
5. Zeige die bereinigte Tabelle an.
6. Erläutere kurz, wie diese Daten später genutzt werden können,
   um ein Modell zu trainieren, das vorhersagt, welche Personen eher **Artikel 0** bzw. **Artikel 1** kaufen.


In [None]:
!pip install pandas

In [None]:
import pandas as pd

# CSV einlesen – bei deutschem Excel normalerweise ; als Trenner
# Pfad zur CSV-Datei als Variable (einfacher String, kein zusätzliches Modul)

csv_path = "kunden_daten.csv"
df = pd.read_csv(csv_path, sep=";")

print("Originale Zeilenanzahl:", len(df))
df


In [None]:
# Maske für ungültige Zeilen
ungueltig = (
    ((df["Geschlecht"] == "Male") & (df["Alter"] == 0)) |
    ((df["Geschlecht"] == "Female") & (df["Alter"] == 205))
)

# Diese Zeilen rausfiltern
df_schritt1 = df[~ungueltig].copy()

print("Zeilen nach Entfernen der ungültigen Alterswerte:", len(df_schritt1))
df_schritt1


In [None]:
# Maske für die Zeile, die wir entfernen wollen:
# Female UND Artikel == 2
zu_loeschen = (df_schritt1["Geschlecht"] == "Female") & (df_schritt1["Artikel"] == 2)

# Filtern: alle außer diesen Zeilen
df_schritt2 = df_schritt1[~zu_loeschen].copy()

# Zusätzlich die Spalte "User ID" entfernen
df_schritt2 = df_schritt2.drop(columns=["User ID"])

print("Zeilen nach Entfernen der Female mit Artikel=2:", len(df_schritt2))
df_schritt2

