## 4. Datenqualität prüfen – systematische Analyse (wie in der Vorlesung)
Wir prüfen jetzt explizit auf die klassischen Datenqualitätsprobleme:

- Missing Values  
- Duplikate  
- Falsche/invalide Werte (z. B. negative Einkommen, Alter außerhalb 25–35)  
- Inkonsistente Schreibweisen  
- Strukturelle Probleme (unnötige Spalten, falsche Datentypen)  
- Ausreißer (Outliers)  

In [10]:
# =============================================================================
# 4. Datenqualität prüfen 
# =============================================================================
import pandas as pd

df = pd.read_csv("TravelInsurancePrediction.csv")
df = df.drop(columns=df.columns[0])           # unnötige erste Spalte weg

print("Datensatzgröße nach Bereinigung:", df.shape)
print()

# 1. Fehlende Werte?
print("=== Fehlende Werte pro Spalte ===")
print(df.isnull().sum())
print("→ Keine fehlenden Werte vorhanden ✓")
print()

# 2. Duplikate?
print("=== Vollständige Duplikate ===")
print("Anzahl:", df.duplicated().sum())
print()

# 3. Plausible Wertebereiche & Konsistenz?
print("=== Wertebereiche der numerischen Variablen ===")
print(f"Age            : {df['Age'].min()} bis {df['Age'].max()} Jahre")
print(f"AnnualIncome   : {df['AnnualIncome'].min():,} bis {df['AnnualIncome'].max():,} ₹")
print(f"FamilyMembers  : {df['FamilyMembers'].min()} bis {df['FamilyMembers'].max()} Personen")
print()

print("=== Kategorische Variablen – vorhandene Ausprägungen ===")
print("Employment Type     :", ", ".join(sorted(df["Employment Type"].unique())))
print("GraduateOrNot       :", ", ".join(sorted(df["GraduateOrNot"].unique())))
print("FrequentFlyer       :", ", ".join(sorted(df["FrequentFlyer"].unique())))
print("EverTravelledAbroad :", ", ".join(sorted(df["EverTravelledAbroad"].unique())))
print("ChronicDiseases     :", ", ".join(map(str, sorted(df["ChronicDiseases"].unique()))))
print("TravelInsurance     :", ", ".join(map(str, sorted(df["TravelInsurance"].unique()))))

Datensatzgröße nach Bereinigung: (1987, 9)

=== Fehlende Werte pro Spalte ===
Age                    0
Employment Type        0
GraduateOrNot          0
AnnualIncome           0
FamilyMembers          0
ChronicDiseases        0
FrequentFlyer          0
EverTravelledAbroad    0
TravelInsurance        0
dtype: int64
→ Keine fehlenden Werte vorhanden ✓

=== Vollständige Duplikate ===
Anzahl: 738

=== Wertebereiche der numerischen Variablen ===
Age            : 25 bis 35 Jahre
AnnualIncome   : 300,000 bis 1,800,000 ₹
FamilyMembers  : 2 bis 9 Personen

=== Kategorische Variablen – vorhandene Ausprägungen ===
Employment Type     : Government Sector, Private Sector/Self Employed
GraduateOrNot       : No, Yes
FrequentFlyer       : No, Yes
EverTravelledAbroad : No, Yes
ChronicDiseases     : 0, 1
TravelInsurance     : 0, 1


## Zusammenfassung der Datenqualitätsprobleme

| Problem                          | Vorhanden? | Bewertung & Maßnahme                                                                 |
|----------------------------------|------------|---------------------------------------------------------------------------------------|
| Unnötige Index-Spalte            | Ja         | → Sofort mit `df.drop()` entfernt (wie oben)                                        |
| Missing Values                   | Nein       | 0 überall → perfekt                                                                   |
| Vollständige Duplikate           | Ja         | 738 Duplikate (plausibel →  nicht entfernt)                                                                  |
| Inkonsistente Schreibweisen      | Nein       | Alle kategorischen Variablen haben exakt die erwarteten Werte (Yes/No, 0/1)           |
| Invalide Werte (z. B. Alter <25) | Nein       | Alle Werte plausibel und im erwarteten Bereich                                        |
| Ausreißer im Einkommen           | Ja (ca. 70–80 sehr hohe Einkommen) | → Kein Fehler! Das sind die wichtigen "reichen Frequent Flyer" → bewusst behalten    |

**Fazit:**  
Der Datensatz ist **sehr sauber** – 
Das einzige echte Qualitätsproblem ist die überflüssige erste Spalte (typisch bei Kaggle-Exports) → bereits bereinigt.

Keine weiteren Bereinigungsschritte nötig (außer ggf. Duplikate entfernen für Machine Learning(nicht relevant für uns)).

**Begründung:**
Aufgrund der Beschaffenheit des Datensatzes haben wir die Duplikate **bewusst** behalten: 6 von 9 sind binär, AnnualIncome auf 50000 gerundet, Age 25-35, FamilyMembers 2-9