In [9]:
# ============================================================
# DATA QUALITY CHECK – KOMPLETTLÖSUNG (Aufgabe a–d)
# ============================================================

import pandas as pd
import numpy as np

# -----------------------------
# Datensatz laden
# -----------------------------
df = pd.read_csv("TravelInsurancePrediction.csv")
print("Datensatzform (Zeilen, Spalten):", df.shape)
display(df.head())

# ============================================================
# (a) Analyse auf fehlende Werte
# ============================================================

print("\n=== (a) Fehlende Werte Analyse ===")
print("\nAnzahl fehlender Werte pro Spalte:")
display(df.isna().sum())

# Auch leere Strings berücksichtigen
df = df.replace("", np.nan)
print("\nNach Ersetzung leerer Strings:")
display(df.isna().sum())


print("\nFehlende Werte nach automatischer Behandlung:")
display(df.isna().sum())

# ============================================================
# (b) Analyse auf Duplikate
# ============================================================

print("\n=== (b) Duplikatsanalyse ===")
duplicates = df.duplicated().sum()
print("Duplikate gefunden:", duplicates)

if duplicates > 0:
    print("\nDuplizierte Zeilen:")
    display(df[df.duplicated()])

# Optional entfernen (je nach Dokumentationsentscheidung)
df = df.drop_duplicates().reset_index(drop=True)
print("\nDatenform nach Entfernen von Duplikaten:", df.shape)

# ============================================================
# (c) Analyse auf fehlerhafte Werte
# ============================================================

print("\n=== (c) Prüfung auf unlogische / ungültige Werte ===")

# Wertebereiche anzeigen
for col in df.columns:
    print(f"{col}: Beispielwerte →", df[col].unique()[:8])

# Logikprüfung Beispiel: Alter & Einkommen
invalid_age = df[(df["Age"] < 0) | (df["Age"] > 100)]
invalid_income = df[df["AnnualIncome"] <= 0]

print("\nUngültige Alterswerte gefunden:")
display(invalid_age)

print("Ungültige Einkommenswerte gefunden:")
display(invalid_income)

# Entfernung ungültiger Datensätze (Begründung im Portfolio)
df = df[(df["Age"] >= 0) & (df["Age"] <= 100)]
df = df[df["AnnualIncome"] > 0]

print("\nDatenform nach Bereinigung fehlerhafter Werte:", df.shape)

# ============================================================
# (d) Weitere Datenqualitätsprüfungen
# ============================================================

print("\n=== (d) Weitere Datenqualitätsprüfungen ===")

# Datentypen überprüfen
print("\nDatentypen:")
display(df.dtypes)

# Statistische Übersicht
print("\nDeskriptive Statistiken:")
display(df.describe())

# Klassenbalance der Zielvariable
print("\nVerteilung der Zielvariable (TravelInsurance):")
display(df["TravelInsurance"].value_counts(normalize=True).round(3))

# Optional speichern
df.to_csv("TravelInsurance_CLEANED.csv", index=False)
print("\nBereinigte Datei gespeichert als: TravelInsurance_CLEANED.csv")

print("\n*** DATENQUALITÄT ANALYSE ABGESCHLOSSEN ***")

Datensatzform (Zeilen, Spalten): (1987, 10)


Unnamed: 0.1,Unnamed: 0,Age,Employment Type,GraduateOrNot,AnnualIncome,FamilyMembers,ChronicDiseases,FrequentFlyer,EverTravelledAbroad,TravelInsurance
0,0,31,Government Sector,Yes,400000,6,1,No,No,0
1,1,31,Private Sector/Self Employed,Yes,1250000,7,0,No,No,0
2,2,34,Private Sector/Self Employed,Yes,500000,4,1,No,No,1
3,3,28,Private Sector/Self Employed,Yes,700000,3,1,No,No,0
4,4,28,Private Sector/Self Employed,Yes,700000,8,1,Yes,No,0



=== (a) Fehlende Werte Analyse ===

Anzahl fehlender Werte pro Spalte:


Unnamed: 0             0
Age                    0
Employment Type        0
GraduateOrNot          0
AnnualIncome           0
FamilyMembers          0
ChronicDiseases        0
FrequentFlyer          0
EverTravelledAbroad    0
TravelInsurance        0
dtype: int64


Nach Ersetzung leerer Strings:


Unnamed: 0             0
Age                    0
Employment Type        0
GraduateOrNot          0
AnnualIncome           0
FamilyMembers          0
ChronicDiseases        0
FrequentFlyer          0
EverTravelledAbroad    0
TravelInsurance        0
dtype: int64


Fehlende Werte nach automatischer Behandlung:


Unnamed: 0             0
Age                    0
Employment Type        0
GraduateOrNot          0
AnnualIncome           0
FamilyMembers          0
ChronicDiseases        0
FrequentFlyer          0
EverTravelledAbroad    0
TravelInsurance        0
dtype: int64


=== (b) Duplikatsanalyse ===
Duplikate gefunden: 0

Datenform nach Entfernen von Duplikaten: (1987, 10)

=== (c) Prüfung auf unlogische / ungültige Werte ===
Unnamed: 0: Beispielwerte → [0 1 2 3 4 5 6 7]
Age: Beispielwerte → [31 34 28 25 33 26 32 29]
Employment Type: Beispielwerte → ['Government Sector' 'Private Sector/Self Employed']
GraduateOrNot: Beispielwerte → ['Yes' 'No']
AnnualIncome: Beispielwerte → [ 400000 1250000  500000  700000 1150000 1300000 1350000 1450000]
FamilyMembers: Beispielwerte → [6 7 4 3 8 9 5 2]
ChronicDiseases: Beispielwerte → [1 0]
FrequentFlyer: Beispielwerte → ['No' 'Yes']
EverTravelledAbroad: Beispielwerte → ['No' 'Yes']
TravelInsurance: Beispielwerte → [0 1]

Ungültige Alterswerte gefunden:


Unnamed: 0.1,Unnamed: 0,Age,Employment Type,GraduateOrNot,AnnualIncome,FamilyMembers,ChronicDiseases,FrequentFlyer,EverTravelledAbroad,TravelInsurance


Ungültige Einkommenswerte gefunden:


Unnamed: 0.1,Unnamed: 0,Age,Employment Type,GraduateOrNot,AnnualIncome,FamilyMembers,ChronicDiseases,FrequentFlyer,EverTravelledAbroad,TravelInsurance



Datenform nach Bereinigung fehlerhafter Werte: (1987, 10)

=== (d) Weitere Datenqualitätsprüfungen ===

Datentypen:


Unnamed: 0              int64
Age                     int64
Employment Type        object
GraduateOrNot          object
AnnualIncome            int64
FamilyMembers           int64
ChronicDiseases         int64
FrequentFlyer          object
EverTravelledAbroad    object
TravelInsurance         int64
dtype: object


Deskriptive Statistiken:


Unnamed: 0.1,Unnamed: 0,Age,AnnualIncome,FamilyMembers,ChronicDiseases,TravelInsurance
count,1987.0,1987.0,1987.0,1987.0,1987.0,1987.0
mean,993.0,29.650226,932763.0,4.752894,0.277806,0.357323
std,573.741812,2.913308,376855.7,1.60965,0.44803,0.479332
min,0.0,25.0,300000.0,2.0,0.0,0.0
25%,496.5,28.0,600000.0,4.0,0.0,0.0
50%,993.0,29.0,900000.0,5.0,0.0,0.0
75%,1489.5,32.0,1250000.0,6.0,1.0,1.0
max,1986.0,35.0,1800000.0,9.0,1.0,1.0



Verteilung der Zielvariable (TravelInsurance):


TravelInsurance
0    0.643
1    0.357
Name: proportion, dtype: float64


Bereinigte Datei gespeichert als: TravelInsurance_CLEANED.csv

*** DATENQUALITÄT ANALYSE ABGESCHLOSSEN ***
