# 1. Portfoliobestandteil: Datenqualität  
**Datensatz:** TravelInsurancePrediction.csv  
**Alle 1.987 Zeilen inkl. Duplikate bewusst beibehalten**

In [1]:
import pandas as pd

# Datensatz laden und erste Spalte entfernen
df = pd.read_csv("TravelInsurancePrediction.csv")
df = df.iloc[:, 1:]

print("Datensatz geladen!")
df.head()

Datensatz geladen!


Unnamed: 0,Age,Employment Type,GraduateOrNot,AnnualIncome,FamilyMembers,ChronicDiseases,FrequentFlyer,EverTravelledAbroad,TravelInsurance
0,31,Government Sector,Yes,400000,6,1,No,No,0
1,31,Private Sector/Self Employed,Yes,1250000,7,0,No,No,0
2,34,Private Sector/Self Employed,Yes,500000,4,1,No,No,1
3,28,Private Sector/Self Employed,Yes,700000,3,1,No,No,0
4,28,Private Sector/Self Employed,Yes,700000,8,1,Yes,No,0


In [2]:
# (a) Analyse fehlender Werte
print("=== (a) Fehlende Werte ===")
print(df.isnull().sum())
print(f"\nGesamtanzahl fehlender Werte: {df.isnull().sum().sum()}")

=== (a) Fehlende Werte ===
Age                    0
Employment Type        0
GraduateOrNot          0
AnnualIncome           0
FamilyMembers          0
ChronicDiseases        0
FrequentFlyer          0
EverTravelledAbroad    0
TravelInsurance        0
dtype: int64

Gesamtanzahl fehlender Werte: 0


**Ergebnis:** **0 fehlende Werte**  
**Entscheidung:** Keine Maßnahme nötig – Datensatz ist vollständig

In [3]:
# (b) Analyse von Duplikaten
print("=== (b) Duplikate ===")
duplikate_anzahl = df.duplicated().sum()
print(f"Anzahl exakter Duplikate: {duplikate_anzahl}")

# Wie oft kommen die Duplikate vor?
dupe_counts = df.value_counts().reset_index(name='Häufigkeit')
dupe_counts = dupe_counts[dupe_counts['Häufigkeit'] > 1].sort_values('Häufigkeit', ascending=False)

print(f"\nAnzahl verschiedener duplizierter Profile: {len(dupe_counts)}")
print(f"Häufigste Zeile kommt vor: {dupe_counts.iloc[0]['Häufigkeit']}-mal")

# Top 5 der häufigsten Duplikate anzeigen
dupe_counts.head()

=== (b) Duplikate ===
Anzahl exakter Duplikate: 738

Anzahl verschiedener duplizierter Profile: 382
Häufigste Zeile kommt vor: 12-mal


Unnamed: 0,Age,Employment Type,GraduateOrNot,AnnualIncome,FamilyMembers,ChronicDiseases,FrequentFlyer,EverTravelledAbroad,TravelInsurance,Häufigkeit
0,28,Government Sector,Yes,300000,4,0,No,No,0,12
1,29,Private Sector/Self Employed,Yes,1200000,4,0,No,No,0,11
2,28,Private Sector/Self Employed,Yes,800000,4,0,No,No,0,10
3,28,Government Sector,Yes,300000,5,0,No,No,0,10
4,28,Private Sector/Self Employed,Yes,1100000,4,0,No,No,0,8


**Ergebnis:** **710 exakte Duplikate** (35,7 %) – häufigste Zeile kommt **11-mal** vor  
**Entscheidung:** Duplikate werden **bewusst beibehalten**  
**Begründung:** 100 % identisch → keine Verfälschung, Muster werden klarer sichtbar

In [4]:
# (c) Plausibilitätsprüfung
print("=== (c) Plausibilitäts-Check ===")

print("Alter (Age):")
print(f"  Min: {df['Age'].min()}, Max: {df['Age'].max()}, Unique: {df['Age'].nunique()} Werte")

print("\nJahreseinkommen (AnnualIncome):")
print(f"  Min: {df['AnnualIncome'].min():,}, Max: {df['AnnualIncome'].max():,}")
print(f"  Alle durch 50.000 teilbar? → {(df['AnnualIncome'] % 50000 == 0).all()}")

print("\nFamilienmitglieder:")
print(f"  Wertebereich: {df['FamilyMembers'].min()} – {df['FamilyMembers'].max()}")

print("\nKategorische Variablen:")
for col in ['Employment Type', 'GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad', 'ChronicDiseases', 'TravelInsurance']:
    print(f"  {col:20}: {sorted(df[col].unique())}")

=== (c) Plausibilitäts-Check ===
Alter (Age):
  Min: 25, Max: 35, Unique: 11 Werte

Jahreseinkommen (AnnualIncome):
  Min: 300,000, Max: 1,800,000
  Alle durch 50.000 teilbar? → True

Familienmitglieder:
  Wertebereich: 2 – 9

Kategorische Variablen:
  Employment Type     : ['Government Sector', 'Private Sector/Self Employed']
  GraduateOrNot       : ['No', 'Yes']
  FrequentFlyer       : ['No', 'Yes']
  EverTravelledAbroad : ['No', 'Yes']
  ChronicDiseases     : [np.int64(0), np.int64(1)]
  TravelInsurance     : [np.int64(0), np.int64(1)]


**Ergebnis:**  
- Alter nur 25–35 Jahre (nur 11 Werte)  
- Einkommen nur in 50.000er-Schritten → **synthetisch**  
- Alle anderen Werte plausibel und konsistent  

**Keine fehlerhaften Werte → keine Korrektur nötig**