In [4]:
import pandas as pd
import gc   # Garbage Collector → löscht alles Alte sofort

# 1. Alles Alte aus dem Speicher schmeißen
try:
    del df
except:
    pass
gc.collect()

# 2. Datensatz frisch laden (originale Kaggle-Datei!)
df = pd.read_csv("TravelInsurancePrediction.csv")

# 3. Nur die erste (unnötige) Index-Spalte entfernen
df = df.iloc[:, 1:]      # oder: df = df.drop(df.columns[0], axis=1)

# ==================== JETZT DIE ANALYSE ====================

print("=== PORTFOLIO: DATENQUALITÄT – TravelInsurancePrediction ===\n")
print(f"Zeilen: {len(df)} | Spalten: {df.shape[1]}\n")

# 1. Fehlende Werte
print("1. Fehlende Werte")
print(df.isnull().sum())
print(f"→ Gesamt NaN: {df.isnull().sum().sum()}\n")

1
1
1
1
1
1
1

1
1
1


# 3. Plausibilitätsprüfung
print("3. Plausibilitätsprüfung")
print(f"   Age             : {df['Age'].min()} – {df['Age'].max()} Jahre")
print(f"   AnnualIncome    : {df['AnnualIncome'].min():,} – {df['AnnualIncome'].max():,} ₹")
print(f"   FamilyMembers   : {df['FamilyMembers'].min()} – {df['FamilyMembers'].max()} Personen")
print(f"   ChronicDiseases : {sorted(df['ChronicDiseases'].unique())} (nur 0/1)")
print(f"   TravelInsurance : {sorted(df['TravelInsurance'].unique())} (nur 0/1)")

print("\n   Kategorische Variablen")
for col in ["Employment Type", "GraduateOrNot", "FrequentFlyer", "EverTravelledAbroad"]:
    print(f"   • {col:20}: {df[col].unique().tolist()}")

# 4. Fazit
print("\n4. Fazit")
print("   • Keine fehlenden Werte")
print("   • Keine Duplikate (bzw. wurden entfernt)")
print("   • Alle Werte plausibel und konsistent")
print("   • Alter homogen (25–35), aber kein Fehler")
print(f"   → Datensatz 100 % sauber und modellierbereit!")

print(f"\nEndgültige Shape: {df.shape[0]} Zeilen × {df.shape[1]} Spalten")

=== PORTFOLIO: DATENQUALITÄT – TravelInsurancePrediction ===

Zeilen: 1987 | Spalten: 9

1. Fehlende Werte
Age                    0
Employment Type        0
GraduateOrNot          0
AnnualIncome           0
FamilyMembers          0
ChronicDiseases        0
FrequentFlyer          0
EverTravelledAbroad    0
TravelInsurance        0
dtype: int64
→ Gesamt NaN: 0

3. Plausibilitätsprüfung
   Age             : 25 – 35 Jahre
   AnnualIncome    : 300,000 – 1,800,000 ₹
   FamilyMembers   : 2 – 9 Personen
   ChronicDiseases : [np.int64(0), np.int64(1)] (nur 0/1)
   TravelInsurance : [np.int64(0), np.int64(1)] (nur 0/1)

   Kategorische Variablen
   • Employment Type     : ['Government Sector', 'Private Sector/Self Employed']
   • GraduateOrNot       : ['Yes', 'No']
   • FrequentFlyer       : ['No', 'Yes']
   • EverTravelledAbroad : ['No', 'Yes']

4. Fazit
   • Keine fehlenden Werte
   • Keine Duplikate (bzw. wurden entfernt)
   • Alle Werte plausibel und konsistent
   • Alter homogen (25–35), ab