# 04_Combine_Datasets - Finale Dataset-Kombination

**Kombination aller normalisierten und angereicherten Datasets**
- Lädt die drei normalisierten und angereicherten Datasets (2018-2019, 2022, 2025)
- Prüft Schema-Kompatibilität
- Führt Qualitätsprüfungen durch
- Erstellt finales kombiniertes und angereichertes Dataset

**Input:**
- `data/processed/dataset_2018_2019_enriched.csv`
- `data/processed/dataset_2022_enriched.csv` 
- `data/processed/dataset_2025_enriched.csv`

**Output:**
- `data/processed/berlin_housing_combined_enriched_final.csv`

## 1. Setup und Imports

In [35]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

print("Bibliotheken erfolgreich importiert!")
print(f"Pandas Version: {pd.__version__}")
print("Ziel: Kombination aller normalisierten Datasets")

Bibliotheken erfolgreich importiert!
Pandas Version: 2.3.0
Ziel: Kombination aller normalisierten Datasets


## 2. Angereicherte Datasets laden

In [36]:
print("=" * 60)
print("ANGEREICHERTE DATASETS LADEN")
print("=" * 60)

# Dateipfade zu den angereicherten Datasets
file_paths = {
    '2018_2019': 'data/processed/dataset_2018_2019_enriched.csv',
    '2022': 'data/processed/dataset_2022_enriched.csv',
    '2025': 'data/processed/dataset_2025_enriched.csv'
}

# Laden der Datasets
datasets = {}
for dataset_name, file_path in file_paths.items():
    df = pd.read_csv(file_path)
    datasets[dataset_name] = df
    print(f"✅ {dataset_name}: {len(df):,} Zeilen, {len(df.columns)} Spalten")

print(f"\nGeladen: {len(datasets)} von {len(file_paths)} Datasets")

# Forciere Neuladung der Datasets
for name, df in datasets.items():
    # Neu laden um sicherzustellen, dass wir die neuesten Daten haben
    df = pd.read_csv(file_paths[name])
    datasets[name] = df
    print(f"🔄 {name} neu geladen: {len(df):,} Zeilen")

ANGEREICHERTE DATASETS LADEN
✅ 2018_2019: 10,387 Zeilen, 15 Spalten
✅ 2022: 2,676 Zeilen, 25 Spalten
✅ 2025: 4,424 Zeilen, 14 Spalten

Geladen: 3 von 3 Datasets
🔄 2018_2019 neu geladen: 10,387 Zeilen
🔄 2022 neu geladen: 2,676 Zeilen
🔄 2025 neu geladen: 4,424 Zeilen


## 3. Schema-Kompatibilität prüfen

In [28]:
print("="*60)
print("SCHEMA-KOMPATIBILITÄT PRÜFEN")
print("="*60)

# Definiere erwartete Standardspalten (vor PLZ-Enhancement)
base_columns = ['price', 'size', 'district', 'rooms', 'year', 'dataset_id', 'source', 'wol', 'plz']

# Spalten die nach PLZ-Enhancement hinzugefügt werden
enhanced_columns = ['ortsteil', 'bezirk', 'lat', 'lon']

print("Erwartete Basis-Spalten (vor PLZ-Enhancement):")
for col in base_columns:
    print(f"  - {col}")

print("\nSpalten die durch PLZ-Enhancement hinzugefügt werden:")
for col in enhanced_columns:
    print(f"  - {col}")

# Prüfe jedes Dataset (nur gegen Basis-Spalten)
schema_check = {}
for dataset_name, df in datasets.items():
    missing_cols = [col for col in base_columns if col not in df.columns]
    extra_cols = [col for col in df.columns if col not in base_columns]
    
    schema_check[dataset_name] = {
        'missing': missing_cols,
        'extra': extra_cols,
        'valid': len(missing_cols) == 0
    }
    
    print(f"\n=== DATASET {dataset_name.upper()} ===")
    print(f"Spalten: {list(df.columns)}")
    if missing_cols:
        print(f"❌ Fehlende Basis-Spalten: {missing_cols}")
    else:
        print(f"✅ Alle Basis-Spalten vorhanden")
    
    if extra_cols:
        print(f"ℹ️  Zusätzliche Spalten: {len(extra_cols)} ({extra_cols[:3]}...)")
    
    # Prüfe PLZ-Verfügbarkeit speziell
    if 'plz' in df.columns:
        plz_available = df['plz'].notna().sum()
        print(f"📍 PLZ verfügbar: {plz_available:,}/{len(df):,} ({plz_available/len(df)*100:.1f}%)")

# Zusammenfassung
valid_datasets = [name for name, check in schema_check.items() if check['valid']]
print(f"\n=== SCHEMA-KOMPATIBILITÄT ===")
print(f"Valide Datasets: {len(valid_datasets)}/{len(datasets)}")
if len(valid_datasets) == len(datasets):
    print("✅ Alle Datasets sind schema-kompatibel!")
else:
    print("❌ Schema-Inkompatibilitäten gefunden!")

SCHEMA-KOMPATIBILITÄT PRÜFEN
Erwartete Basis-Spalten (vor PLZ-Enhancement):
  - price
  - size
  - district
  - rooms
  - year
  - dataset_id
  - source
  - wol
  - plz

Spalten die durch PLZ-Enhancement hinzugefügt werden:
  - ortsteil
  - bezirk
  - lat
  - lon

=== DATASET 2018_2019 ===
Spalten: ['price', 'size', 'district', 'rooms', 'year', 'dataset_id', 'source', 'street', 'floor', 'typeOfFlat', 'yearConstructed', 'totalRent', 'plz', 'wol', 'ortsteil_neu']
✅ Alle Basis-Spalten vorhanden
ℹ️  Zusätzliche Spalten: 6 (['street', 'floor', 'typeOfFlat']...)
📍 PLZ verfügbar: 1,760/10,387 (16.9%)

=== DATASET 2022 ===
Spalten: ['price', 'size', 'district', 'rooms', 'year', 'dataset_id', 'source', 'plz', 'warmmiete', 'nebenkosten', 'kaution', 'baujahr', 'zustand', 'energieeffiziensklasse', 'ausstattung_möbliert', 'ausstattung_balkon', 'ausstattung_terrasse', 'ausstattung_garten', 'ausstattung_einbauküche', 'ausstattung_garage', 'ausstattung_stellplatz', 'ausstattung_personenaufzug', 'ausst

## 4. Datenqualität prüfen

In [26]:
print("="*60)
print("DATENQUALITÄT PRÜFEN")
print("="*60)

quality_report = {}

for dataset_name, df in datasets.items():
    print(f"\n=== DATASET {dataset_name.upper()} ===")
    
    # Grundlegende Statistiken
    total_rows = len(df)
    
    # Vollständigkeit prüfen (verwende base_columns)
    completeness = {}
    for col in base_columns:
        if col in df.columns:
            non_null = df[col].notna().sum()
            completeness[col] = (non_null, non_null/total_rows*100)
            print(f"  {col}: {non_null:,}/{total_rows:,} ({non_null/total_rows*100:.1f}%) nicht-null")
    
    # Wertebereichs-Prüfungen
    if 'price' in df.columns:
        price_valid = ((df['price'] >= 50) & (df['price'] <= 20000)).sum()
        print(f"  Preis (50-20000€): {price_valid:,}/{total_rows:,} ({price_valid/total_rows*100:.1f}%) gültig")
    
    if 'size' in df.columns:
        size_valid = ((df['size'] >= 5) & (df['size'] <= 1000)).sum()
        print(f"  Größe (5-1000m²): {size_valid:,}/{total_rows:,} ({size_valid/total_rows*100:.1f}%) gültig")
    
    if 'district' in df.columns:
        unique_districts = df['district'].nunique()
        print(f"  Einzigartige Bezirke: {unique_districts}")
    
    # PLZ-Qualität prüfen
    if 'plz' in df.columns:
        plz_available = df['plz'].notna().sum()
        print(f"  PLZ verfügbar: {plz_available:,}/{total_rows:,} ({plz_available/total_rows*100:.1f}%)")
    
    quality_report[dataset_name] = {
        'total_rows': total_rows,
        'completeness': completeness,
        'unique_districts': df['district'].nunique() if 'district' in df.columns else 0,
        'plz_available': df['plz'].notna().sum() if 'plz' in df.columns else 0
    }

print(f"\n✅ Datenqualitätsprüfung abgeschlossen")

DATENQUALITÄT PRÜFEN

=== DATASET 2018_2019 ===
  price: 10,387/10,387 (100.0%) nicht-null
  size: 10,387/10,387 (100.0%) nicht-null
  district: 10,387/10,387 (100.0%) nicht-null
  rooms: 10,387/10,387 (100.0%) nicht-null
  year: 10,387/10,387 (100.0%) nicht-null
  dataset_id: 10,387/10,387 (100.0%) nicht-null
  source: 10,387/10,387 (100.0%) nicht-null
  wol: 1,760/10,387 (16.9%) nicht-null
  plz: 1,760/10,387 (16.9%) nicht-null
  Preis (50-20000€): 10,387/10,387 (100.0%) gültig
  Größe (5-1000m²): 10,387/10,387 (100.0%) gültig
  Einzigartige Bezirke: 79
  PLZ verfügbar: 1,760/10,387 (16.9%)

=== DATASET 2022 ===
  price: 2,676/2,676 (100.0%) nicht-null
  size: 2,676/2,676 (100.0%) nicht-null
  district: 2,676/2,676 (100.0%) nicht-null
  rooms: 2,676/2,676 (100.0%) nicht-null
  year: 2,676/2,676 (100.0%) nicht-null
  dataset_id: 2,676/2,676 (100.0%) nicht-null
  source: 2,676/2,676 (100.0%) nicht-null
  wol: 2,676/2,676 (100.0%) nicht-null
  plz: 2,676/2,676 (100.0%) nicht-null
  Prei

## 5. Datasets kombinieren

In [30]:
print("="*60)
print("DATASETS KOMBINIEREN")
print("="*60)

# Nur Basis-Spalten für Kombination verwenden (PLZ-Enhancement kommt später)
datasets_standard = {}
for dataset_name, df in datasets.items():
    # Wähle nur Basis-Spalten aus
    available_base_cols = [col for col in base_columns if col in df.columns]
    df_std = df[available_base_cols].copy()
    datasets_standard[dataset_name] = df_std
    print(f"{dataset_name}: {len(df_std):,} Zeilen mit {len(available_base_cols)} Basis-Spalten")

# Kombiniere alle Datasets
print(f"\nKombiniere Datasets...")
combined_df = pd.concat(datasets_standard.values(), ignore_index=True, sort=False)

print(f"✅ Kombiniertes Dataset erstellt: {len(combined_df):,} Zeilen")

# Zusammenfassung
print(f"\n=== KOMBINATIONS-ZUSAMMENFASSUNG ===")
total_input_rows = sum(len(df) for df in datasets.values())
print(f"Input-Zeilen gesamt: {total_input_rows:,}")
print(f"Output-Zeilen: {len(combined_df):,}")
print(f"Datenverlust: {total_input_rows - len(combined_df):,} ({(total_input_rows - len(combined_df))/total_input_rows*100:.1f}%)")

# Verteilung nach Jahren
print(f"\n=== JAHRESVERTEILUNG ===")
year_counts = combined_df['year'].value_counts().sort_index()
for year, count in year_counts.items():
    print(f"  {year}: {count:,} Einträge ({count/len(combined_df)*100:.1f}%)")

# Verteilung nach Dataset-ID
print(f"\n=== DATASET-VERTEILUNG ===")
dataset_counts = combined_df['dataset_id'].value_counts()
for dataset_id, count in dataset_counts.items():
    print(f"  {dataset_id}: {count:,} Einträge ({count/len(combined_df)*100:.1f}%)")

# PLZ-Verfügbarkeit prüfen
if 'plz' in combined_df.columns:
    plz_available = combined_df['plz'].notna().sum()
    print(f"\n=== PLZ-VERFÜGBARKEIT ===")
    print(f"PLZ verfügbar: {plz_available:,}/{len(combined_df):,} ({plz_available/len(combined_df)*100:.1f}%)")
    print("✅ Bereit für PLZ-Enhancement mit Ortsteil und Koordinaten")

DATASETS KOMBINIEREN
2018_2019: 10,387 Zeilen mit 9 Basis-Spalten
2022: 2,676 Zeilen mit 9 Basis-Spalten
2025: 4,424 Zeilen mit 9 Basis-Spalten

Kombiniere Datasets...
✅ Kombiniertes Dataset erstellt: 17,487 Zeilen

=== KOMBINATIONS-ZUSAMMENFASSUNG ===
Input-Zeilen gesamt: 17,487
Output-Zeilen: 17,487
Datenverlust: 0 (0.0%)

=== JAHRESVERTEILUNG ===
  2019: 10,387 Einträge (59.4%)
  2022: 2,676 Einträge (15.3%)
  2025: 4,424 Einträge (25.3%)

=== DATASET-VERTEILUNG ===
  historical: 10,387 Einträge (59.4%)
  recent: 4,424 Einträge (25.3%)
  current: 2,676 Einträge (15.3%)

=== PLZ-VERFÜGBARKEIT ===
PLZ verfügbar: 4,492/17,487 (25.7%)
✅ Bereit für PLZ-Enhancement mit Ortsteil und Koordinaten


## 5.5. Erweiterte PLZ-Geolocation hinzufügen

**🎯 Integration der verbesserten PLZ-Mapping-Datei**

Anstatt nur auf Bezirksebene zu arbeiten, verwenden wir jetzt die neue `berlin_plz_mapping_enhanced.csv`, die:
- **Ortsteil-Level-Genauigkeit** bietet (z.B. PLZ 12355 → Rudow statt nur Neukölln)
- **Echte Koordinaten** für jede PLZ enthält (Lat/Lon)
- **Höhere räumliche Präzision** für die Visualisierung ermöglicht

Dies ist ein wichtiger Schritt zur Verbesserung der Datenqualität und räumlichen Genauigkeit unserer Analyse.

In [31]:
print("="*60)
print("ERWEITERTE PLZ-GEOLOCATION HINZUFÜGEN")
print("="*60)

# Lade die erweiterte PLZ-Mapping-Datei
plz_mapping_file = 'data/processed/berlin_plz_mapping_enhanced.csv'
try:
    plz_mapping = pd.read_csv(plz_mapping_file, dtype={'PLZ': str})
    print(f"✅ PLZ-Mapping geladen: {len(plz_mapping):,} Einträge")
    print(f"   Spalten: {list(plz_mapping.columns)}")
    
    # Zeige einige Beispiele
    print(f"\n=== BEISPIELE VERBESSERTER PLZ-MAPPINGS ===")
    examples = ['10249', '12355', '13347', '14050', '10553']
    for plz in examples:
        if plz in plz_mapping['PLZ'].values:
            row = plz_mapping[plz_mapping['PLZ'] == plz].iloc[0]
            print(f"PLZ {plz}: {row['Ortsteil']} ({row['Bezirk']}) → {row['Lat']:.4f}, {row['Lon']:.4f}")
    
except FileNotFoundError:
    print(f"❌ PLZ-Mapping-Datei nicht gefunden: {plz_mapping_file}")
    print("⚠️  Erstelle die Datei mit: python3 create_enhanced_plz_mapping_with_coords.py")
    plz_mapping = None

# Prüfe PLZ-Verfügbarkeit im kombinierten Dataset
if 'plz' in combined_df.columns:
    print(f"\n=== PLZ-VERFÜGBARKEIT IM KOMBINIERTEN DATASET ===")
    plz_available = combined_df['plz'].notna().sum()
    print(f"PLZ verfügbar: {plz_available:,}/{len(combined_df):,} ({plz_available/len(combined_df)*100:.1f}%)")
    
    # Zeige PLZ-Statistiken
    unique_plz = combined_df['plz'].nunique()
    print(f"Einzigartige PLZ: {unique_plz}")
    
    # Zeige häufigste PLZ
    plz_counts = combined_df['plz'].value_counts().head(5)
    print(f"Häufigste PLZ:")
    for plz, count in plz_counts.items():
        print(f"  {plz}: {count:,} Einträge")
    
    # DATENTYP-PROBLEM BEHEBEN
    print(f"\n=== DATENTYP-PROBLEM BEHEBEN ===")
    print(f"PLZ-Datentyp im combined_df: {combined_df['plz'].dtype}")
    print(f"PLZ-Datentyp im mapping: {plz_mapping['PLZ'].dtype}")
    
    # Zeige ein paar Beispiel-PLZ aus combined_df
    sample_plz = combined_df['plz'].dropna().head(5).tolist()
    print(f"Beispiel PLZ aus combined_df: {sample_plz}")
    
    # Zeige ein paar Beispiel-PLZ aus mapping
    sample_mapping_plz = plz_mapping['PLZ'].head(5).tolist()
    print(f"Beispiel PLZ aus mapping: {sample_mapping_plz}")
else:
    print("❌ Keine PLZ-Spalte im kombinierten Dataset gefunden!")

# Führe den Join durch (wenn möglich)
if plz_mapping is not None and 'plz' in combined_df.columns:
    print(f"\n=== PLZ-MAPPING-JOIN DURCHFÜHREN ===")
    
    # Bereite die Daten für den Join vor - KORRIGIERE DATENTYPEN
    # Konvertiere Float-PLZ zu String und entferne .0
    def clean_plz(plz_value):
        if pd.isna(plz_value):
            return None
        # Konvertiere zu String und entferne .0 wenn es ein Float ist
        plz_str = str(plz_value)
        if plz_str.endswith('.0'):
            plz_str = plz_str[:-2]
        return plz_str
    
    # Bereite PLZ-Spalten vor
    combined_df['plz_clean'] = combined_df['plz'].apply(clean_plz)
    plz_mapping['PLZ'] = plz_mapping['PLZ'].astype(str)
    
    print(f"PLZ nach Bereinigung - Beispiele:")
    sample_clean_plz = combined_df['plz_clean'].dropna().head(5).tolist()
    print(f"  Combined_df: {sample_clean_plz}")
    print(f"  Mapping: {plz_mapping['PLZ'].head(5).tolist()}")
    
    # Anzahl vor dem Join
    rows_before = len(combined_df)
    
    # Join durchführen
    combined_enhanced = combined_df.merge(
        plz_mapping, 
        left_on='plz_clean', 
        right_on='PLZ', 
        how='left'
    )
    
    # Bereinige Spalten
    combined_enhanced = combined_enhanced.drop(['PLZ', 'plz_clean'], axis=1)  # Duplikate entfernen
    combined_enhanced = combined_enhanced.rename(columns={
        'Ortsteil': 'ortsteil',
        'Bezirk': 'bezirk', 
        'Lat': 'lat',
        'Lon': 'lon'
    })
    
    # Statistiken nach dem Join
    rows_after = len(combined_enhanced)
    matched_coords = combined_enhanced['lat'].notna().sum()
    
    print(f"Join-Ergebnis:")
    print(f"  Zeilen vorher: {rows_before:,}")
    print(f"  Zeilen nachher: {rows_after:,}")
    print(f"  Koordinaten matched: {matched_coords:,}/{rows_after:,} ({matched_coords/rows_after*100:.1f}%)")
    
    # Zeige gematchte PLZ-Beispiele
    if matched_coords > 0:
        print(f"\n✅ ERFOLGREICHE MATCHES (Top 5):")
        matched_data = combined_enhanced[combined_enhanced['lat'].notna()]
        for _, row in matched_data.head(5).iterrows():
            print(f"  PLZ {row['plz']} → {row['ortsteil']} ({row['bezirk']}) → {row['lat']:.4f}, {row['lon']:.4f}")
    
    # Zeige nicht gematchte PLZ
    unmatched_plz = combined_enhanced[combined_enhanced['lat'].isna()]['plz'].value_counts().head(10)
    if len(unmatched_plz) > 0:
        print(f"\n⚠️  Nicht gematchte PLZ (Top 10):")
        for plz, count in unmatched_plz.items():
            if pd.notna(plz):
                print(f"  {plz}: {count:,} Einträge")
    
    # Ersetze das combined_df durch das enhanced
    combined_df = combined_enhanced
    
    print(f"\n✅ Erweiterte PLZ-Geolocation erfolgreich hinzugefügt!")
    print(f"Neue Spalten: ortsteil, bezirk, lat, lon")
    print(f"Finale Spalten: {list(combined_df.columns)}")
else:
    print(f"\n❌ PLZ-Mapping-Join nicht möglich")
    print("Grund: Fehlende PLZ-Mapping-Datei oder keine PLZ-Spalte im Dataset")

ERWEITERTE PLZ-GEOLOCATION HINZUFÜGEN
✅ PLZ-Mapping geladen: 190 Einträge
   Spalten: ['PLZ', 'Ortsteil', 'Bezirk', 'Lat', 'Lon']

=== BEISPIELE VERBESSERTER PLZ-MAPPINGS ===
PLZ 10249: Friedrichshain (Friedrichshain-Kreuzberg) → 52.5159, 13.4533
PLZ 12355: Rudow (Neukölln) → 52.4000, 13.4667
PLZ 13347: Gesundbrunnen (Mitte) → 52.5511, 13.3885
PLZ 14050: Westend (Charlottenburg-Wilmersdorf) → 52.5167, 13.2833
PLZ 10553: Moabit (Mitte) → 52.5280, 13.3430

=== PLZ-VERFÜGBARKEIT IM KOMBINIERTEN DATASET ===
PLZ verfügbar: 4,492/17,487 (25.7%)
Einzigartige PLZ: 188
Häufigste PLZ:
  10315.0: 127 Einträge
  13593.0: 113 Einträge
  10245.0: 107 Einträge
  12627.0: 100 Einträge
  12555.0: 99 Einträge

=== DATENTYP-PROBLEM BEHEBEN ===
PLZ-Datentyp im combined_df: float64
PLZ-Datentyp im mapping: object
Beispiel PLZ aus combined_df: [13591.0, 12527.0, 13053.0, 13158.0, 14199.0]
Beispiel PLZ aus mapping: ['10115', '10117', '10119', '10178', '10179']

=== PLZ-MAPPING-JOIN DURCHFÜHREN ===
PLZ nach B

In [32]:
# ===================================================================
# PLZ-DATENTYP-REPARATUR VOR JOIN
# ===================================================================
print("\n🔧 PLZ-DATENTYP-REPARATUR")
print("=" * 50)

# Prüfe die verfügbaren Spalten
print("Verfügbare Spalten:")
print(f"  combined_df: {list(combined_df.columns)}")
print(f"  plz_mapping: {list(plz_mapping.columns)}")

# Prüfe PLZ-Datentypen vor der Reparatur
print("\nPLZ-Datentypen vor Reparatur:")
print(f"  combined_df['plz']: {combined_df['plz'].dtype}")

# Identifiziere die PLZ-Spalte in plz_mapping
if 'plz' in plz_mapping.columns:
    plz_col = 'plz'
elif 'PLZ' in plz_mapping.columns:
    plz_col = 'PLZ'
else:
    print("❌ Keine PLZ-Spalte in plz_mapping gefunden!")
    print(f"Verfügbare Spalten: {list(plz_mapping.columns)}")
    plz_col = None

if plz_col:
    print(f"  plz_mapping['{plz_col}']: {plz_mapping[plz_col].dtype}")
    
    # Zeige PLZ-Beispiele vor Reparatur
    print("\nPLZ-Beispiele vor Reparatur:")
    print("  combined_df PLZ:")
    combined_plz_sample = combined_df['plz'].dropna().head(5)
    for plz in combined_plz_sample:
        print(f"    {plz} (Type: {type(plz)})")

    print(f"  plz_mapping {plz_col}:")
    mapping_plz_sample = plz_mapping[plz_col].head(5)
    for plz in mapping_plz_sample:
        print(f"    {plz} (Type: {type(plz)})")

    # ===================================================================
    # KRITISCHE REPARATUR: PLZ-DATENTYP-HARMONISIERUNG
    # ===================================================================
    print("\n🚨 KRITISCHE REPARATUR: PLZ-DATENTYP-HARMONISIERUNG")
    print("=" * 60)

    # PROBLEM: combined_df['plz'] ist float (mit .0), plz_mapping['plz'] ist string
    # LÖSUNG: Beide zu String konvertieren

    # Repariere combined_df PLZ: float → string
    combined_df['plz'] = combined_df['plz'].apply(
        lambda x: str(int(x)) if pd.notna(x) and x != '' else None
    )

    # Repariere plz_mapping PLZ: Stelle sicher, dass es string ist
    plz_mapping[plz_col] = plz_mapping[plz_col].astype(str)

    # Prüfe PLZ-Datentypen nach der Reparatur
    print("\nPLZ-Datentypen nach Reparatur:")
    print(f"  combined_df['plz']: {combined_df['plz'].dtype}")
    print(f"  plz_mapping['{plz_col}']: {plz_mapping[plz_col].dtype}")

    # Zeige PLZ-Beispiele nach Reparatur
    print("\nPLZ-Beispiele nach Reparatur:")
    print("  combined_df PLZ:")
    combined_plz_sample_after = combined_df['plz'].dropna().head(5)
    for plz in combined_plz_sample_after:
        print(f"    {plz} (Type: {type(plz)})")

    print(f"  plz_mapping {plz_col}:")
    mapping_plz_sample_after = plz_mapping[plz_col].head(5)
    for plz in mapping_plz_sample_after:
        print(f"    {plz} (Type: {type(plz)})")

    # Validiere, dass PLZ-Werte jetzt matchbar sind
    print("\n🔍 PLZ-MATCH-VALIDIERUNG")
    print("=" * 40)

    # Prüfe Überschneidungen
    combined_plz_unique = set(combined_df['plz'].dropna().unique())
    mapping_plz_unique = set(plz_mapping[plz_col].unique())

    overlap = combined_plz_unique.intersection(mapping_plz_unique)
    print(f"PLZ in combined_df: {len(combined_plz_unique):,} eindeutige Werte")
    print(f"PLZ in plz_mapping: {len(mapping_plz_unique):,} eindeutige Werte")
    print(f"Überschneidung: {len(overlap):,} PLZ können gematched werden")

    if len(overlap) > 0:
        print(f"✅ PLZ-JOIN WIRD FUNKTIONIEREN!")
        print(f"Beispiel-Matches:")
        for plz in list(overlap)[:5]:
            print(f"  {plz} ist in beiden Datasets vorhanden")
    else:
        print(f"❌ PLZ-JOIN WIRD FEHLSCHLAGEN!")
        print("Grund: Keine Überschneidung zwischen den PLZ-Werten")
        
        # Zeige PLZ-Beispiele zum Debugging
        print("\nPLZ-Beispiele für Debugging:")
        print("  combined_df PLZ (erste 10):")
        for plz in list(combined_plz_unique)[:10]:
            print(f"    '{plz}'")
        print("  plz_mapping PLZ (erste 10):")
        for plz in list(mapping_plz_unique)[:10]:
            print(f"    '{plz}'")

    print(f"\n✅ PLZ-Datentyp-Reparatur abgeschlossen!")


🔧 PLZ-DATENTYP-REPARATUR
Verfügbare Spalten:
  combined_df: ['price', 'size', 'district', 'rooms', 'year', 'dataset_id', 'source', 'wol', 'plz', 'ortsteil', 'bezirk', 'lat', 'lon']
  plz_mapping: ['PLZ', 'Ortsteil', 'Bezirk', 'Lat', 'Lon']

PLZ-Datentypen vor Reparatur:
  combined_df['plz']: float64
  plz_mapping['PLZ']: object

PLZ-Beispiele vor Reparatur:
  combined_df PLZ:
    13591.0 (Type: <class 'float'>)
    12527.0 (Type: <class 'float'>)
    13053.0 (Type: <class 'float'>)
    13158.0 (Type: <class 'float'>)
    14199.0 (Type: <class 'float'>)
  plz_mapping PLZ:
    10115 (Type: <class 'str'>)
    10117 (Type: <class 'str'>)
    10119 (Type: <class 'str'>)
    10178 (Type: <class 'str'>)
    10179 (Type: <class 'str'>)

🚨 KRITISCHE REPARATUR: PLZ-DATENTYP-HARMONISIERUNG

PLZ-Datentypen nach Reparatur:
  combined_df['plz']: object
  plz_mapping['PLZ']: object

PLZ-Beispiele nach Reparatur:
  combined_df PLZ:
    13591 (Type: <class 'str'>)
    12527 (Type: <class 'str'>)
    1

## 6. Finale Datenvalidierung

In [33]:
print("="*60)
print("FINALE DATENVALIDIERUNG")
print("="*60)

# Duplikate prüfen
duplicates = combined_df.duplicated().sum()
print(f"Duplikate: {duplicates:,} ({duplicates/len(combined_df)*100:.2f}%)")

# Fehlende Werte
print(f"\n=== FEHLENDE WERTE ===")
missing_summary = combined_df.isnull().sum()
for col, missing_count in missing_summary.items():
    if missing_count > 0:
        print(f"  {col}: {missing_count:,} ({missing_count/len(combined_df)*100:.1f}%)")

# Geolocation-Qualität prüfen
if 'lat' in combined_df.columns and 'lon' in combined_df.columns:
    print(f"\n=== GEOLOCATION-QUALITÄT ===")
    coords_available = combined_df[['lat', 'lon']].notna().all(axis=1).sum()
    print(f"Vollständige Koordinaten: {coords_available:,}/{len(combined_df):,} ({coords_available/len(combined_df)*100:.1f}%)")
    
    if coords_available > 0:
        # Koordinaten-Plausibilität prüfen (Berlin bounds)
        berlin_bounds = {
            'lat_min': 52.3, 'lat_max': 52.7,
            'lon_min': 13.0, 'lon_max': 13.8
        }
        
        valid_coords = combined_df[
            (combined_df['lat'] >= berlin_bounds['lat_min']) & 
            (combined_df['lat'] <= berlin_bounds['lat_max']) & 
            (combined_df['lon'] >= berlin_bounds['lon_min']) & 
            (combined_df['lon'] <= berlin_bounds['lon_max'])
        ]
        
        print(f"Koordinaten in Berlin-Bounds: {len(valid_coords):,}/{coords_available:,} ({len(valid_coords)/coords_available*100:.1f}%)")

# Ortsteil-Verteilung
if 'ortsteil' in combined_df.columns:
    print(f"\n=== ORTSTEIL-VERTEILUNG ===")
    ortsteil_counts = combined_df['ortsteil'].value_counts()
    print(f"Anzahl Ortsteile: {len(ortsteil_counts)}")
    print(f"Top 10 Ortsteile:")
    for ortsteil, count in ortsteil_counts.head(10).items():
        print(f"  {ortsteil}: {count:,} Einträge ({count/len(combined_df)*100:.1f}%)")

# Statistiken der Kernfelder
print(f"\n=== STATISTIKEN KOMBINIERTES DATASET ===")
if 'price' in combined_df.columns:
    price_stats = combined_df['price'].describe()
    print(f"Preis - Min: {price_stats['min']:.0f}€, Max: {price_stats['max']:.0f}€, Median: {price_stats['50%']:.0f}€")

if 'size' in combined_df.columns:
    size_stats = combined_df['size'].describe()
    print(f"Größe - Min: {size_stats['min']:.0f}m², Max: {size_stats['max']:.0f}m², Median: {size_stats['50%']:.0f}m²")

if 'rooms' in combined_df.columns:
    rooms_stats = combined_df['rooms'].describe()
    print(f"Zimmer - Min: {rooms_stats['min']:.1f}, Max: {rooms_stats['max']:.1f}, Median: {rooms_stats['50%']:.1f}")

# Bezirksverteilung (alt vs neu)
if 'district' in combined_df.columns:
    print(f"\n=== BEZIRKSVERTEILUNG (ORIGINAL) ===")
    district_counts = combined_df['district'].value_counts()
    print(f"Anzahl Bezirke: {len(district_counts)}")
    for district, count in district_counts.head(10).items():
        print(f"  {district}: {count:,} Einträge ({count/len(combined_df)*100:.1f}%)")

if 'bezirk' in combined_df.columns:
    print(f"\n=== BEZIRKSVERTEILUNG (PLZ-ENHANCED) ===")
    bezirk_counts = combined_df['bezirk'].value_counts()
    print(f"Anzahl Bezirke: {len(bezirk_counts)}")
    for bezirk, count in bezirk_counts.head(10).items():
        print(f"  {bezirk}: {count:,} Einträge ({count/len(combined_df)*100:.1f}%)")

print(f"\n✅ Finale Datenvalidierung abgeschlossen")

FINALE DATENVALIDIERUNG
Duplikate: 1,232 (7.05%)

=== FEHLENDE WERTE ===
  rooms: 4,424 (25.3%)
  wol: 12,997 (74.3%)
  plz: 12,995 (74.3%)
  ortsteil: 12,997 (74.3%)
  bezirk: 12,997 (74.3%)
  lat: 13,112 (75.0%)
  lon: 13,112 (75.0%)

=== GEOLOCATION-QUALITÄT ===
Vollständige Koordinaten: 4,375/17,487 (25.0%)
Koordinaten in Berlin-Bounds: 4,375/4,375 (100.0%)

=== ORTSTEIL-VERTEILUNG ===
Anzahl Ortsteile: 78
Top 10 Ortsteile:
  Friedrichshain: 241 Einträge (1.4%)
  Charlottenburg: 220 Einträge (1.3%)
  Hellersdorf: 189 Einträge (1.1%)
  Hakenfelde: 157 Einträge (0.9%)
  Mitte: 146 Einträge (0.8%)
  Wilhelmstadt: 136 Einträge (0.8%)
  Friedrichsfelde: 136 Einträge (0.8%)
  Französisch Buchholz: 135 Einträge (0.8%)
  Neukölln: 133 Einträge (0.8%)
  Moabit: 133 Einträge (0.8%)

=== STATISTIKEN KOMBINIERTES DATASET ===
Preis - Min: 150€, Max: 9990€, Median: 931€
Größe - Min: 10m², Max: 482m², Median: 69m²
Zimmer - Min: 1.0, Max: 10.0, Median: 2.0

=== BEZIRKSVERTEILUNG (ORIGINAL) ===
Anz

## 7. Export des finalen Datasets

In [37]:
print("="*60)
print("EXPORT FINALES KOMBINIERTES DATASET")
print("="*60)

# Export
output_file = 'data/processed/berlin_housing_combined_enriched_final.csv'
combined_df.to_csv(output_file, index=False)

print(f"✅ Finales Dataset exportiert: {output_file}")
print(f"Dateigröße: {len(combined_df):,} Zeilen x {len(combined_df.columns)} Spalten")

# Validierung durch Wiedereinlesen
test_df = pd.read_csv(output_file)
print(f"✅ Export-Validierung erfolgreich: {len(test_df):,} Zeilen geladen")

# Finale Zusammenfassung
print(f"\n=== FINALE ZUSAMMENFASSUNG ===")
print(f"Input-Datasets: {len(datasets)}")
print(f"  - Dataset 2018-2019: {quality_report.get('2018_2019', {}).get('total_rows', 0):,} Zeilen")
print(f"  - Dataset 2022: {quality_report.get('2022', {}).get('total_rows', 0):,} Zeilen") 
print(f"  - Dataset 2025: {quality_report.get('2025', {}).get('total_rows', 0):,} Zeilen")
print(f"Output: {output_file} ({len(combined_df):,} Zeilen)")
print(f"Zeitspanne: 2018-2025 ({len(combined_df['year'].unique())} Jahre)")

# Geolocation-Zusammenfassung
if 'bezirk' in combined_df.columns:
    print(f"Berliner Bezirke (PLZ-Enhanced): {len(combined_df['bezirk'].unique())} abgedeckt")
else:
    print(f"Berliner Bezirke: {len(combined_df['district'].unique())} abgedeckt")

if 'ortsteil' in combined_df.columns:
    print(f"Berliner Ortsteile: {len(combined_df['ortsteil'].unique())} abgedeckt")

if 'lat' in combined_df.columns and 'lon' in combined_df.columns:
    coords_available = combined_df[['lat', 'lon']].notna().all(axis=1).sum()
    print(f"Geolocation-Koordinaten: {coords_available:,}/{len(combined_df):,} ({coords_available/len(combined_df)*100:.1f}%)")

print(f"Standardisierte Spalten: {list(combined_df.columns)}")

# Verbesserungen hervorheben
print(f"\n🎯 VERBESSERUNGEN DURCH PLZ-ENHANCEMENT:")
print(f"📍 Ortsteil-Level-Genauigkeit statt nur Bezirks-Level")
print(f"🗺️  Echte Koordinaten für präzise Geolocation")
print(f"📊 Beispiel: PLZ 12355 → Rudow (Neukölln) statt nur 'Neukölln'")
print(f"🎨 Bereit für hochauflösende Karten und Visualisierungen")

print(f"\n🎉 DATASET-KOMBINATION ERFOLGREICH ABGESCHLOSSEN!")
print(f"Das finale Dataset ist bereit für die **AWESOME** Mietpreis-Analyse mit präziser Geolocation.")

EXPORT FINALES KOMBINIERTES DATASET
✅ Finales Dataset exportiert: data/processed/berlin_housing_combined_enriched_final.csv
Dateigröße: 17,487 Zeilen x 13 Spalten
✅ Export-Validierung erfolgreich: 17,487 Zeilen geladen

=== FINALE ZUSAMMENFASSUNG ===
Input-Datasets: 3
  - Dataset 2018-2019: 10,387 Zeilen
  - Dataset 2022: 2,676 Zeilen
  - Dataset 2025: 4,424 Zeilen
Output: data/processed/berlin_housing_combined_enriched_final.csv (17,487 Zeilen)
Zeitspanne: 2018-2025 (3 Jahre)
Berliner Bezirke (PLZ-Enhanced): 14 abgedeckt
Berliner Ortsteile: 79 abgedeckt
Geolocation-Koordinaten: 4,375/17,487 (25.0%)
Standardisierte Spalten: ['price', 'size', 'district', 'rooms', 'year', 'dataset_id', 'source', 'wol', 'plz', 'ortsteil', 'bezirk', 'lat', 'lon']

🎯 VERBESSERUNGEN DURCH PLZ-ENHANCEMENT:
📍 Ortsteil-Level-Genauigkeit statt nur Bezirks-Level
🗺️  Echte Koordinaten für präzise Geolocation
📊 Beispiel: PLZ 12355 → Rudow (Neukölln) statt nur 'Neukölln'
🎨 Bereit für hochauflösende Karten und Visual