In [None]:
import pandas as pd
import numpy as np
import os

# Pfade
input_csv = "../dat/immowelt_wohnungen_complete.csv"
output_csv = "../dat/immowelt_daten_clean.csv"

# CSV laden
df = pd.read_csv(input_csv)

# Whitespace aus Spaltennamen entfernen
df.columns = df.columns.str.strip()

# Preis bereinigen
df["Preis"] = (
    df["Preis"]
    .astype(str)
    .str.replace(r"\s+", "", regex=True)
    .str.replace("€", "")
    .str.replace("/Monat", "", regex=False)
    .str.replace(",", ".")
    .str.replace(".", "", regex=False)
    .str.replace(r"[^\d\.]", "", regex=True)
    .replace("", np.nan)
    .astype(float)
)

# Wohnfläche bereinigen
df["Wohnfläche"] = (
    df["Wohnfläche"]
    .astype(str)
    .str.extract(r"([0-9,.]+)")
    .iloc[:, 0]
    .str.replace(",", ".")
    .astype(float)
)

# Zimmer bereinigen
df["Zimmer"] = (
    df["Zimmer"]
    .astype(str)
    .str.extract(r"([0-9,.]+)")
    .iloc[:, 0]
    .str.replace(",", ".")
    .astype(float)
)

# Preis pro qm
df["Preis pro qm in euro"] = df["Preis"] / df["Wohnfläche"]

# Ausstattung zählen
features = ["Möbeliert", "Balkon/Terrasse/Garten", "Keller", "Aufzug", "Stellplatz"]
df["Ausstattungsgrad_neu"] = df[features].apply(lambda row: sum(row == "Ja"), axis=1)

# Median-Preis pro Bezirk berechnen
bezirk_median = df.groupby("Bezirk")["Preis pro qm in euro"].median().to_dict()

# Ausstattungs-Faktoren
AUSSTATTUNGS_FAKTOREN = {
    0: 0.90,
    1: 0.95,
    2: 1.00,
    3: 1.05,
    4: 1.10
}

# Label-Funktion
def bewertung_label(row):
    bezirk = row["Bezirk"]
    faktor = AUSSTATTUNGS_FAKTOREN.get(row["Ausstattungsgrad_neu"], 1.0)
    median = bezirk_median.get(bezirk, np.nan)
    preis_qm = row["Preis pro qm in euro"]

    if pd.isna(median):
        return np.nan
    if preis_qm < median * 0.5:
        return "Scam-Verdacht"
    elif preis_qm < median * 0.7:
        return "Günstig"
    elif preis_qm <= median * faktor:
        return "Fair"
    else:
        return "Zu teuer"

# Label berechnen
df["Fairness_Label"] = df.apply(bewertung_label, axis=1)

# Nur gültige Zeilen behalten
relevant = [
    "Preis", "Wohnfläche", "Zimmer", "Bezirk", "Ausstattungsgrad_neu",
    "Beschreibung", "Adresse", "Preis pro qm in euro", "Fairness_Label"
]
df_clean = df[relevant].dropna()

# Speichern in ../dat
os.makedirs("../dat", exist_ok=True)
df_clean.to_csv(output_csv, index=False)

print(f"✅ Bereinigung + Labeling abgeschlossen. Datei gespeichert: {output_csv}")

# Zeigen
df_clean.head()


Unnamed: 0,Preis,Wohnfläche,Zimmer,Bezirk,Ausstattungsgrad_neu,Beschreibung,Adresse,Preis pro qm in euro
0,610.0,47.0,2.0,Tempelhof-Schöneberg,2,TAUSCHWOHNUNG 2 Zimmer Wohnung in Tempelhof ge...,"Mariendorf,Berlin(12107)",12.978723
1,2050.0,111.0,4.0,Spandau,4,"Halske Gärten - Moderne, lichtdurchflutete Woh...","Elsa-Neumann-Straße 53,Siemensstadt,Berlin(13629)",18.468468
2,1600.0,62.0,2.0,Mitte,3,Rückzugsort in Mitte: Esplanade Residence\n\nD...,"Bellevuestraße 1,Tiergarten,Berlin(10785)",25.806452
3,880.0,80.0,3.0,Charlottenburg-Wilmersdorf,3,TAUSCHWOHNUNG Biete Dreizimmerwohnung und such...,"Schmargendorf,Berlin(14193)",11.0
4,1750.0,64.0,2.0,Tempelhof-Schöneberg,3,Exklusive Stadtwohnung mit Blick auf die Apost...,"Else-Lasker-Schüler-Straße 4,Schöneberg,Berlin...",27.34375
