1. Load MongoDB Snapshot into pandas

In [None]:
import pandas as pd

df = pd.read_json("snapshots/immobilien_snapshot.json")
print(df.shape)
df.head(3)

(1043, 39)


Unnamed: 0,_id,url,abstellraum,address,ausstattung,balkon,barrierefrei,bautyp,befristung,böden,...,terrasse,titel,verfügbar,wohnfläche,zimmer,zusatzinformationen,zustand,baujahr,details,haustiere_erlaubt
0,{'$oid': '6959375616a2bbfc2e12991f'},https://www.willhaben.at/iad/immobilien/d/miet...,,"Zelda-Kaplan-Weg 6, 1100 Wien, 10. Bezirk, Fav...",,11 m²,1.0,Neubau,3 Jahre,Parkett,...,,Biotope City Wienerberg - naturnahes Wohnen in...,ab 22.12.2025,53 m²,2,,Sehr gut/gut,,,
1,{'$oid': '6959375616a2bbfc2e129920'},https://www.willhaben.at/iad/immobilien/d/miet...,,"Laxenburger Straße 2D, 1100 Wien, 10. Bezirk, ...",,"6,5 m²",1.0,Neubau,3 Jahre,Parkett,...,,"Smarte 1,5-Zimmer-Wohnung mit 6,5m2 Balkon im ...",ab 01.03.2026,36 m²,1,,Neuwertig,,,
2,{'$oid': '6959375616a2bbfc2e129921'},https://www.willhaben.at/iad/immobilien/d/miet...,1.0,"Doktor-Adolf-Schärf-Platz, 1220 Wien, 22. Bezi...",Loggiaanzahl: 1\nAbstellraum Anzahl: 1\nLoggia...,,,Neubau,3 Jahr(e),Parkett,...,,Wunschlos Glücklich - Moderne 2-Zimmer-Wohnung...,ab sofort,,2,Stockwerk: 12. Etage\nAnzahl Badezimmer: 1\nKl...,Neuwertig,,,


2. Clean Data

In [None]:
import re
import numpy as np

df["preis_alt"] = df["preis"]
df["wohnfläche_alt"] = df["wohnfläche"]

# $oid -> _id
df["_id"] = df["_id"].apply(lambda x: x.get("$oid") if isinstance(x, dict) else x)

# preis: "€ 1.120" -> 1120.0
def parse_eur_price(x):
    if pd.isna(x):
        return np.nan
    s = str(x)
    s = re.sub(r"[^\d,\.]", "", s)
    s = s.replace(".", "").replace(",", ".")
    return float(s) if s else np.nan

df["preis"] = df["preis"].apply(parse_eur_price)
df["balkon"] = df["balkon"].apply(parse_eur_price)
df["terrasse"] = df["terrasse"].apply(parse_eur_price)

# wohnfläche: "53 m²" -> 53.0
def parse_m2(x):
    if pd.isna(x):
        return np.nan
    s = str(x)

    s = s.replace("m²", " ").strip()

    # bei doppelte Zahlen nur die erste Zahl nehmen
    m = re.search(r"\d{1,3}(?:[.\s]\d{3})*(?:,\d+)?|\d+(?:,\d+)?", s)
    if not m:
        return np.nan

    num = m.group(0)
    num = num.replace(" ", "")
    num = num.replace(".", "")
    num = num.replace(",", ".")

    try:
        return float(num)
    except ValueError:
        return np.nan

df["wohnfläche"] = df["wohnfläche"].apply(parse_m2)

# zimmer: "2" -> 2.0
df["zimmer"] = pd.to_numeric(
    df["zimmer"].astype(str).str.replace(",", ".", regex=False),
    errors="coerce"
)

# Bezirk: 10. Bezirk / 03. Bezirk etc. -> int
# (Postleitzahl 1100 -> 10, 1030 -> 3)
def extract_district(addr):
    if pd.isna(addr):
        return np.nan
    s = str(addr)

    # "03. Bezirk", "10. Bezirk", etc.
    m = re.search(r"(\d{1,2})\.\s*Bezirk", s)
    if m:
        d = int(m.group(1))
        return d if 1 <= d <= 23 else np.nan

    # Postleitzahl: 1010..1230 -> 1..23
    m = re.search(r"\b(10\d{2}|11\d{2}|12\d{2})\b", s)
    if m:
        plz = int(m.group(0))
        d = (plz % 100) // 10
        return d if 1 <= d <= 23 else np.nan

    return np.nan

df["Bezirk"] = df["address"].apply(extract_district).astype("float")

print(df[["preis", "wohnfläche", "zimmer", "Bezirk", "address"]].head(10))

    preis  wohnfläche  zimmer  Bezirk  \
0  1120.0       53.00     2.0    10.0   
1   890.0       36.00     1.0    10.0   
2  1300.0         NaN     2.0    22.0   
3   880.0       42.00     2.0    10.0   
4  1990.0       90.00     3.0     3.0   
5  1800.0       76.00     3.0     9.0   
6  1180.0       67.25     3.0    10.0   
7  2038.0      109.00     4.0    18.0   
8  1350.0       80.00     3.0    10.0   
9   930.0       42.69     2.0    16.0   

                                             address  
0  Zelda-Kaplan-Weg 6, 1100 Wien, 10. Bezirk, Fav...  
1  Laxenburger Straße 2D, 1100 Wien, 10. Bezirk, ...  
2  Doktor-Adolf-Schärf-Platz, 1220 Wien, 22. Bezi...  
3                   1100 Wien, 10. Bezirk, Favoriten  
4                  1030 Wien, 03. Bezirk, Landstraße  
5                  1090 Wien, 09. Bezirk, Alsergrund  
6                   1100 Wien, 10. Bezirk, Favoriten  
7                     1180 Wien, 18. Bezirk, Währing  
8  Sonnleithnergasse, 1100 Wien, 10. Bezirk, Favo... 

3. Data Split

In [None]:
df_model = df.copy()

df_model = df_model.dropna(subset=["preis", "wohnfläche", "zimmer", "Bezirk"])

# true/false columns
bool_cols = ["einbauküche", "fahrstuhl", "balkon", "terrasse", "garage", "parkplatz", "teilmöbliert_/_möbliert"]
for c in bool_cols:
    df_model[c] = df_model[c].fillna(False).astype(int)

cat_cols = ["bautyp", "zustand"]
for c in cat_cols:
    df_model[c] = df_model[c].fillna("Unknown").astype(str)


X = df_model[["wohnfläche", "zimmer", "Bezirk",
              "einbauküche", "fahrstuhl", "balkon", "terrasse",
              "garage", "parkplatz", "teilmöbliert_/_möbliert",
              "bautyp", "zustand"]]

y = df_model["preis"]

X = pd.get_dummies(X, columns=["bautyp", "zustand"])

In [None]:
df_model.tail(3)

Unnamed: 0,_id,url,abstellraum,address,ausstattung,balkon,barrierefrei,bautyp,befristung,böden,...,wohnfläche,zimmer,zusatzinformationen,zustand,baujahr,details,haustiere_erlaubt,preis_alt,wohnfläche_alt,Bezirk
1040,695ef436e1f84384d2cb3c39,https://www.immowelt.at/expose/2m89s5k,,Straße nicht freigegeben 1210 Wien (Floridsdorf),,0,,Neubau,,"Estrich, Fliesenboden, Parkett",...,97.0,3.0,,Erstbezug,2022.0,Bad mit Wanne und Dusche\nTerrasse\nrollstuhlg...,0.0,"€ 1.994,01",97 m²,1.0
1041,695ef436e1f84384d2cb3c3a,https://www.immowelt.at/expose/2mqxp5k,,Straße nicht freigegeben 1010 Wien (Innere Stadt),,0,,Unknown,,,...,159.68,4.0,,renoviert / saniert,1874.0,Balkon\nEinbauküche\nZustand: renoviert / sani...,0.0,"€ 3.643,40","159,68 m²",1.0
1042,695ef436e1f84384d2cb3c3b,https://www.immowelt.at/expose/2mpxp5k,,Straße nicht freigegeben 1040 Wien (Wieden),,0,,Neubau,,,...,106.64,3.0,,Unknown,1990.0,Einbauküche\nAusstattung: neuwertig\nWeitere R...,0.0,€ 1.990,"106,64 m²",4.0


In [None]:
from sklearn.model_selection import train_test_split

X_trainval, X_test, y_trainval, y_test = train_test_split(
    X, y,
    test_size=0.15,
    random_state=42
)

X_train, X_val, y_train, y_val = train_test_split(
    X_trainval, y_trainval,
    test_size=0.15 / 0.85,
    random_state=42
)

print("Train:", X_train.shape, "Val:", X_val.shape, "Test:", X_test.shape)


Train: (616, 21) Val: (132, 21) Test: (132, 21)


4. Training

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Train
rf = RandomForestRegressor(
    n_estimators=600,
    random_state=42,
    n_jobs=-1,
    min_samples_leaf=2
)

rf.fit(X_train, y_train)

# Evaluate
def eval_split(name, Xp, yp):
    pred = rf.predict(Xp)
    mae = mean_absolute_error(yp, pred)
    rmse = np.sqrt(mean_squared_error(yp, pred))
    r2 = r2_score(yp, pred)
    print(f"{name}: MAE={mae:.0f} €, RMSE={rmse:.0f} €, R²={r2:.3f}")
    return pred

pred_train = eval_split("Train", X_train, y_train)
pred_val   = eval_split("Val  ", X_val, y_val)
pred_test  = eval_split("Test ", X_test, y_test)

test_err = pd.DataFrame({
    "actual": y_test.values,
    "pred": pred_test,
    "abs_err": np.abs(y_test.values - pred_test),
}, index=y_test.index).sort_values("abs_err", ascending=False)

test_err.head(10)

Train: MAE=124 €, RMSE=203 €, R²=0.941
Val  : MAE=348 €, RMSE=620 €, R²=0.645
Test : MAE=354 €, RMSE=972 €, R²=0.589


Unnamed: 0,actual,pred,abs_err
555,14025.0,4311.410915,9713.589085
113,6601.05,4134.986949,2466.063051
461,5807.15,3635.474294,2171.675706
92,3150.68,1743.480434,1407.199566
483,4950.2,3545.24478,1404.95522
78,2933.0,4337.904614,1404.904614
481,2800.0,1650.964295,1149.035705
812,2795.0,3775.783755,980.783755
232,5182.1,4206.740338,975.359662
346,700.0,1604.977559,904.977559


In [None]:
def predict_rent(example_dict):
    row = pd.DataFrame([[0]*len(X_train.columns)], columns=X_train.columns)

    for k, v in example_dict.items():
        if k in row.columns:
            row.at[0, k] = v

    return float(rf.predict(row)[0])

example = {
    "wohnfläche": 37,
    "zimmer": 1,
    "Bezirk": 14,
    "einbauküche": 1,
    "fahrstuhl": 0,
    "balkon": 0,
    "terrasse": 0,
    "garage": 0,
    "parkplatz": 0,
    "teilmöbliert_/_möbliert": 0
}
predict_rent(example)


923.8481072619047

5. Export Data for Elastic Search

In [None]:
df_es = df_model[[
    "url", "address", "Bezirk", "preis", "wohnfläche", "zimmer",
    "einbauküche", "fahrstuhl", "balkon", "terrasse", "garage", "parkplatz",
    "teilmöbliert_/_möbliert",
    "bautyp", "zustand",
    "scraped_at", "first_seen_at"
]].copy()

df_es["eur_per_m2"] = df_es["preis"] / df_es["wohnfläche"]

In [None]:
df_es.to_json("snapshots/es_data.jsonl", orient="records", lines=True, force_ascii=False, date_format="iso")