# Datenvorbereitung
Zun√§chst werden f√ºr alle gew√ºnschten Einflussfaktoren die Daten beschafft und in ein CSV-Format mit lat/lon oder GeoJSON-Geoemtry gebracht, sodass zu allen Adressen die gew√ºnschten Eigenschaften vorliegen.

In [None]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
import pandas as pd
from shapely.geometry import box

from helper import load_geocsv, s

EPSG_4326 = "EPSG:4326"

# BBOX f√ºr Brandenburg an der Havel
CITY_BOUNDING_BOX = box(12.3120236786, 52.2938432979, 12.7562682548, 52.5594777244)

#  Stadtzentrum f√ºr Brandenburg an der Havel
CITY_CENTER = (52.4116351153561, 12.556331280534392)

## Adressen einlesen
Alle Adressen des Zielgebiets als CSV in einen GeoDataFrame einlesen.

In [None]:
gdf = load_geocsv("out/adressen_mit_zentrum_routen.csv")

# Adressen ohne Geometrie entfernen
gdf = gdf[~gdf.geometry.isna()].copy()

### Nutzungsart als Merkmal erg√§nzen
One-Hot-Encoding f√ºr sp√§tere Modellierung der Bebauungsdichte / Nutzungsart der Adresse.

In [None]:
import geopandas as gpd

gdf_bebauung = gpd.read_file("data/Bebauungsdichte/2025_Bebauungsdichte.shp")
gdf_bebauung = gdf_bebauung.to_crs(EPSG_4326)

gdf = gpd.sjoin(
    gdf,                                    # Punkte
    gdf_bebauung[["nutzart", "geometry"]],  # Polygone + Nutzungsart
    how="left",
    predicate="within"                      # point-in-polygon
)

gdf["nutzart"] = gdf["nutzart"].fillna("Unbekannt")


In [None]:
mapping = {
    "Wohnbaufl√§che": "Wohnen",
    "Sport-, Freizeit- und Erholungsfl√§che": "Gruen",
    "Fl√§che gemischter Nutzung": "Gemischt",
    "Industrie- und Gewerbefl√§che": "Gewerbe",
    "Stra√üenverkehr": "Verkehr",
    "Weg": "Verkehr",
    "Platz": "Verkehr",
    "Friedhof": "Gruen",
    "Wald": "Gruen",
    "Fl√§che besonderer funktionaler Pr√§gung": "Sonstiges",
}

# Neues zusammengefasstes Merkmal hinzuf√ºgen
gdf["nutzklasse"] = gdf["nutzart"].map(mapping).fillna("Sonstiges")

# One-Hot-Encoding der Nutzungsklasse f√ºr numerische Verarbeitung
# neu erzeugen
gdf_onehot = pd.get_dummies(gdf["nutzklasse"], prefix="nutz", dtype=int)
gdf = gdf.join(gdf_onehot)

# Fl√§che berechnen (in Meter-CRS)
gdf_bebauung_m = gdf_bebauung.to_crs(32633)
gdf_bebauung["area_sqm"] = gdf_bebauung_m.area

# Klassifizierung NACH mapping
gdf_bebauung["nutzklasse"] = gdf_bebauung["nutzart"].map(mapping).fillna("Sonstiges")

# Filter gro√üe Fl√§chen (Schwellwert flexibel)
MIN_AREA = 30000
gdf_large = gdf_bebauung[gdf_bebauung["area_sqm"] > MIN_AREA].copy()
gdf


In [None]:
import folium
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

# Farben f√ºr jede nutzklasse
klassen = gdf_large["nutzklasse"].unique()
cmap = plt.colormaps["Set2"]
colors = {k: mcolors.to_hex(cmap(i / len(klassen))) for i, k in enumerate(klassen)}

# Karte initialisieren
m = folium.Map(location=CITY_CENTER, zoom_start=13, tiles="OpenStreetMap")

# Ein Layer pro Klasse anlegen
layer_map = {}
for k in klassen:
    layer = folium.FeatureGroup(name=f"Gro√üe {k}-Fl√§chen (> {MIN_AREA} m¬≤)", show=True)
    layer_map[k] = layer
    m.add_child(layer)

# Gro√üe Fl√§chen einzeichnen
# Transformieren
gdf_large_4326 = gdf_large.to_crs(4326)

# Vereinfachung (wichtig f√ºr Performance!)
gdf_large_4326["geometry"] = gdf_large_4326.geometry.simplify(
    tolerance=0.0002,  # ~20 m
    preserve_topology=True
)


for _, row in gdf_large_4326.iterrows():
    kls = row["nutzklasse"]
    layer = layer_map[kls]

    folium.GeoJson(
        row.geometry,
        style_function=lambda x, k=kls: {
            'color': 'black',
            'weight': 1,
            'fillColor': colors[k],
            'fillOpacity': 0.6
        },
        tooltip=folium.Tooltip(
            f"<b>{row['bez']}</b><br>"
            f"{kls}<br>"
            f"Fl√§che: {row['area_sqm']:.0f} m¬≤"
        )
    ).add_to(layer)

# LayerControl aktivieren
folium.LayerControl(collapsed=False).add_to(m)

# open map in browser
m

## Explorative Datenanalyse

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns           # nur f√ºr sch√∂nere Plots
from helper import load_geocsv, make_merge_addr

# Eindeutigen Merge-baren String aus Adresse erzeugen
gdf["Adresse_merge"] = gdf.apply(make_merge_addr, axis=1)

gdf = gdf.rename(columns={"geojson": "center_route",
                                    "distance_m" : "center_distance"})

# Ein paar unben√∂tigte Spalten entfernen
gdf = gdf.drop(columns=["index_right", "duration_s", "display_name", "type", "category", "Adresse_query"], errors="ignore")

# Histogramm der Distanzen zum Zentrum
plt.figure(figsize=(6,3))
sns.histplot(gdf["center_distance"], bins=60, kde=False)
plt.title("Verteilung der Fu√üentfernung zum Zentrum")
plt.xlabel("Distanz (Meter)")
plt.ylabel("H√§ufigkeit")
plt.show()
print(gdf.shape)
print(gdf.columns)

## Daten bereinigen

In [None]:
print(gdf.shape)
# Dubletten aus Adressen entfernen
dups = gdf["Adresse_merge"].value_counts()
dups = dups[dups > 1]
print(f"{len(dups)} doppelte Adressen gefunden")
print(dups.head())

# Ersten Treffer behalten
gdf = gdf.sort_values("Adresse_merge").drop_duplicates("Adresse_merge", keep="first")
print(gdf.shape)


## Einzelhandel
Separates Skript ```einzelhandel-adressen.py``` ausf√ºhen, um Datei "adressen_mit_einzelhandel.csv" zu erzeugen.
Durch fu√ül√§ufiges Routing berechnete Faktoren:
- Anzahl von Einkaufsm√∂glichkeiten im Umkreis von 500 m
- Anzahl von Einkaufsm√∂glichkeiten im Umkreis von 800 m
- Geringste Distanz zum n√§chsten Einzelhandel

In [None]:
import seaborn as sns, matplotlib.pyplot as plt

# Lade vorberechnete Einzelhandel-Faktoren
gdf_retail = load_geocsv("out/adressen_mit_einzelhandel_routen.csv")

# Merge mit Haupt-GDF
gdf_retail["Adresse_merge"] = gdf_retail.apply(make_merge_addr, axis=1)
gdf_retail = gdf_retail.sort_values("Adresse_merge").drop_duplicates("Adresse_merge", keep="first")

dups = gdf_retail["Adresse_merge"].value_counts()
print(dups[dups > 1])

einzelhandel_attribute = ["einzelhandel_route","einzelhandel_min_distance", "einzelhandel_500m_count", "einzelhandel_800m_count", "einzelhandel_1000m_count"]

gdf = pd.merge(
    gdf,
    gdf_retail[["Adresse_merge"] + einzelhandel_attribute],
    on="Adresse_merge",
    how="left",
    validate="one_to_many"
)
print(gdf.shape)
print(gdf[["Adresse_merge", "einzelhandel_min_distance"]].head())

print(gdf.shape)

# Speicher freigeben
del(gdf_retail)

In [None]:
# Verteilung Distanz zum n√§chsten Markt
print(gdf.columns)
sns.histplot(gdf["einzelhandel_min_distance"].dropna(), bins=40, kde=False)
plt.title("Distanz zum n√§chsten Lebensmittel¬≠markt")
plt.xlabel("Meter Fu√üweg"); plt.ylabel("Adressen")
plt.show()

# Scatter Zentralit√§t vs. Nahversorgung
sns.scatterplot(x="center_distance", y="einzelhandel_min_distance", data=gdf, alpha=.3)
plt.xlabel("Distanz Zentrum (m)"); plt.ylabel("Distanz n√§chster Markt (m)")
plt.show()

## L√§rmbelastung
Siehe ```laerm.ipynb``` zur Erzeugung, ansonsten einfach ```data/adressen_mit_laerm.csv``` verwenden und per Spalte 'geometry' verschneiden.

Definition L√§rm-Index:
- NaN / leer: kein gemessener Stra√üenl√§rm
- 0: 55 - 59 dB
- 1: 60 - 64 dB
- 2: 65 - 69 dB
- 3: 70 - 74 dB
- 4: >= 75 db

In [None]:
gdf_laerm_karte = load_geocsv("out/adressen_mit_laerm.csv")
print(gdf_laerm_karte.shape)
print(gdf.shape)

# Merge des L√§rmindex mit Haupt-GDF
gdf_laerm_karte["Adresse_merge"] = gdf_laerm_karte.apply(make_merge_addr, axis=1)
gdf_laerm_karte["laerm_index_tag"] = gdf_laerm_karte["Laerm_index_tag"].fillna(-0.1) # lowercase

# Deduplicate, im Zweifel nimm den lautesten Wert
gdf_laerm_karte = (
    gdf_laerm_karte
    .sort_values("laerm_index_tag", ascending=False)
    .drop_duplicates("Adresse_merge", keep="first")
)

laerm_attribute = ["laerm_index_tag"]
gdf = pd.merge(
    gdf,
    gdf_laerm_karte[["Adresse_merge"] + laerm_attribute],
    on="Adresse_merge",
    how="left",
    validate="one_to_many"
)

#print(gdf.columns)
print(gdf.shape)

## Bildung
Weitere Faktoren
- Fu√ül√§ufige Entfernung zur n√§chstgelegenen Kita
- Fu√ül√§ufige Entfernung zur n√§chstgelegenen Schule
- Anzahl Kitas im Umkreis von 500, 800 und 1000 Metern
- Anzahl Schulen im Umkreis von 500, 800 und 1000 Metern

In [None]:
import pandas as pd
import geopandas as gpd

# Daten als GeoDataFrame einlesen
gdf_kitas = load_geocsv("out/adressen_mit_kitas_routen.csv")
gdf_grundschulen = load_geocsv("out/adressen_mit_grundschulen_routen.csv")
print(gdf_kitas.shape)
print(gdf_grundschulen.shape)
print(gdf.shape)

# Eindeutige Adresse f√ºr den Merge generieren
gdf_kitas["Adresse_merge"] = gdf_kitas.apply(make_merge_addr, axis=1)
gdf_kitas = gdf_kitas.drop_duplicates("Adresse_merge")
gdf_grundschulen["Adresse_merge"] = gdf_grundschulen.apply(make_merge_addr, axis=1)
gdf_grundschulen = gdf_grundschulen.drop_duplicates("Adresse_merge")

# Merge into main gdf
kitas_attribute = ["kitas_min_distance", "kitas_route", "kitas_count_within_500m", "kitas_count_within_800m", "kitas_count_within_1000m"]
gdf = pd.merge(
    gdf,
    gdf_kitas[["Adresse_merge"] + kitas_attribute],
    on="Adresse_merge",
    how="left",
    validate="one_to_many"
)

grundschulen_attribute = ["grundschulen_min_distance_m", "grundschulen_route", "grundschulen_count_within_500m", "grundschulen_count_within_800m", "grundschulen_count_within_1000m"]
gdf = pd.merge(
    gdf,
    gdf_grundschulen[["Adresse_merge"] + grundschulen_attribute],
    on="Adresse_merge",
    how="left",
    validate="one_to_many"
)

print(gdf.columns)
print(gdf.shape)

## Medizinische Versorgung
Ein "medizinisches Zentrum" wurde definiert als eine Apotheke mit zwei √Ñrzten im Umkreis von 100 Metern. Diese Zentren werden separat in ```medizinische-zentren.py``` berechnet. Dazu wird die euklidische Distanz ("Luftlinie") zwischen Apotheken und umgebenden √Ñrzten berechnet.
Dadurch entstehen f√ºr den Datensatz folgende neue Attribute:
- Anzahl von medizinischen Zentren im Umkreis von 500 m
- Anzahl von medizinischen Zentren im Umkreis von 800 m
- Anzahl von medizinischen Zentren im Umkreis von 1000 m
- Fu√ül√§ufige Distanz zum n√§chsten medizinischen Zentrum

Die vollst√§ndige Erkl√§rung der Felder findet sich im Anhang.

Die fu√ül√§ufige Distanz zum n√§chstgelegenen medizinischen Zentrum wird per ```routing.py``` f√ºr jede Adresse einzeln ermittelt und als Weg gespeichert (```out/adressen_mit_medzentren_routen.csv```).

In [None]:
import pandas as pd
import folium
from folium.plugins import MarkerCluster
import ast

# ------------------------------------------------------
# 1) Daten laden
# ------------------------------------------------------
df_centers = pd.read_csv("out/medzentren_geocoded.csv")
df_arzte = pd.read_csv("out/aerzte_geocoded.csv")

# Normalize boolean
df_centers["is_med_center"] = (
    df_centers["is_med_center"].astype(str).str.lower().isin(["true", "1", "yes", "y"])
)

# Arztname ‚Üí Fachrichtung Mapping
arzt_fach_map = (
    df_arzte
    .dropna(subset=["Name_Arztpraxis"])
    .set_index("Name_Arztpraxis")["Fachrichtung"]
    .to_dict()
)

# Robust: arzt_keys_100m kann String-List, echte Liste oder leer sein
def parse_arzt_list(value):
    if isinstance(value, list):
        return value
    if isinstance(value, str):
        try:
            return ast.literal_eval(value)
        except Exception:
            # fallback: split by comma
            return [v.strip() for v in value.split(",") if v.strip()]
    return []


# ------------------------------------------------------
# 2) Popup Builder
# ------------------------------------------------------
def build_popup(row):
    lines = []

    # Titel
    if bool(row["is_med_center"]):
        lines.append(
            f"<b>Medizinisches Zentrum<br>{row.get('Strassenname','')}</b><br>"
        )

    # Apotheken-Name
    apo = str(row.get("Name_Apotheke", "")).strip()
    if apo:
        lines.append(f"üè• {apo}<br>")

    # √Ñrzte im Umkreis (Liste aufl√∂sen)
    arzt_list = parse_arzt_list(row.get("arzt_keys_100m", []))

    if len(arzt_list) > 0:
        lines.append(f"<b>{len(arzt_list)}</b> Arztpraxen im 100 m Radius:")

        # Fachrichtungen bestimmen
        fachrichtungen = []
        for name in arzt_list:
            fr = arzt_fach_map.get(name)
            if fr:
                fachrichtungen.append(f"{name} ‚Äì {fr}")
            else:
                fachrichtungen.append(f"{name} ‚Äì (Fachrichtung unbekannt)")

        # als Liste anzeigen
        lines.append("<ul>" + "".join([f"<li>{f}</li>" for f in fachrichtungen]) + "</ul>")

    else:
        lines.append("Keine √Ñrzte im 100 m Radius gefunden.")

    return "<br>".join(lines)


# ------------------------------------------------------
# 3) Icon Auswahl
# ------------------------------------------------------
def pick_icon(row):
    if bool(row["is_med_center"]):
        return folium.Icon(color="green", icon="plus-sign", prefix="glyphicon")
    else:
        return folium.Icon(color="gray", icon="staff-snake", prefix="fa")


# ------------------------------------------------------
# 4) Karte rendern
# ------------------------------------------------------
m = folium.Map(location=CITY_CENTER, zoom_start=14)
cluster = MarkerCluster(name="Medizinische Zentren / Apotheken")
cluster.add_to(m)

for _, row in df_centers.iterrows():

    lat = row.get("lat")
    lon = row.get("lon")

    if pd.isna(lat) or pd.isna(lon):
        continue

    popup_html = build_popup(row)
    icon = pick_icon(row)

    marker = folium.Marker(
        location=[lat, lon],
        tooltip=row.get("Strassenname", "MedZentrum"),
        icon=icon,
    ).add_to(cluster)
    marker.add_child(folium.Popup(popup_html, max_width=450))

folium.LayerControl().add_to(m)
m


In [None]:
# Medizinische Felder in gdf √ºbernehmen
# 1. Routing-Ergebnis f√ºr medizinische Versorgung laden
gdf_med = load_geocsv("out/adressen_mit_medzentren_routen.csv")
print("gdf_med shape:", gdf_med.shape)
print("gdf shape (vor Merge):", gdf.shape)

# 2. Merge-Key bauen (Adresse normalisieren)
gdf_med["Adresse_merge"] = gdf_med.apply(make_merge_addr, axis=1)
gdf_med = gdf_med.drop_duplicates("Adresse_merge")

# 3. Relevante Attributspalten aus der medizinischen Versorgung definieren
medzentren_attribute = [
    "medzentren_min_distance_m",
    "medzentren_route",
    "medzentren_count_within_500m",
    "medzentren_count_within_800m",
    "medzentren_count_within_1000m",
]

# 4. Merge in Haupt-GDF
gdf = pd.merge(
    gdf,
    gdf_med[["Adresse_merge"] + medzentren_attribute],
    on="Adresse_merge",
    how="left",
    validate="one_to_one",
)

print("gdf shape (nach Merge):", gdf.shape)

## √ñPNV-Qualit√§t

Die Qualit√§t des √ñPNV wird anhand der Fu√ül√§ufigkeit zur n√§chsten Haltestelle. Die H√§ufigkeit von Abfahrten (Headway) wird zwar berechnet, ist aber in der aktuellen Form noch kein verl√§sslicher Indikator. Die Daten stammen vom Verkehrsverbund Berlin-Brandenburg (VBB), Lizenz: CC BY 4.0, [zu den Daten](https://unternehmen.vbb.de/digitale-services/datensaetze) bzw. der Stadt Brandenburg an der Havel ("2024_Haltestellen.csv").

Vorausgesetzte Datens√§tze:
- ```data/GTFS/stops.txt```, der die Haltestellen mit ihren Geokoordinaten enth√§lt.
- ```data/adressen_mit_haltestellen_routen.csv```, der die Routen zu den Haltestellen und Anzahl von Haltestellen im Radius 500m und 800m enth√§lt.
- ```2024_Haltestellen.csv```, der nur die Haltestellen mit Geokoordinaten enth√§lt.

Probleme mit Datenqualit√§t:
- In der "2024_Haltestellen.csv" fehlen die Haltestellen "Libellenweg" und "Immenweg" (Linie B). Dadurch werden diese Haltestellen nicht ber√ºcksichtigt und Wege zur n√§chsten Haltestelle werden l√§nger eingesch√§tzt.

In [None]:
from shapely.geometry import Point

# Load GTFS stops data
stops = pd.read_csv("data/GTFS/stops.txt")
stops["geometry"] = stops.apply(lambda row: Point(row["stop_lon"], row["stop_lat"]), axis=1)
gdf_stops = gpd.GeoDataFrame(stops, geometry="geometry", crs=EPSG_4326)

# Convert to UTM for precise metric distance calculations
gdf = gdf.to_crs(epsg=32633)
gdf_stops = gdf_stops.to_crs(epsg=32633)

# Assign nearest stop to each address based on Point(X, Y) geometry
gdf["nearest_stop_id"] = gdf.geometry.apply(
    lambda pt: gdf_stops.loc[gdf_stops.distance(pt).idxmin(), "stop_id"]
)

# Read routes from adresses to stops and stop count from prepared CSV
gdf_haltestellen = load_geocsv("out/adressen_mit_haltestellen_routen.csv")
gdf_haltestellen["Adresse_merge"] = gdf_haltestellen.apply(make_merge_addr, axis=1)
gdf_haltestellen = gdf_haltestellen.drop_duplicates("Adresse_merge").copy()

print("gdf_haltestellen shape:", gdf_haltestellen.shape)
print("gdf shape (vor Merge):", gdf.shape)

# Merge haltestellen attributes into main GeoDataFrame
haltestellen_attribute = ["haltestellen_route", "haltestellen_min_distance", "haltestellen_count_within_500m", "haltestellen_count_within_800m"]
gdf = pd.merge(
    gdf,
    gdf_haltestellen[["Adresse_merge"] + haltestellen_attribute],
    on="Adresse_merge",
    how="left",
    validate="one_to_one"
)

print("gdf shape (nach Merge):", gdf.shape)

### Berechnung der √ñPNV-Taktung

In [None]:
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely.geometry import Point

# -------------------------------------------------
# 1. GTFS laden
# -------------------------------------------------
stops = pd.read_csv("data/GTFS/stops.txt")
stop_times = pd.read_csv("data/GTFS/stop_times.txt", low_memory=False)
trips = pd.read_csv("data/GTFS/trips.txt")
calendar = pd.read_csv("data/GTFS/calendar.txt")
# optional:
# calendar_dates = pd.read_csv("data/GTFS/calendar_dates.txt")

# -------------------------------------------------
# 2. Zeitspalte -> Minuten ab Mitternacht
# -------------------------------------------------
def parse_time_to_minutes(t):
    if pd.isna(t):
        return None
    parts = str(t).split(":")
    if len(parts) == 2:
        h, m = parts
    elif len(parts) == 3:
        h, m, _s = parts
    else:
        return None
    try:
        h = int(h)
        m = int(m)
        return h * 60 + m
    except ValueError:
        return None

stop_times = stop_times.copy()
stop_times["minutes"] = stop_times["arrival_time"].apply(parse_time_to_minutes)
stop_times = stop_times.dropna(subset=["minutes"])

# -------------------------------------------------
# 3. Hauptverkehrszeit ausw√§hlen
# -------------------------------------------------
HVZ_WINDOWS = [
    (360, 540),   # 06:00‚Äì09:00
    (960, 1140),  # 16:00‚Äì19:00
]

def in_any_window(mins, windows):
    for lo, hi in windows:
        if lo <= mins <= hi:
            return True
    return False

stop_times_hvz = stop_times[
    stop_times["minutes"].apply(lambda mm: in_any_window(mm, HVZ_WINDOWS))
].copy()

# -------------------------------------------------
# 4. Werkt√§gliche Dienste filtern und Trip-Infos mergen
# -------------------------------------------------
trips_filtered = trips.merge(calendar, on="service_id")
trips_filtered = trips_filtered[trips_filtered["monday"] == 1]

stop_times_hvz["trip_id"] = stop_times_hvz["trip_id"].astype(str)
trips_filtered["trip_id"] = trips_filtered["trip_id"].astype(str)

stopdata = stop_times_hvz.merge(
    trips_filtered[["trip_id", "route_id", "service_id"]],
    on="trip_id",
    how="left"
)

stopdata["stop_id"] = stopdata["stop_id"].astype(str)

# -------------------------------------------------
# 5. Haltestellengeometrie (f√ºr Karten etc.)
# -------------------------------------------------
stops = stops.copy()
stops["stop_id"] = stops["stop_id"].astype(str)

gdf_stops_all = gpd.GeoDataFrame(
    stops,
    geometry=gpd.points_from_xy(stops["stop_lon"], stops["stop_lat"]),
    crs=EPSG_4326
)

# -------------------------------------------------
# 6. Headway je Stop-ID berechnen
# -------------------------------------------------
def compute_headway_for_window(df, lo, hi, group_col="stop_id", time_col="minutes"):
    result = {}
    for key, group in df.groupby(group_col):
        if pd.isna(key):
            continue
        times = sorted([t for t in group[time_col] if lo <= t <= hi])
        if len(times) < 2:
            continue
        diffs = [b - a for a, b in zip(times[:-1], times[1:])]
        result[key] = sum(diffs) / len(diffs)
    return result

headway_morning = compute_headway_for_window(stopdata, 360, 540, group_col="stop_id")
headway_evening = compute_headway_for_window(stopdata, 960, 1140, group_col="stop_id")

# -------------------------------------------------
# 7. Headway in gdf mappen (n√§chstgelegene Haltestelle)
# -------------------------------------------------
gdf["nearest_stop_id"] = gdf["nearest_stop_id"].astype(str)

for col in [
    "headway_morning", "headway_evening", "headway_avg",
    "headway_morning_score", "headway_evening_score",
    "headway_avg_score",
]:
    if col in gdf.columns:
        gdf = gdf.drop(columns=[col])

gdf["headway_morning"] = gdf["nearest_stop_id"].map(headway_morning)
gdf["headway_evening"] = gdf["nearest_stop_id"].map(headway_evening)
gdf["headway_avg"] = gdf[["headway_morning", "headway_evening"]].mean(axis=1)

# -------------------------------------------------
# 8. Headway-Scores (z.B. 5‚Äì60 Minuten)
# -------------------------------------------------
fixed_min, fixed_max = 5, 60

def scoreify(series):
    return 1 - ((series - fixed_min) / (fixed_max - fixed_min)).clip(lower=0, upper=1)

gdf["headway_morning_score"] = scoreify(gdf["headway_morning"])
gdf["headway_evening_score"] = scoreify(gdf["headway_evening"])
gdf["headway_avg_score"]     = scoreify(gdf["headway_avg"])

# -------------------------------------------------
# 9. Debug: fehlende Headways
# -------------------------------------------------
no_headway_mask = gdf["headway_avg"].isna()
print("Adressen ohne Headway_avg:", int(no_headway_mask.sum()))

na_stops = gdf.loc[no_headway_mask, "nearest_stop_id"].value_counts()
print("Anzahl unterschiedlicher problematischer Haltestellen:", len(na_stops))
print(na_stops.head(20))

if len(na_stops) > 0:
    test_stop = na_stops.index[0]
    sample_times = stopdata.loc[stopdata["stop_id"] == test_stop, "minutes"]
    sample_morning = sorted([t for t in sample_times if 360 <= t <= 540])[:20]
    print("Beispiel-Haltestelle", test_stop, "HVZ-Zeiten morgens:",
          sample_morning)

# -------------------------------------------------
# 10. Cleanup (optional)
# -------------------------------------------------
# del(stop_times, trips, calendar, trips_filtered, stopdata)


In [None]:
# √ñPNV in gdf mergen
headway_attribute = ["headway_avg"]

In [None]:
# -------------------------------------------------
# X. Debug: Abfahrts-Statistik pro Haltestelle (HVZ)
# -------------------------------------------------
def minutes_to_hhmm(mins: int) -> str:
    """Hilfsfunktion: 0..1440 Minuten -> 'HH:MM'."""
    h = int(mins) // 60
    m = int(mins) % 60
    h = h % 24  # falls GTFS > 24h nutzt
    return f"{h:02d}:{m:02d}"

def summarize_stop_times(df_stop: pd.DataFrame) -> pd.Series:
    """Erzeugt Debug-Statistik f√ºr eine Haltestelle in der HVZ."""
    mins = df_stop["minutes"].dropna().astype(int).tolist()
    if not mins:
        return pd.Series({
            "hvz_dep_total": 0,
            "hvz_dep_morning": 0,
            "hvz_dep_evening": 0,
            "hvz_first": None,
            "hvz_last": None,
            "hvz_sample_times": ""
        })

    mins_sorted = sorted(mins)

    # Morning / Evening nach Deinen HVZ_WINDOWS
    morning = [t for t in mins_sorted if 360 <= t <= 540]
    evening = [t for t in mins_sorted if 960 <= t <= 1140]

    def fmt_first(lst):
        return minutes_to_hhmm(lst[0]) if lst else None

    def fmt_last(lst):
        return minutes_to_hhmm(lst[-1]) if lst else None

    # ein paar Beispielzeiten (gesamt, egal ob morgens/abends)
    sample = ", ".join(minutes_to_hhmm(t) for t in mins_sorted[:10])

    return pd.Series({
        "hvz_dep_total": len(mins_sorted),
        "hvz_dep_morning": len(morning),
        "hvz_dep_evening": len(evening),
        "hvz_first": fmt_first(mins_sorted),
        "hvz_last": fmt_last(mins_sorted),
        "hvz_sample_times": sample
    })

# stopdata enth√§lt alle HVZ-Fahrten mit stop_id und minutes
# -> Gruppierung nach stop_id
stop_debug = (
    stopdata
    .groupby("stop_id", as_index=False)
    .apply(summarize_stop_times)
    .reset_index(drop=True)
)

# Dictionary f√ºr schnellen Zugriff im Mapping
stop_debug_dict = (
    stop_debug
    .set_index("stop_id")
    .to_dict(orient="index")
)


## Visualisierung der √ñPNV-Taktung

In [None]:
import folium
from branca.colormap import linear, LinearColormap
import pandas as pd
import numpy as np

# Convert gdf_stops geometry to WGS84
gdf_stops = gdf_stops.to_crs(epsg=4326).copy()

# Haltestellen innerhalb Stadt
gdf_stops_clip = gdf_stops[gdf_stops.geometry.within(CITY_BOUNDING_BOX)].copy()
print("Haltestellen im Stadtpolygon:", len(gdf_stops_clip))

#
# 2. Farbskala nur aus Adressen-Headway
#
# headway_avg = durchschnittliche Taktzeit (Minuten) f√ºr diese Adresse
# Annahme: kleiner Wert = besser (h√§ufigere Bedienung)
addr_headway = pd.to_numeric(gdf["headway_avg"], errors="coerce")

hv_valid = addr_headway.dropna()
if len(hv_valid) > 0:
    vmin, vmax = hv_valid.quantile([0.01, 0.99])
    if vmin == vmax:
        # falls alles gleich (z. B. nur eine Linie), spreizen f√ºr die Farbskala
        vmin = vmin - 0.1
        vmax = vmax + 0.1
else:
    # Fallback, falls ALLE Adressen NaN sind
    vmin, vmax = (0, 1)

palette_normal = list(linear.RdYlGn_11.colors)
palette_inverted = palette_normal[::-1]
colormap = LinearColormap(
    colors=palette_inverted,
    vmin=vmin,
    vmax=vmax,
).to_step(n=9)
colormap.caption = "Headway pro Adresse (Minuten, kleiner = besser)"

# 3. Karte initialisieren
m = folium.Map(location=CITY_CENTER, zoom_start=13, tiles="cartodbpositron")

# 4. Adressen plotten (farbig nach headway_avg)
#    - Farbig wenn headway_avg da
#    - Hellgrau wenn kein Wert
for _, row in gdf.iterrows():
    hv_addr = row.get("headway_avg", np.nan)
    hv_morning = row.get("headway_morning", np.nan)
    hv_evening = row.get("headway_evening", np.nan)

    if pd.isna(hv_addr):
        # Kein Wert berechnet -> zeichne neutral
        color = "#BBBBBB"
        fill_color = "#BBBBBB"
        hv_label = "kein Wert"
    else:
        color = colormap(hv_addr)
        fill_color = colormap(hv_addr)
        hv_label = f"{hv_addr:.1f} min"

    # Popup mit allen Headways, falls vorhanden
    popup_lines = [
        f"{row.get('Stra√üenname', '')} {row.get('Hsnr', '')}",
        f"<b>Headway (avg):</b> {hv_label}",
    ]
    if pd.notna(hv_morning):
        popup_lines.append(f"Fr√ºhspitze: {hv_morning:.1f} min")
    if pd.notna(hv_evening):
        popup_lines.append(f"Abendspitze: {hv_evening:.1f} min")

    popup_html = "<br>".join(popup_lines)

    folium.CircleMarker(
        location=[row.lat, row.lon],
        radius=5,
        color=color,
        fill=True,
        fill_color=fill_color,
        fill_opacity=0.8,
        weight=1,
        popup=popup_html,
    ).add_to(m)

# 5. Haltestellen plotten (schwarz, neutral + Debug-Infos)
for _, row in gdf_stops_clip.iterrows():
    lat_s = row["stop_lat"]
    lon_s = row["stop_lon"]
    stop_id = str(row.get("stop_id"))
    stop_label = row.get("stop_name", stop_id or "Haltestelle")

    dbg = stop_debug_dict.get(stop_id, None)

    popup_lines = [f"<b>Haltestelle:</b> {stop_label}",
                   f"<b>stop_id:</b> {stop_id}"]

    if dbg is not None:
        popup_lines.append(f"<b>HVZ-Abfahrten gesamt:</b> {dbg['hvz_dep_total']}")
        popup_lines.append(f"&nbsp;&nbsp;Morgens (06‚Äì09): {dbg['hvz_dep_morning']}")
        popup_lines.append(f"&nbsp;&nbsp;Abends (16‚Äì19): {dbg['hvz_dep_evening']}")
        if dbg["hvz_first"] and dbg["hvz_last"]:
            popup_lines.append(
                f"<b>HVZ-Fenster:</b> {dbg['hvz_first']} ‚Äì {dbg['hvz_last']}"
            )
        if dbg["hvz_sample_times"]:
            popup_lines.append(
                f"<b>Beispiele:</b> {dbg['hvz_sample_times']}"
            )
    else:
        popup_lines.append("<i>Keine HVZ-Abfahrten gefunden.</i>")

    popup_html = "<br>".join(popup_lines)

    folium.CircleMarker(
        location=[lat_s, lon_s],
        radius=3,
        color="black",
        fill=True,
        fill_color="black",
        fill_opacity=1,
        weight=1,
        popup=popup_html,
    ).add_to(m)

# 6. Legende f√ºr die Adressen-Headways
colormap.add_to(m)
m


## Umwelt
### Gro√üfl√§chen
- Luftlinie in m zum n√§chsten gro√üen Wald oder See
- Luftlinie in m zum n√§chsten gro√üen Gewerbe- oder Industriegebiet


In [None]:
import geopandas as gpd
from shapely.strtree import STRtree
from shapely.geometry.base import BaseGeometry
import numpy as np

# --------------------------------------------
# 1) Gro√üe Fl√§chen in metrischem CRS vorbereiten
# --------------------------------------------
gdf_m = gdf.to_crs(32633)
gdf_large_m = gdf_large.to_crs(32633)

TARGET_CLASSES = {
    "gewerbe": "Gewerbe",
    "gruen": "Gruen",
    "sonstiges": "Sonstiges"
}

# --------------------------------------------
# 2) Geometrien pro Klasse + STRtree vorbereiten
# --------------------------------------------
targets = {}

for key, cls in TARGET_CLASSES.items():
    geoms = list(gdf_large_m[gdf_large_m["nutzklasse"] == cls].geometry)

    # Leere Klassen √ºberspringen
    if not geoms:
        print(f"Warnung: keine Geometrien f√ºr Klasse {cls} gefunden.")
        continue

    tree = STRtree(geoms)
    targets[key] = {
        "geoms": geoms,
        "tree": tree,
    }

print("STRtrees vorbereitet f√ºr:", list(targets.keys()))


# --------------------------------------------
# 3) Distanzfunktion: Punkt ‚Üí n√§chstgelegene Fl√§che
# --------------------------------------------
def fast_distance_to_area(pt, target):
    """
    pt: shapely Point (im selben CRS wie target-geoms)
    target: Dict mit 'geoms' (Liste) und 'tree' (STRtree)
    """
    if pt is None or (hasattr(pt, "is_empty") and pt.is_empty):
        return np.nan

    tree = target["tree"]
    geoms = target["geoms"]

    # nearest() liefert hier einen INDEX in der Geom-Liste zur√ºck
    idx = tree.nearest(pt)

    # falls doch mal ein Geometry zur√ºckk√§me: beides abfangen
    if isinstance(idx, BaseGeometry):
        nearest_geom = idx
    else:
        nearest_geom = geoms[int(idx)]

    try:
        return int(pt.distance(nearest_geom))
    except TypeError:
        # Falls unerwartete Typen auftauchen
        return np.nan


# --------------------------------------------
# 4) Distanzen f√ºr jede Kategorie berechnen
# --------------------------------------------
for key, target in targets.items():
    print(f"Berechne Distanz f√ºr Kategorie: {key} ...")
    gdf_m[f"gross_{key}_distance"] = gdf_m.geometry.apply(
        lambda pt, t=target: fast_distance_to_area(pt, t)
    )

# --------------------------------------------
# 5) Ergebnisse zur√ºck nach WGS84
# --------------------------------------------
gdf_back = gdf_m.to_crs(4326)

dist_cols = [f"gross_{k}_distance" for k in targets.keys()]
gdf[dist_cols] = gdf_back[dist_cols]

print("Fertig! Neue Distanzfelder berechnet:", dist_cols)


In [None]:
import folium
import geopandas as gpd
from shapely.ops import linemerge

# ------------------------------
# 1) Metrische Projektion
# ------------------------------
gdf_m = gdf.to_crs(32633)
gdf_large_m = gdf_large.to_crs(32633)

# Fl√§che in ha berechnen (1 ha = 10.000 m¬≤) und runden
gdf_large_m["area_ha"] = (gdf_large_m.area / 10000).round(1)

# zur√ºck nach WGS84 f√ºr Darstellung
gdf_large_4326 = gdf_large_m.to_crs(4326)

# ------------------------------
# 2) Fl√§chen nach Kategorien
# ------------------------------
TARGET_CLASSES = {
    "gewerbe": "Gewerbe",
    "gruen": "Gruen",
    "sonstiges": "Sonstiges"
}

areas = {
    key: gdf_large_4326[gdf_large_4326["nutzklasse"] == cls].copy()
    for key, cls in TARGET_CLASSES.items()
}

colors = {"gewerbe": "red", "gruen": "green", "sonstiges": "blue"}


# ------------------------------
# 3) Distanzfunktionen
# ------------------------------
def nearest_boundary_point(pt, polygon):
    boundary = polygon.boundary
    if boundary.geom_type == "MultiLineString":
        boundary = linemerge(boundary)
    proj = boundary.project(pt)
    nearest_pt = boundary.interpolate(proj)
    return nearest_pt


def compute_nearest_area(pt, df):
    """
    pt: Point (UTM)
    df: GeoDataFrame (WGS84!), deshalb f√ºr Distanz kurz in UTM projizieren
    """
    # in metrisches CRS bringen
    df_utm = df.to_crs(32633)

    best_dist = 1e12
    best_point = None

    for poly in df_utm.geometry:
        nb = nearest_boundary_point(pt, poly)
        d = pt.distance(nb)
        if d < best_dist:
            best_dist = d
            best_point = nb

    return best_dist, best_point


# ------------------------------
# 4) Karte aufbauen
# ------------------------------
def build_map():
    # 5 zuf√§llige Adressen
    rows = gdf.sample(5, random_state=42)

    m = folium.Map(location=CITY_CENTER, zoom_start=12, tiles="cartodbpositron")

    # ------------------------------------------
    # Fl√§chenlayer (mit Tooltip: bez + area_ha)
    # ------------------------------------------
    for key, df in areas.items():

        layer = folium.FeatureGroup(name=f"Fl√§chen ‚Äì {key}", show=True)

        df_safe = df[["geometry", "nutzklasse", "bez", "area_ha"]].copy()

        folium.GeoJson(
            df_safe,
            name=key,
            style_function=lambda feature, col=colors[key]: {
                "fillColor": col,
                "color": col,
                "weight": 1,
                "fillOpacity": 0.25,
            },
            tooltip=folium.features.GeoJsonTooltip(
                fields=["bez", "nutzklasse", "area_ha"],
                aliases=["Objekt:", "Kategorie:", "Fl√§che (ha):"],
                localize=True,
                sticky=True,
            ),
        ).add_to(layer)

        layer.add_to(m)

    # ------------------------------------------
    # Adressen + Luftlinien
    # ------------------------------------------
    for idx, row in rows.iterrows():

        # Adresspunkt in UTM
        addr_pt_utm = gdf_m.loc[row.name].geometry

        # Adresse markieren (WGS84-Koordinaten aus gdf)
        folium.CircleMarker(
            location=[row.lat, row.lon],
            radius=7,
            color="black",
            fill=True,
            fill_opacity=1,
            tooltip=row["Adresse_merge"],
        ).add_to(m)

        # Linien zu Fl√§chenkategorien
        for key, df in areas.items():

            dist, nearest_pt_utm = compute_nearest_area(addr_pt_utm, df)

            # n√§chster Punkt zur√ºck in WGS84
            nearest_pt_wgs = (
                gpd.GeoSeries([nearest_pt_utm], crs=32633).to_crs(4326).iloc[0]
            )

            # Linie
            folium.PolyLine(
                locations=[
                    (row.lat, row.lon),
                    (nearest_pt_wgs.y, nearest_pt_wgs.x),
                ],
                color=colors[key],
                weight=3,
                opacity=0.9,
                tooltip=f"{key}: {int(dist)} m",
            ).add_to(m)

            # Zielmarker
            folium.CircleMarker(
                location=[nearest_pt_wgs.y, nearest_pt_wgs.x],
                radius=4,
                color=colors[key],
                fill=True,
                fill_opacity=0.9,
                tooltip=f"Rand {key}: {int(dist)} m",
            ).add_to(m)

    folium.LayerControl(collapsed=False).add_to(m)
    return m


m = build_map()
m


### Freizeit- und Erholungsfl√§chen

- Fu√ül√§ufige Distanz zur n√§chstgelegenen Freizeit- und Erholungsfl√§chen (Spielpl√§tze, Parks, Gr√ºnanlagen, Promenaden)

Die Freizeit- und Erholungsfl√§chen laut Auftrag sind:
- Marienberg
- Humboldthain
- Salzhofufer
- Wallpromenade
- Theaterpark
- Grabenpromenade
- Schlosspark Plaue
- Schlosspark Gollwitz
- Krugpark

Aus den bereitgestellten Shape-Dateien werden anhand der Objektbezeichnung (Spalte "objektbeze") im Routing-Skript ca. 100 zusammenh√§ngende Fl√§chen gebildet, deren R√§nder als Ziele f√ºr die fu√ül√§ufige Distanzberechnung genutzt werden. Dadurch werden mehr als die angegebenen Fl√§chen genutzt.

In [None]:
path = "data/Gr√ºnfl√§chen_Verkehrszeichen/20251029_Vegetation_KSP_GP_31.shp"
gdf_gruen_shape = gpd.read_file(path)
#gdf_gruen

In [None]:
import folium

m = folium.Map(location=CITY_CENTER, zoom_start=14)

def random_color(seed):
    rng = np.random.default_rng(seed)
    r = rng.integers(80, 200)
    g = rng.integers(80, 200)
    b = rng.integers(80, 200)
    return f"#{r:02x}{g:02x}{b:02x}"

# Ein Farbschema erzeugen
unique_ids = gdf_gruen_shape["objektbeze"].unique()
color_map = {uid: random_color(i) for i, uid in enumerate(unique_ids)}

# Polygone hinzuf√ºgen
folium.GeoJson(
    gdf_gruen_shape,
    style_function=lambda feature: {
        "color": "black",
        "weight": 0.5,
        "fillOpacity": 0.9,
        "fillColor": color_map[feature["properties"]["objektbeze"]]
    },
    tooltip=folium.GeoJsonTooltip(fields=["objektbeze"])
).add_to(m)

m

In [None]:
gdf_gruen_m = gdf_gruen_shape.to_crs(32633)

# Gruppieren & union der Fl√§chen
gdf_gruen_area = (gdf_gruen_shape.dissolve(by="objektbeze").reset_index())

# Fl√§che berechnen (m¬≤)
gdf_gruen_area["flaeche_m2"] = gdf_gruen_area.area
gdf_gruen_area["flaeche_ha"] = gdf_gruen_area["flaeche_m2"] / 10_000

bad = gdf_gruen_area.geometry.apply(lambda g: not g.is_valid)
print("Ung√ºltige Geometrien:", bad.sum())

bb = gdf_gruen_area.geometry.boundary
print("Boundary is empty:", sum(bb.is_empty))

del(gdf_gruen_m, gdf_gruen_area)

In [None]:
# Lade vorberechnete Routen zur n√§chstgelegenen Anlage und Anzahl von Funden im Umkreis
gdf_gruen = load_geocsv("out/adressen_mit_gruen_routen.csv")

In [None]:
# Merge mit Haupt-GDF
gdf_gruen["Adresse_merge"] = gdf_gruen.apply(make_merge_addr, axis=1)
gdf_gruen = gdf_gruen.sort_values("Adresse_merge").drop_duplicates("Adresse_merge", keep="first")

dups = gdf_gruen["Adresse_merge"].value_counts()
print(dups[dups > 1])

gruen_attribute = ["gruen_route","gruen_min_distance", "gruen_count_within_500m", "gruen_count_within_800m", "gruen_count_within_1000m"]

gdf = pd.merge(
    gdf,
    gdf_gruen[["Adresse_merge"] + gruen_attribute],
    on="Adresse_merge",
    how="left",
    validate="one_to_many"
)

# Plausibili√§tspr√ºfung
print(gdf[["Adresse_merge", "gruen_min_distance", "gruen_route"]].head())
print(gdf.shape)

In [None]:
import folium

# Alle "isna"-Punkte in gdf_gruen auf "0" m setzen, weil sie vermutlich direkt an der Fl√§che liegen und daher keine Route berechnet werden konnte
gdf_gruen = gdf_gruen.copy()
mask_na = gdf_gruen["gruen_min_distance"].isna()
gdf_gruen.loc[mask_na, "gruen_min_distance"] = 0

# Z√§hlen, wie viele Punkte keine Route haben (d.h. direkt an der Fl√§che liegen)
mask = (
    gdf_gruen["gruen_route"].isna()
    | (gdf_gruen["gruen_route"].astype(str).str.strip() == "")
)
gdf_no_route = gdf_gruen[mask].copy()

print(f"Anzahl Punkte ohne gruen_route: {len(gdf_no_route)}")

# 2) Folium-Map erzeugen
m = folium.Map(location=CITY_CENTER, zoom_start=13, tiles="cartodbpositron")

# 3) Alle Punkte einzeichnen
for _, row in gdf_no_route.iterrows():
    geom = row.geometry
    if geom is None or geom.is_empty:
        continue

    # Falls es wirkliche Punkte sind:
    try:
        lat = geom.y
        lon = geom.x
    except AttributeError:
        # Fallback: z.B. bei Polygon ‚Üí Schwerpunkt
        geom = geom.centroid
        lat = geom.y
        lon = geom.x

    folium.CircleMarker(
        location=(lat, lon),
        radius=4,
        fill=True,
        fill_opacity=0.8,
        popup=str(row.get("name", "")),      # ggf. an deine Spalte anpassen
        tooltip=row.get("Adresse", None),    # oder andere sinnvolle Spalte
    ).add_to(m)

def random_color(seed):
    rng = np.random.default_rng(seed)
    r = rng.integers(80, 200)
    g = rng.integers(80, 200)
    b = rng.integers(80, 200)
    return f"#{r:02x}{g:02x}{b:02x}"

# Ein Farbschema erzeugen
unique_ids = gdf_gruen_shape["objektbeze"].unique()
color_map = {uid: random_color(i) for i, uid in enumerate(unique_ids)}

# Polygone hinzuf√ºgen
folium.GeoJson(
    gdf_gruen_shape,
    style_function=lambda feature: {
        "color": "black",
        "weight": 0.5,
        "fillOpacity": 0.9,
        "fillColor": color_map[feature["properties"]["objektbeze"]]
    },
    tooltip=folium.GeoJsonTooltip(fields=["objektbeze"])
).add_to(m)

m

In [None]:
# "Gr√ºn-und-Parkanlagen.gpkg" einlesen und Layer "je_eine_Flaeche" als geometry nutzen
path = "data/Gr√ºn-und-Parkanlagen.gpkg"
gdf_parkanlagen = gpd.read_file(path, layer="je_eine_Flaeche")
print("Parkanlagen geladen:", gdf_parkanlagen.shape)

In [None]:
# Auf Folium-Karte anzeigen
import folium
m = folium.Map(location=CITY_CENTER, zoom_start=14)
folium.GeoJson(
    gdf_parkanlagen,
    style_function=lambda feature: {
        "color": "darkgreen",
        "weight": 1,
        "fillOpacity": 0.7,
        "fillColor": "green"
    },
    tooltip=folium.GeoJsonTooltip(fields=["objektbeze"])
).add_to(m)
m

In [None]:
# gdf_parkanlagen in gdf mergen
gdf_parkanlagen_m = gdf_parkanlagen.to_crs(32633)
gdf_parkanlagen_m["area_ha"] = (gdf_parkanlagen_m.area / 10_000).round(1)
gdf_parkanlagen_m = gdf_parkanlagen_m[["objektbeze", "area_ha", "geometry"]]
gdf_parkanlagen_4326 = gdf_parkanlagen_m.to_crs(4326)

In [None]:
from shapely.strtree import STRtree
# STRtree der Parkanlagen vorbereiten
park_tree = STRtree(gdf_parkanlagen_m.geometry.tolist())

def distance_to_nearest_park(pt):
    if pt is None or (hasattr(pt, "is_empty") and pt.is_empty):
        return np.nan
    idx = park_tree.nearest(pt)
    if isinstance(idx, BaseGeometry):
        nearest_geom = idx
    else:
        nearest_geom = gdf_parkanlagen_m.geometry.iloc[int(idx)]
    try:
        return int(pt.distance(nearest_geom))
    except TypeError:
        return np.nan

# Distanz zur n√§chstgelegenen Parkanlage berechnen
gdf_m = gdf.to_crs(32633)
gdf_m["park_distance"] = gdf_m.geometry.apply(distance_to_nearest_park)
gdf["park_distance"] = gdf_m["park_distance"]
print("Fertig! park_distance hinzugef√ºgt.")

## Begrenzung durch dauerhafte Barrieren
Als zus√§tzlicher Indikator wird berechnet, ob eine Adresse durch eine Bahnlinie vom Stadtzentrum getrennt ist. Damit wird abgebildet, ob eine Adresse trotz N√§he zum Zentrum durch eine Barriere erschwerten Zugang hat (z. B., durch Wartezeiten an Bahn√ºberg√§ngen).

In [None]:
import osmnx as ox
# Schritt 1: Bahnlinien von OSM laden
place = "Brandenburg an der Havel, Germany"

# Eisenbahnlinien holen
rails = ox.features_from_place(
    place,
    tags={"railway": True}  # includes rail, light_rail, tram, etc.
)

# nur Schienenverkehr (keine Haltestellen)
rails = rails[rails["railway"].isin(["rail"])]

In [None]:
from shapely.geometry import LineString

# Schritt 2: Fu√üƒ∫√§ufige Routen zum Stadtzentrum auf Schnittpunkt mit Bahnlinie pr√ºfen und im Datensatz speichern
def route_crosses_rail(route_geojson_str, rail_geom):
    if not isinstance(route_geojson_str, str):
        return False

    try:
        geo = json.loads(route_geojson_str)
    except:
        return False

    if geo.get("type") != "LineString":
        return False

    # Koordinaten (lon, lat) -> Shapely LineString nutzen
    coords = geo["coordinates"]
    line = LineString(coords)

    # Schnitt-Test
    return line.intersects(rail_geom)

rail_union = rails.union_all()
gdf["behind_rail_from_center"] = gdf["center_route"].apply(
    lambda r: int(route_crosses_rail(r, rail_union))
)

print(gdf.shape)

In [None]:
import json
import folium

# 10 zuf√§llige Adressen ziehen
sample_gdf = gdf.sample(10, random_state=42)

center_lat, center_lon = CITY_CENTER  # CITY_CENTER ist [lat, lon]
center_point = (center_lat, center_lon)
m = folium.Map(location=CITY_CENTER, zoom_start=13, tiles="cartodbpositron")

# Zentrum markieren
folium.Marker(
    location=CITY_CENTER,
    tooltip="Stadtzentrum",
    icon=folium.Icon(color="red", icon="star")
).add_to(m)

# Route + Marker je Adresse
for idx, row in sample_gdf.iterrows():
    if pd.isna(row["lat"]) or pd.isna(row["lon"]):
        continue

    addr_point = (row["lat"], row["lon"])
    behind_flag = row.get("behind_rail_from_center", None)

    tooltip = f"Adresse {idx}<br>behind_rail_from_center: {behind_flag}"

    # Route zum Zentrum (GeoJSON)
    route_json = row.get("center_route")

    if isinstance(route_json, str):
        try:
            route_geo = json.loads(route_json)

            if route_geo.get("type") == "LineString":
                # GeoJSON Koordinaten sind (lon, lat)
                coords = [(c[1], c[0]) for c in route_geo["coordinates"]]

                folium.PolyLine(
                    locations=coords,
                    color="blue",
                    weight=4,
                    opacity=0.7,
                    tooltip=f"Route zu Adresse {idx}"
                ).add_to(m)

        except Exception as e:
            print(f"Fehler beim Zeichnen der Route f√ºr Adresse {idx}: {e}")

    # Adressmarker
    folium.CircleMarker(
        location=addr_point,
        radius=4,
        color="blue",
        fill=True,
        fill_opacity=0.8,
        tooltip=folium.Tooltip(tooltip)
    ).add_to(m)

# Bahnlinien-Layer
bahn_layer = folium.FeatureGroup(name="Bahnlinien (OSM)", show=True)

for _, row in rails.iterrows():
    geom = row.geometry
    if geom is None:
        continue

    if geom.geom_type == "LineString":
        coords = [(y, x) for x, y in geom.coords]
        folium.PolyLine(
            locations=coords,
            color="darkred",
            weight=4,
            opacity=0.8
        ).add_to(bahn_layer)

    elif geom.geom_type == "MultiLineString":
        for part in geom:
            coords = [(y, x) for x, y in part.coords]
            folium.PolyLine(
                locations=coords,
                color="darkred",
                weight=4,
                opacity=0.8
            ).add_to(bahn_layer)

bahn_layer.add_to(m)

print(gdf.shape)
m

# Visualisierung aller Indikatoren
Alle Einflussfaktoren (Superm√§rkte, √Ñrzte, Schulen etc.) werden zur Plausibilit√§tspr√ºfung auf einer Karte visualisiert.

In [None]:
import folium
import branca.colormap as cm
from helper import add_markers_from_csv, STRASSENNAME, HAUSNUMMER, HAUSNUMMERZUSATZ
import ast

m = folium.Map(location=CITY_CENTER, zoom_start=13, tiles="cartodbpositron")

# √Ñrzte laden
df_aerzte = pd.read_csv("out/aerzte_geocoded.csv")
# Lookup Dictionary: Name_Arzt -> Fachrichtung
fach_lookup = dict(zip(df_aerzte["Name_Arzt"], df_aerzte["Fachrichtung"]))

def add_medcenter_markers(map_obj, csv_path, color="red", icon="staff-snake", layer_name="Medizinische Zentren"):
    df = pd.read_csv(csv_path)

    layer = folium.FeatureGroup(name=layer_name)
    layer.add_to(map_obj)

    for _, row in df.iterrows():
        lat, lon = row["lat"], row["lon"]
        if pd.isna(lat) or pd.isna(lon):
            continue

        # Arztliste parsen
        arzt_keys = row.get("arzt_keys_100m", "[]")
        if isinstance(arzt_keys, str):
            arzt_keys = ast.literal_eval(arzt_keys)

        # Popup zusammenbauen
        lines = []

        if bool(row.get("is_med_center", False)):
            lines.append(f"<b>Medizinisches Zentrum<br>{row.get('Strassenname','')}</b><br>")

        # Apotheke
        name_ap = str(row.get("Name_Apotheke", "")).strip()
        if name_ap:
            lines.append(f"üè• {name_ap}<br>")

        # Anzahl √Ñrzte
        if len(arzt_keys) > 0:
            lines.append(f"<br><b>{len(arzt_keys)} Arztpraxen im 100 m Radius:</b><br>")

        # √Ñrzte + Fachrichtung
        for arzt in arzt_keys:
            fach = fach_lookup.get(arzt, "(Fachrichtung unbekannt)")
            lines.append(f"{arzt} ‚Äì {fach}<br>")

        popup_html = "".join(lines)

        # Icon w√§hlen
        ico = folium.Icon(color=color, icon=icon, prefix="fa")

        marker = folium.Marker(
            location=[lat, lon],
            tooltip=row.get("Strassenname", "MedZentrum"),
            icon=ico
        ).add_to(layer)

        # Popup breiter machen
        marker.add_child(folium.Popup(popup_html, max_width=450))

# Add layer markers
add_markers_from_csv(map_obj=m, csv_path="out/einzelhandel_geocoded.csv", color="blue", icon="shopping-cart", layer_name="Einzelhandel")
add_markers_from_csv(map_obj=m, csv_path="out/grundschulen_geocoded.csv", color="green", icon="graduation-cap", layer_name="Grundschulen")
add_markers_from_csv(map_obj=m, csv_path="out/kitas_geocoded.csv", color="beige", icon="child", layer_name="Kitas")
add_markers_from_csv(map_obj=m, csv_path="out/haltestellen_geocoded.csv", color="lightgray", icon="bus", layer_name="Haltestellen")
add_medcenter_markers(map_obj=m, csv_path="out/medzentren_geocoded.csv")

# L√§rmindex aus dem Geopackage
gdf_laerm_karte = gpd.read_file("data/laerm.gpkg", layer="laerm")
gdf_laerm_karte = gdf_laerm_karte.clip(CITY_BOUNDING_BOX)
value_column = "isov1"
min_val = gdf_laerm_karte[value_column].min()
max_val = gdf_laerm_karte[value_column].max()
colormap = cm.LinearColormap(colors=["green", "yellow", "red"], vmin=min_val, vmax=max_val)
colormap.caption = "L√§rmpegel (LDEN in dB)"

# √Ñrzte
df_aerzte = pd.read_csv("out/aerzte_geocoded.csv")
fach_lookup = dict(zip(df_aerzte["Name_Arzt"], df_aerzte["Fachrichtung"]))

# Alle Adressen als Punkte
adress_layer = folium.FeatureGroup(name="Wohnadressen", show=False)
for _, row in gdf.iterrows():
    if pd.notna(row["lat"]) and pd.notna(row["lon"]):
        strasse = s(row.get(STRASSENNAME))
        hsnr = s(row.get(HAUSNUMMER))
        hsnrzus = s(row.get(HAUSNUMMERZUSATZ))

        tooltip = strasse + " " + hsnr

        adressen_map = folium.CircleMarker(
            location=[row["lat"], row["lon"]],
            radius=3,
            color="violet",
            fill=True,
            fill_opacity=0.6,
            tooltip=tooltip
        ).add_to(adress_layer)
adress_layer.add_to(m)

def style_function(feature):
    value = feature["properties"][value_column]
    return {
        "fillColor": colormap(value),
        "color": "black",
        "weight": 0.3,
        "fillOpacity": 0.2
    }

laerm_layer = folium.FeatureGroup(name="L√§rmkarte (LDEN 2022)")
folium.GeoJson(
    gdf_laerm_karte,
    style_function=style_function,
).add_to(laerm_layer)
laerm_layer.add_to(m)
colormap.add_to(m)

# Parks hinzuf√ºgen
park_layer = folium.FeatureGroup(name="Parks")
folium.GeoJson(
    gdf_parkanlagen,
    style_function=lambda feature: {
        "color": "black",
        "weight": 0.2,
        "fillOpacity": 0.9,
        "fillColor": "green"
    }
).add_to(park_layer)
park_layer.add_to(m)

# Gr√ºnfl√§chen hinzuf√ºgen
gruen_layer = folium.FeatureGroup(name="Freizeit- und Erholungsfl√§chen")
folium.GeoJson(
    gdf_gruen_shape,
    style_function=lambda feature: {
        "color": "black",
        "weight": 0.2,
        "fillOpacity": 0.9,
        "fillColor": "green"
    }
).add_to(gruen_layer)
gruen_layer.add_to(m)

# Bahnlinien layer hinzuf√ºgen
bahn_layer = folium.FeatureGroup(name="Bahnlinien", show=True)

for _, row in rails.iterrows():
    geom = row.geometry
    if geom is None:
        continue

    if geom.geom_type == "LineString":
        coords = [(y, x) for x, y in geom.coords]
        folium.PolyLine(
            locations=coords,
            color="darkred",
            weight=4,
            opacity=0.8
        ).add_to(bahn_layer)

    elif geom.geom_type == "MultiLineString":
        for part in geom:
            coords = [(y, x) for x, y in part.coords]
            folium.PolyLine(
                locations=coords,
                color="darkred",
                weight=4,
                opacity=0.8
            ).add_to(bahn_layer)

bahn_layer.add_to(m)

# Wohnadressen nach "cluster" farb-codiert oben drauf


# Schaltbare Layer
folium.LayerControl(collapsed=False).add_to(m)
del gdf_laerm_karte  # Speicher freigeben
print(gdf.shape)
m

# Scoring / Punktesystem
Hier werden z-Werte zu alle **Einflussfaktoren** gebildet, um die Abweichung einer Auspr√§gung vom Standard (im betrachteten Gebiet) zu erfassen. Weiterhin werden die **Gewichte** festgelegt, mit denen die Faktoren in die Wohnlagenbewertung eingehen.

In [None]:
from scipy.stats import zscore

# ---------------------------------------
# 1) Numerische & bin√§re Features
# ---------------------------------------
numeric_features = (
        ["center_distance"] +
        haltestellen_attribute +
        headway_attribute +
        einzelhandel_attribute +
        laerm_attribute +
        kitas_attribute +
        grundschulen_attribute +
        medzentren_attribute +
        gruen_attribute
)

binary_features = ["behind_rail_from_center"]

score_vars = numeric_features + binary_features

# Masken nur auf numerische Daten!
mask_all = gdf[numeric_features].notna().all(axis=1)

# ---------------------------------------
# 2) Z-Scores f√ºr numerische Variablen
#    (immer: hoch = gut!)
# ---------------------------------------

# Zentralit√§t
gdf.loc[mask_all, "z_centrality"] = -zscore(gdf.loc[mask_all, "center_distance"])

# Einzelhandel
gdf.loc[mask_all, "z_einzelhandel_distance"]    = -zscore(gdf.loc[mask_all, "einzelhandel_min_distance"])
gdf.loc[mask_all, "z_einzelhandel_near_500"]    =  zscore(gdf.loc[mask_all, "einzelhandel_500m_count"])
gdf.loc[mask_all, "z_einzelhandel_near_800"]    =  zscore(gdf.loc[mask_all, "einzelhandel_800m_count"])
gdf.loc[mask_all, "z_einzelhandel_near_1000"]   =  zscore(gdf.loc[mask_all, "einzelhandel_1000m_count"])

# L√§rm
gdf.loc[mask_all, "z_laerm_index_tag"]          = -zscore(gdf.loc[mask_all, "laerm_index_tag"])

# Kitas
gdf.loc[mask_all, "z_kita_distance"]            = -zscore(gdf.loc[mask_all, "kitas_min_distance"])
gdf.loc[mask_all, "z_kita_near_500"]            =  zscore(gdf.loc[mask_all, "kitas_count_within_500m"])
gdf.loc[mask_all, "z_kita_near_800"]            =  zscore(gdf.loc[mask_all, "kitas_count_within_800m"])
gdf.loc[mask_all, "z_kita_near_1000"]           =  zscore(gdf.loc[mask_all, "kitas_count_within_1000m"])

# Grundschulen
gdf.loc[mask_all, "z_grundschulen_distance"]    = -zscore(gdf.loc[mask_all, "grundschulen_min_distance_m"])
gdf.loc[mask_all, "z_grundschulen_near_500"]    =  zscore(gdf.loc[mask_all, "grundschulen_count_within_500m"])
gdf.loc[mask_all, "z_grundschulen_near_800"]    =  zscore(gdf.loc[mask_all, "grundschulen_count_within_800m"])
gdf.loc[mask_all, "z_grundschulen_near_1000"]   =  zscore(gdf.loc[mask_all, "grundschulen_count_within_1000m"])

# Mobilit√§t
gdf.loc[mask_all, "z_haltestelle_distance"]     = -zscore(gdf.loc[mask_all, "haltestellen_min_distance"])
gdf.loc[mask_all, "z_haltestellen_count_within_500m"] =  zscore(gdf.loc[mask_all, "haltestellen_count_within_500m"])
gdf.loc[mask_all, "z_haltestellen_count_within_800m"] =  zscore(gdf.loc[mask_all, "haltestellen_count_within_800m"])
#gdf.loc[mask_all, "z_headway_score"]            = -zscore(gdf.loc[mask_all, "headway_avg"]) # vorl√§ufig nicht in der Bewertung

# Medizinische Versorgung
gdf.loc[mask_all, "z_medzentrum_distance"]      = -zscore(gdf.loc[mask_all, "medzentren_min_distance_m"])
gdf.loc[mask_all, "z_medzentrum_near_500"]      =  zscore(gdf.loc[mask_all, "medzentren_count_within_500m"])
gdf.loc[mask_all, "z_medzentrum_near_800"]      =  zscore(gdf.loc[mask_all, "medzentren_count_within_800m"])
gdf.loc[mask_all, "z_medzentrum_near_1000"]     =  zscore(gdf.loc[mask_all, "medzentren_count_within_1000m"])

# Gr√ºnfl√§chen
gdf.loc[mask_all, "z_gruen_distance"]           = -zscore(gdf.loc[mask_all, "gruen_min_distance"])
gdf.loc[mask_all, "z_gruen_near_500"]           =  zscore(gdf.loc[mask_all, "gruen_count_within_500m"])
gdf.loc[mask_all, "z_gruen_near_800"]           =  zscore(gdf.loc[mask_all, "gruen_count_within_800m"])
gdf.loc[mask_all, "z_gruen_near_1000"]          =  zscore(gdf.loc[mask_all, "gruen_count_within_1000m"])

def safe_z(x):
    z = zscore(x)
    # Falls Varianz = 0 oder einzelne Werte fehlen:
    return np.where(np.isfinite(z), z, 0)

# ---------------------------------------
# Gro√üfl√§chen
# Gewerbe (Industrie) -> weiter weg = gut
mask_mm_gewerbe = gdf["gross_gewerbe_distance"].notna()
gdf.loc[mask_mm_gewerbe, "z_gross_gewerbe_distance"] = zscore(gdf.loc[mask_mm_gewerbe, "gross_gewerbe_distance"])

# Gruen -> n√§her = gut
mask_mm_gruen = gdf["gross_gruen_distance"].notna()
gdf.loc[mask_mm_gruen, "z_gross_gruen_distance"]    = -zscore(gdf.loc[mask_mm_gruen, "gross_gruen_distance"])

# Sonstiges (Wasser) -> n√§her = gut
mask_mm_sonst = gdf["gross_sonstiges_distance"].notna()
gdf.loc[mask_mm_sonst, "z_gross_sonstiges_distance"] = -zscore(gdf.loc[mask_mm_sonst, "gross_sonstiges_distance"])
# ---------------------------------------

# ---------------------------------------
# 3) Score-Dimensionen (alle Summen = 1.0)
# ---------------------------------------
### 3.1 Zentralit√§t (1 Dimension, Summe = 1.0)
mask_mm_central = gdf["center_distance"].notna()
gdf.loc[mask_mm_central, "score_zentralitaet"] = gdf.loc[mask_mm_central, "z_centrality"]


### 3.2 Versorgung (Summe = 1.0)
mask_mm_versorgung = gdf[[
    "einzelhandel_min_distance",
    "einzelhandel_500m_count",
    "einzelhandel_800m_count",
    "einzelhandel_1000m_count",
    "medzentren_min_distance_m",
    "medzentren_count_within_500m",
    "medzentren_count_within_800m",
    "medzentren_count_within_1000m"
]].notna().all(axis=1)

gdf.loc[mask_mm_versorgung, "score_versorgung"] = (
      0.20 * gdf.loc[mask_mm_versorgung, "z_einzelhandel_distance"]
    + 0.10 * gdf.loc[mask_mm_versorgung, "z_einzelhandel_near_500"]
    + 0.10 * gdf.loc[mask_mm_versorgung, "z_einzelhandel_near_800"]
    + 0.10 * gdf.loc[mask_mm_versorgung, "z_einzelhandel_near_1000"]
    + 0.20 * gdf.loc[mask_mm_versorgung, "z_medzentrum_distance"]
    + 0.10 * gdf.loc[mask_mm_versorgung, "z_medzentrum_near_500"]
    + 0.10 * gdf.loc[mask_mm_versorgung, "z_medzentrum_near_800"]
    + 0.10 * gdf.loc[mask_mm_versorgung, "z_medzentrum_near_1000"]
)


### 3.3 Mobilit√§t (Summe = 1.0)
mask_mm_mobilitaet = gdf[[
    "haltestellen_min_distance",
    "haltestellen_count_within_500m",
    "haltestellen_count_within_800m"
]].notna().all(axis=1)

gdf.loc[mask_mm_mobilitaet, "score_mobilitaet"] = (
      0.80 * gdf.loc[mask_mm_mobilitaet, "z_haltestelle_distance"]
    + 0.10 * gdf.loc[mask_mm_mobilitaet, "z_haltestellen_count_within_500m"]
    + 0.10 * gdf.loc[mask_mm_mobilitaet, "z_haltestellen_count_within_800m"]
)


### 3.4 Bildung (Summe = 1.0)
mask_mm_bildung = gdf[[
    "kitas_min_distance",
    "kitas_count_within_500m",
    "kitas_count_within_800m",
    "kitas_count_within_1000m",
    "grundschulen_min_distance_m",
    "grundschulen_count_within_500m",
    "grundschulen_count_within_800m",
    "grundschulen_count_within_1000m"
]].notna().all(axis=1)

gdf.loc[mask_mm_bildung, "score_bildung"] = (
      0.15 * gdf.loc[mask_mm_bildung, "z_kita_distance"]
    + 0.10 * gdf.loc[mask_mm_bildung, "z_kita_near_500"]
    + 0.10 * gdf.loc[mask_mm_bildung, "z_kita_near_800"]
    + 0.10 * gdf.loc[mask_mm_bildung, "z_kita_near_1000"]
    + 0.15 * gdf.loc[mask_mm_bildung, "z_grundschulen_distance"]
    + 0.10 * gdf.loc[mask_mm_bildung, "z_grundschulen_near_500"]
    + 0.10 * gdf.loc[mask_mm_bildung, "z_grundschulen_near_800"]
    + 0.10 * gdf.loc[mask_mm_bildung, "z_grundschulen_near_1000"]
)


### 3.5 Umwelt (Summe = 1.0)
# Umwelt (Summe = 1.0)
mask_mm_umwelt = gdf[[
    "gruen_min_distance",
    "gruen_count_within_500m",
    "gruen_count_within_800m",
    "gruen_count_within_1000m",
    "laerm_index_tag",
    "z_gross_gewerbe_distance",
    "z_gross_gruen_distance",
    "z_gross_sonstiges_distance"
]].notna().all(axis=1)
print(gdf[[
    "gruen_min_distance",
    "gruen_count_within_500m",
    "gruen_count_within_800m",
    "gruen_count_within_1000m",
    "laerm_index_tag",
    "z_gross_gewerbe_distance",
    "z_gross_gruen_distance",
    "z_gross_sonstiges_distance"
]].notna())

gdf.loc[mask_mm_umwelt, "score_umwelt"] = (
      0.30 * gdf.loc[mask_mm_umwelt, "z_gruen_distance"]
    + 0.10 * gdf.loc[mask_mm_umwelt, "z_gruen_near_500"]
    + 0.10 * gdf.loc[mask_mm_umwelt, "z_gruen_near_800"]
    + 0.05 * gdf.loc[mask_mm_umwelt, "z_gruen_near_1000"]
    + 0.15 * gdf.loc[mask_mm_umwelt, "z_laerm_index_tag"]
    + 0.10 * gdf.loc[mask_mm_umwelt, "z_gross_gewerbe_distance"]     # Industrie
    + 0.10 * gdf.loc[mask_mm_umwelt, "z_gross_gruen_distance"]       # Gr√ºn
    + 0.10 * gdf.loc[mask_mm_umwelt, "z_gross_sonstiges_distance"]   # Wasser
)

# ---------------------------------------
# 4) Gesamt-Score (alle Dimensionen verf√ºgbar)
# ---------------------------------------
score_all_vars = [
    "score_zentralitaet",
    "score_bildung",
    "score_versorgung",
    "score_umwelt",
    "score_mobilitaet"
]

mask_all_scores = gdf[score_all_vars].notna().all(axis=1)

gdf.loc[mask_all_scores, "score_total"] = (
      0.20 * gdf.loc[mask_all_scores, "score_zentralitaet"]
    + 0.20 * gdf.loc[mask_all_scores, "score_bildung"]
    + 0.20 * gdf.loc[mask_all_scores, "score_versorgung"]
    + 0.20 * gdf.loc[mask_all_scores, "score_umwelt"]
    + 0.20 * gdf.loc[mask_all_scores, "score_mobilitaet"]
)

print("Anzahl g√ºltiger Gesamt-Scores:", gdf["score_total"].notna().sum())


# Validierung

Im Folgenden werden die Z-Variablen genutzt, um mittels K-Means-Clustering Wohnlagen zu identifizieren. Zun√§chst wird die optimale Clusteranzahl mittels Elbow-Methode und Silhouetten-Analyse bestimmt. Danach wird das finale K-Means-Modell mit der gew√§hlten Clusteranzahl trainiert und die Wohnlagen den Adressen zugewiesen.

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# ---------------------------------------
# Z-Variablen aus allen Kategorien
# ---------------------------------------
z_vars = [
    # Zentralit√§t
    "z_centrality",

    # Einzelhandel
    "z_einzelhandel_distance",
    "z_einzelhandel_near_500",
    "z_einzelhandel_near_800",
    "z_einzelhandel_near_1000",

    # L√§rm
    "z_laerm_index_tag",

    # Kitas
    "z_kita_distance",
    "z_kita_near_500",
    "z_kita_near_800",
    "z_kita_near_1000",

    # Grundschulen
    "z_grundschulen_distance",
    "z_grundschulen_near_500",
    "z_grundschulen_near_800",
    "z_grundschulen_near_1000",

    # Haltestellen / Headway
    "z_haltestelle_distance",
    "z_haltestellen_count_within_500m",
    "z_haltestellen_count_within_800m",
    #"z_headway_score",

    # MedZentren
    "z_medzentrum_distance",
    "z_medzentrum_near_500",
    "z_medzentrum_near_800",
    "z_medzentrum_near_1000",

    # Gr√ºnfl√§chen
    "z_gruen_distance",
    "z_gruen_near_500",
    "z_gruen_near_800",
    "z_gruen_near_1000",

    # Distanzen zu Gro√üfl√§chen
    "z_gross_gewerbe_distance",
    "z_gross_gruen_distance",
    "z_gross_sonstiges_distance",
]

# ---------------------------------------
# Validierung
# ---------------------------------------
missing = [c for c in z_vars if c not in gdf.columns]
if missing:
    raise ValueError(f"Diese Z-Variablen fehlen im gdf: {missing}")

# ---------------------------------------
# Datenmatrix: nur vollst√§ndige Zeilen
# ---------------------------------------
X = gdf[z_vars].dropna().values

# ---------------------------------------
# Elbow-Methode
# ---------------------------------------
inertia = []
cluster_range = range(2, 20)

for k in cluster_range:
    model = KMeans(n_clusters=k, random_state=42)
    model.fit(X)
    inertia.append(model.inertia_)

plt.figure(figsize=(8,5))
plt.plot(cluster_range, inertia, marker='o')
plt.title("Elbow-Methode: KMeans-Inertia vs. Clusteranzahl")
plt.xlabel("Anzahl Cluster (k)")
plt.ylabel("Inertia (Distanz innerhalb der Cluster)")
plt.xticks(cluster_range)
plt.grid(True)
plt.show()

In [None]:
# Silhouetten-Analyse
from sklearn.metrics import silhouette_score

silhouettes = []

for k in cluster_range:
    model = KMeans(n_clusters=k, random_state=42)
    labels = model.fit_predict(X)
    score = silhouette_score(X, labels, random_state=42)
    silhouettes.append(score)

plt.figure(figsize=(8,5))
plt.plot(cluster_range, silhouettes, marker='o', color="green")
plt.title("Silhouetten-Score pro Clusteranzahl")
plt.xlabel("Anzahl Cluster (k)")
plt.ylabel("Durchschn. Silhouetten-Koeffizient")
plt.xticks(cluster_range)
plt.grid(True)
plt.show()


In [None]:
NUMBER_OF_CLUSTERS = 8

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import numpy as np

k = NUMBER_OF_CLUSTERS
seeds = [0, 1, 2, 3, 4, 5, 42, 123]

results = []

for seed in seeds:
    km = KMeans(
        n_clusters=k,
        init="k-means++",
        random_state=seed,
        n_init="auto",
        max_iter=300,
    ).fit(X)
    labels = km.labels_
    inertia = km.inertia_
    sil = silhouette_score(X, labels)
    results.append((seed, inertia, sil))

for seed, inertia, sil in results:
    print(f"seed={seed}, inertia={inertia:.0f}, silhouette={sil:.3f}")

In [None]:
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd

# ----------------------------
# 1) KMeans
# ----------------------------
X = gdf[z_vars].dropna().values  # vollst√§ndige Zeilen
model = KMeans(n_clusters=NUMBER_OF_CLUSTERS, random_state=4).fit(X)

mask_complete = gdf[z_vars].notna().all(axis=1)
gdf.loc[mask_complete, "cluster"] = model.labels_

cluster_centers = pd.DataFrame(model.cluster_centers_, columns=z_vars)
cluster_centers.index.name = "Cluster"
print(cluster_centers.round(2))

# ----------------------------
# 2) PCA (3 Komponenten)
# ----------------------------
pca3 = PCA(n_components=3, random_state=42)

X_pca3 = pca3.fit_transform(X)
centers_pca3 = pca3.transform(cluster_centers.to_numpy())
print("Explained variance ratio (3 PCs):", pca3.explained_variance_ratio_)

# Datenframe f√ºr Punkte
df_pca = pd.DataFrame({
    "PC1": X_pca3[:, 0],
    "PC2": X_pca3[:, 1],
    "PC3": X_pca3[:, 2],
    "cluster": model.labels_
})

# Datenframe f√ºr Cluster-Zentren
df_centers = pd.DataFrame({
    "PC1": centers_pca3[:, 0],
    "PC2": centers_pca3[:, 1],
    "PC3": centers_pca3[:, 2],
    "cluster": range(NUMBER_OF_CLUSTERS)
})

# ----------------------------
# 3) Interaktive 3D-Plotly-Grafik
# ----------------------------
colors = px.colors.qualitative.Dark24  # 24 Farben ‚Üí genug Reserve

fig = go.Figure()

# Clusterpunkte einzeichnen
for cl in sorted(df_pca["cluster"].unique()):
    sub = df_pca[df_pca.cluster == cl]
    fig.add_trace(go.Scatter3d(
        x=sub["PC1"],
        y=sub["PC2"],
        z=sub["PC3"],
        mode="markers",
        marker=dict(
            size=3.5,
            color=colors[cl % len(colors)],
            opacity=0.65
        ),
        name=f"Cluster {cl}"
    ))

# Clusterzentren
fig.add_trace(go.Scatter3d(
    x=df_centers["PC1"],
    y=df_centers["PC2"],
    z=df_centers["PC3"],
    mode="markers",
    marker=dict(
        size=6,
        color="black",
        symbol="x",
        opacity=0.9
    ),
    name="Cluster-Zentren"
))

# Layout
fig.update_layout(
    title="Hauptkomponentenprojektion (PCA) ‚Äì KMeans-Cluster",
    scene=dict(
        xaxis_title="PC1",
        yaxis_title="PC2",
        zaxis_title="PC3"
    ),
    height=750,
    legend=dict(itemsizing="constant")
)

fig.show()


In [None]:
import folium

mask = gdf["lat"].notna() & gdf["lon"].notna() & gdf["cluster"].notna()
gdf = gdf.loc[mask].copy()
gdf["cluster"] = gdf["cluster"].astype(int)

def get_cluster_colors(n_clusters):
    cmap = plt.get_cmap("tab20")   # 20 unterscheidbare Farben
    colors = {
        i: mcolors.to_hex(cmap(i % 20))
        for i in range(n_clusters)
    }
    return colors

cluster_colors = get_cluster_colors(NUMBER_OF_CLUSTERS)

m = folium.Map(location=CITY_CENTER, zoom_start=13, tiles="cartodbpositron")

# Add layer markers
add_markers_from_csv(map_obj=m, csv_path="out/einzelhandel_geocoded.csv", color="blue", icon="shopping-cart", layer_name="Einzelhandel")
add_markers_from_csv(map_obj=m, csv_path="out/grundschulen_geocoded.csv", color="green", icon="graduation-cap", layer_name="Grundschulen")
add_markers_from_csv(map_obj=m, csv_path="out/kitas_geocoded.csv", color="beige", icon="child", layer_name="Kitas")
add_markers_from_csv(map_obj=m,csv_path="out/haltestellen_geocoded.csv",color="lightgray", icon="bus", layer_name="Haltestellen")
add_medcenter_markers(map_obj=m, csv_path="out/medzentren_geocoded.csv")

valid_kita_json = gdf["kitas_route"].apply(lambda x: isinstance(x, str))
print("G√ºltige JSON-Eintr√§ge:", valid_kita_json.sum(), "/", len(gdf))

for _, r in gdf.iterrows():
    c = cluster_colors.get(r.cluster, "#666666")
    folium.CircleMarker(
        location=[r.lat, r.lon],
        radius=3,
        color=c,
        fill=True,
        fill_color=c,
        fill_opacity=0.85,
        tooltip=f"{r.Stra√üenname} {r.Hsnr} ‚Äì Cluster {r.cluster}"
    ).add_to(m)

folium.LayerControl().add_to(m)
m

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Nur Spalten verwenden, die im gdf enthalten sind
cols = [col for col in z_vars if col in gdf.columns]

# Korrelationsmatrix berechnen
corr = gdf[cols].corr()

# Plot
plt.figure(figsize=(20, 16))
sns.heatmap(corr, annot=True, cmap="vlag", center=0)
plt.title("Korrelationsmatrix der Z-Scores")
plt.tight_layout()
plt.show()


Die Korrelationsanalyse zeigt, dass einige Variablen stark korreliert sind, z. B. die verschiedenen Distanzen zu Einzelhandelsstandorten und die Anzahl der Standorte in der N√§he. Dies ist zu erwarten, da Adressen, die n√§her an Einzelhandelsstandorten liegen, tendenziell auch mehr Standorte in ihrer Umgebung haben. Gleichzeitig ist die Zentralit√§t erwartungskonform leicht mit der Verf√ºgbarkeit von Nahversorgung (Einkaufsm√∂glichkeiten, medizinische Versorgung, Kitas) korreliert. Diese Erkenntnisse sind Hinweise auf die Plausibilit√§t des Modells, wobei gleichzeitg keine perfekten Korrelationen vorliegen, die auf Redundanzen hindeuten w√ºrden. Alle bisher betrachteten Kriterien scheinen relevante und unterschiedliche Aspekte der Wohnlage zu erfassen.

## Interaktive Karte zur Bewertung einzelner Adressen

In [None]:
import ipywidgets as widgets
from IPython.display import display
import matplotlib.pyplot as plt
import numpy as np
import base64
from io import BytesIO

# Widget f√ºr Adresseingabe
text_input = widgets.Text(
    value='Kurstra√üe 15',
    placeholder='Stra√üenname Hausnummer',
    description='Adresse:',
    disabled=False
)

button = widgets.Button(description="Zeige Routen")
output = widgets.Output()

# Hilfsfunktion
def load_geojson(geo):
    """Konvertiert GeoJSON-Felder sicher in ein Python-Dict."""
    if geo is None:
        return None
    if isinstance(geo, float):  # NaN
        return None
    if isinstance(geo, dict):   # bereits dict
        return geo
    if isinstance(geo, str) and geo.strip() == "":
        return None
    if isinstance(geo, str):
        try:
            return json.loads(geo)
        except Exception:
            return None
    return None

def scale_score(z):
    """Skaliert Z-Score linear auf 0 - 10 f√ºr B√ºrgerverst√§ndlichkeit."""
    if pd.isna(z):
        return None
    score = (z + 3) / 6 * 10
    return max(0, min(10, round(score, 1)))

gdf["score_total_scaled"]        = gdf["score_total"].apply(scale_score)
gdf["score_zentralitaet_scaled"] = gdf["score_zentralitaet"].apply(scale_score)
gdf["score_versorgung_scaled"]   = gdf["score_versorgung"].apply(scale_score)
gdf["score_bildung_scaled"]      = gdf["score_bildung"].apply(scale_score)
gdf["score_mobilitaet_scaled"]   = gdf["score_mobilitaet"].apply(scale_score)
gdf["score_umwelt_scaled"]       = gdf["score_umwelt"].apply(scale_score)

def score_color(value):
    if value is None:
        return "gray"
    if value >= 8:
        return "#2ecc71"   # gr√ºn
    if value >= 5:
        return "#f1c40f"   # gelb
    return "#e74c3c"        # rot

# Funktion zum Einf√ºgen einer Route + Zielmarker
def add_route(m, geojson_raw, color, label, icon, distance=None):
    geo = load_geojson(geojson_raw)
    if not geo:
        return  # keine Route vorhanden

    if geo.get("type") == "LineString":
        try:
            coords = [(y, x) for x, y in geo["coordinates"]]
        except Exception as e:
            print(f"Fehler beim Lesen der Koordinaten f√ºr {label}: {e}")
            return

        distance_text = f" ‚Äì {int(distance)} m" if distance else ""
        tooltip_text = f"{label}{distance_text}"

        folium.PolyLine(
            locations=coords,
            color=color,
            weight=4,
            opacity=0.9,
            tooltip=tooltip_text
        ).add_to(m)

        # Zielpunkt markieren
        end = coords[-1]
        folium.Marker(
            location=end,
            icon=folium.Icon(color=color, icon=icon, prefix="fa"),
            tooltip=f"Ziel: {label}{distance_text}"
        ).add_to(m)

# Funktion zum Anzeigen der Karte
def show_routes(_=None):
    output.clear_output(wait=True)
    with output:
        addr = text_input.value.strip().lower()

        filtered = gdf[gdf["Adresse_merge"].str.lower().str.contains(addr)].copy()
        if filtered.empty:
            print("Keine passende Adresse gefunden.")
            return

        row = filtered.iloc[0]

        m = folium.Map(
            tiles="cartodbpositron",
            location=CITY_CENTER,
            zoom_start=12,
        )

        # Farbige Score-Badges
        def badge(label, val):
            col = score_color(val)
            return f"<div style='padding:4px 8px;margin:2px;background:{col};color:white;border-radius:4px;display:inline-block;'>{label}: {val}</div>"

        popup_html = f"""
        <div style="width:420px;font-family:Arial, sans-serif;">
          <h2>{row['Stra√üenname']} {row['Hsnr']}</h2>

          <h3>Gesamtbewertung</h3>
          {badge("Gesamt", row.get('score_total_scaled'))}

          <h3>Teilbereiche</h3>
          {badge("Zentralit√§t", row.get('score_zentralitaet_scaled'))}
          {badge("Versorgung", row.get('score_versorgung_scaled'))}
          {badge("Bildung", row.get('score_bildung_scaled'))}
          {badge("Mobilit√§t", row.get('score_mobilitaet_scaled'))}
          {badge("Umwelt", row.get('score_umwelt_scaled'))}


          <h3 style="margin-top:15px;">Fu√ül√§ufige Entfernungen</h3>
          <ul>
            <li><b>Entfernung Zentrum:</b> {int(row.get("center_distance",0))} m</li>
            <li><b>N√§chste Haltestelle:</b> {int(row.get("haltestellen_min_distance",0))} m</li>
            <li><b>N√§chster Einzelhandel:</b> {int(row.get("einzelhandel_min_distance",0))} m</li>
            <li><b>N√§chste Kita:</b> {int(row.get("kitas_min_distance",0))} m</li>
            <li><b>N√§chste Grundschule:</b> {int(row.get("grundschulen_min_distance_m",0))} m</li>
            <li><b>Med. Zentrum:</b> {int(row.get("medzentren_min_distance_m",0))} m</li>
            <li><b>Gr√ºnfl√§che:</b> {int(row.get("gruen_min_distance",0))} m</li>
          </ul>
        </div>
        """

        popup = folium.Popup(popup_html, max_width=450)

        marker = folium.Marker(
            location=[row.lat, row.lon],
            popup=popup,
            icon=folium.Icon(color="blue", icon="info-sign")
        ).add_to(m)

        # Popup automatisch √∂ffnen
        marker.add_child(folium.Popup(popup_html, max_width=450))
        marker.add_child(folium.map.Tooltip(""))  # kein Tooltip

        # Popup sofort anzeigen
        marker._popup = popup

        # Startmarker
        folium.Marker(
            location=[row.lat, row.lon],
            popup=popup_html,
        ).add_to(m)

        # ‚ñ∏ Routen einf√ºgen
        add_route(m, row.get("center_route"), "lightgray", "Weg zum Zentrum", "arrows-to-circle", row.get("center_distance"))
        add_route(m, row.get("kitas_route"), "cadetblue", "N√§chste Kita", "child", row.get("kitas_min_distance"))
        add_route(m, row.get("grundschulen_route"), "cadetblue", "N√§chste Grundschule", "graduation-cap", row.get("grundschulen_min_distance_m"))
        add_route(m, row.get("haltestellen_route"), "beige", "N√§chste Haltestelle", "bus", row.get("haltestellen_min_distance"))
        add_route(m, row.get("medzentren_route"), "red", "N√§chstes Medizinisches Zentrum", "staff-snake", row.get("medzentren_min_distance_m"))
        add_route(m, row.get("einzelhandel_route"), "purple", "N√§chster Einzelhandel", "shop", row.get("einzelhandel_min_distance"))
        add_route(m, row.get("gruen_route"), "darkgreen", "N√§chste Freizeit- und Erholungsfl√§che", "tree", row.get("gruen_min_distance"))

        display(m)

# Button-Event
button.on_click(show_routes)

# UI anzeigen
display(text_input, button, output)

# R√§umliches Clustering
Ein Ziel der Analyse ist die Entwicklung zusammenh√§ngender Gebiete, die einer gemeinsamen Wohnlage zugeordnet werden k√∂nnen. Damit sollen "Insellagen", also mehrere abgeschnittene Bereiche mit derselben Wohnlage vermieden werden. Daf√ºr wenden wir im Folgenden eine Gl√§ttung mit dem SKATER-Ansatz an (vgl. [Assun√ß√£o et al. 2006](https://www.tandfonline.com/doi/abs/10.1080/13658810600665111])).

In [None]:
from libpysal import weights
from libpysal.weights import KNN
from spopt.region import Skater
from libpysal.weights import DistanceBand

# Metrische Projektion f√ºr korrekte Berechnung
gdf = gdf.to_crs(epsg=32633)

# Index zur√ºcksetzen
gdf.reset_index(drop=True)

z_vars = [
    'z_centrality',
    'z_einzelhandel_distance',
    'z_laerm_index_tag',
    'z_kita_distance',
    'z_grundschulen_distance',
    'z_haltestelle_distance',
    'z_medzentrum_distance',
    'z_gruen_distance',
    #'z_headway_score',
    #'z_gross_gewerbe_distance',
    #'z_gross_sonstiges_distance',
    #'z_gross_gruen_distance'
]

# Erzeuge Gewichtsmatrix
W = weights.contiguity.Queen.from_dataframe(gdf, use_index=True)

print(f"n_components: {W.n_components}")
print(f"W.component_labels: {W.component_labels}")
print(f"Inseln in W: {W.islands}")

sk = Skater(
    gdf, W, z_vars,
    n_clusters=NUMBER_OF_CLUSTERS,
    islands = "ignore"
)
sk.solve()

gdf["cluster_skater"] = sk.labels_

In [None]:
# plot histogram of form [(np.int64(0), np.int64(3)), (np.int64(1), np.int64(4)), (np.int64(2), np.int64...
import matplotlib.pyplot as plt
cluster_counts = gdf["cluster_skater"].value_counts().sort_index()
plt.figure(figsize=(10,6))
plt.bar(cluster_counts.index.astype(str), cluster_counts.values, color='skyblue')
plt.xlabel('Cluster')
plt.ylabel('Anzahl Adressen')
plt.title('Anzahl der Adressen pro Cluster (SKATER)')
plt.xticks(cluster_counts.index.astype(str))
plt.grid(axis='y')
plt.show()

## Cluster-Karte

In [None]:
import folium
import geopandas as gpd
import pandas as pd

# Daten laden & CRS vereinheitlichen
gdf_quartiere = gpd.read_file("data/Quartiere/2024_Quartiere.gpkg")
gdf_ortsteile = gpd.read_file("data/ortsteile_brandenburg.json", bbox=CITY_BOUNDING_BOX)
gdf_quartiere = gdf_quartiere.to_crs(4326)
gdf_ortsteile.drop(columns=["otl_aktualitaet"], inplace=True, errors="ignore") # Karte will keine Timestamps!
gdf = gdf.to_crs(4326)

assert gdf.crs.to_epsg() == 4326
assert gdf_quartiere.crs.to_epsg() == 4326
assert gdf_ortsteile.crs.to_epsg() == 4326

# Spatial Join: Adressen -> Quartiere
# alte Spalten sicher entfernen
gdf = gdf.drop(columns=["index_right", "mietkatego", "mietkategorie", "bezeichnun", "quartier"], errors="ignore")
cols_to_drop = [col for col in gdf.columns if col.endswith("_quartier")]

gdf = gdf.drop(columns=cols_to_drop, errors="ignore")
gdf = gpd.sjoin(
    gdf,
    gdf_quartiere[["bezeichnun", "mietkatego", "geometry"]],
    how="left",
    predicate="within",
)

# Spatial Join: Adressen -> Ortsteile
# alte Spalten sicher entfernen
gdf = gdf.drop(columns=["index_right", "otl_name", "index_left", "otl_name_left", "otl_name_right"], errors="ignore")
gdf = gpd.sjoin(
    gdf,
    gdf_ortsteile[["otl_name", "geometry"]],
    how="left",
    predicate="within",
)

gdf = gdf.drop(columns=["index_right"])

gdf = gdf.rename(columns={
    "otl_name": "ortsteil",
    "bezeichnun": "quartier",
    "mietkatego": "mietkategorie"
})

m = folium.Map(location=CITY_CENTER, zoom_start=13, tiles="cartodbpositron")

# Ortsteile layer
folium.GeoJson(
    gdf_ortsteile,
    name="Ortsteile",
    style_function=lambda feature: {
        'fillColor': '#1f78b4',
        'color': '#1f78b4',
        'weight': 1,
        'fillOpacity': 0.10,
    },
    tooltip=folium.GeoJsonTooltip(
        fields=["otl_name"],
        aliases=["Ortsteil"],
        localize=True,
        sticky=True
    )
).add_to(m)

#  Quartiere layer
folium.GeoJson(
    gdf_quartiere,
    name="Quartiere",
    style_function=lambda feature: {
        'fillColor': 'orange',
        'color': 'orange',
        'weight': 1,
        'fillOpacity': 0.20,
    },
    tooltip=folium.GeoJsonTooltip(
        fields=["bezeichnun", "mietkatego"],
        aliases=["Quartier", "Mietkategorie"],
        localize=True,
        sticky=True
    )
).add_to(m)

# KMeans-Cluster einf√ºgen (zum Vergleich mit spatial-Ergebnis)
cluster_kmeans_layer = folium.FeatureGroup(name="Cluster (kMeans)", show=True)
for _, r in gdf.iterrows():
    c = cluster_colors.get(r.cluster, "#666666")
    folium.CircleMarker(
        location=[r.lat, r.lon],
        radius=3,
        color=c,
        fill=True,
        fill_color=c,
        fill_opacity=0.85,
        tooltip=f"{r.Stra√üenname} {r.Hsnr} ‚Äì Cluster {r.cluster}"
    ).add_to(cluster_kmeans_layer)
cluster_kmeans_layer.add_to(m)

# Clusterpunkte layer
cluster_skater_layer = folium.FeatureGroup(name="Cluster (SKATER)", show=True)
for _, r in gdf.iterrows():
    c = cluster_colors.get(r.cluster_skater, "#666666")
    folium.CircleMarker(
        location=[r.lat, r.lon],
        radius=3,
        color=c,
        fill=True,
        fill_color=c,
        fill_opacity=0.85,
        tooltip=f"{r.Stra√üenname} {r.Hsnr} ‚Äì Cluster {r.cluster_skater}"
    ).add_to(cluster_skater_layer)

cluster_skater_layer.add_to(m)

folium.LayerControl().add_to(m)
m

# Abgleich mit Ortsteilen, Quartieren und Mietkategorien
Zum Abgleich der ermittelten Wohnlagen mit bestehenden Strukturen werden die Cluster mit den Quartieren und Ortsteilen der Adressen sowie den Mietkategorien (sofern vorhanden) verglichen. In der Kreuztabelle k√∂nnen die Verteilungen der Cluster √ºber die verschiedenen r√§umlichen Einheiten analysiert werden.

In [None]:
# Kreuztabelle zu Quartieren
ct = pd.crosstab(gdf["quartier"], gdf["cluster_skater"], normalize="index")
plt.figure(figsize=(14,10))
sns.heatmap(ct, cmap="viridis", annot=False)
plt.title("Quartier vs. SKATER-Cluster (Zeilen normalize: Anteil pro Quartier)")
plt.xlabel("SKATER-Cluster")
plt.ylabel("Quartier")
plt.tight_layout()
plt.show()

Die Darstellung zeigt, wie sich die automatisch gebildeten SKATER-Cluster auf die bestehenden Wohnquartiere verteilen. Deutlich wird, dass mehrere Quartiere eine klare Dominanz einzelner Cluster aufweisen (z. B. Zentrum, Nord, G√∂rden oder Hohenst√ºcken), was auf eine vergleichsweise homogene interne Struktur schlie√üen l√§sst. Andere Quartiere, insbesondere jene mit gemischten Nutzungen oder gro√üen r√§umlichen Ausdehnungen, verteilen sich st√§rker auf mehrere Cluster. Diese Heterogenit√§t ist erwartbar und spiegelt eher die interne Vielfalt der Quartiere wider als Schw√§chen im Clustering. Insgesamt zeigt die Heatmap, dass die Clusterbildung bestehende r√§umliche Zusammenh√§nge gut trifft.

In [None]:
# Kreuztabelle zu Ortsteilen
ct = pd.crosstab(gdf["ortsteil"], gdf["cluster_skater"], normalize="index")

plt.figure(figsize=(12,8))
sns.heatmap(ct, cmap="magma", annot=False)
plt.title("Ortsteil vs. SKATER-Cluster")
plt.xlabel("SKATER-Cluster")
plt.ylabel("Ortsteil")
plt.tight_layout()
plt.show()

Die Zuordnung der SKATER-Cluster zu den Ortsteilen zeigt √ºberwiegend klare Muster. Viele Ortsteile werden √ºberwiegend einem oder zwei Clustern zugeordnet, was auf eine konsistente und funktional nachvollziehbare Lagecharakteristik schlie√üen l√§sst. Dies ist besonders bei peripheren oder d√∂rflichen Ortsteilen sichtbar, die sich typischerweise durch √§hnliche Infrastrukturausstattung und Distanzlagen auszeichnen. Gleichzeitig treten - abh√§ngig von Gr√∂√üe und Struktur des Ortsteils ‚Äì einzelne Streuungen auf, die auf interne Unterschiede oder √úbergangsbereiche hindeuten k√∂nnen. Insgesamt best√§tigt die Darstellung, dass die Cluster auch au√üerhalb des Kernstadtgebiets sinnvolle, zusammenh√§ngende Lagemuster abbilden.

In [None]:
ct = pd.crosstab(gdf["mietkategorie"], gdf["cluster_skater"], normalize="columns")

plt.figure(figsize=(10,6))
sns.heatmap(ct, cmap="coolwarm", annot=True, fmt=".2f")
plt.title("Mietkategorie vs. SKATER-Cluster (Spalten normalize)")
plt.xlabel("SKATER-Cluster")
plt.ylabel("Mietkategorie")
plt.tight_layout()
plt.show()


Die Kreuztabelle zwischen Mietkategorien und SKATER-Clustern dient der √∂konomischen Validierung des Modells. Hier zeigt sich, dass bestimmte Cluster deutlich mit niedrigeren, mittleren oder h√∂heren Mietkategorien assoziiert sind. Mehrere Cluster weisen eine hohe √úbereinstimmung mit spezifischen Mietniveaus auf, was darauf hinweist, dass die algorithmisch erkannten Lagegruppen auch sozio√∂konomische Unterschiede in der Wohnlagequalit√§t widerspiegeln. Streuungen in einzelnen Kategorien sind zu erwarten und spiegeln nat√ºrliche √úberg√§nge oder heterogene Stra√üenz√ºge wider. Insgesamt deutet die Struktur jedoch auf eine plausibel differenzierende Wirkung der Cluster hin.

In [None]:
# Alle relevanten Z-Variablen f√ºr die Clusterinterpretation
z_vars = [col for col in gdf.columns if col.startswith("z_")]

cluster_profile = gdf.groupby("cluster_skater")[z_vars].mean()

plt.figure(figsize=(18,10))
sns.heatmap(cluster_profile, cmap="coolwarm", center=0, annot=False)
plt.title("Feature-Profil der SKATER-Cluster (alle Z-Scores)")
plt.xlabel("Feature")
plt.ylabel("Cluster")
plt.tight_layout()
plt.show()


# Export-Pipeline

In [None]:
# Save GeoDataFrame with scores and clusters as CSV
import os

# -------------------------------------------
# 0) EXPORT-PFAD
# -------------------------------------------
EXPORT_PATH = "out"
EXPORT_FILE = os.path.join(EXPORT_PATH, "wohnlagen_brb.gpkg")

# Ordner anlegen
os.makedirs(EXPORT_PATH, exist_ok=True)

# Falls alte Datei existiert: l√∂schen (sonst doppelte Layer)
if os.path.exists(EXPORT_FILE):
    os.remove(EXPORT_FILE)
    print(f"Alte Datei gel√∂scht: {EXPORT_FILE}")

# -------------------------------------------
# 1) HILFSFUNKTION: Sicheres Schreiben
# -------------------------------------------

def write_layer(gdf, layer_name, crs=EPSG_4326):
    """
    Schreibt einen GeoDataFrame als Layer in die GeoPackage-Datei.
    Stellt sicher, dass das CRS korrekt ist.
    """
    if gdf is None or len(gdf) == 0:
        print(f"‚ö† Layer '{layer_name}' √ºbersprungen: leer oder None")
        return

    # CRS pr√ºfen
    if gdf.crs is None:
        print(f"‚ö† GDF '{layer_name}' hat kein CRS ‚Äì setze auf {crs}")
        gdf = gdf.set_crs(crs)
    elif gdf.crs.to_string() != crs:
        print(f"üîÑ Reprojiziere '{layer_name}' nach {crs}")
        gdf = gdf.to_crs(crs)

    # Schreiben
    gdf.to_file(EXPORT_FILE, layer=layer_name, driver="GPKG")
    print(f"‚úî Exportiert: {layer_name}  ‚Üí  {EXPORT_FILE}")


# -------------------------------------------
# 2) LAYER DEFINIEREN
# -------------------------------------------
layers = {
    "wohnadressen": gdf,
    "wohnlagen_score": gdf[[col for col in gdf.columns if col.startswith("score_") or col in ["geometry"]]],
    "cluster_skater": gdf[["cluster_skater", "geometry"]] if "cluster_skater" in gdf.columns else None,
    "cluster_kmeans": gdf[["cluster", "geometry"]] if "cluster" in gdf.columns else None,
    "lageklassen": gdf[["lageklasse", "score_total", "geometry"]] if "lageklasse" in gdf.columns else None,

    # Infrastruktur-Daten
    "bahnlinien": rails,
    "gruenflaechen": gdf_gruen_shape,
    #"laerm_lden": gdf_laerm,                      # falls du gdf_laerm hei√üt
    "haltestellen": gdf_haltestellen if 'gdf_haltestellen' in globals() else None,
    #"medzentren": gdf_medzentren if 'gdf_medzentren' in globals() else None,
    "kitas": gdf_kitas if 'gdf_kitas' in globals() else None,
    "grundschulen": gdf_grundschulen if 'gdf_grundschulen' in globals() else None,
    #"einzelhandel": gdf_einzelhandel if 'gdf_einzelhandel' in globals() else None,

    # Debug-Daten
    "bahnschnitt_debug": gdf[["behind_rail_from_center", "center_route", "geometry"]] if "behind_rail_from_center" in gdf.columns else None,
}

# -------------------------------------------
# 3) EXPORT AUSF√úHREN
# -------------------------------------------

print("üîÅ Exportiere alle Layer ‚Ä¶\n")

for layer_name, layer_gdf in layers.items():
    write_layer(layer_gdf, layer_name)

print("\nüéâ Fertig! Die GeoPackage-Datei liegt hier:")
print(f"üì¶ {EXPORT_FILE}")
