# 04b · Load – fact_abschluss_stats

**Zweck**  
Lädt die bereinigten Abschlussquoten-Fakten. in die Data-Warehouse-Faktentabelle. 
**Wichtigste Schritte**  
1. `tmp/abs_clean.parquet` lesen  
2. FK-Mapping für Geo- und Demografie-Dimensionen  
3. Spalte `aggregation_level` ggf. nachrüsten  
4. `TRUNCATE fact_abschluss_stats` → Bulk-Insert

**Ergebnis**  
Tablle `fact_abschluss_stats` neu erstellt/gefüllt.

In [None]:


# ───────────────────────── Imports & Konstanten ─────────────────────────
import pandas as pd
from pathlib import Path
from sqlalchemy import create_engine, text

TMP_FILE = Path("../../tmp/abs_clean.parquet")          # ggf. anpassen
ENGINE   = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    future=True, echo=False)

# ───── 0) Spalte aggregation_level sicherstellen ───────────────────────
with ENGINE.begin() as con:
    exists = con.scalar(text("""
        SELECT COUNT(*) FROM information_schema.COLUMNS
        WHERE table_schema = DATABASE()
          AND table_name   = 'fact_abschluss_stats'
          AND column_name  = 'aggregation_level'
    """))
    if exists == 0:
        con.exec_driver_sql("""
            ALTER TABLE fact_abschluss_stats
            ADD COLUMN aggregation_level VARCHAR(12) NOT NULL DEFAULT ''
        """)
        print("Spalte aggregation_level wurde angelegt.")
    else:
        print("Spalte aggregation_level existiert bereits – OK.")

# ───── 1) Parquet lesen ────────────────────────────────────────────────
df = pd.read_parquet(TMP_FILE)
print("Geladene Zeilen:", len(df))

# ───── 2) FK-Lookups aufbauen ──────────────────────────────────────────
DIM_TABLES = ["gemeindetyp", "sprachregion", "kanton",
              "geschlecht", "mig_status"]

lookups = {}
with ENGINE.begin() as con:
    for dim in DIM_TABLES:
        d = pd.read_sql(f"SELECT * FROM dim_{dim}", con)
        lookups[dim] = d.set_index(f"{dim}_code")[f"{dim}_id"].to_dict()

def fk(dim: str, val) -> int:
    if val is None or str(val).strip() == "":
        return 0                          # UNKNOWN
    return lookups[dim].get(str(val).strip().upper(), 0)

# ───── 3) Mapping anwenden ─────────────────────────────────────────────
mapped = []
for _, r in df.iterrows():
    mapped.append({
        "aggregation_level":  r["aggregation_level"],          # aus Sheet-Präfix
        "gemeindetyp_id":     fk("gemeindetyp",  r.get("gemeindetyp_code")),
        "sprachregion_id":    fk("sprachregion", r.get("sprachregion_code")),
        "kanton_id":          fk("kanton",       r.get("kanton_code")),
        "geschlecht_id":      fk("geschlecht",   r.get("geschlecht_code")),
        "mig_status_id":      fk("mig_status",   r.get("mig_status_code")),
        "cnt_tot_25j":            r["total_anz_25J"],
        "cnt_abschluesse":        r["total_anz_sekII_erstabschluss_25J"],
        "cnt_abschluss_lehre":    r["Lehre_anz_sekII_erstabschluss_25J"],
        "cnt_abschluss_allg":     r["allg_bildg_anz_sekII_erstabschluss_25J"],
        "rate_abschluss_tot":     r["total_%_sekII_erstabschluss_25J"],
        "rate_abschluss_lehre":   r["Lehre_%_sekII_erstabschluss_25J"],
        "rate_abschluss_allg":    r["allg_bildg_%_sekII_erstabschluss_25J"]
    })

fact_df = pd.DataFrame(mapped)
print("Nach Mapping:", len(fact_df), "Zeilen")

# ───── 4) Tabelle leeren & Insert ──────────────────────────────────────
with ENGINE.begin() as con:
    con.exec_driver_sql("TRUNCATE TABLE fact_abschluss_stats;")
    fact_df.to_sql("fact_abschluss_stats", con,
                   if_exists="append", index=False, method="multi")

print("✔ fact_abschluss_stats neu geladen:", len(fact_df), "Zeilen")


Spalte aggregation_level existiert bereits – OK.
Geladene Zeilen: 80
Nach Mapping: 80 Zeilen
✔ fact_abschluss_stats neu geladen: 80 Zeilen
