# 04b · Load – fact_abschluss_stats

**Zweck**  
Lädt die bereinigten Abschlussquoten-Fakten. in die Data-Warehouse-Faktentabelle. 
**Wichtigste Schritte**  
1. `tmp/abs_clean.parquet` lesen  
2. FK-Mapping für Geo- und Demografie-Dimensionen  
3. Spalte `aggregation_level` ggf. nachrüsten  
4. `TRUNCATE fact_abschluss_stats` → Bulk-Insert

**Ergebnis**  
Tablle `fact_abschluss_stats` neu erstellt/gefüllt.

In [22]:


# ───────────────────────── Imports & Konstanten ─────────────────────────
import pandas as pd
from pathlib import Path
from sqlalchemy import create_engine, text

TMP_FILE = Path("../../tmp/abs_clean.parquet")          # ggf. anpassen
ENGINE   = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    future=True, echo=False)

# ───── 0) Spalte aggregation_level sicherstellen ───────────────────────

# --- Schritt 2: fehlende Codes einmalig in Dim-Tabellen einfügen ----------
with ENGINE.begin() as con:
    # Geschlecht
    for c,b in [("M","Männer"),("F","Frauen")]:
        con.execute(text("""
            INSERT IGNORE INTO dim_geschlecht(geschlecht_code, geschlecht_bez)
            VALUES (:c, :b)
        """), {"c": c, "b": b})

    # Sprachregion
    for c,b in [("DE","Deutsch/Rätorom."),("FR","Französisch"),("IT","Italienisch")]:
        con.execute(text("""
            INSERT IGNORE INTO dim_sprachregion(sprachregion_code, sprachregion_bez)
            VALUES (:c, :b)
        """), {"c": c, "b": b})

    # Gemeindetyp
    for c,b in [("STADT","städtisch"),("INTER","intermediär"),("LAND","ländlich")]:
        con.execute(text("""
            INSERT IGNORE INTO dim_gemeindetyp(gemeindetyp_code, gemeindetyp_bez)
            VALUES (:c, :b)
        """), {"c": c, "b": b})

with ENGINE.begin() as con:
    exists = con.scalar(text("""
        SELECT COUNT(*) FROM information_schema.COLUMNS
        WHERE table_schema = DATABASE()
          AND table_name   = 'fact_abschluss_stats'
          AND column_name  = 'aggregation_level'
    """))
    if exists == 0:
        con.exec_driver_sql("""
            ALTER TABLE fact_abschluss_stats
            ADD COLUMN aggregation_level VARCHAR(12) NOT NULL DEFAULT ''
        """)
        print("Spalte aggregation_level wurde angelegt.")
    else:
        print("Spalte aggregation_level existiert bereits – OK.")

# ───── 1) Parquet lesen ────────────────────────────────────────────────
df = pd.read_parquet(TMP_FILE)
print("Geladene Zeilen:", len(df))

df["kohorte_id"] = 2022      # Bezugsjahr Abschlussquote


# ───── 2) FK-Lookups aufbauen ──────────────────────────────────────────
DIM_TABLES = ["gemeindetyp", "sprachregion", "kanton",
              "geschlecht", "mig_status"]

lookups = {}
with ENGINE.begin() as con:
    for dim in DIM_TABLES:
        d = pd.read_sql(f"SELECT * FROM dim_{dim}", con)
        lookups[dim] = d.set_index(f"{dim}_code")[f"{dim}_id"].to_dict()

def fk(dim: str, val) -> int:
    if val is None or str(val).strip() == "":
        return 0                          # UNKNOWN
    return lookups[dim].get(str(val).strip().upper(), 0)

# Ersatz-Code generieren, falls nur Klartext-Spalte vorhanden
if "geschlecht_code" not in df:
    df["geschlecht_code"] = df["kategorie"].where(df["merkmal"]=="Geschlecht") \
                                            .str[:1].str.upper()   # M / F
if "sprachregion_code" not in df:
    df["sprachregion_code"] = df["kategorie"].map({
        "deutschsprachige und rätoromanische Schweiz": "DE",
        "französischsprachige Schweiz": "FR",
        "italienischsprachige Schweiz": "IT"
    })
if "gemeindetyp_code" not in df:
    df["gemeindetyp_code"] = df["kategorie"].map({
        "städtische Gemeinde": "STADT",
        "intermediäre Gemeinde": "INTER",
        "ländliche Gemeinde": "LAND"
    })
if "mig_status_code" not in df:
    df["mig_status_code"] = df["kategorie"].factorize()[0]+1   # 1-N Dummy


# ───── 3) Mapping anwenden ─────────────────────────────────────────────
mapped = []
for _, r in df.iterrows():
    mapped.append({
        "aggregation_level":  r["aggregation_level"],          # aus Sheet-Präfix
        "gemeindetyp_id":     fk("gemeindetyp",  r.get("gemeindetyp_code")),
        "sprachregion_id":    fk("sprachregion", r.get("sprachregion_code")),
        "kanton_id":          fk("kanton",       r.get("kanton_code")),
        "geschlecht_id":      fk("geschlecht",   r.get("geschlecht_code")),
        "mig_status_id":      fk("mig_status",   r.get("mig_status_code")),
        "cnt_tot_25j":            r["total_anz_25J"],
        "cnt_abschluesse":        r["total_anz_sekII_erstabschluss_25J"],
        "cnt_abschluss_lehre":    r["Lehre_anz_sekII_erstabschluss_25J"],
        "cnt_abschluss_allg":     r["allg_bildg_anz_sekII_erstabschluss_25J"],
        "rate_abschluss_tot":     r["total_%_sekII_erstabschluss_25J"],
        "rate_abschluss_lehre":   r["Lehre_%_sekII_erstabschluss_25J"],
        "rate_abschluss_allg":    r["allg_bildg_%_sekII_erstabschluss_25J"]
    })

fact_df = pd.DataFrame(mapped)
print("Nach Mapping:", len(fact_df), "Zeilen")

# ───── 4) Tabelle leeren & Insert ──────────────────────────────────────
with ENGINE.begin() as con:
    con.exec_driver_sql("TRUNCATE TABLE fact_abschluss_stats;")
    fact_df.to_sql("fact_abschluss_stats", con,
                   if_exists="append", index=False, method="multi")

print("✔ fact_abschluss_stats neu geladen:", len(fact_df), "Zeilen")


Spalte aggregation_level existiert bereits – OK.
Geladene Zeilen: 80
Nach Mapping: 80 Zeilen
✔ fact_abschluss_stats neu geladen: 80 Zeilen


In [23]:
from sqlalchemy import create_engine
eng = create_engine("mysql+pymysql://root:voc_root@localhost/vocdata")

import pandas as pd
df = pd.read_sql("SELECT * FROM fact_abschluss_stats LIMIT 10", eng)
df.head()

df = pd.read_sql("SELECT * FROM fact_abschluss_stats LIMIT 10", eng)
df.head()


Unnamed: 0,fact_id,gemeindetyp_id,sprachregion_id,kanton_id,geschlecht_id,mig_status_id,cnt_tot_25j,cnt_abschluesse,cnt_abschluss_lehre,cnt_abschluss_allg,rate_abschluss_tot,rate_abschluss_lehre,rate_abschluss_allg,kohorte_id,aggregation_level
0,1,0,0,0,0,0,80423,72437,48819,23618,90.1,60.7,29.4,1,T1
1,2,0,0,0,0,0,41437,36684,27375,9309,88.529,66.064,22.465,1,T1
2,3,0,0,0,0,0,39018,35753,21449,14304,91.632,54.972,36.66,1,T1
3,4,0,0,0,0,0,60557,55798,37187,18611,92.142,61.409,30.733,1,T1
4,5,0,0,0,0,0,7745,6587,5265,1322,85.049,67.984,17.065,1,T1


In [25]:
from sqlalchemy import create_engine, text
eng = create_engine("mysql+pymysql://root:voc_root@localhost/vocdata")

with eng.connect() as con:
    for col in ["geschlecht_id", "sprachregion_id", "gemeindetyp_id"]:
        rows = con.execute(text(f"""
            SELECT {col}, COUNT(*) 
            FROM   fact_abschluss_stats
            GROUP  BY {col}
            ORDER  BY {col}
        """)).fetchall()
        print(col, rows)



geschlecht_id [(0, 80)]
sprachregion_id [(0, 74), (1, 2), (2, 2), (3, 2)]
gemeindetyp_id [(0, 74), (1, 2), (2, 2), (3, 2)]
