In [14]:
# %% ───────────  Imports & DB-Engine  ───────────
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    echo=False, future=True
)

# %% ───────────  Excel-Datei & *_Data-Sheets  ───────────
SRC_FILE = "../data/bfs_data_abschlussquote.xlsx"   # relativer Pfad zum Repo-Root
xls = pd.ExcelFile(SRC_FILE)
DATA_SHEETS = [s for s in xls.sheet_names if s.endswith("_Data")]

print("DATA_SHEETS =", DATA_SHEETS)


DATA_SHEETS = ['T1_SekII_1st_25_Merkm_Data', 'T2_SekII_1st_25_Kant_Data', 'T3_Matura_Merkm_Data', 'T4_Matura_Kant_Data']


In [15]:
# %% ───────────  Imports & DB-Engine  ───────────
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    echo=False, future=True
)

# %% ───────────  Excel-Datei & *_Data-Sheets  ───────────
SRC_FILE = "../data/bfs_data_abschlussquote.xlsx"   # relativer Pfad zum Repo-Root
xls = pd.ExcelFile(SRC_FILE)
DATA_SHEETS = [s for s in xls.sheet_names if s.endswith("_Data")]
# %% ───────────  Dimensionen in Lookup-Dicts laden  ───────────
dim_tables = [
    "abschlussniveau", "lernform", "geschlecht", "mig_status",
    "anschlussart", "qv_status", "lva_zeitraum",
    "wiedereinst_dauer", "isced", "beruf",
    "gemeindetyp", "sprachregion", "kanton"   # ← neu angelegt
]

lookups = {}
with engine.begin() as con:
    for dim in dim_tables:
        df = pd.read_sql(f"SELECT * FROM dim_{dim}", con)
        code_col = (
            f"{dim}_code" if f"{dim}_code" in df.columns
            else f"{dim}_bez"            # Fallback, falls kein *_code
        )
        lookups[dim] = (
            df[[code_col, f"{dim}_id"]]
            .set_index(code_col)
            .to_dict()[f"{dim}_id"]
        )
        print(f"{dim.ljust(15)} → {len(df):>3} Einträge geladen")

print("\n✔ Alle Lookup-Dictionaries im Speicher.")

print("DATA_SHEETS =", DATA_SHEETS)


abschlussniveau →   7 Einträge geladen
lernform        →   2 Einträge geladen
geschlecht      →   3 Einträge geladen
mig_status      →   6 Einträge geladen
anschlussart    →   8 Einträge geladen
qv_status       →   4 Einträge geladen
lva_zeitraum    →   4 Einträge geladen
wiedereinst_dauer →   3 Einträge geladen
isced           →  62 Einträge geladen
beruf           → 228 Einträge geladen
gemeindetyp     →   4 Einträge geladen
sprachregion    →   4 Einträge geladen
kanton          →  27 Einträge geladen

✔ Alle Lookup-Dictionaries im Speicher.
DATA_SHEETS = ['T1_SekII_1st_25_Merkm_Data', 'T2_SekII_1st_25_Kant_Data', 'T3_Matura_Merkm_Data', 'T4_Matura_Kant_Data']


In [16]:
# %% ───────────  Helfer: DataFrame-Zeile → Dimension-IDs  ───────────
def map_row_to_ids(row):
    """Gibt ein Dict mit allen 13 FK-IDs zurück (Unknown-Fallback = None)."""
    return {
        # bestehende 10 Dimensionen
        "abschlussniveau_id":  lookups["abschlussniveau"].get(str(row.get("abschlussniveau", "")).strip().upper()),
        "lernform_id":         lookups["lernform"].get(str(row.get("lernform", "")).strip().upper()),
        "geschlecht_id":       lookups["geschlecht"].get(str(row.get("merkmal", "") == "Geschlecht" and row.get("kategorie", "") or "").strip().capitalize()),
        "mig_status_id":       lookups["mig_status"].get(str(row.get("merkmal", "") == "Migrationskategorie" and row.get("kategorie", "") or "").strip()),
        "anschlussart_id":     lookups["anschlussart"].get(str(row.get("anschlussart", "")).strip().upper()),
        "qv_status_id":        lookups["qv_status"].get(str(row.get("qv_status", "")).strip().upper()),
        "lva_zeitraum_id":     lookups["lva_zeitraum"].get(str(row.get("lva_zeitraum", "")).strip().upper()),
        "wiedereinst_dauer_id":lookups["wiedereinst_dauer"].get(str(row.get("wiedereinstieg_dauer", "")).strip().upper()),
        "isced_id":            lookups["isced"].get(str(row.get("isced_code", "")).strip().upper()),
        "beruf_id":            lookups["beruf"].get(str(row.get("beruf_bez", "")).strip().upper()),
        # drei neuen Dimensionen
        "gemeindetyp_id":      lookups["gemeindetyp"].get(str(row.get("merkmal", "") == "Gemeindetyp" and row.get("kategorie", "") or "").strip().upper()),
        "sprachregion_id":     lookups["sprachregion"].get(str(row.get("merkmal", "") == "Sprachregion" and row.get("kategorie", "") or "").strip().upper()),
        "kanton_id":           lookups["kanton"].get(str(row.get("merkmal", "") == "Wohnkanton"  and row.get("kategorie", "") or "").strip().upper())
    }

# ─── Schnelltest auf zwei Zeilen des ersten Sheets ───
test_df = pd.read_excel(xls, sheet_name=DATA_SHEETS[0]).head(2)
print("Mapping-Ergebnis für die ersten beiden Datenzeilen:")
display(test_df.apply(map_row_to_ids, axis=1).to_list())
# %% ───────────  korrigierte Mapping-Funktion  ───────────
def map_row_to_ids(row):
    """Gibt ein Dict mit allen 13 FK-IDs zurück (Unknown-Fallback = None)."""
    # Hilfsfunktion: nur wenn das Merkmal passt → Kategorie gross schreiben
    def val_if(mk): 
        return (str(row.get("kategorie", "")).strip().upper()
                if row.get("merkmal", "") == mk else "")

    return {
        # 10 bestehende Dimensionen (hier weiterhin meist leer)
        "abschlussniveau_id":  lookups["abschlussniveau"].get(str(row.get("abschlussniveau", "")).strip().upper()),
        "lernform_id":         lookups["lernform"].get(str(row.get("lernform", "")).strip().upper()),
        "geschlecht_id":       lookups["geschlecht"].get(val_if("Geschlecht")),
        "mig_status_id":       lookups["mig_status"].get(val_if("Migrationskategorie")),
        "anschlussart_id":     None,
        "qv_status_id":        None,
        "lva_zeitraum_id":     None,
        "wiedereinst_dauer_id":None,
        "isced_id":            None,
        "beruf_id":            None,
        # 3 neuen Dimensionen
        "gemeindetyp_id":      lookups["gemeindetyp"].get(val_if("Gemeindetyp")),
        "sprachregion_id":     lookups["sprachregion"].get(val_if("Sprachregion")),
        "kanton_id":           lookups["kanton"].get(val_if("Wohnkanton"))
    }

# ─── Schnelltest wiederholen ───
test_df = pd.read_excel(xls, sheet_name=DATA_SHEETS[0]).head(4)
print("Mapping-Ergebnis (korrigiert):")
display(test_df[["merkmal","kategorie"]])
display(test_df.apply(map_row_to_ids, axis=1).to_list())


Mapping-Ergebnis für die ersten beiden Datenzeilen:


[{'abschlussniveau_id': None,
  'lernform_id': None,
  'geschlecht_id': None,
  'mig_status_id': None,
  'anschlussart_id': None,
  'qv_status_id': None,
  'lva_zeitraum_id': None,
  'wiedereinst_dauer_id': None,
  'isced_id': None,
  'beruf_id': None,
  'gemeindetyp_id': None,
  'sprachregion_id': None,
  'kanton_id': None},
 {'abschlussniveau_id': None,
  'lernform_id': None,
  'geschlecht_id': None,
  'mig_status_id': None,
  'anschlussart_id': None,
  'qv_status_id': None,
  'lva_zeitraum_id': None,
  'wiedereinst_dauer_id': None,
  'isced_id': None,
  'beruf_id': None,
  'gemeindetyp_id': None,
  'sprachregion_id': None,
  'kanton_id': None}]

Mapping-Ergebnis (korrigiert):


Unnamed: 0,merkmal,kategorie
0,Total,
1,Geschlecht,Männer
2,Geschlecht,Frauen
3,Migrationskategorie,in der Schweiz geborene Schweizer/innen


[{'abschlussniveau_id': None,
  'lernform_id': None,
  'geschlecht_id': None,
  'mig_status_id': None,
  'anschlussart_id': None,
  'qv_status_id': None,
  'lva_zeitraum_id': None,
  'wiedereinst_dauer_id': None,
  'isced_id': None,
  'beruf_id': None,
  'gemeindetyp_id': None,
  'sprachregion_id': None,
  'kanton_id': None},
 {'abschlussniveau_id': None,
  'lernform_id': None,
  'geschlecht_id': 2,
  'mig_status_id': None,
  'anschlussart_id': None,
  'qv_status_id': None,
  'lva_zeitraum_id': None,
  'wiedereinst_dauer_id': None,
  'isced_id': None,
  'beruf_id': None,
  'gemeindetyp_id': None,
  'sprachregion_id': None,
  'kanton_id': None},
 {'abschlussniveau_id': None,
  'lernform_id': None,
  'geschlecht_id': 1,
  'mig_status_id': None,
  'anschlussart_id': None,
  'qv_status_id': None,
  'lva_zeitraum_id': None,
  'wiedereinst_dauer_id': None,
  'isced_id': None,
  'beruf_id': None,
  'gemeindetyp_id': None,
  'sprachregion_id': None,
  'kanton_id': None},
 {'abschlussniveau_id'

In [17]:
# Nur zwei Zeilen mit ausgefüllten Merkmalen anzeigen – plus Mapping
sample = pd.read_excel(xls, sheet_name=DATA_SHEETS[0]).iloc[1:3]   # Zeilen 1 und 2
print(sample[["merkmal", "kategorie"]], "\n")

mapped = sample.apply(map_row_to_ids, axis=1).to_list()
for i, d in enumerate(mapped, 1):
    print(f"Zeile {i} →", d)


      merkmal kategorie
1  Geschlecht    Männer
2  Geschlecht    Frauen 

Zeile 1 → {'abschlussniveau_id': None, 'lernform_id': None, 'geschlecht_id': 2, 'mig_status_id': None, 'anschlussart_id': None, 'qv_status_id': None, 'lva_zeitraum_id': None, 'wiedereinst_dauer_id': None, 'isced_id': None, 'beruf_id': None, 'gemeindetyp_id': None, 'sprachregion_id': None, 'kanton_id': None}
Zeile 2 → {'abschlussniveau_id': None, 'lernform_id': None, 'geschlecht_id': 1, 'mig_status_id': None, 'anschlussart_id': None, 'qv_status_id': None, 'lva_zeitraum_id': None, 'wiedereinst_dauer_id': None, 'isced_id': None, 'beruf_id': None, 'gemeindetyp_id': None, 'sprachregion_id': None, 'kanton_id': None}


In [18]:
# %% ───────────  CREATE TABLE fact_abschluss_stats  ───────────
from sqlalchemy import text

with engine.begin() as con:
    con.execute(text("""
        CREATE TABLE IF NOT EXISTS fact_abschluss_stats (
            fact_id            BIGINT AUTO_INCREMENT PRIMARY KEY,
            gemeindetyp_id     INT,
            sprachregion_id    INT,
            kanton_id          INT,
            geschlecht_id      INT,
            mig_status_id      INT,
            cnt_tot_25j        INT,
            cnt_abschluesse    INT,
            cnt_abschluss_lehre INT,
            cnt_abschluss_allg  INT,
            rate_abschluss_tot  DECIMAL(5,3),
            rate_abschluss_lehre DECIMAL(5,3),
            rate_abschluss_allg  DECIMAL(5,3)
        );
    """))

print("✔ fact_abschluss_stats Tabelle angelegt (falls nicht bereits vorhanden).")



✔ fact_abschluss_stats Tabelle angelegt (falls nicht bereits vorhanden).


In [19]:
# %% ───────────  Abschlussblätter korrekt laden  ───────────
insert_rows = []

for sheet in DATA_SHEETS:
    df = pd.read_excel(xls, sheet_name=sheet)

    for _, row in df.iterrows():
        # Nur benötigte IDs abgreifen
        ids = {
            "gemeindetyp_id":  map_row_to_ids(row)["gemeindetyp_id"],
            "sprachregion_id": map_row_to_ids(row)["sprachregion_id"],
            "kanton_id":       map_row_to_ids(row)["kanton_id"],
            "geschlecht_id":   map_row_to_ids(row)["geschlecht_id"],
            "mig_status_id":   map_row_to_ids(row)["mig_status_id"]
        }
        facts = {
            "cnt_tot_25j":          row.get("total_anz_25J"),
            "cnt_abschluesse":      row.get("total_anz_sekII_erstabschluss_25J",  row.get("anz_matur_total")),
            "cnt_abschluss_lehre":  row.get("Lehre_anz_sekII_erstabschluss_25J", row.get("anz_matur_bm_25J")),
            "cnt_abschluss_allg":   row.get("allg_bildg_anz_sekII_erstabschluss_25J", row.get("anz_matur_gym_25J")),
            "rate_abschluss_tot":   row.get("total_%_sekII_erstabschluss_25J",   row.get("%_matur_total_25J")),
            "rate_abschluss_lehre": row.get("Lehre_%_sekII_erstabschluss_25J",  row.get("%_matur_bm_25J")),
            "rate_abschluss_allg":  row.get("allg_bildg_%_sekII_erstabschluss_25J", row.get("%_matur_gym_25J"))
        }
        insert_rows.append({**ids, **facts})

fact_df = pd.DataFrame(insert_rows)

with engine.begin() as con:
    fact_df.to_sql("fact_abschluss_stats", con, if_exists="append", index=False)

print(f"✔ fact_abschluss_stats geladen: {len(fact_df):,} Zeilen")


✔ fact_abschluss_stats geladen: 80 Zeilen


In [24]:
# %% ───────────  Null-FK-Check  ───────────
from sqlalchemy import text

qry = """
SELECT
    SUM(gemeindetyp_id   IS NULL) AS null_gemeindetyp,
    SUM(sprachregion_id  IS NULL) AS null_sprachregion,
    SUM(kanton_id        IS NULL) AS null_kanton,
    SUM(geschlecht_id    IS NULL) AS null_geschlecht,
    SUM(mig_status_id    IS NULL) AS null_mig_status
FROM fact_abschluss_stats;
"""

with engine.begin() as con:
    res = con.execute(text(qry)).mappings().one()

print("NULL-Fremdschlüssel je Spalte:")
for k, v in res.items():
    print(f"  {k}: {v}")


NULL-Fremdschlüssel je Spalte:
  null_gemeindetyp: None
  null_sprachregion: None
  null_kanton: None
  null_geschlecht: None
  null_mig_status: None


In [21]:
# %% ─────────  Unknown-Fallback in allen 5 Dimensions­tabellen  ─────────
from sqlalchemy import text

unknown_sql = """
INSERT IGNORE INTO dim_{tbl} ({col_code}, {col_bez}, {tbl}_id)
VALUES ('UNKNOWN', 'Unzugeordnet', 0);
"""

dim_info = {
    "gemeindetyp":   ("gemeindetyp_code",   "gemeindetyp_bez"),
    "sprachregion":  ("sprachregion_code",  "sprachregion_bez"),
    "kanton":        ("kanton_code",        "kanton_bez"),
    "geschlecht":    ("geschlecht_code",    "geschlecht_bez"),
    "mig_status":    ("mig_status_code",    "mig_status_bez")
}

with engine.begin() as con:
    for tbl, (col_code, col_bez) in dim_info.items():
        con.execute(text(unknown_sql.format(tbl=tbl, col_code=col_code, col_bez=col_bez)))

print("✔ Unknown-Zeile (ID 0) in allen 5 Tabellen angelegt / gesichert.")


✔ Unknown-Zeile (ID 0) in allen 5 Tabellen angelegt / gesichert.


In [22]:
def safe_lookup(dim, key):
    """liefert FK-ID oder 0 (Unknown)"""
    return lookups[dim].get(key, 0)

# Beispiel – in map_row_to_ids:
# geschlecht_id = safe_lookup("geschlecht", val_if("Geschlecht"))


In [23]:
with engine.begin() as con:
    con.execute(text("TRUNCATE TABLE fact_abschluss_stats;"))
