In [5]:
# %% ─────────  SETUP  ─────────
import pandas as pd
from sqlalchemy import create_engine, text
from pathlib import Path

SRC_FILES = [
    Path("../../data/bfs_data_lva.xlsx"),
    Path("../../data/bfs_data_abschlussquote.xlsx")   # ← neu
] 
engine   = create_engine("mysql+pymysql://root:voc_root@localhost:3306/vocdata", echo=False)
for src in SRC_FILES:
    xls = pd.ExcelFile(src)

DIM_MAP = {
    "abschlussniveau":   ["abschlussniveau"],
    "lernform":          ["lernform"],
    "geschlecht":        ["geschlecht"],
    "mig_status":        ["mig_status"],
    "lva_anschlussart":  ["lva_anschlussart"],
    "qv_status":         ["qv_status"],
    "lva_zeitpunkt":      ["lva_zeitpunkt"],
    "wiedereinst_dauer": ["wiedereinstieg_dauer"],
    "isced":             ["ausbildungsfeld_isced_code", "ausbildungsfeld_isced_bez"],
    "beruf_bez":         ["beruf_bez"],
    "jahr":              ["jahr"],           # INT – wird als Code & Bez gleich genutzt
    "merkmal":            ["merkmal"],
    "kategorie":         ["kategorie"],
}

# %% ─────────  HELPER  ─────────
def collect_values(df, cols):
    """Extrahiert Code/Bez-Paare oder Einzel-Bezeichnungen aus einem Sheet."""
    if len(cols) == 2:                             # Code + Bez
        code, bez = cols
        if {code, bez}.issubset(df.columns):
            return (
                df[[code, bez]].dropna()
                  .astype(str).apply(lambda s: s.str.strip())
                  .drop_duplicates()
                  .itertuples(index=False, name=None)
            )
    else:                                          # nur Bez
        col = cols[0]
        if col in df.columns:
            return df[col].dropna().astype(str).str.strip().unique()
    return []

def create_dim(con, dim, df):
    table = f"dim_{dim}"

    # 1) Tabelle mit korrektem Schema sicherstellen  (nur 1× pro Dim nötig)
    if df.shape[1] == 3:                                    # id + code + bez
        con.execute(text(f"""
            CREATE TABLE IF NOT EXISTS {table} (
                {dim}_id   INT UNSIGNED PRIMARY KEY,
                {dim}_code VARCHAR(100) UNIQUE,
                {dim}_bez  VARCHAR(200)
            ) ENGINE=InnoDB;
        """))
    else:                                                   # id + bez (+ code abgeleitet)
        con.execute(text(f"""
            CREATE TABLE IF NOT EXISTS {table} (
                {dim}_id   INT UNSIGNED PRIMARY KEY,
                {dim}_bez  VARCHAR(200) UNIQUE,
                {dim}_code VARCHAR(100)
            ) ENGINE=InnoDB;
        """))

    # 2) Inhalt leeren (FK-sicher, weil Parent-Tabelle) und neu füllen
    con.execute(text("SET foreign_key_checks = 0;"))
    con.execute(text(f"TRUNCATE TABLE {table};"))
    con.execute(text("SET foreign_key_checks = 1;"))

    df = df.drop_duplicates(subset=df.columns[1:])          # Duplikate raus
    df.to_sql(table, con, if_exists="append", index=False, method="multi")
    print(f"✔ {table} geladen:", len(df), "Einträge")

# %% ─────────  LOAD DIMENSIONS  ─────────
with engine.begin() as con:
    for dim, cols in DIM_MAP.items():
        print(f">>> lade dim_{dim}")
        values = set()

        # --- ALLE Excel-Quellen durchgehen ---
        for src in SRC_FILES:
            xls = pd.ExcelFile(src)
            for sh in xls.sheet_names:
                if sh.endswith("_Data"):
                    df_sheet = pd.read_excel(
                        xls, sheet_name=sh,
                        usecols=lambda c: c.strip() in cols
                    )
                    values.update(collect_values(df_sheet, cols))

        # DataFrame bilden
        if len(cols) == 2:                             # Code + Bez
            dim_df = (
                pd.DataFrame(sorted(values), columns=[f"{dim}_code", f"{dim}_bez"])
                  .reset_index(names=f"{dim}_id")
                  .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1})
            )
        else:                                          # nur Bez
            dim_df = (
                pd.DataFrame(sorted(values), columns=[f"{dim}_bez"])
                  .assign(**{f"{dim}_code": lambda d: d[f"{dim}_bez"].str.upper()})
                  .reset_index(names=f"{dim}_id")
                  .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1})
            )

        create_dim(con, dim, dim_df)


>>> lade dim_abschlussniveau
✔ dim_abschlussniveau geladen: 4 Einträge
>>> lade dim_lernform
✔ dim_lernform geladen: 2 Einträge
>>> lade dim_geschlecht
✔ dim_geschlecht geladen: 3 Einträge
>>> lade dim_mig_status
✔ dim_mig_status geladen: 5 Einträge
>>> lade dim_lva_anschlussart
✔ dim_lva_anschlussart geladen: 8 Einträge
>>> lade dim_qv_status
✔ dim_qv_status geladen: 4 Einträge
>>> lade dim_lva_zeitpunkt
✔ dim_lva_zeitpunkt geladen: 4 Einträge
>>> lade dim_wiedereinst_dauer
✔ dim_wiedereinst_dauer geladen: 3 Einträge
>>> lade dim_isced
✔ dim_isced geladen: 32 Einträge
>>> lade dim_beruf_bez
✔ dim_beruf_bez geladen: 228 Einträge
>>> lade dim_jahr
✔ dim_jahr geladen: 1 Einträge
>>> lade dim_merkmal
✔ dim_merkmal geladen: 6 Einträge
>>> lade dim_kategorie
✔ dim_kategorie geladen: 39 Einträge
