# 03 · Dimension Loader

* liest **beide** Excel-Quellen  
  * `bfs_data_lva.xlsx`  
  * `bfs_data_abschlussquote.xlsx`
* extrahiert alle eindeutigen Werte pro Dimension (`*_code`, `*_bez`)  
* legt die Tabellen `dim_*` an (falls noch nicht vorhanden)  
* leert sie und schreibt frische Inhalte  
* ID-Vergabe startet bei **1** – die `UNKNOWN`-Zeile (ID 0) wird später im Skript `06_fk_updates.py` ergänzt.


In [1]:
# Imports & Konstanten
from pathlib import Path
import pandas as pd
from sqlalchemy import create_engine, text

# Pfade (kommen auch in 00_setup_env vor – hier lokal für Stand-alone)
DATA_DIR = Path("../../data")
SRC_LVA  = DATA_DIR / "bfs_data_lva.xlsx"
SRC_ABS  = DATA_DIR / "bfs_data_abschlussquote.xlsx"

# MySQL-Engine
engine = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    future=True, echo=False)

# Welche Spalten gelten pro Dimension?
DIM_MAP = {
    "abschlussniveau":   ["abschlussniveau"],
    "lernform":          ["lernform"],
    "geschlecht":        ["geschlecht"],
    "mig_status":        ["mig_status"],
    "lva_anschlussart":  ["lva_anschlussart"],
    "qv_status":         ["qv_status"],
    "lva_zeitpunkt":     ["lva_zeitpunkt"],
    "wiedereinst_dauer": ["wiedereinstieg_dauer"],
    "isced":             ["ausbildungsfeld_isced_code", "ausbildungsfeld_isced_bez"],
    "beruf":             ["beruf_bez"],
    "merkmal":           ["merkmal"],
    "kategorie":         ["kategorie"],
    "jahr":              ["jahr"]          # INT → Code = Bez
}


In [2]:
#Helferfunktionen
def collect_values(df: pd.DataFrame, cols: list[str]):
    """liefert Set von Tupeln oder Einzelwerten aus einem Sheet"""
    if len(cols) == 2:          # Code + Bez
        code, bez = cols
        if {code, bez}.issubset(df.columns):
            return (
                df[[code, bez]].dropna()
                  .astype(str).apply(lambda s: s.str.strip())
                  .drop_duplicates()
                  .itertuples(index=False, name=None)
            )
    else:                       # nur Bez
        col = cols[0]
        if col in df.columns:
            return (
                df[col].dropna()
                  .astype(str).str.strip()
                  .unique()
            )
    return []

def ensure_table(con, dim, n_cols):
    """legt dim_Tabelle mit passendem Schema an (falls fehlt)"""
    if n_cols == 3:   # id, code, bez
        ddl = (f"CREATE TABLE IF NOT EXISTS dim_{dim} ("
               f"{dim}_id INT UNSIGNED PRIMARY KEY, "
               f"{dim}_code VARCHAR(100) UNIQUE, "
               f"{dim}_bez  VARCHAR(200)) ENGINE=InnoDB;")
    else:             # id, bez, code (code wird aus bez abgeleitet)
        ddl = (f"CREATE TABLE IF NOT EXISTS dim_{dim} ("
               f"{dim}_id INT UNSIGNED PRIMARY KEY, "
               f"{dim}_bez VARCHAR(200) UNIQUE, "
               f"{dim}_code VARCHAR(100)) ENGINE=InnoDB;")
    con.execute(text(ddl))


In [3]:
#Haupt-Loop: Werte sammeln & Tabellen befüllen
SRC_FILES = [SRC_LVA, SRC_ABS]

with engine.begin() as con:
    for dim, cols in DIM_MAP.items():
        print(f"→ lade dim_{dim}")
        values = set()

        # -- alle Excel-Quellen & *_Data-Sheets durchgehen --
        for src in SRC_FILES:
            xls = pd.ExcelFile(src)
            for sh in xls.sheet_names:
                if sh.endswith("_Data"):
                    df_sheet = pd.read_excel(
                        xls, sheet_name=sh,
                        usecols=lambda c: c.strip() in cols
                    )
                    values.update(collect_values(df_sheet, cols))

        # DataFrame bilden
        if len(cols) == 2:      # Code + Bez vorhanden
            dim_df = (pd.DataFrame(sorted(values),
                                   columns=[f"{dim}_code", f"{dim}_bez"])
                       .reset_index(names=f"{dim}_id")
                       .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1}))
        else:                   # nur Bez → Code = upper(bez)
            dim_df = (pd.DataFrame(sorted(values),
                                   columns=[f"{dim}_bez"])
                       .assign(**{f"{dim}_code": lambda d: d[f"{dim}_bez"].str.upper()})
                       .reset_index(names=f"{dim}_id")
                       .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1}))

        # Tabelle anlegen, leeren, neu füllen
        ensure_table(con, dim, dim_df.shape[1])
        con.execute(text("SET foreign_key_checks = 0;"))
        con.execute(text(f"TRUNCATE TABLE dim_{dim};"))
        con.execute(text("SET foreign_key_checks = 1;"))

        dim_df.to_sql(f"dim_{dim}", con, if_exists="append",
                      index=False, method="multi")
        print(f"   ✔ {len(dim_df)} Einträge")

print("Alle Dimensionen frisch geladen.")


→ lade dim_abschlussniveau
   ✔ 4 Einträge
→ lade dim_lernform
   ✔ 2 Einträge
→ lade dim_geschlecht
   ✔ 3 Einträge
→ lade dim_mig_status
   ✔ 5 Einträge
→ lade dim_lva_anschlussart
   ✔ 8 Einträge
→ lade dim_qv_status
   ✔ 4 Einträge
→ lade dim_lva_zeitpunkt
   ✔ 4 Einträge
→ lade dim_wiedereinst_dauer
   ✔ 3 Einträge
→ lade dim_isced
   ✔ 32 Einträge
→ lade dim_beruf
   ✔ 228 Einträge
→ lade dim_merkmal
   ✔ 6 Einträge
→ lade dim_kategorie
   ✔ 39 Einträge
→ lade dim_jahr
   ✔ 1 Einträge
Alle Dimensionen frisch geladen.
