In [1]:
# ----------------- 05_load_facts_lva — Komplett-Loader -----------------
import pandas as pd
from pathlib import Path
from sqlalchemy import create_engine
from sqlalchemy import text        


# ── 1. Pfad & DB ───────────────────────────────────────────────────────
SRC_FILE = Path("../../data/bfs_data_lva.xlsx")          # relativ zum Repo
engine    = create_engine("mysql+pymysql://root:voc_root@localhost:3306/vocdata",
                          future=True, echo=False)

# ── 2. Dimension-Lookups holen  (Key = Code/Bez  ➜  Value = ID) ────────
dim_tables = [
    "abschlussniveau", "lernform", "geschlecht", "mig_status",
    "lva_anschlussart", "qv_status", "lva_zeitpunkt",
    "wiedereinst_dauer", "isced", "beruf"
]

lookups = {}
with engine.begin() as con:
    for dim in dim_tables:
        df = pd.read_sql(f"SELECT * FROM dim_{dim}", con)
        key = f"{dim}_code" if f"{dim}_code" in df.columns else f"{dim}_bez"
        lookups[dim] = df.set_index(key)[f"{dim}_id"].to_dict()

def fk(dim, val):
    """Liefert gültige FK-ID oder 0 (UNKNOWN)."""
    return 0 if pd.isna(val) or str(val).strip()=="" \
             else lookups[dim].get(str(val).strip().upper(), 0)

# ── 3. Faktentabelle leeren ────────────────────────────────────────────
with engine.begin() as con:
    con.exec_driver_sql("TRUNCATE TABLE fact_lva_stats;")
print("fact_lva_stats geleert – Import startet …")

# ── 4. Excel durchgehen & Zeilen sammeln ───────────────────────────────
rows, xls = [], pd.ExcelFile(SRC_FILE)
for sh in [s for s in xls.sheet_names if s.endswith("_Data")]:
    # Header suchen (erste Zeile mit ≥3 Werten)
    header = next(i for i,r in pd.read_excel(xls, sheet_name=sh,
                                             nrows=15, header=None
                                             ).iterrows() if r.notna().sum()>=3)
    df = pd.read_excel(xls, sheet_name=sh, header=header)

    # numerische Spalten sicher konvertieren
    for col in ["anzahl_lernende_lva","anzahl_lernende_wiedereinstieg",
                "anzahl_lernende","anzahl_lehrvertraege",
                "anzahl_lehrvertraege_lva"]:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors="coerce")

    # Zeilen → Dict → Sammelliste
    for _, r in df.iterrows():
        rows.append({
            # FK-IDs
            "abschlussniveau_id":   fk("abschlussniveau",   r.get("abschlussniveau")),
            "lernform_id":          fk("lernform",          r.get("lernform")),
            "geschlecht_id":        fk("geschlecht",        r.get("geschlecht")),
            "mig_status_id":        fk("mig_status",        r.get("mig_status")),
            "anschlussart_id":      fk("lva_anschlussart",  r.get("lva_anschlussart")),
            "qv_status_id":         fk("qv_status",         r.get("qv_status")),
            "lva_zeitpunkt_id":     fk("lva_zeitpunkt",     r.get("lva_zeitpunkt")),
            "wiedereinst_dauer_id": fk("wiedereinst_dauer", r.get("wiedereinstieg_dauer")),
            "isced_id":             fk("isced",             r.get("ausbildungsfeld_isced_code")),
            "beruf_id":             fk("beruf",             r.get("beruf_bez")),
            # Kennzahlen
            "anzahl_lernende_wiedereinstieg": r.get("anzahl_lernende_wiedereinstieg"),
            "anzahl_lernende":                r.get("anzahl_lernende"),
            "anzahl_lehrvertraege_lva":       r.get("anzahl_lehrvertraege_lva"),
            "anzahl_lernende_lva":            r.get("anzahl_lernende_lva"),
            # Flags & Metadaten
            "is_lva":            int(pd.notna(r.get("anzahl_lernende_lva"))),
            "is_wiedereinstieg": int(pd.notna(r.get("anzahl_lernende_wiedereinstieg"))),
            "datenstatus":       r.get("datenstatus"),
            "kohorte_id":        1
        })
    print(f"✓ {sh}: {len(df)} Zeilen gelesen")

# ── 5. DataFrame → MySQL ───────────────────────────────────────────────
pd.DataFrame(rows).to_sql("fact_lva_stats", engine,
                          if_exists="append", index=False, method="multi")
print("✔ fact_lva_stats geladen:", len(rows), "Zeilen")
# ----------------------------------------------------------------------


fact_lva_stats geleert – Import startet …
✓ T1_Lernform_Data: 7 Zeilen gelesen
✓ T2_Geschlecht_Data: 9 Zeilen gelesen
✓ T3_MIG_Status_Data: 13 Zeilen gelesen
✓ T4_ISCED_Data: 31 Zeilen gelesen
✓ T4.1_ISCED_EBA_Data: 20 Zeilen gelesen
✓ T4.2_ISCED_EFZ3_Data: 30 Zeilen gelesen
✓ T4.3_ISCED_EFZ4_Data: 18 Zeilen gelesen
✓ T4.1.1_ISCED_Beruf_EBA_Data: 55 Zeilen gelesen
✓ T4.2.1_ISCED_Beruf_EFZ3_Data: 106 Zeilen gelesen
✓ T4.3.1_ISCED_Beruf_EFZ4_Data: 67 Zeilen gelesen
✓ T5_LVA_t_Data: 12 Zeilen gelesen
✓ T6_Wiedereinstieg_Data: 6 Zeilen gelesen
✓ T7_Zeitpkt_Wiedereinstieg_Data: 9 Zeilen gelesen
✓ T8_Geschlecht_Wiedereinst_Data: 6 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_G_Data: 207 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_EBA_Data: 48 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_EFZ3_Data: 98 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_EFZ4_Data: 61 Zeilen gelesen
✓ T10_Anschlussart_LVA_Data: 24 Zeilen gelesen
✓ T11_QV_Status_Ende_t_Data: 12 Zeilen gelesen
✓ T12_QV_Status_Ende_t_sex_Data: 24 Zeilen gelesen
✓ 

In [2]:
#Notebook Transformiert & lädt fact_lva_stats (Lehrvertrags­auflösungen = lva).

In [3]:
# --- Grund-Setup -------------------------------------------------
import pandas as pd
from sqlalchemy import create_engine, text
from pathlib import Path

# Excel-Datei(en)
sources = [Path("../../data/bfs_data_lva.xlsx")]   # Pfad ggf. prüfen

# DB-Verbindung
engine = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    future=True, echo=False
)



In [4]:


#3. Dimensionen aus MySQL in Lookup-Dictionaries laden FK-Mapping
# ---------------------------------------------------------------
dim_tables = [
    "abschlussniveau", "lernform", "geschlecht", "mig_status",
    "lva_anschlussart", "qv_status", "lva_zeitpunkt",
    "wiedereinst_dauer", "isced", "beruf"
]


lookups = {}
with engine.begin() as con:
    for dim in dim_tables:
        df = pd.read_sql(f"SELECT * FROM dim_{dim}", con)
        code = f"{dim}_code" if f"{dim}_code" in df.columns else f"{dim}_bez"
        lookups[dim] = df[[code,f"{dim}_id"]].set_index(code).to_dict()[f"{dim}_id"]

def safe(dim, key):
    return 0 if pd.isna(key) or str(key).strip()=="" \
             else lookups[dim].get(str(key).strip().upper(),0)

def map_ids(r):
    return {
        "abschlussniveau_id":   safe("abschlussniveau",   r.get("abschlussniveau")),
        "lernform_id":          safe("lernform",          r.get("lernform")),
        "geschlecht_id":        safe("geschlecht",        r.get("geschlecht")),
        "mig_status_id":        safe("mig_status",        r.get("mig_status")),
        "anschlussart_id":      safe("lva_anschlussart",      r.get("lva_anschlussart")),
        "qv_status_id":         safe("qv_status",         r.get("qv_status")),
        "lva_zeitpunkt_id":     safe("lva_zeitpunkt",     r.get("lva_zeitpunkt")),
        "wiedereinst_dauer_id": safe("wiedereinst_dauer", r.get("wiedereinstieg_dauer")),
        "isced_id":             safe("isced",             r.get("ausbildungsfeld_isced_code")),
        "beruf_id":             safe("beruf",             r.get("beruf_bez")),
    }

# Tabelle leeren -----------------------------------------------------
with engine.begin() as con:
    con.exec_driver_sql("TRUNCATE TABLE fact_lva_stats;")
print("fact_lva_stats geleert – starte Import …")

# Excel → Insert-Liste ----------------------------------------------
rows = []
for src in sources:
    xls = pd.ExcelFile(src)
    for sh in [s for s in xls.sheet_names if s.endswith("_Data")]:
        head = pd.read_excel(xls, sheet_name=sh, nrows=15, header=None)
        hdr  = next(i for i,r in head.iterrows() if r.notna().sum()>=3)
        df   = pd.read_excel(xls, sheet_name=sh, header=hdr)

        num = ["anzahl_lernende_lva","anzahl_lernende_wiedereinstieg",
               "anzahl_lernende","anzahl_lehrvertraege",
               "anzahl_lehrvertraege_lva"]
        for c in num:
            if c in df.columns: df[c]=pd.to_numeric(df[c],errors="coerce")

        for _,r in df.iterrows():
            rows.append({
                **map_ids(r),
                "anzahl_lernende_wiedereinstieg": r.get("anzahl_lernende_wiedereinstieg"),
                "anzahl_lernende":                r.get("anzahl_lernende"),
                "anzahl_lehrvertraege_lva":       r.get("anzahl_lehrvertraege_lva"),
                "anzahl_lernende_lva":            r.get("anzahl_lernende_lva"),
                "is_lva":          int(pd.notna(r.get("anzahl_lernende_lva"))),
                "is_wiedereinstieg":int(pd.notna(r.get("anzahl_lernende_wiedereinstieg"))),
                "datenstatus":     r.get("datenstatus"),
                "kohorte_id":      1
            })
        print(f"✓ {sh}: {len(df)} Zeilen")

# DataFrame → MySQL --------------------------------------------------
pd.DataFrame(rows).to_sql("fact_lva_stats", engine, if_exists="append", index=False)
print("✔ fact_lva_stats geladen:", len(rows), "Zeilen")

fact_lva_stats geleert – starte Import …
✓ T1_Lernform_Data: 7 Zeilen
✓ T2_Geschlecht_Data: 9 Zeilen
✓ T3_MIG_Status_Data: 13 Zeilen
✓ T4_ISCED_Data: 31 Zeilen
✓ T4.1_ISCED_EBA_Data: 20 Zeilen
✓ T4.2_ISCED_EFZ3_Data: 30 Zeilen
✓ T4.3_ISCED_EFZ4_Data: 18 Zeilen
✓ T4.1.1_ISCED_Beruf_EBA_Data: 55 Zeilen
✓ T4.2.1_ISCED_Beruf_EFZ3_Data: 106 Zeilen
✓ T4.3.1_ISCED_Beruf_EFZ4_Data: 67 Zeilen
✓ T5_LVA_t_Data: 12 Zeilen
✓ T6_Wiedereinstieg_Data: 6 Zeilen
✓ T7_Zeitpkt_Wiedereinstieg_Data: 9 Zeilen
✓ T8_Geschlecht_Wiedereinst_Data: 6 Zeilen
✓ T9_ISCED_Beruf_WEstg_G_Data: 207 Zeilen
✓ T9_ISCED_Beruf_WEstg_EBA_Data: 48 Zeilen
✓ T9_ISCED_Beruf_WEstg_EFZ3_Data: 98 Zeilen
✓ T9_ISCED_Beruf_WEstg_EFZ4_Data: 61 Zeilen
✓ T10_Anschlussart_LVA_Data: 24 Zeilen
✓ T11_QV_Status_Ende_t_Data: 12 Zeilen
✓ T12_QV_Status_Ende_t_sex_Data: 24 Zeilen
✓ T13_QV_Status_Ende_t_MIG_Data: 48 Zeilen
✓ T14_QV_Status_Ende_t_Beruf_Data: 280 Zeilen
✔ fact_lva_stats geladen: 1191 Zeilen


In [12]:
# ----------------- Dimensionen prüfen & ggf. auffüllen -----------------
import pandas as pd
from sqlalchemy import create_engine, text

engine = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    future=True, echo=False)

# 1) Erwartete Minimal-IDs für jede Dimension
DIM_EXPECTED = {
    "abschlussniveau":   [(0,"UNKNOWN"), (1,"EBA"), (2,"EFZ3"), (3,"EFZ4")],
    "lernform":          [(0,"UNKNOWN")],
    "geschlecht":        [(0,"UNKNOWN"), (1,"M"), (2,"W")],
    "mig_status":        [(0,"UNKNOWN")],
    "lva_anschlussart":  [(0,"UNKNOWN")],
    "qv_status":         [(0,"UNKNOWN")],
    "lva_zeitpunkt":     [(0,"UNKNOWN")],
    "wiedereinst_dauer": [(0,"UNKNOWN")],
    "isced":             [(0,"UNKNOWN")],
    "beruf":             [(0,"UNKNOWN")]
}

with engine.begin() as con:
    for dim, rows in DIM_EXPECTED.items():
        # Spaltennamen holen (wir brauchen nur ID & Code/Bez)
        cols = pd.read_sql(f"SHOW COLUMNS FROM dim_{dim}", con)["Field"].tolist()
        id_col  = f"{dim}_id"
        textcol = next(c for c in cols if c != id_col)
        insert_stmt = text(                              # ← Statement als TextClause
        f"INSERT IGNORE INTO dim_{dim} ({id_col}, {textcol}) "
        "VALUES (:id, :txt)"
)

    for _id, _txt in rows:
        con.execute(insert_stmt, {"id": int(_id), "txt": _txt})

print("✅ Dimensionen geprüft / ergänzt.")


✅ Dimensionen geprüft / ergänzt.


In [13]:
# ----------------- 05_load_facts_lva — Komplett-Loader -----------------
import pandas as pd
from pathlib import Path
from sqlalchemy import create_engine, text

# ── 1. Pfad & DB ───────────────────────────────────────────────────────
SRC_FILE = Path("../../data/bfs_data_lva.xlsx")          # relativ zum Repo
engine    = create_engine("mysql+pymysql://root:voc_root@localhost:3306/vocdata",
                          future=True, echo=False)

# ── 2. Dimension-Lookups holen  (Key = Code/Bez  ➜  Value = ID) ────────
dim_tables = [
    "abschlussniveau", "lernform", "geschlecht", "mig_status",
    "lva_anschlussart", "qv_status", "lva_zeitpunkt",
    "wiedereinst_dauer", "isced", "beruf"
]

lookups = {}
with engine.begin() as con:
    for dim in dim_tables:
        df = pd.read_sql(f"SELECT * FROM dim_{dim}", con)
        key = f"{dim}_code" if f"{dim}_code" in df.columns else f"{dim}_bez"
        lookups[dim] = df.set_index(key)[f"{dim}_id"].to_dict()

def fk(dim, val):
    """Liefert gültige FK-ID oder 0 (UNKNOWN)."""
    return 0 if pd.isna(val) or str(val).strip()=="" \
             else lookups[dim].get(str(val).strip().upper(), 0)

# ── 3. Faktentabelle leeren ────────────────────────────────────────────
with engine.begin() as con:
    con.exec_driver_sql("TRUNCATE TABLE fact_lva_stats;")
print("fact_lva_stats geleert – Import startet …")

# ── 4. Excel durchgehen & Zeilen sammeln ───────────────────────────────
rows, xls = [], pd.ExcelFile(SRC_FILE)
for sh in [s for s in xls.sheet_names if s.endswith("_Data")]:
    # Header suchen (erste Zeile mit ≥3 Werten)
    header = next(i for i,r in pd.read_excel(xls, sheet_name=sh,
                                             nrows=15, header=None
                                             ).iterrows() if r.notna().sum()>=3)
    df = pd.read_excel(xls, sheet_name=sh, header=header)

    # numerische Spalten sicher konvertieren
    for col in ["anzahl_lernende_lva","anzahl_lernende_wiedereinstieg",
                "anzahl_lernende","anzahl_lehrvertraege",
                "anzahl_lehrvertraege_lva"]:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors="coerce")

    # Zeilen → Dict → Sammelliste
    for _, r in df.iterrows():
        rows.append({
            # FK-IDs
            "abschlussniveau_id":   fk("abschlussniveau",   r.get("abschlussniveau")),
            "lernform_id":          fk("lernform",          r.get("lernform")),
            "geschlecht_id":        fk("geschlecht",        r.get("geschlecht")),
            "mig_status_id":        fk("mig_status",        r.get("mig_status")),
            "anschlussart_id":      fk("lva_anschlussart",  r.get("lva_anschlussart")),
            "qv_status_id":         fk("qv_status",         r.get("qv_status")),
            "lva_zeitpunkt_id":     fk("lva_zeitpunkt",     r.get("lva_zeitpunkt")),
            "wiedereinst_dauer_id": fk("wiedereinst_dauer", r.get("wiedereinstieg_dauer")),
            "isced_id":             fk("isced",             r.get("ausbildungsfeld_isced_code")),
            "beruf_id":             fk("beruf",             r.get("beruf_bez")),
            # Kennzahlen
            "anzahl_lernende_wiedereinstieg": r.get("anzahl_lernende_wiedereinstieg"),
            "anzahl_lernende":                r.get("anzahl_lernende"),
            "anzahl_lehrvertraege_lva":       r.get("anzahl_lehrvertraege_lva"),
            "anzahl_lernende_lva":            r.get("anzahl_lernende_lva"),
            # Flags & Metadaten
            "is_lva":            int(pd.notna(r.get("anzahl_lernende_lva"))),
            "is_wiedereinstieg": int(pd.notna(r.get("anzahl_lernende_wiedereinstieg"))),
            "datenstatus":       r.get("datenstatus"),
            "kohorte_id":        1
        })
    print(f"✓ {sh}: {len(df)} Zeilen gelesen")

# ── 5. DataFrame → MySQL ───────────────────────────────────────────────
pd.DataFrame(rows).to_sql("fact_lva_stats", engine,
                          if_exists="append", index=False, method="multi")
print("✔ fact_lva_stats geladen:", len(rows), "Zeilen")
# ----------------------------------------------------------------------


fact_lva_stats geleert – Import startet …
✓ T1_Lernform_Data: 7 Zeilen gelesen
✓ T2_Geschlecht_Data: 9 Zeilen gelesen
✓ T3_MIG_Status_Data: 13 Zeilen gelesen
✓ T4_ISCED_Data: 31 Zeilen gelesen
✓ T4.1_ISCED_EBA_Data: 20 Zeilen gelesen
✓ T4.2_ISCED_EFZ3_Data: 30 Zeilen gelesen
✓ T4.3_ISCED_EFZ4_Data: 18 Zeilen gelesen
✓ T4.1.1_ISCED_Beruf_EBA_Data: 55 Zeilen gelesen
✓ T4.2.1_ISCED_Beruf_EFZ3_Data: 106 Zeilen gelesen
✓ T4.3.1_ISCED_Beruf_EFZ4_Data: 67 Zeilen gelesen
✓ T5_LVA_t_Data: 12 Zeilen gelesen
✓ T6_Wiedereinstieg_Data: 6 Zeilen gelesen
✓ T7_Zeitpkt_Wiedereinstieg_Data: 9 Zeilen gelesen
✓ T8_Geschlecht_Wiedereinst_Data: 6 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_G_Data: 207 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_EBA_Data: 48 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_EFZ3_Data: 98 Zeilen gelesen
✓ T9_ISCED_Beruf_WEstg_EFZ4_Data: 61 Zeilen gelesen
✓ T10_Anschlussart_LVA_Data: 24 Zeilen gelesen
✓ T11_QV_Status_Ende_t_Data: 12 Zeilen gelesen
✓ T12_QV_Status_Ende_t_sex_Data: 24 Zeilen gelesen
✓ 