In [None]:
#Notebook Transformiert & lädt fact_lva_stats (Lehrvertrags­auflösungen).

In [1]:
# %%
import pandas as pd
from sqlalchemy import create_engine, text
from pathlib import Path

# 1. Pfade zu allen harmonisierten Excel-Dateien
# ------------------------------------------------------------------
sources = [
    Path(r"C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\data\bfs_data_lva.xlsx"),                 # LVA-Daten
]


# 2. DB-Verbindung
# ------------------------------------------------------------------
engine = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata", 
    future=True, echo=False)


In [2]:


#3. Dimensionen aus MySQL in Lookup-Dictionaries laden
# ---------------------------------------------------------------
dim_tables = [
    "abschlussniveau", "lernform", "geschlecht", "mig_status",
    "anschlussart", "qv_status", "lva_zeitraum",
    "wiedereinst_dauer", "isced", "beruf"
]

lookups = {}
with engine.begin() as con:
    for dim in dim_tables:
        df = pd.read_sql(f"SELECT * FROM dim_{dim}", con)
        code_col = f"{dim}_code" if f"{dim}_code" in df.columns else f"{dim}_bez"
        lookups[dim] = (
            df[[code_col, f"{dim}_id"]]
              .set_index(code_col)
              .to_dict()[f"{dim}_id"]
        )

def safe_lookup(dim, key):
    """liefert gültige FK-ID oder 0 (UNKNOWN)"""
    if pd.isna(key) or str(key).strip() == "":
        return 0
    return lookups[dim].get(str(key).strip().upper(), 0)

def map_row_to_ids(row):
    """ordnet einer Datenzeile alle benötigten Dimension-IDs zu"""
    return {
        "abschlussniveau_id":   safe_lookup("abschlussniveau",   row.get("abschlussniveau")),
        "lernform_id":          safe_lookup("lernform",          row.get("lernform")),
        "geschlecht_id":        safe_lookup("geschlecht",        row.get("geschlecht")),
        "mig_status_id":        safe_lookup("mig_status",        row.get("mig_status")),
        "anschlussart_id":      safe_lookup("anschlussart",      row.get("lva_anschlussart")),
        "qv_status_id":         safe_lookup("qv_status",         row.get("qv_status")),
        "lva_zeitraum_id":      safe_lookup("lva_zeitraum",      row.get("lva_zeitpunkt")),
        "wiedereinst_dauer_id": safe_lookup("wiedereinst_dauer", row.get("wiedereinstieg_dauer")),
        "isced_id":             safe_lookup("isced",             row.get("ausbildungsfeld_isced_code")),
        "beruf_id":             safe_lookup("beruf",             row.get("beruf_bez")),
    }


In [3]:
# ------------------------------------------------------------------
# Abschnitt 4 + 5   (nur Dokumentation · keine Ausführung)
#
#  • CREATE TABLE fact_lva_stats  – ursprüngliche Struktur
#  • safe_lookup / map_row_to_ids – erste Mapping-Variante
#
#  Dieser Block wurde zu Beginn ausgeführt, um die Faktentabelle
#  anzulegen und eine einfache Lookup-Logik zu demonstrieren.
#  Seit die Tabelle existiert und der Loader verfeinert ist,
#  dient er nur noch der Nachvollziehbarkeit.
# ------------------------------------------------------------------

# -- 4. Faktentabelle anlegen (initiale Version)
#
# CREATE TABLE IF NOT EXISTS fact_lva_stats (
#     fact_id BIGINT AUTO_INCREMENT PRIMARY KEY,
#     abschlussniveau_id   INT,
#     lernform_id          INT,
#     geschlecht_id        INT,
#     mig_status_id        INT,
#     anschlussart_id      INT,
#     qv_status_id         INT,
#     lva_zeitraum_id      INT,
#     wiedereinst_dauer_id INT,
#     isced_id             INT,
#     beruf_id             INT,
#     anzahl_lernende_mit_lva        INT,
#     anzahl_lernende_wiedereinstieg INT,
#     anzahl_lva_vertraege           INT,
#     total_lehrvertraege            INT,
#     total_lernende                 INT
# );
#
# -- Hilfsfunktion: gültige FK-ID oder 0 (UNKNOWN / Kleinstbestand)
#
# def safe_lookup(dim, key):
#     if pd.isna(key) or str(key).strip() == "":
#         return 0
#     return lookups[dim].get(str(key).strip().upper(), 0)
#
# ------------------------------------------------------------------
# 5. Zeilen-Mapping (erste Fassung)
#
# def map_row_to_ids(row):
#     """Weist allen benötigten Dimensionen eine ID zu (echte ID oder 0)."""
#     return {
#         "abschlussniveau_id":   safe_lookup("abschlussniveau",   row.get("abschlussniveau")),
#         "lernform_id":          safe_lookup("lernform",          row.get("lernform")),
#         "geschlecht_id":        safe_lookup("geschlecht",        row.get("geschlecht")),
#         "mig_status_id":        safe_lookup("mig_status",        row.get("mig_status")),
#         "anschlussart_id":      safe_lookup("anschlussart",      row.get("anschlussart_lva")),
#         "qv_status_id":         safe_lookup("qv_status",         row.get("qv_status")),
#         "lva_zeitraum_id":      safe_lookup("lva_zeitraum",      row.get("lva_zeitraum")),
#         "wiedereinst_dauer_id": safe_lookup("wiedereinst_dauer", row.get("wiedereinstieg_dauer")),
#         "isced_id":             safe_lookup("isced",             row.get("ausbildungsfeld_isced_code")),
#         "beruf_id":             safe_lookup("beruf",             row.get("beruf_bez")),
#     }
#
# ------------------------------------------------------------------
#  Ende des Dokumentationsblocks
# ------------------------------------------------------------------


In [4]:
# ------------------------------------------------------------------
# DDL-Block ***nur Dokumentation*** – nicht mehr ausführen
#
# 1) SQL-Befehle (Kohorten-Dimension + Zusatzspalten)
# 2) Ursprüngliche Schleife zum Ausführen, jetzt ebenfalls auskommentiert
# ------------------------------------------------------------------

"""
-- Kohorten-Dimension anlegen
CREATE TABLE IF NOT EXISTS dim_kohorte (
    kohorte_id   INT PRIMARY KEY,
    startjahr    INT,
    beschreibung VARCHAR(120)
);

-- Erste Kohorte einfügen (Lehrbeginn 2019, CH)
INSERT IGNORE INTO dim_kohorte
VALUES (1, 2019, 'Lehrbeginn 2019, CH, Beobachtung bis 31.12.2023');

-- Zusatzspalten in fact_lva_stats
ALTER TABLE fact_lva_stats
  ADD COLUMN kohorte_id          INT         DEFAULT 1,
  ADD COLUMN is_lva              TINYINT(1)  DEFAULT 0,
  ADD COLUMN is_wiedereinstieg   TINYINT(1)  DEFAULT 0,
  ADD COLUMN datenstatus         VARCHAR(20);

-- Dieselben Zusatzspalten in fact_abschluss_stats
ALTER TABLE fact_abschluss_stats
  ADD COLUMN kohorte_id          INT DEFAULT 1;
"""

# ------------------------------------------------------------------
# Ursprüngliche Ausführung (jetzt deaktiviert)
# ------------------------------------------------------------------
#
# from sqlalchemy import create_engine, text
# engine = create_engine(
#     "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
#     future=True, echo=False
# )
#
# with engine.begin() as con:
#     for stmt in sql.strip().split(";"):
#         if stmt.strip():
#             try:
#                 con.exec_driver_sql(stmt)
#             except Exception as e:
#                 if "Duplicate column name" in str(e):
#                     # Spalte existiert schon – Warnung ignorieren
#                     continue
#                 raise
#
# print("✔ Kohorte-Dimension + neue Spalten angelegt / aktualisiert.")
# ------------------------------------------------------------------

# %% ------------- fehlende Kennzahl-Spalten anlegen -------------
#from sqlalchemy import text

#with engine.begin() as con:
#    con.exec_driver_sql("""
#       ALTER TABLE fact_lva_stats
#        ADD COLUMN anzahl_lernende INT NULL,
#       ADD COLUMN anzahl_lehrvertraege_lva INT NULL;
#    """)
#print("✔ fehlende Spalten ergänzt.")


"\n-- Kohorten-Dimension anlegen\nCREATE TABLE IF NOT EXISTS dim_kohorte (\n    kohorte_id   INT PRIMARY KEY,\n    startjahr    INT,\n    beschreibung VARCHAR(120)\n);\n\n-- Erste Kohorte einfügen (Lehrbeginn 2019, CH)\nINSERT IGNORE INTO dim_kohorte\nVALUES (1, 2019, 'Lehrbeginn 2019, CH, Beobachtung bis 31.12.2023');\n\n-- Zusatzspalten in fact_lva_stats\nALTER TABLE fact_lva_stats\n  ADD COLUMN kohorte_id          INT         DEFAULT 1,\n  ADD COLUMN is_lva              TINYINT(1)  DEFAULT 0,\n  ADD COLUMN is_wiedereinstieg   TINYINT(1)  DEFAULT 0,\n  ADD COLUMN datenstatus         VARCHAR(20);\n\n-- Dieselben Zusatzspalten in fact_abschluss_stats\nALTER TABLE fact_abschluss_stats\n  ADD COLUMN kohorte_id          INT DEFAULT 1;\n"

In [5]:

# Tabelle leeren - Frisch laden  -----------------
with engine.begin() as con:
    con.exec_driver_sql("TRUNCATE TABLE fact_lva_stats;")
print("fact_lva_stats geleert – starte Import …")


fact_lva_stats geleert – starte Import …


In [6]:
#dient nur Doku Zwecken ALTER TABLE fact_lva_stats CHANGE COLUMN total_lehrvertraege anzahl_lehrvertraege INT NULL;"""
#%% ------------- Spalten umbenennen (nach Umbennung Excelspalten)-------------
# """
# from sqlalchemy import text
# with engine.begin() as con:
# con.exec_driver_sql(
#   )
#print("✔ Spalte total_lehrvertraege → anzahl_lehrvertraege umbenannt.")


In [7]:
#%% ------------- weitere Spalte umbenennen -------------
#from sqlalchemy import text
#with engine.begin() as con:
#con.exec_driver_sql("""
#ALTER TABLE fact_lva_stats
#CHANGE COLUMN anzahl_lernende_mit_lva anzahl_lernende_lva INT NULL;
#""")
#print("✔ anzahl_lernende_mit_lva → anzahl_lernende_lva umbenannt.")


In [8]:

# Recheck nach Änderung -  Alle *_Data-Sheets durchgehen  --------------------------
insert_rows = []

for src in sources:
    xls = pd.ExcelFile(src)
    for sh in xls.sheet_names:
        if not sh.lower().endswith("_data"):
            continue

        # Header-Zeile finden (erste Zeile mit ≥3 Werten)
        head = pd.read_excel(xls, sheet_name=sh, nrows=15, header=None)
        header_row = next(
            (i for i, r in head.iterrows() if r.notna().sum() >= 3),
            None
        )
        if header_row is None:
            print(f"⚠ {sh}: kein Header gefunden – übersprungen")
            continue

        df = pd.read_excel(xls, sheet_name=sh, header=header_row)

        # numerische Spalten sicher konvertieren
        num_cols = [
            "anzahl_lernende_lva", "anzahl_lernende_wiedereinstieg",
            "anzahl_lernende", "anzahl_lehrvertraege",
            "anzahl_lehrvertraege_lva"
        ]
        for col in num_cols:
            if col in df.columns:
                df[col] = pd.to_numeric(df[col], errors="coerce")

        # jede Zeile mappen & sammeln
        for _, row in df.iterrows():
            insert_rows.append({
                **map_row_to_ids(row),
                "anzahl_lernende_wiedereinstieg": row.get("anzahl_lernende_wiedereinstieg"),
                "anzahl_lernende":                row.get("anzahl_lernende"),
                "anzahl_lehrvertraege_lva":       row.get("anzahl_lehrvertraege_lva"),
                "anzahl_lernende_lva":            row.get("anzahl_lernende_lva"),
                "is_lva": 1 if any([
                        pd.notna(row.get("anzahl_lernende_lva")),
                        pd.notna(row.get("anzahl_lehrvertraege_lva")),
                        pd.notna(row.get("anzahl_lernende_wiedereinstieg")),
                        pd.notna(row.get("datenstatus"))          # unterdrückte Werte («<20», «<30»)
                    ]) else 0,
                "is_wiedereinstieg": 1 if pd.notna(row.get("anzahl_lernende_wiedereinstieg")) 
                else 0,
                "datenstatus":       row.get("datenstatus"),
                "kohorte_id":        1
            })

        print(f"✓ {sh}: {len(df)} Zeilen verarbeitet")




✓ T1_Lernform_Data: 7 Zeilen verarbeitet
✓ T2_Geschlecht_Data: 9 Zeilen verarbeitet
✓ T3_MIG_Status_Data: 13 Zeilen verarbeitet
✓ T4_ISCED_Data: 31 Zeilen verarbeitet
✓ T4.1_ISCED_EBA_Data: 20 Zeilen verarbeitet
✓ T4.2_ISCED_EFZ3_Data: 30 Zeilen verarbeitet
✓ T4.3_ISCED_EFZ4_Data: 18 Zeilen verarbeitet
✓ T4.1.1_ISCED_Beruf_EBA_Data: 55 Zeilen verarbeitet
✓ T4.2.1_ISCED_Beruf_EFZ3_Data: 106 Zeilen verarbeitet
✓ T4.3.1_ISCED_Beruf_EFZ4_Data: 67 Zeilen verarbeitet
✓ T5_LVA_t_Data: 12 Zeilen verarbeitet
✓ T6_Wiedereinstieg_Data: 6 Zeilen verarbeitet
✓ T7_Zeitpkt_Wiedereinstieg_Data: 9 Zeilen verarbeitet
✓ T8_Geschlecht_Wiedereinst_Data: 6 Zeilen verarbeitet
✓ T9_ISCED_Beruf_WEstg_G_Data: 207 Zeilen verarbeitet
✓ T9_ISCED_Beruf_WEstg_EBA_Data: 48 Zeilen verarbeitet
✓ T9_ISCED_Beruf_WEstg_EFZ3_Data: 98 Zeilen verarbeitet
✓ T9_ISCED_Beruf_WEstg_EFZ4_Data: 61 Zeilen verarbeitet
✓ T10_Anschlussart_LVA_Data: 24 Zeilen verarbeitet
✓ T11_QV_Status_Ende_t_Data: 12 Zeilen verarbeitet
✓ T12_QV_Status

In [9]:
        
# 1.5  Sammel-DataFrame → MySQL  -------------------------------
fact_df = pd.DataFrame(insert_rows)
with engine.begin() as con:
    fact_df.to_sql("fact_lva_stats", con, if_exists="append", index=False)

print("✔ fact_lva_stats geladen:", len(fact_df), "Zeilen")


✔ fact_lva_stats geladen: 1191 Zeilen
