In [14]:
import pandas as pd
from sqlalchemy import create_engine, text
from pathlib import Path

# Pfad zur harmonisierten Excel-Datei
excel_path = Path(r"C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\data\bfs_data.xlsx")

# DB-Verbindung
engine = create_engine("mysql+pymysql://root:voc_root@localhost:3306/vocdata", echo=False)

# --------- Werte sammeln ---------
vals = set()
xls = pd.ExcelFile(excel_path)

for sheet in xls.sheet_names:
    if sheet.endswith("_Data"):
        df = pd.read_excel(xls, sheet_name=sheet,
                           usecols=lambda c: 'abschlussniveau' in c.lower())
        if 'abschlussniveau' in df.columns:
            vals.update(df['abschlussniveau'].dropna().str.strip().unique())

dim_df = (
    pd.DataFrame(sorted(vals), columns=['abschlussniveau_bez'])
      .assign(abschlussniveau_code=lambda d: d['abschlussniveau_bez'].str.upper())
      .reset_index(names='abschlussniveau_id')
      .assign(abschlussniveau_id=lambda d: d['abschlussniveau_id'] + 1)
)

# --------- Tabelle anlegen + laden ---------
with engine.begin() as con:
    con.execute(text("""
        CREATE TABLE IF NOT EXISTS dim_abschlussniveau (
            abschlussniveau_id   INT PRIMARY KEY,
            abschlussniveau_code VARCHAR(50) UNIQUE,
            abschlussniveau_bez  VARCHAR(100)
        );
    """))
    dim_df.to_sql('dim_abschlussniveau', con, if_exists='replace', index=False)

print("✔ dim_abschlussniveau geladen:", len(dim_df), "Einträge")


✔ dim_abschlussniveau geladen: 7 Einträge


In [15]:
# --------- dim_lernform ---------
vals = set()
for sheet in xls.sheet_names:
    if sheet.endswith("_Data"):
        df = pd.read_excel(xls, sheet_name=sheet,
                           usecols=lambda c: 'lernform' in c.lower())
        if 'lernform' in df.columns:
            vals.update(df['lernform'].dropna().str.strip().unique())

dim_df = (
    pd.DataFrame(sorted(vals), columns=['lernform_bez'])
      .assign(lernform_code=lambda d: d['lernform_bez'].str.upper())
      .reset_index(names='lernform_id')
      .assign(lernform_id=lambda d: d['lernform_id'] + 1)
)

with engine.begin() as con:
    con.execute(text("""
        CREATE TABLE IF NOT EXISTS dim_lernform (
            lernform_id   INT PRIMARY KEY,
            lernform_code VARCHAR(50) UNIQUE,
            lernform_bez  VARCHAR(100)
        );
    """))
    dim_df.to_sql('dim_lernform', con, if_exists='replace', index=False)

print("✔ dim_lernform geladen:", len(dim_df), "Einträge")


✔ dim_lernform geladen: 2 Einträge


In [16]:
# --------- dim_geschlecht ---------
vals = set()
for sheet in xls.sheet_names:
    if sheet.endswith("_Data"):
        df = pd.read_excel(xls, sheet_name=sheet,
                           usecols=lambda c: 'geschlecht' in c.lower())
        if 'geschlecht' in df.columns:
            vals.update(df['geschlecht'].dropna().str.strip().unique())

dim_df = (
    pd.DataFrame(sorted(vals), columns=['geschlecht_bez'])
      .assign(geschlecht_code=lambda d: d['geschlecht_bez'].str.upper())
      .reset_index(names='geschlecht_id')
      .assign(geschlecht_id=lambda d: d['geschlecht_id'] + 1)
)

with engine.begin() as con:
    con.execute(text("""
        CREATE TABLE IF NOT EXISTS dim_geschlecht (
            geschlecht_id   INT PRIMARY KEY,
            geschlecht_code VARCHAR(50) UNIQUE,
            geschlecht_bez  VARCHAR(100)
        );
    """))
    dim_df.to_sql('dim_geschlecht', con, if_exists='replace', index=False)

print("✔ dim_geschlecht geladen:", len(dim_df), "Einträge")



✔ dim_geschlecht geladen: 2 Einträge


In [17]:
# --------- dim_mig_status ---------
vals = set()
for sheet in xls.sheet_names:
    if sheet.endswith("_Data"):
        df = pd.read_excel(xls, sheet_name=sheet,
                           usecols=lambda c: 'mig_status' in c.lower())
        if 'mig_status' in df.columns:
            vals.update(df['mig_status'].dropna().str.strip().unique())

dim_df = (
    pd.DataFrame(sorted(vals), columns=['mig_status_bez'])
      .assign(mig_status_code=lambda d: d['mig_status_bez'].str.upper())
      .reset_index(names='mig_status_id')
      .assign(mig_status_id=lambda d: d['mig_status_id'] + 1)
)

with engine.begin() as con:
    con.execute(text("""
        CREATE TABLE IF NOT EXISTS dim_mig_status (
            mig_status_id   INT PRIMARY KEY,
            mig_status_code VARCHAR(50) UNIQUE,
            mig_status_bez  VARCHAR(100)
        );
    """))
    dim_df.to_sql('dim_mig_status', con, if_exists='replace', index=False)

print("✔ dim_mig_status geladen:", len(dim_df), "Einträge")



✔ dim_mig_status geladen: 5 Einträge


In [18]:
# --------- dim_isced ---------
vals = set()
for sheet in xls.sheet_names:
    if sheet.endswith("_Data"):
        df = pd.read_excel(
            xls,
            sheet_name=sheet,
            usecols=lambda c: 'isced' in c.lower()      # Feldname prüfen
        )
        cols = [c for c in df.columns if 'isced' in c.lower()]   # code & bez
        if cols:
            vals.update(
                df[cols]
                .dropna()
                .astype(str)
                .astype(str).apply(lambda s: s.str.strip())
                .drop_duplicates()
                .itertuples(index=False, name=None)
            )

# Werte in DataFrame bringen
dim_df = (
    pd.DataFrame(vals, columns=['isced_code', 'isced_bez'])
      .sort_values('isced_code')
      .reset_index(drop=True)
      .reset_index(names='isced_id')
      .assign(isced_id=lambda d: d['isced_id'] + 1)
)

with engine.begin() as con:
    con.execute(text("""
        CREATE TABLE IF NOT EXISTS dim_isced (
            isced_id   INT PRIMARY KEY,
            isced_code VARCHAR(20) UNIQUE,
            isced_bez  VARCHAR(150)
        );
    """))
    dim_df.to_sql('dim_isced', con, if_exists='replace', index=False)

print("✔ dim_isced geladen:", len(dim_df), "Einträge")


✔ dim_isced geladen: 62 Einträge


In [19]:
all_cols = set()
for sh in xls.sheet_names:
    if sh.endswith('_Data'):
        all_cols.update(pd.read_excel(xls, sheet_name=sh, nrows=0).columns)
print(sorted(all_cols))



['abschlussniveau', 'anschlussart_lva', 'anzahl_lernende_mit_lva', 'anzahl_lernende_wiedereinstieg', 'anzahl_lva_vertraege', 'ausbildungsfeld_isced_bez', 'ausbildungsfeld_isced_code', 'beruf_bez', 'datenstatus', 'dim_wiedereinstieg', 'geschlecht', 'lernform', 'lva_zeitraum ', 'mig_status', 'qv_status', 'total_lehrvertraege', 'total_lernende', 'wiedereinstieg_dauer']


In [20]:
# alle Spalten pro Sheet zeigen
for sh in xls.sheet_names:
    if sh.endswith('_Data'):
        cols = pd.read_excel(xls, sheet_name=sh, nrows=0).columns.tolist()
        print(sh, '→', cols)


T1_Lernform_Data → ['abschlussniveau', 'lernform', 'total_lehrvertraege', 'anzahl_lva_vertraege', 'anzahl_lernende_mit_lva']
T2_Geschlecht_Data → ['abschlussniveau', 'geschlecht', 'total_lehrvertraege', 'anzahl_lva_vertraege', 'anzahl_lernende_mit_lva']
T3_Herkunft_Data → ['abschlussniveau', 'mig_status', 'total_lehrvertraege', 'anzahl_lva_vertraege', 'anzahl_lernende_mit_lva']
Tx_ISCED_Data → ['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'total_lernende', 'anzahl_lernende_mit_lva']
T4_ISCED_EBA_Data → ['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'total_lernende', 'anzahl_lernende_mit_lva']
T4_ISCED_EFZ3_Data → ['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'total_lernende', 'anzahl_lernende_mit_lva']
T4_ISCED_EFZ4_Data → ['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'total_lernende', 'anzahl_lernende_mit_lva']
T4.1.a_ISCED_Beruf_EBA_Data → ['abschlussnive

In [21]:
DIM_MAP = {
    'abschlussniveau':      ['abschlussniveau'],
    'lernform':             ['lernform'],
    'geschlecht':           ['geschlecht'],
    'mig_status':           ['mig_status'],
    'anschlussart':         ['anschlussart_lva'],
    'qv_status':            ['qv_status'],
    'lva_zeitraum':         ['lva_zeitraum '],  # inkl. Leerzeichen
    'wiedereinst_dauer':    ['wiedereinstieg_dauer'],
    'isced':                ['ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez'],
    'beruf':                ['beruf_bez']
}



In [22]:
import pandas as pd
from sqlalchemy import create_engine, text
from pathlib import Path

# ----------------------------------------------------------------------
# Konfiguration
# ----------------------------------------------------------------------
excel_path = Path(r"C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\data\bfs_data.xlsx")
engine = create_engine("mysql+pymysql://root:voc_root@localhost:3306/vocdata", echo=False)

# Mapping:  Dimension ➜ Spaltenvarianten  (erste Spalte = Code, zweite = Bez  –  falls zwei vorhanden)
DIM_MAP = {
    "abschlussniveau":      ["abschlussniveau"],
    "lernform":             ["lernform"],
    "geschlecht":           ["geschlecht"],
    "mig_status":           ["mig_status"],
    "anschlussart":         ["anschlussart_lva"],
    "qv_status":            ["qv_status"],
    "lva_zeitraum":         ["lva_zeitraum"],          # Leerzeichen beachten!
    "wiedereinst_dauer":    ["wiedereinstieg_dauer"],
    "isced":                ["ausbildungsfeld_isced_code", "ausbildungsfeld_isced_bez"],
    "beruf":                ["beruf_bez"]               # kein eigener Code vorhanden
}

xls = pd.ExcelFile(excel_path)

# ----------------------------------------------------------------------
# Helper-Funktionen
# ----------------------------------------------------------------------
def collect_values(sheet_df, col_names):
    """Sammelt Werte aus den angegebenen Spalten, liefert Liste von Tupeln (code, bez) oder Strings."""
    if len(col_names) == 2:                       # Code + Bez
        code_col, bez_col = col_names
        if {code_col, bez_col}.issubset(sheet_df.columns):
            return (
                sheet_df[[code_col, bez_col]]
                .dropna()
                .astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).astype(str).apply(lambda s: s.str.strip())
                .drop_duplicates()
                .itertuples(index=False, name=None)
            )
    else:                                         # nur Bez (Code wird abgeleitet)
        col = col_names[0]
        if col in sheet_df.columns:
            return (
                sheet_df[col]
                .dropna()
                .astype(str)
                .str.strip()
                .unique()
            )
    return []

def create_dim_table(con, dim, df):
    """Erzeugt (oder ersetzt) Dimensionstabelle und lädt DataFrame."""
    cols_sql = {
        2: f"""
            CREATE TABLE IF NOT EXISTS dim_{dim} (
                {dim}_id   INT PRIMARY KEY,
                {dim}_code VARCHAR(100) UNIQUE,
                {dim}_bez  VARCHAR(200)
            );
        """,
        1: f"""
            CREATE TABLE IF NOT EXISTS dim_{dim} (
                {dim}_id   INT PRIMARY KEY,
                {dim}_bez  VARCHAR(200) UNIQUE
            );
        """
    }
    con.execute(text(cols_sql[df.shape[1]-1]))
    df.to_sql(f"dim_{dim}", con, if_exists="replace", index=False)

# ----------------------------------------------------------------------
# Hauptschleife  –  Dimensionen laden
# ----------------------------------------------------------------------
with engine.begin() as con:
    for dim, cols in DIM_MAP.items():
        values = set()
        for sh in xls.sheet_names:
            if sh.endswith("_Data"):
                df_sheet = pd.read_excel(xls, sheet_name=sh, usecols=lambda c: any(c == col for col in cols))
                values.update(collect_values(df_sheet, cols))

        # DataFrame bauen
        if len(cols) == 2:      # Code + Bez
            dim_df = (
                pd.DataFrame(sorted(values), columns=[f"{dim}_code", f"{dim}_bez"])
                  .reset_index(names=f"{dim}_id")
                  .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1})
            )
        else:                   # nur Bez
            dim_df = (
                pd.DataFrame(sorted(values), columns=[f"{dim}_bez"])
                  .assign(**{f"{dim}_code": lambda d: d[f"{dim}_bez"].str.upper()})  # Code aus Bez ableiten
                  .reset_index(names=f"{dim}_id")
                  .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1})
            )

        create_dim_table(con, dim, dim_df)
        print(f"✔ dim_{dim} geladen:", len(dim_df), "Einträge")


✔ dim_abschlussniveau geladen: 7 Einträge
✔ dim_lernform geladen: 2 Einträge
✔ dim_geschlecht geladen: 2 Einträge
✔ dim_mig_status geladen: 5 Einträge
✔ dim_anschlussart geladen: 8 Einträge
✔ dim_qv_status geladen: 4 Einträge
✔ dim_lva_zeitraum geladen: 0 Einträge
✔ dim_wiedereinst_dauer geladen: 3 Einträge
✔ dim_isced geladen: 62 Einträge
✔ dim_beruf geladen: 228 Einträge


In [23]:
import pandas as pd
from sqlalchemy import create_engine, text
from pathlib import Path

# ----------------------------------------------------------------------
# Konfiguration
# ----------------------------------------------------------------------
excel_path = Path(r"C:\Users\claud\iCloudDrive\Dokumente\02_CLI\Studium\ZHAW\Masterarbeit\vocdata\data\bfs_data.xlsx")
engine = create_engine("mysql+pymysql://root:voc_root@localhost:3306/vocdata", echo=False)

DIM_MAP = {
    "abschlussniveau":      ["abschlussniveau"],
    "lernform":             ["lernform"],
    "geschlecht":           ["geschlecht"],
    "mig_status":           ["mig_status"],
    "anschlussart":         ["anschlussart_lva"],
    "qv_status":            ["qv_status"],
    "lva_zeitraum":         ["lva_zeitraum "],          # Leerzeichen beachten!
    "wiedereinst_dauer":    ["wiedereinstieg_dauer"],
    "isced":                ["ausbildungsfeld_isced_code", "ausbildungsfeld_isced_bez"],
    "beruf":                ["beruf_bez"]
}

xls = pd.ExcelFile(excel_path)

# ----------------------------------------------------------------------
# Helper-Funktionen
# ----------------------------------------------------------------------
def collect_values(sheet_df, col_names):
    """Sammelt Werte und liefert Liste von Tupeln (code, bez) oder Strings."""
    if len(col_names) == 2:                       # Code + Bez
        code_col, bez_col = col_names
        if {code_col, bez_col}.issubset(sheet_df.columns):
            return (
                sheet_df[[code_col, bez_col]]
                .dropna()
                .astype(str)                      # numerische Codes → String
                .apply(lambda s: s.str.strip())
                .drop_duplicates()
                .itertuples(index=False, name=None)
            )
    else:                                         # nur Bez
        col = col_names[0]
        if col in sheet_df.columns:
            return (
                sheet_df[col]
                .dropna()
                .astype(str)
                .str.strip()
                .unique()
            )
    return []

def create_dim_table(con, dim, df):
    """Erzeugt (oder ersetzt) Dimensionstabelle und lädt DataFrame."""
    if df.shape[1] == 3:  # id + code + bez
        con.execute(text(f"""
            CREATE TABLE IF NOT EXISTS dim_{dim} (
                {dim}_id   INT PRIMARY KEY,
                {dim}_code VARCHAR(100) UNIQUE,
                {dim}_bez  VARCHAR(200)
            );
        """))
    else:  # id + bez
        con.execute(text(f"""
            CREATE TABLE IF NOT EXISTS dim_{dim} (
                {dim}_id   INT PRIMARY KEY,
                {dim}_bez  VARCHAR(200) UNIQUE
            );
        """))
    df.to_sql(f"dim_{dim}", con, if_exists="replace", index=False)

# ----------------------------------------------------------------------
# Hauptschleife  –  Dimensionen laden
# ----------------------------------------------------------------------
with engine.begin() as con:
    for dim, cols in DIM_MAP.items():
        values = set()
        for sh in xls.sheet_names:
            if sh.endswith("_Data"):
                df_sheet = pd.read_excel(
                    xls,
                    sheet_name=sh,
                    usecols=lambda c: c.strip() in cols
                )
                values.update(collect_values(df_sheet, cols))

        # DataFrame bauen
        if len(cols) == 2:      # Code + Bez
            dim_df = (
                pd.DataFrame(sorted(values), columns=[f"{dim}_code", f"{dim}_bez"])
                  .reset_index(names=f"{dim}_id")
                  .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1})
            )
        else:                   # nur Bez
            dim_df = (
                pd.DataFrame(sorted(values), columns=[f"{dim}_bez"])
                  .assign(**{f"{dim}_code": lambda d: d[f"{dim}_bez"].str.upper()})
                  .reset_index(names=f"{dim}_id")
                  .assign(**{f"{dim}_id": lambda d: d[f"{dim}_id"] + 1})
            )

        create_dim_table(con, dim, dim_df)
        print(f"✔ dim_{dim} geladen:", len(dim_df), "Einträge")


✔ dim_abschlussniveau geladen: 7 Einträge
✔ dim_lernform geladen: 2 Einträge
✔ dim_geschlecht geladen: 2 Einträge
✔ dim_mig_status geladen: 5 Einträge
✔ dim_anschlussart geladen: 8 Einträge
✔ dim_qv_status geladen: 4 Einträge
✔ dim_lva_zeitraum geladen: 0 Einträge
✔ dim_wiedereinst_dauer geladen: 3 Einträge
✔ dim_isced geladen: 62 Einträge
✔ dim_beruf geladen: 228 Einträge
