# 05 · Dimension-Stammdaten & UNKNOWN-Rows

**Zweck**  
- legt fehlende Geo-Dimensionen an (Gemeindetyp, Sprachregion, Kanton)  
- füllt sie mit offizi­ellen Codes  
- sorgt dafür, dass *alle* Dimensionen min. eine Zeile `UNKNOWN` (ID 0) besitzen

**Wichtigste Schritte**  
1. `CREATE TABLE IF NOT EXISTS dim_…` (DDL Blöcke)  
2. `TRUNCATE` + Insert der Stammlisten  
3. `INSERT IGNORE … id 0` für jede Dimension

**Ergebnis**  
Vollständige & konsistente Dimensionstabellen.


In [3]:


from sqlalchemy import create_engine, text

ENG = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    future=True, echo=False)

# ───────────────────── 1) Geo-Tabellen anlegen ─────────────────────────
DDL = """
CREATE TABLE IF NOT EXISTS dim_kanton (
    kanton_id   INT AUTO_INCREMENT PRIMARY KEY,
    kanton_code CHAR(2) UNIQUE,
    kanton_bez  VARCHAR(100)
);
CREATE TABLE IF NOT EXISTS dim_gemeindetyp (
    gemeindetyp_id   INT AUTO_INCREMENT PRIMARY KEY,
    gemeindetyp_code VARCHAR(50) UNIQUE,
    gemeindetyp_bez  VARCHAR(100)
);
CREATE TABLE IF NOT EXISTS dim_sprachregion (
    sprachregion_id   INT AUTO_INCREMENT PRIMARY KEY,
    sprachregion_code VARCHAR(50) UNIQUE,
    sprachregion_bez  VARCHAR(100)
);
"""

kanton_rows = [
    ("AG", "Aargau"), ("AI", "Appenzell Innerrhoden"), ("AR", "Appenzell Ausserrhoden"),
    ("BE", "Bern"),   ("BL", "Basel-Landschaft"), ("BS", "Basel-Stadt"),
    ("FR", "Freiburg"), ("GE", "Genf"), ("GL", "Glarus"), ("GR", "Graubünden"),
    ("JU", "Jura"), ("LU", "Luzern"), ("NE", "Neuenburg"), ("NW", "Nidwalden"),
    ("OW", "Obwalden"), ("SG", "St. Gallen"), ("SH", "Schaffhausen"),
    ("SO", "Solothurn"), ("SZ", "Schwyz"), ("TG", "Thurgau"), ("TI", "Tessin"),
    ("UR", "Uri"), ("VD", "Waadt"), ("VS", "Wallis"), ("ZG", "Zug"), ("ZH", "Zürich")
]

gemeindetyp_rows = [
    ("STADT", "städtische Gemeinde"),
    ("INTER", "intermediäre Gemeinde"),
    ("LAND",  "ländliche Gemeinde")
]

sprachregion_rows = [
    ("DE", "deutsch-/rätoromanisch"),
    ("FR", "französisch"),
    ("IT", "italienisch")
]

with ENG.begin() as con:
    # 1. Tabellenstruktur
    for stmt in DDL.strip().split(";"):
        if stmt.strip():
            con.execute(text(stmt))

    # 2. Stammdaten neu laden
    con.execute(text("TRUNCATE TABLE dim_kanton"))
    con.execute(text(
        "INSERT INTO dim_kanton (kanton_code, kanton_bez) VALUES (:c, :b)"),
        [{"c": c, "b": b} for c, b in kanton_rows])

    con.execute(text("TRUNCATE TABLE dim_gemeindetyp"))
    con.execute(text(
        "INSERT INTO dim_gemeindetyp (gemeindetyp_code, gemeindetyp_bez) VALUES (:c, :b)"),
        [{"c": c, "b": b} for c, b in gemeindetyp_rows])

    con.execute(text("TRUNCATE TABLE dim_sprachregion"))
    con.execute(text(
        "INSERT INTO dim_sprachregion (sprachregion_code, sprachregion_bez) VALUES (:c, :b)"),
        [{"c": c, "b": b} for c, b in sprachregion_rows])

print("Kanton / Gemeindetyp / Sprachregion erstellt & befüllt.")

# ───────────────────── 2) UNKNOWN-Zeilen überall sichern ───────────────
DIM_LIST = [
    # bereits vorhandene Dims der LVA- und Abschluss-Loader
    "abschlussniveau","lernform","geschlecht","mig_status",
    "lva_anschlussart","qv_status","lva_zeitpunkt",
    "wiedereinst_dauer","isced","beruf",
    # die drei Geo-Dims
    "gemeindetyp","sprachregion","kanton"
]

with ENG.begin() as con:
    for dim in DIM_LIST:
        # Spaltennamen bestimmen
        cols = con.execute(text(f"SHOW COLUMNS FROM dim_{dim}")).mappings().all()
        id_col = f"{dim}_id"
        code_col = next(c["Field"] for c in cols if c["Field"].endswith("_code") or c["Field"].endswith("_bez"))
        # UNKNOWN-Insert (wird dank INSERT IGNORE nur ergänzt, falls wirklich fehlt)
        con.execute(text(
            f"INSERT IGNORE INTO dim_{dim} ({id_col}, {code_col}) "
            "VALUES (0, 'UNKNOWN')"))

print("UNKNOWN (ID 0) in allen Dimensionen vorhanden.")


Kanton / Gemeindetyp / Sprachregion erstellt & befüllt.
UNKNOWN (ID 0) in allen Dimensionen vorhanden.
