# 06b · Audit – fact_abschluss_stats

**Zweck**  
Blitz-Qualitäts-Check nach jedem Load:

**Wichtigste Schritte**  
1. NULL- & `UNKNOWN`-Zählungen  
2. Ausgabe als transponierte Tabelle  
3. Ablage als CSV für Reports

**Ergebnis**  
`tpm/audit_abschluss_results.csv` + visueller Check im Notebook.


Audit notebook: rein strukturell, läuft automatisiert nach jedem ETL-Run.

In [2]:
# 06b_abs_audit.ipynb
# -----------------------------------------------------------
# Kurz-Audit der Abschlussquoten-Faktentabelle
#   • prüft NULL-Werte in FK- und Kennzahlspalten
#   • zählt FK-IDs, die auf “UNKNOWN” (= 0) zeigen
# Ergebnis: kompakte, transponierte Audit-Tabelle

# %% ───────── Setup ─────────
import pandas as pd
from sqlalchemy import create_engine, text

ENG = create_engine(
    "mysql+pymysql://root:voc_root@localhost:3306/vocdata",
    future=True, echo=False)

# FK-Spalten
FK_COLS = [
    "gemeindetyp_id", "sprachregion_id", "kanton_id",
    "geschlecht_id", "mig_status_id"
]

# Kennzahlen
NUM_COLS = [
    "cnt_tot_25j", "cnt_abschluesse", "cnt_abschluss_lehre",
    "cnt_abschluss_allg", "rate_abschluss_tot",
    "rate_abschluss_lehre", "rate_abschluss_allg"
]

# %% ───────── Audit-Routine ─────────
def audit_fact(table: str, fk_cols: list, num_cols: list) -> pd.DataFrame:
    sel = ["COUNT(*) AS total_rows"]
    sel += [f"SUM({c} IS NULL) AS null_{c}" for c in fk_cols + num_cols]
    sel += [f"SUM({c}=0)        AS fk0_{c}"  for c in fk_cols]
    sql = f"SELECT {', '.join(sel)} FROM {table};"
    return (
        pd.read_sql(text(sql), ENG)
        .T.rename(columns={0: table})        # Spalten → Zeilen
    )

# %% ───────── Audit ausführen ─────────
display(audit_fact("fact_abschluss_stats", FK_COLS, NUM_COLS))


Unnamed: 0,fact_abschluss_stats
total_rows,80.0
null_gemeindetyp_id,0.0
null_sprachregion_id,0.0
null_kanton_id,0.0
null_geschlecht_id,0.0
null_mig_status_id,0.0
null_cnt_tot_25j,0.0
null_cnt_abschluesse,40.0
null_cnt_abschluss_lehre,40.0
null_cnt_abschluss_allg,40.0
