# 01a · Profiling – LVA-Quelle

**Zweck**  
Erstes Datenprofil der BFS-Lehrvertragsauflösungen (`bfs_data_lva.xlsx`):
- prüft alle *_Data-Sheets
- zeigt Header-Erkennung, Spaltennamen & Stichprobe (head)

**Wichtigste Schritte**  
1. _Header detection_ → erste Zeile mit ≥3 Nicht-NA-Werten  
2. `display(df.head())` für jede Tabelle  
3. Ausgabe der Spaltenlisten je Sheet

**Ergebnis**  
Reiner Notebook-Output (Preview) – kein File-Write.

In [1]:
# Python • Imports & Datei laden
from pathlib import Path
import pandas as pd


SRC_LVA = Path("../../data/bfs_data_lva.xlsx")   # ggf. anpassen
xls = pd.ExcelFile(SRC_LVA)

# Nur relevante Sheets
DATA_SHEETS = [s for s in xls.sheet_names if s.endswith("_Data")]
print("Gefundene *_Data-Sheets:", len(DATA_SHEETS))
DATA_SHEETS


Gefundene *_Data-Sheets: 19


['T1_Lernform_Data',
 'T2_Geschlecht_Data',
 'T3_MIG_Status_Data',
 'T4.1.1_ISCED_Beruf_EBA_Data',
 'T4.2.1_ISCED_Beruf_EFZ3_Data',
 'T4.3.1_ISCED_Beruf_EFZ4_Data',
 'T5_LVA_t_Data',
 'T6_Wiedereinstieg_Data',
 'T7_Zeitpkt_Wiedereinstieg_Data',
 'T8_Geschlecht_Wiedereinst_Data',
 'T9_ISCED_Beruf_WEstg_G_Data',
 'T9_ISCED_Beruf_WEstg_EBA_Data',
 'T9_ISCED_Beruf_WEstg_EFZ3_Data',
 'T9_ISCED_Beruf_WEstg_EFZ4_Data',
 'T10_Anschlussart_LVA_Data',
 'T11_QV_Status_Ende_t_Data',
 'T12_QV_Status_Ende_t_sex_Data',
 'T13_QV_Status_Ende_t_MIG_Data',
 'T14_QV_Status_Ende_t_Beruf_Data']

In [2]:
def head_row(xls, sh):
    top = pd.read_excel(xls, sheet_name=sh, nrows=15, header=None)
    return next(i for i,row in top.iterrows() if row.notna().sum()>=3)

overview = []
for sh in DATA_SHEETS:
    hdr = head_row(xls, sh)
    cols = pd.read_excel(xls, sheet_name=sh, nrows=0, header=hdr).columns
    total = pd.read_excel(xls, sheet_name=sh, header=hdr, usecols=[0]).shape[0]
    overview.append({"sheet": sh, "rows_total": total,
                     "cols": len(cols),
                     "col_names": ", ".join(cols[:10]) + (" …" if len(cols)>10 else "")})
pd.DataFrame(overview)


Unnamed: 0,sheet,rows_total,cols,col_names
0,T1_Lernform_Data,6,5,"abschlussniveau, lernform, anzahl_lernende, an..."
1,T2_Geschlecht_Data,9,5,"abschlussniveau, geschlecht, anzahl_lernende, ..."
2,T3_MIG_Status_Data,12,5,"abschlussniveau, mig_status, anzahl_lernende, ..."
3,T4.1.1_ISCED_Beruf_EBA_Data,55,7,"abschlussniveau, ausbildungsfeld_isced_code, a..."
4,T4.2.1_ISCED_Beruf_EFZ3_Data,106,7,"abschlussniveau, ausbildungsfeld_isced_code, a..."
5,T4.3.1_ISCED_Beruf_EFZ4_Data,67,7,"abschlussniveau, ausbildungsfeld_isced_code, a..."
6,T5_LVA_t_Data,12,3,"abschlussniveau, lva_zeitpunkt, anzahl_lernend..."
7,T6_Wiedereinstieg_Data,6,3,"abschlussniveau, wiedereinstieg, anzahl_lernen..."
8,T7_Zeitpkt_Wiedereinstieg_Data,9,3,"abschlussniveau, wiedereinstieg_dauer, anzahl_..."
9,T8_Geschlecht_Wiedereinst_Data,6,3,"abschlussniveau, geschlecht, anzahl_lernende_w..."


In [3]:
for sh in DATA_SHEETS:
    hdr = head_row(xls, sh)
    cols = pd.read_excel(xls, sheet_name=sh, nrows=0, header=hdr).columns
    print(f"\n=== {sh} ===")
    print(list(cols))



=== T1_Lernform_Data ===
['abschlussniveau', 'lernform', 'anzahl_lernende', 'anzahl_lehrvertraege_lva', 'anzahl_lernende_lva']

=== T2_Geschlecht_Data ===
['abschlussniveau', 'geschlecht', 'anzahl_lernende', 'anzahl_lehrvertraege_lva', 'anzahl_lernende_lva']

=== T3_MIG_Status_Data ===
['abschlussniveau', 'mig_status', 'anzahl_lernende', 'anzahl_lehrvertraege_lva', 'anzahl_lernende_lva']

=== T4.1.1_ISCED_Beruf_EBA_Data ===
['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'beruf_bez', 'anzahl_lernende', 'anzahl_lernende_lva', 'datenstatus']

=== T4.2.1_ISCED_Beruf_EFZ3_Data ===
['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'beruf_bez', 'anzahl_lernende', 'anzahl_lernende_lva', 'datenstatus']

=== T4.3.1_ISCED_Beruf_EFZ4_Data ===
['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'beruf_bez', 'anzahl_lernende', 'anzahl_lernende_lva', 'datenstatus']

=== T5_LVA_t_Data ===
['abschlussniveau', 'lva_

In [4]:
# --- Stichprobe: erste 6 Zeilen je Sheet ---------------------------------
def head_row(xls, sh):
    top = pd.read_excel(xls, sheet_name=sh, nrows=15, header=None)
    return next(i for i, row in top.iterrows() if row.notna().sum() >= 3)

for sh in DATA_SHEETS:
    hdr = head_row(xls, sh)
    df  = pd.read_excel(xls, sheet_name=sh, header=hdr, nrows=6)
    print("=" * 80)
    print(f"▶︎ Sheet: {sh}")
    display(df)


▶︎ Sheet: T1_Lernform_Data


Unnamed: 0,abschlussniveau,lernform,anzahl_lernende,anzahl_lehrvertraege_lva,anzahl_lernende_lva
0,EBA,Dual,5955,1915,1526
1,EBA,SOG,199,57,47
2,EFZ3,Dual,34548,10723,8458
3,EFZ3,SOG,4130,1590,1320
4,EFZ4,Dual,12434,3545,2890
5,EFZ4,SOG,1997,804,644


▶︎ Sheet: T2_Geschlecht_Data


Unnamed: 0,abschlussniveau,geschlecht,anzahl_lernende,anzahl_lehrvertraege_lva,anzahl_lernende_lva
0,EBA,Männer,3827.0,1220.0,968.0
1,EBA,Frauen,2128.0,695.0,558.0
2,EBA,Unknown,,,
3,EFZ3,Männer,15868.0,5612.0,4394.0
4,EFZ3,Frauen,18680.0,5111.0,4064.0
5,EFZ3,Unknown,,,


▶︎ Sheet: T3_MIG_Status_Data


Unnamed: 0,abschlussniveau,mig_status,anzahl_lernende,anzahl_lehrvertraege_lva,anzahl_lernende_lva
0,EBA,CH,2528,901,696
1,EBA,MIG,2558,729,607
2,EBA,Swissborn MIG,842,273,213
3,EBA,MIG Status unbekannt,27,12,10
4,EFZ3,CH,26219,7417,5855
5,EFZ3,MIG,4476,1894,1520


▶︎ Sheet: T4.1.1_ISCED_Beruf_EBA_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,beruf_bez,anzahl_lernende,anzahl_lernende_lva,datenstatus
0,EBA,211,Audiovisuelle Techniken und Medienproduktion,Printmedienpraktiker/in EBA,37,8.0,OK
1,EBA,214,Kunsthandwerk,Florist/in EBA,10,,<30 Lehrverhältnisse
2,EBA,415,Sekretariats- und Büroarbeit,Büroassistent/in EBA,274,67.0,OK
3,EBA,416,Gross- und Einzelhandel,Detailhandelsassistent/in EBA,1094,283.0,OK
4,EBA,416,Gross- und Einzelhandel,Logistiker/in EBA,279,53.0,OK
5,EBA,711,Chemie und Verfahrenstechnik,Chemie- und Pharmapraktiker/in EBA,13,,<30 Lehrverhältnisse


▶︎ Sheet: T4.2.1_ISCED_Beruf_EFZ3_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,beruf_bez,anzahl_lernende,anzahl_lernende_lva,datenstatus
0,EFZ3,211,Audiovisuelle Techniken und Medienproduktion,Flexodrucker/in EFZ,8,,<30 Lehrverhältnisse
1,EFZ3,211,Audiovisuelle Techniken und Medienproduktion,Fotofachmann/-frau EFZ,45,12.0,OK
2,EFZ3,212,"Mode, Innenarchitektur und industrielles Design",Wohntextilgestalter/in EFZ,11,,<30 Lehrverhältnisse
3,EFZ3,214,Kunsthandwerk,Florist/in EFZ,162,56.0,OK
4,EFZ3,214,Kunsthandwerk,Vergolder/in-Einrahmer/in EFZ,2,,<30 Lehrverhältnisse
5,EFZ3,214,Kunsthandwerk,Musikinstrumentenbauer/in EFZ,11,,<30 Lehrverhältnisse


▶︎ Sheet: T4.3.1_ISCED_Beruf_EFZ4_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,beruf_bez,anzahl_lernende,anzahl_lernende_lva,datenstatus
0,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Printmedienverarbeiter/in EFZ,27,,<30 Lehrverhältnisse
1,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Medientechnologe/-technologin EFZ,82,16.0,OK
2,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Polygraf/in EFZ,100,18.0,OK
3,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Interactive Media Designer EFZ,52,11.0,OK
4,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Mediamatiker/in EFZ,340,106.0,OK
5,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Veranstaltungsfachmann/-frau EFZ,32,3.0,OK


▶︎ Sheet: T5_LVA_t_Data


Unnamed: 0,abschlussniveau,lva_zeitpunkt,anzahl_lernende_lva
0,EBA,Probezeit (1.-3. Monat)*,278
1,EBA,1. Lehrjahr (4.-12. Monat),867
2,EBA,2. Lehrjahr,341
3,EBA,> 2. Lehrjahr,40
4,EFZ3,Probezeit (1.-3. Monat)*,969
5,EFZ3,1. Lehrjahr (4.-12. Monat),4120


▶︎ Sheet: T6_Wiedereinstieg_Data


Unnamed: 0,abschlussniveau,wiedereinstieg,anzahl_lernende_lva
0,EBA,Ohne Wiedereinstieg,613
1,EBA,Mit Wiedereinstieg,913
2,EFZ3,Ohne Wiedereinstieg,1669
3,EFZ3,Mit Wiedereinstieg,6789
4,EFZ4,Ohne Wiedereinstieg,487
5,EFZ4,Mit Wiedereinstieg,2403


▶︎ Sheet: T7_Zeitpkt_Wiedereinstieg_Data


Unnamed: 0,abschlussniveau,wiedereinstieg_dauer,anzahl_lernende_wiedereinstieg
0,EBA,Im 1. Jahr nach LVA,627
1,EBA,Im 2. Jahr nach LVA,187
2,EBA,> 2. Jahr,99
3,EFZ3,Im 1. Jahr nach LVA,5503
4,EFZ3,Im 2. Jahr nach LVA,964
5,EFZ3,> 2. Jahr,322


▶︎ Sheet: T8_Geschlecht_Wiedereinst_Data


Unnamed: 0,abschlussniveau,geschlecht,anzahl_lernende_wiedereinstieg
0,EBA,Männer,968
1,EBA,Frauen,558
2,EFZ3,Männer,4394
3,EFZ3,Frauen,4064
4,EFZ4,Männer,2384
5,EFZ4,Frauen,506


▶︎ Sheet: T9_ISCED_Beruf_WEstg_G_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,beruf_bez,anzahl_lernende_lva,anzahl_lernende_wiedereinstieg,datenstatus
0,Total_Lernende,211,Audiovisuelle Techniken und Medienproduktion,Printmedienpraktiker/in EBA,8.0,,<20 LVA
1,Total_Lernende,211,Audiovisuelle Techniken und Medienproduktion,Printmedienverarbeiter/in EFZ,,,<30 Lehrverhältnisse
2,Total_Lernende,211,Audiovisuelle Techniken und Medienproduktion,Medientechnologe/-technologin EFZ,16.0,,<20 LVA
3,Total_Lernende,211,Audiovisuelle Techniken und Medienproduktion,Fotofachmann/-frau EFZ,12.0,,<20 LVA
4,Total_Lernende,211,Audiovisuelle Techniken und Medienproduktion,Polygraf/in EFZ,18.0,,<20 LVA
5,Total_Lernende,211,Audiovisuelle Techniken und Medienproduktion,Interactive Media Designer EFZ,11.0,,<20 LVA


▶︎ Sheet: T9_ISCED_Beruf_WEstg_EBA_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,beruf_bez,anzahl_lernende_lva,anzahl_lernende_wiedereinstieg,datenstatus
0,EBA,211,Audiovisuelle Techniken und Medienproduktion,Printmedienpraktiker/in EBA,8.0,,<20 LVA
1,EBA,214,Kunsthandwerk,Florist/in EBA,,,<30 Lehrverhältnisse
2,EBA,415,Sekretariats- und Büroarbeit,Büroassistent/in EBA,67.0,41.0,OK
3,EBA,416,Gross- und Einzelhandel,Detailhandelsassistent/in EBA,283.0,169.0,OK
4,EBA,416,Gross- und Einzelhandel,Logistiker/in EBA,53.0,29.0,OK
5,EBA,711,Chemie und Verfahrenstechnik,Chemie- und Pharmapraktiker/in EBA,,,<30 Lehrverhältnisse


▶︎ Sheet: T9_ISCED_Beruf_WEstg_EFZ3_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,beruf_bez,anzahl_lernende_lva,anzahl_lernende_wiedereinstieg,datenstatus
0,EFZ3,211,Audiovisuelle Techniken und Medienproduktion,Fotofachmann/-frau EFZ,12.0,,<20 LVA
1,EFZ3,212,"Mode, Innenarchitektur und industrielles Design",Wohntextilgestalter/in EFZ,,,<30 Lehrverhältnisse
2,EFZ3,214,Kunsthandwerk,Florist/in EFZ,56.0,46.0,OK
3,EFZ3,214,Kunsthandwerk,Vergolder/in-Einrahmer/in EFZ,,,<30 Lehrverhältnisse
4,EFZ3,214,Kunsthandwerk,Musikinstrumentenbauer/in EFZ,,,<30 Lehrverhältnisse
5,EFZ3,322,"Bibliothek, Informationswesen, Archiv",Fachmann/-frau Information und Dokumentation EFZ,8.0,,<20 LVA


▶︎ Sheet: T9_ISCED_Beruf_WEstg_EFZ4_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,beruf_bez,anzahl_lernende_lva,anzahl_lernende_wiedereinstieg,datenstatus
0,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Printmedienverarbeiter/in EFZ,,,<30 Lehrverhältnisse
1,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Medientechnologe/-technologin EFZ,16.0,,<20 LVA
2,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Polygraf/in EFZ,18.0,,<20 LVA
3,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Interactive Media Designer EFZ,11.0,,<20 LVA
4,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Mediamatiker/in EFZ,106.0,92.0,OK
5,EFZ4,211,Audiovisuelle Techniken und Medienproduktion,Veranstaltungsfachmann/-frau EFZ,3.0,,<20 LVA


▶︎ Sheet: T10_Anschlussart_LVA_Data


Unnamed: 0,abschlussniveau,lva_anschlussart,anzahl_lernende
0,EBA,"Neubeginn, kein Betriebswechsel",52
1,EBA,"Neubeginn, mit Betriebswechsel",305
2,EBA,"Berufswechsel, gleiche Dauer + anderes Feld",163
3,EBA,"Berufswechsel, gleiche Dauer + gleiches Feld",22
4,EBA,"Berufswechsel, andere Dauer + gleiches Feld",137
5,EBA,"Berufswechsel, andere Dauer + anderes Feld",225


▶︎ Sheet: T11_QV_Status_Ende_t_Data


Unnamed: 0,abschlussniveau,qv_status,anzahl_lernende
0,EBA,QV bestanden,4568
1,EBA,QV nicht bestanden,96
2,EBA,Noch in Ausbildung,126
3,EBA,Austritt berufl. Grundbildung,750
4,EFZ3,QV bestanden,30758
5,EFZ3,QV nicht bestanden,448


▶︎ Sheet: T12_QV_Status_Ende_t_sex_Data


Unnamed: 0,abschlussniveau,geschlecht,qv_status,anzahl_lernende
0,EBA,Männer,QV bestanden,2699
1,EBA,Frauen,QV bestanden,1869
2,EBA,Männer,QV nicht bestanden,79
3,EBA,Frauen,QV nicht bestanden,17
4,EBA,Männer,Noch in Ausbildung,84
5,EBA,Frauen,Noch in Ausbildung,42


▶︎ Sheet: T13_QV_Status_Ende_t_MIG_Data


Unnamed: 0,abschlussniveau,mig_status,qv_status,anzahl_lernende
0,EBA,CH,QV bestanden,2134
1,EBA,CH,QV nicht bestanden,47
2,EBA,CH,Noch in Ausbildung,68
3,EBA,CH,Austritt berufl. Grundbildung,334
4,EFZ3,CH,QV bestanden,24248
5,EFZ3,CH,QV nicht bestanden,305


▶︎ Sheet: T14_QV_Status_Ende_t_Beruf_Data


Unnamed: 0,abschlussniveau,ausbildungsfeld_isced_code,ausbildungsfeld_isced_bez,qv_status,anzahl_lernende,datenstatus
0,EBA,211,Audiovisuelle Techniken und Medienproduktion,QV bestanden,,<30
1,EBA,211,Audiovisuelle Techniken und Medienproduktion,QV nicht bestanden,,<30
2,EBA,211,Audiovisuelle Techniken und Medienproduktion,Noch in Ausbildung,,<30
3,EBA,211,Audiovisuelle Techniken und Medienproduktion,Austritt berufl. Grundbildung,,<30
4,EBA,212,"Mode, Innenarchitektur und industrielles Design",QV bestanden,,<30
5,EBA,212,"Mode, Innenarchitektur und industrielles Design",QV nicht bestanden,,<30


In [5]:

# Mapping mit Spalte Datenstatus - Kontrolle Spaltenübersicht pro Blatt – nur einmal zur Orientierung
# ------------------------------------------------------------------
for sh in DATA_SHEETS:
    df = pd.read_excel(xls, sheet_name=sh, nrows=0)   # nur Header einlesen
    print(f"\n=== {sh} ===")
    print(list(df.columns))



=== T1_Lernform_Data ===
['abschlussniveau', 'lernform', 'anzahl_lernende', 'anzahl_lehrvertraege_lva', 'anzahl_lernende_lva']

=== T2_Geschlecht_Data ===
['abschlussniveau', 'geschlecht', 'anzahl_lernende', 'anzahl_lehrvertraege_lva', 'anzahl_lernende_lva']



=== T3_MIG_Status_Data ===
['abschlussniveau', 'mig_status', 'anzahl_lernende', 'anzahl_lehrvertraege_lva', 'anzahl_lernende_lva']

=== T4.1.1_ISCED_Beruf_EBA_Data ===
['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'beruf_bez', 'anzahl_lernende', 'anzahl_lernende_lva', 'datenstatus']

=== T4.2.1_ISCED_Beruf_EFZ3_Data ===
['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'beruf_bez', 'anzahl_lernende', 'anzahl_lernende_lva', 'datenstatus']

=== T4.3.1_ISCED_Beruf_EFZ4_Data ===
['abschlussniveau', 'ausbildungsfeld_isced_code', 'ausbildungsfeld_isced_bez', 'beruf_bez', 'anzahl_lernende', 'anzahl_lernende_lva', 'datenstatus']

=== T5_LVA_t_Data ===
['abschlussniveau', 'lva_zeitpunkt', 'anzahl_lernende_lva']

=== T6_Wiedereinstieg_Data ===
['abschlussniveau', 'wiedereinstieg', 'anzahl_lernende_lva']

=== T7_Zeitpkt_Wiedereinstieg_Data ===
['abschlussniveau', 'wiedereinstieg_dauer', 'anzahl_lernende_wiedereinstieg']

=== T8_Geschl