In [1]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import re

## Dateninfrastruktur:
<br> Es werden die in Form einer Excel-Arbeitsmappe bereitgestellten Daten mithilfe von Python in Jupyter Notebooks bzw sql-Dateien in eine lokale postgres datenbank geladen, transformiert und bearbeitet. Eine Verbindung zu der Datenbank wird innerhalb von VS Code mittels postgresql explorer aufgebaut. Sowohl die Notebooks als auch die sql-Dateien werden in VS Code entwickelt. Die postgres Datenbank kann zusätzlich über PG Admin verwaltet werden.

## Einlesen aller Arbeitsblätter, grobe Bearbeitung der Dataframes

In [2]:
# Pfad zur Excel-Datei
excel_file_path = '/Users/Mareikes/Desktop/projekt_zensus/regionaltabelle.xlsx'

# Liste der zu ladenden Arbeitsblätter
sheet_names = [
    'CSV-Klassenstufe', 
    'CSV-Schulform', 
    'CSV-Hoechster_Schulabschluss',
    'CSV-Hoechster_berufl_Abschluss',
    'CSV-Erwerbsstatus',
    'CSV-ET_Alter',
    'CSV-ET_Hoechst_berufl_Abschl',
    'CSV-ET_Stellung_im_Beruf',
    'CSV-ET_Beruf_Hauptgr_ISCO08',
    'CSV-ET_Wirtschaftszweig'
]

In [3]:
# Dictionary zum Speichern der DataFrames
dfs = {}

# Laden jedes Arbeitsblatts, jeweils DataFrame erstellen und ins Dict speichern
for sheet in sheet_names:
    df_name = f'df_raw_{sheet}'  # dynamische DataFrame-Namen
    
    # Einlesen der Excel-Daten, wobei alle Spalten explizit als Strings behandelt werden, um führende Nullen in _RS zu behalten
    df = pd.read_excel(excel_file_path, sheet_name=sheet, dtype=str)
    
    dfs[df_name] = df
    print(f"DataFrame '{df_name}' wurde erstellt mit Shape: {df.shape}") #Kontrolle

# Zugriff auf einen spezifischen DataFrame >> df_raw_klassenstufe = dfs['df_raw_CSV-Klassenstufe']


DataFrame 'df_raw_CSV-Klassenstufe' wurde erstellt mit Shape: (12439, 16)
DataFrame 'df_raw_CSV-Schulform' wurde erstellt mit Shape: (12439, 28)
DataFrame 'df_raw_CSV-Hoechster_Schulabschluss' wurde erstellt mit Shape: (12439, 28)
DataFrame 'df_raw_CSV-Hoechster_berufl_Abschluss' wurde erstellt mit Shape: (12439, 34)
DataFrame 'df_raw_CSV-Erwerbsstatus' wurde erstellt mit Shape: (12439, 19)
DataFrame 'df_raw_CSV-ET_Alter' wurde erstellt mit Shape: (12439, 28)
DataFrame 'df_raw_CSV-ET_Hoechst_berufl_Abschl' wurde erstellt mit Shape: (12439, 22)
DataFrame 'df_raw_CSV-ET_Stellung_im_Beruf' wurde erstellt mit Shape: (12439, 22)
DataFrame 'df_raw_CSV-ET_Beruf_Hauptgr_ISCO08' wurde erstellt mit Shape: (12439, 37)
DataFrame 'df_raw_CSV-ET_Wirtschaftszweig' wurde erstellt mit Shape: (12439, 43)


In [4]:
# die Dataframes über das Dict weiter bearbeiten: 
# es sollen nur noch Bund, Land, Landkreis/kreisfreie Stadt/Stadtkreis enthalten sein, 
# da die anderen Regionalebenen zahlenmäßig nicht übereinstimmen

for df_name, df in dfs.items():
    df_new = df[~df['Regionalebene'].isin(['Gemeinde', 'Gemeindeverband', 'Regierungsbezirk'])]
    dfs[df_name] = df_new #zurück ins Dict speichern
    print(f"DataFrame '{df_name}' wurde gefiltert. Neues Shape: {df_new.shape}") #Kontrolle


DataFrame 'df_raw_CSV-Klassenstufe' wurde gefiltert. Neues Shape: (417, 16)
DataFrame 'df_raw_CSV-Schulform' wurde gefiltert. Neues Shape: (417, 28)
DataFrame 'df_raw_CSV-Hoechster_Schulabschluss' wurde gefiltert. Neues Shape: (417, 28)
DataFrame 'df_raw_CSV-Hoechster_berufl_Abschluss' wurde gefiltert. Neues Shape: (417, 34)
DataFrame 'df_raw_CSV-Erwerbsstatus' wurde gefiltert. Neues Shape: (417, 19)
DataFrame 'df_raw_CSV-ET_Alter' wurde gefiltert. Neues Shape: (417, 28)
DataFrame 'df_raw_CSV-ET_Hoechst_berufl_Abschl' wurde gefiltert. Neues Shape: (417, 22)
DataFrame 'df_raw_CSV-ET_Stellung_im_Beruf' wurde gefiltert. Neues Shape: (417, 22)
DataFrame 'df_raw_CSV-ET_Beruf_Hauptgr_ISCO08' wurde gefiltert. Neues Shape: (417, 37)
DataFrame 'df_raw_CSV-ET_Wirtschaftszweig' wurde gefiltert. Neues Shape: (417, 43)


In [5]:
# in allen Dataframes gibt es Zellen mit "/", was für "keine Angabe" steht - das soll gezählt werden
for df_name, df in dfs.items():
    count_slash = (df == '/').sum().sum()
    print(f"DataFrame '{df_name}' enthält {count_slash} Zellen, die nur '/' enthalten.")

DataFrame 'df_raw_CSV-Klassenstufe' enthält 12 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-Schulform' enthält 1128 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-Hoechster_Schulabschluss' enthält 76 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-Hoechster_berufl_Abschluss' enthält 464 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-Erwerbsstatus' enthält 0 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-ET_Alter' enthält 14 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-ET_Hoechst_berufl_Abschl' enthält 0 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-ET_Stellung_im_Beruf' enthält 407 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-ET_Beruf_Hauptgr_ISCO08' enthält 893 Zellen, die nur '/' enthalten.
DataFrame 'df_raw_CSV-ET_Wirtschaftszweig' enthält 346 Zellen, die nur '/' enthalten.


In [6]:
#alle Spalten mit Anzahlen in int64 umwandeln, die anderen bleiben dtype object (insbesondere _RS bleibt ebenfalls object wg Nullen am Anfang); / durch NaN ersetzen
for df_name, df in dfs.items():
    df.replace('/', np.nan, inplace=True)
    for column in df.columns:
        if column not in ['_RS', 'Name', 'Regionalebene']:
            df[column] = pd.to_numeric(df[column], errors='coerce').astype('Int64')
        else:
            df[column] = df[column].astype(str)

In [7]:
for df_name, df in dfs.items():
    df_new = pd.melt(df, id_vars=['Berichtszeitpunkt','_RS', 'Name', 'Regionalebene'], var_name='Subtyp_0', value_name='Anzahl')
    dfs[df_name] = df_new #zurück ins Dict speichern
    print(f"DataFrame '{df_name}' wurde entpivotiert. Neues Shape: {df_new.shape}") 

DataFrame 'df_raw_CSV-Klassenstufe' wurde entpivotiert. Neues Shape: (5004, 6)
DataFrame 'df_raw_CSV-Schulform' wurde entpivotiert. Neues Shape: (10008, 6)
DataFrame 'df_raw_CSV-Hoechster_Schulabschluss' wurde entpivotiert. Neues Shape: (10008, 6)
DataFrame 'df_raw_CSV-Hoechster_berufl_Abschluss' wurde entpivotiert. Neues Shape: (12510, 6)
DataFrame 'df_raw_CSV-Erwerbsstatus' wurde entpivotiert. Neues Shape: (6255, 6)
DataFrame 'df_raw_CSV-ET_Alter' wurde entpivotiert. Neues Shape: (10008, 6)
DataFrame 'df_raw_CSV-ET_Hoechst_berufl_Abschl' wurde entpivotiert. Neues Shape: (7506, 6)
DataFrame 'df_raw_CSV-ET_Stellung_im_Beruf' wurde entpivotiert. Neues Shape: (7506, 6)
DataFrame 'df_raw_CSV-ET_Beruf_Hauptgr_ISCO08' wurde entpivotiert. Neues Shape: (13761, 6)
DataFrame 'df_raw_CSV-ET_Wirtschaftszweig' wurde entpivotiert. Neues Shape: (16263, 6)


## Bearbeitung Klassenstufe

In [8]:
df_klassenstufe = dfs['df_raw_CSV-Klassenstufe']
df_klassenstufe.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,SCHUELER_KLSS_STP,8903780
1,20220515,1,Schleswig-Holstein,Land,SCHUELER_KLSS_STP,320060
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHUELER_KLSS_STP,10380
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHUELER_KLSS_STP,24340
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHUELER_KLSS_STP,21310


In [9]:
df_klassenstufe['Subtyp_0'].unique()

array(['SCHUELER_KLSS_STP', 'SCHUELER_KLSS_STP__M',
       'SCHUELER_KLSS_STP__W', 'SCHUELER_KLSS_STP__1',
       'SCHUELER_KLSS_STP__1_M', 'SCHUELER_KLSS_STP__1_W',
       'SCHUELER_KLSS_STP__2', 'SCHUELER_KLSS_STP__2_M',
       'SCHUELER_KLSS_STP__2_W', 'SCHUELER_KLSS_STP__3',
       'SCHUELER_KLSS_STP__3_M', 'SCHUELER_KLSS_STP__3_W'], dtype=object)

In [10]:
# Funktion zur Ableitung der Klassenstufe
def derive_klassenstufe(value):
    if '1' in value:
        return "Klasse 1 bis 4"
    elif '2' in value:
        return "Klasse 5 bis 10"
    elif '3' in value:
        return "Gymnasiale Oberstufe"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Klassenstufe/Geschlecht"
df_klassenstufe['Subtyp'] = df_klassenstufe['Subtyp_0'].apply(derive_klassenstufe)
df_klassenstufe['Geschlecht'] = df_klassenstufe['Subtyp_0'].apply(derive_geschlecht)



In [11]:
#Summen löschen über NaN ...
df_klassenstufe = df_klassenstufe.dropna(subset=['Geschlecht'])
df_klassenstufe = df_klassenstufe.dropna(subset=['Subtyp'])



In [12]:
df_klassenstufe = df_klassenstufe.drop(columns=['Subtyp_0'])

In [13]:
df_klassenstufe.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
1996,20220515,10,Saarland,Land,17600,Klasse 1 bis 4,männlich
3237,20220515,9771,Aichach-Friedberg,Stadtkreis/kreisfreie Stadt/Landkreis,3570,Klasse 5 bis 10,männlich
3049,20220515,6434,Hochtaunuskreis,Stadtkreis/kreisfreie Stadt/Landkreis,7560,Klasse 5 bis 10,männlich
3679,20220515,12061,Dahme-Spreewald,Stadtkreis/kreisfreie Stadt/Landkreis,4440,Klasse 5 bis 10,weiblich
3082,20220515,7232,Eifelkreis Bitburg-Prüm,Stadtkreis/kreisfreie Stadt/Landkreis,2970,Klasse 5 bis 10,männlich


In [14]:
df_klassenstufe.shape

(2502, 7)

## Bearbeitung Schulform

In [15]:
df_schulform = dfs['df_raw_CSV-Schulform']
df_schulform.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,SCHUELER_SCH_STP,8903780
1,20220515,1,Schleswig-Holstein,Land,SCHUELER_SCH_STP,320060
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHUELER_SCH_STP,10380
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHUELER_SCH_STP,24340
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHUELER_SCH_STP,21310


In [16]:
df_schulform['Subtyp_0'].unique()

array(['SCHUELER_SCH_STP', 'SCHUELER_SCH_STP__M', 'SCHUELER_SCH_STP__W',
       'SCHUELER_SCH_STP__1', 'SCHUELER_SCH_STP__1_M',
       'SCHUELER_SCH_STP__1_W', 'SCHUELER_SCH_STP__2',
       'SCHUELER_SCH_STP__2_M', 'SCHUELER_SCH_STP__2_W',
       'SCHUELER_SCH_STP__3', 'SCHUELER_SCH_STP__3_M',
       'SCHUELER_SCH_STP__3_W', 'SCHUELER_SCH_STP__4',
       'SCHUELER_SCH_STP__4_M', 'SCHUELER_SCH_STP__4_W',
       'SCHUELER_SCH_STP__5', 'SCHUELER_SCH_STP__5_M',
       'SCHUELER_SCH_STP__5_W', 'SCHUELER_SCH_STP__6',
       'SCHUELER_SCH_STP__6_M', 'SCHUELER_SCH_STP__6_W',
       'SCHUELER_SCH_STP__7', 'SCHUELER_SCH_STP__7_M',
       'SCHUELER_SCH_STP__7_W'], dtype=object)

In [17]:
# Funktion zur Ableitung der Schulform
def derive_schulform(value):
    if '1' in value:
        return "Grundschule"
    elif '2' in value:
        return "Förderschule"
    elif '3' in value:
        return "Schule mit mehreren Bildungsgängen"
    elif '4' in value:
        return "Hauptschule"
    elif '5' in value:
        return "Realschule"
    elif '6' in value:
        return "Gesamt- und Waldorfschule"
    elif '7' in value:
        return "Gymnasium, Kolleg"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Schulform/Geschlecht"
df_schulform['Subtyp'] = df_schulform['Subtyp_0'].apply(derive_schulform)
df_schulform['Geschlecht'] = df_schulform['Subtyp_0'].apply(derive_geschlecht)

In [18]:
#Summen löschen über NaN
df_schulform = df_schulform.dropna(subset=['Geschlecht'])
df_schulform = df_schulform.dropna(subset=['Subtyp'])



In [19]:
df_schulform = df_schulform.drop(columns=['Subtyp_0'])

In [20]:
df_schulform.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
3241,20220515,9775,Neu-Ulm,Stadtkreis/kreisfreie Stadt/Landkreis,290.0,Förderschule,männlich
8318,20220515,16051,"Erfurt, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,1180.0,Gesamt- und Waldorfschule,männlich
4170,20220515,0,Deutschland,Bund,281880.0,Schule mit mehreren Bildungsgängen,männlich
3563,20220515,8426,Biberach,Stadtkreis/kreisfreie Stadt/Landkreis,,Förderschule,weiblich
9376,20220515,8215,Karlsruhe,Stadtkreis/kreisfreie Stadt/Landkreis,7680.0,"Gymnasium, Kolleg",männlich


## Bearbeitung Schulabschluss

In [21]:
df_schulabschluss = dfs['df_raw_CSV-Hoechster_Schulabschluss']
df_schulabschluss.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,SCHULABS_STP,69451580
1,20220515,1,Schleswig-Holstein,Land,SCHULABS_STP,2473130
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHULABS_STP,80000
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHULABS_STP,212690
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,SCHULABS_STP,182370


In [22]:
df_schulabschluss['Subtyp_0'].unique()

array(['SCHULABS_STP', 'SCHULABS_STP__M', 'SCHULABS_STP__W',
       'SCHULABS_STP__1', 'SCHULABS_STP__1_M', 'SCHULABS_STP__1_W',
       'SCHULABS_STP__2', 'SCHULABS_STP__2_M', 'SCHULABS_STP__2_W',
       'SCHULABS_STP__21', 'SCHULABS_STP__21_M', 'SCHULABS_STP__21_W',
       'SCHULABS_STP__22', 'SCHULABS_STP__22_M', 'SCHULABS_STP__22_W',
       'SCHULABS_STP__23', 'SCHULABS_STP__23_M', 'SCHULABS_STP__23_W',
       'SCHULABS_STP__24', 'SCHULABS_STP__24_M', 'SCHULABS_STP__24_W',
       'SCHULABS_STP__3', 'SCHULABS_STP__3_M', 'SCHULABS_STP__3_W'],
      dtype=object)

In [23]:
# Funktion zur Ableitung des Schulabschlusses
def derive_schulabschluss(value):
    if '1' in value:
        return "Noch in schulischer Ausbildung"
    elif '_2_' in value:
        return "allgemeinbildender Schulabschluss"
    elif '_21_' in value:
        return "Haupt-/Volksschulabschluss"
    elif '_22_' in value:
        return "Abschluss Polytechnische Oberschule"
    elif '_23_' in value:
        return "Realschulabschluss, mittlere Reife"
    elif '_24_' in value:
        return "Fachhochschul- oder Hochschulreife (Abitur)"
    elif '_3_' in value:
        return "ohne allgemeinbildenden Schulabschluss"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Schulabschluss/Geschlecht"
df_schulabschluss['Subtyp'] = df_schulabschluss['Subtyp_0'].apply(derive_schulabschluss)
df_schulabschluss['Geschlecht'] = df_schulabschluss['Subtyp_0'].apply(derive_geschlecht)

In [24]:
#Summen löschen über NaN
df_schulabschluss = df_schulabschluss.dropna(subset=['Geschlecht'])
df_schulabschluss = df_schulabschluss.dropna(subset=['Subtyp'])


In [25]:
df_schulabschluss = df_schulabschluss.drop(columns=['Subtyp_0'])

In [26]:
df_schulabschluss['Subtyp'].unique()

array(['Noch in schulischer Ausbildung',
       'allgemeinbildender Schulabschluss',
       'Abschluss Polytechnische Oberschule',
       'Realschulabschluss, mittlere Reife',
       'Fachhochschul- oder Hochschulreife (Abitur)',
       'ohne allgemeinbildenden Schulabschluss'], dtype=object)

In [27]:
df_schulabschluss.shape

(5838, 7)

## Bearbeitung Berufsabschluss

In [28]:
df_berufsabschluss= dfs['df_raw_CSV-Hoechster_berufl_Abschluss']
df_berufsabschluss.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,BERUFABS_AUSF_STP,69451580
1,20220515,1,Schleswig-Holstein,Land,BERUFABS_AUSF_STP,2473130
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,BERUFABS_AUSF_STP,80000
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,BERUFABS_AUSF_STP,212690
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,BERUFABS_AUSF_STP,182370


In [29]:
df_berufsabschluss['Subtyp_0'].unique()

array(['BERUFABS_AUSF_STP', 'BERUFABS_AUSF_STP__M',
       'BERUFABS_AUSF_STP__W', 'BERUFABS_AUSF_STP__1',
       'BERUFABS_AUSF_STP__1_M', 'BERUFABS_AUSF_STP__1_W',
       'BERUFABS_AUSF_STP__11', 'BERUFABS_AUSF_STP__11_M',
       'BERUFABS_AUSF_STP__11_W', 'BERUFABS_AUSF_STP__12',
       'BERUFABS_AUSF_STP__12_M', 'BERUFABS_AUSF_STP__12_W',
       'BERUFABS_AUSF_STP__13', 'BERUFABS_AUSF_STP__13_M',
       'BERUFABS_AUSF_STP__13_W', 'BERUFABS_AUSF_STP__14',
       'BERUFABS_AUSF_STP__14_M', 'BERUFABS_AUSF_STP__14_W',
       'BERUFABS_AUSF_STP__15', 'BERUFABS_AUSF_STP__15_M',
       'BERUFABS_AUSF_STP__15_W', 'BERUFABS_AUSF_STP__16',
       'BERUFABS_AUSF_STP__16_M', 'BERUFABS_AUSF_STP__16_W',
       'BERUFABS_AUSF_STP__17', 'BERUFABS_AUSF_STP__17_M',
       'BERUFABS_AUSF_STP__17_W', 'BERUFABS_AUSF_STP__2',
       'BERUFABS_AUSF_STP__2_M', 'BERUFABS_AUSF_STP__2_W'], dtype=object)

In [30]:
# Funktion zur Ableitung des Berufsabschlusses
def derive_berufsabschluss(value):
    if '_1_' in value:
        return "mit beruflichem Abschluss"
    elif '_11_' in value:
        return "Lehre, duales System"
    elif '12' in value:
        return "Fachschulabschluss"
    elif '13' in value:
        return "Fachschulabschluss ehem. DDR"
    elif '14' in value:
        return "Bachelor"
    elif '15' in value:
        return "Master"
    elif '16' in value:
        return "Diplom"
    elif '17' in value:
        return "Promotion"
    elif '_2_' in value:
        return "ohne beruflichen Abschluss"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Berufsabschluss/Geschlecht"
df_berufsabschluss['Subtyp'] = df_berufsabschluss['Subtyp_0'].apply(derive_berufsabschluss)
df_berufsabschluss['Geschlecht'] = df_berufsabschluss['Subtyp_0'].apply(derive_geschlecht)

In [31]:
#Summen löschen über NaN
df_berufsabschluss = df_berufsabschluss.dropna(subset=['Geschlecht'])
df_berufsabschluss = df_berufsabschluss.dropna(subset=['Subtyp'])


In [32]:
df_berufsabschluss = df_berufsabschluss.drop(columns=['Subtyp_0'])

In [33]:
df_berufsabschluss['Subtyp'].unique()

array(['mit beruflichem Abschluss', 'Lehre, duales System',
       'Fachschulabschluss', 'Fachschulabschluss ehem. DDR', 'Bachelor',
       'Master', 'Diplom', 'Promotion', 'ohne beruflichen Abschluss'],
      dtype=object)

In [34]:
df_berufsabschluss.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
8193,20220515,9371,Amberg-Sulzbach,Stadtkreis/kreisfreie Stadt/Landkreis,650,Master,männlich
9878,20220515,9477,Kulmbach,Stadtkreis/kreisfreie Stadt/Landkreis,2390,Diplom,weiblich
1851,20220515,7338,Rhein-Pfalz-Kreis,Stadtkreis/kreisfreie Stadt/Landkreis,47500,mit beruflichem Abschluss,männlich
4671,20220515,5314,"Bonn, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,12440,Fachschulabschluss,weiblich
4264,20220515,5382,Rhein-Sieg-Kreis,Stadtkreis/kreisfreie Stadt/Landkreis,25480,Fachschulabschluss,männlich


In [35]:
df_berufsabschluss.shape

(7506, 7)

## Bearbeitung Erwerbsstatus

In [36]:
df_erwerbsstatus = dfs['df_raw_CSV-Erwerbsstatus']
df_erwerbsstatus.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,ERWERBSTAT_KURZ_STP,80790220
1,20220515,1,Schleswig-Holstein,Land,ERWERBSTAT_KURZ_STP,2864310
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,ERWERBSTAT_KURZ_STP,92070
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,ERWERBSTAT_KURZ_STP,243430
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,ERWERBSTAT_KURZ_STP,209080


In [37]:
df_erwerbsstatus['Subtyp_0'].unique()

array(['ERWERBSTAT_KURZ_STP', 'ERWERBSTAT_KURZ_STP__M',
       'ERWERBSTAT_KURZ_STP__W', 'ERWERBSTAT_KURZ_STP__1',
       'ERWERBSTAT_KURZ_STP__1_M', 'ERWERBSTAT_KURZ_STP__1_W',
       'ERWERBSTAT_KURZ_STP__11', 'ERWERBSTAT_KURZ_STP__11_M',
       'ERWERBSTAT_KURZ_STP__11_W', 'ERWERBSTAT_KURZ_STP__12',
       'ERWERBSTAT_KURZ_STP__12_M', 'ERWERBSTAT_KURZ_STP__12_W',
       'ERWERBSTAT_KURZ_STP__2', 'ERWERBSTAT_KURZ_STP__2_M',
       'ERWERBSTAT_KURZ_STP__2_W'], dtype=object)

In [38]:
# Funktion zur Ableitung des Erwerbsstatus
def derive_erwerbsstatus(value):
    if '_1_' in value:
        return "Erwerbspersonen"
    elif '_11_' in value:
        return "Erwerbstätige"
    elif '12' in value:
        return "Erwerbslose"
    elif '_2_' in value:
        return "Nichterwerbspersonen"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Erwerbsstatus/Geschlecht"
df_erwerbsstatus['Subtyp'] = df_erwerbsstatus['Subtyp_0'].apply(derive_erwerbsstatus)
df_erwerbsstatus['Geschlecht'] = df_erwerbsstatus['Subtyp_0'].apply(derive_geschlecht)

In [39]:
#Summen löschen über NaN
df_erwerbsstatus = df_erwerbsstatus.dropna(subset=['Geschlecht'])
df_erwerbsstatus = df_erwerbsstatus.dropna(subset=['Subtyp'])


In [40]:
df_erwerbsstatus = df_erwerbsstatus.drop(columns=['Subtyp_0'])

In [41]:
df_erwerbsstatus['Subtyp'].unique()

array(['Erwerbspersonen', 'Erwerbstätige', 'Erwerbslose',
       'Nichterwerbspersonen'], dtype=object)

In [42]:
df_erwerbsstatus.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
2498,20220515,16074,Saale-Holzland-Kreis,Stadtkreis/kreisfreie Stadt/Landkreis,20130,Erwerbspersonen,weiblich
3005,20220515,5316,"Leverkusen, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,41060,Erwerbstätige,männlich
3321,20220515,16063,Wartburgkreis,Stadtkreis/kreisfreie Stadt/Landkreis,38680,Erwerbstätige,männlich
6020,20220515,7337,Südliche Weinstraße,Stadtkreis/kreisfreie Stadt/Landkreis,27290,Nichterwerbspersonen,weiblich
4790,20220515,8216,Rastatt,Stadtkreis/kreisfreie Stadt/Landkreis,3100,Erwerbslose,weiblich


## Bearbeitung Alter

In [43]:
df_alter = dfs['df_raw_CSV-ET_Alter']
df_alter.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,ET_ALTER_ERW,41047770
1,20220515,1,Schleswig-Holstein,Land,ET_ALTER_ERW,1479510
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_ALTER_ERW,48070
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_ALTER_ERW,128800
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_ALTER_ERW,104830


In [44]:
df_alter['Subtyp_0'].unique()

array(['ET_ALTER_ERW', 'ET_ALTER_ERW__M', 'ET_ALTER_ERW__W',
       'ET_ALTER_ERW__1', 'ET_ALTER_ERW__1_M', 'ET_ALTER_ERW__1_W',
       'ET_ALTER_ERW__2', 'ET_ALTER_ERW__2_M', 'ET_ALTER_ERW__2_W',
       'ET_ALTER_ERW__3', 'ET_ALTER_ERW__3_M', 'ET_ALTER_ERW__3_W',
       'ET_ALTER_ERW__4', 'ET_ALTER_ERW__4_M', 'ET_ALTER_ERW__4_W',
       'ET_ALTER_ERW__5', 'ET_ALTER_ERW__5_M', 'ET_ALTER_ERW__5_W',
       'ET_ALTER_ERW__6', 'ET_ALTER_ERW__6_M', 'ET_ALTER_ERW__6_W',
       'ET_ALTER_ERW__7', 'ET_ALTER_ERW__7_M', 'ET_ALTER_ERW__7_W'],
      dtype=object)

In [45]:
# Funktion zur Ableitung des Alters
def derive_alter(value):
    if '1' in value:
        return "15 bis 19 Jahre"
    elif '2' in value:
        return "20 bis 29 Jahre"
    elif '3' in value:
        return "30 bis 39 Jahre"
    elif '4' in value:
        return "40 bis 49 Jahre"
    elif '5' in value:
        return "50 bis 59 Jahre"
    elif '6' in value:
        return "60 bis 67 Jahre"
    elif '7' in value:
        return "68 Jahre und älter"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Alter/Geschlecht"
df_alter['Subtyp'] = df_alter['Subtyp_0'].apply(derive_alter)
df_alter['Geschlecht'] = df_alter['Subtyp_0'].apply(derive_geschlecht)

In [46]:
#Summen löschen über NaN
df_alter = df_alter.dropna(subset=['Geschlecht'])
df_alter = df_alter.dropna(subset=['Subtyp'])


In [47]:
df_alter = df_alter.drop(columns=['Subtyp_0'])

In [48]:
df_alter['Subtyp'].unique()

array(['15 bis 19 Jahre', '20 bis 29 Jahre', '30 bis 39 Jahre',
       '40 bis 49 Jahre', '50 bis 59 Jahre', '60 bis 67 Jahre',
       '68 Jahre und älter'], dtype=object)

In [49]:
df_alter.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
4955,20220515,14522,Mittelsachsen,Stadtkreis/kreisfreie Stadt/Landkreis,13120,30 bis 39 Jahre,weiblich
9212,20220515,3352,Cuxhaven,Stadtkreis/kreisfreie Stadt/Landkreis,1940,68 Jahre und älter,männlich
7127,20220515,3352,Cuxhaven,Stadtkreis/kreisfreie Stadt/Landkreis,13470,50 bis 59 Jahre,weiblich
1744,20220515,5120,"Remscheid, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,750,15 bis 19 Jahre,männlich
2343,20220515,9271,Deggendorf,Stadtkreis/kreisfreie Stadt/Landkreis,1070,15 bis 19 Jahre,weiblich


## Bearbeitung ET_Berufsabschluss

In [50]:
df_et_berufsabschluss= dfs['df_raw_CSV-ET_Hoechst_berufl_Abschl']
df_et_berufsabschluss.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,ET_BERUFABS_KURZ_STP,41047770
1,20220515,1,Schleswig-Holstein,Land,ET_BERUFABS_KURZ_STP,1479510
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_BERUFABS_KURZ_STP,48070
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_BERUFABS_KURZ_STP,128800
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_BERUFABS_KURZ_STP,104830


In [51]:
df_et_berufsabschluss['Subtyp_0'].unique()

array(['ET_BERUFABS_KURZ_STP', 'ET_BERUFABS_KURZ_STP__M',
       'ET_BERUFABS_KURZ_STP__W', 'ET_BERUFABS_KURZ_STP__1',
       'ET_BERUFABS_KURZ_STP__1_M', 'ET_BERUFABS_KURZ_STP__1_W',
       'ET_BERUFABS_KURZ_STP__11', 'ET_BERUFABS_KURZ_STP__11_M',
       'ET_BERUFABS_KURZ_STP__11_W', 'ET_BERUFABS_KURZ_STP__12',
       'ET_BERUFABS_KURZ_STP__12_M', 'ET_BERUFABS_KURZ_STP__12_W',
       'ET_BERUFABS_KURZ_STP__13', 'ET_BERUFABS_KURZ_STP__13_M',
       'ET_BERUFABS_KURZ_STP__13_W', 'ET_BERUFABS_KURZ_STP__2',
       'ET_BERUFABS_KURZ_STP__2_M', 'ET_BERUFABS_KURZ_STP__2_W'],
      dtype=object)

In [52]:
# Funktion zur Ableitung des Berufsabschlusses
def derive_berufsabschluss(value):
    if '_1_' in value:
        return "mit beruflichem Bildungsabschluss (ET)"
    elif '_11_' in value:
        return "Lehre, duales System (ET)"
    elif '12' in value:
        return "Fachschulabschluss (ET)"
    elif '13' in value:
        return "Bachelor, Master, Diplom, Promotion (ET)"
    elif '_2_' in value:
        return "ohne beruflichen Bildungsabschluss (ET)"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Berufsabschluss/Geschlecht"
df_et_berufsabschluss['Subtyp'] = df_et_berufsabschluss['Subtyp_0'].apply(derive_berufsabschluss)
df_et_berufsabschluss['Geschlecht'] = df_et_berufsabschluss['Subtyp_0'].apply(derive_geschlecht)

In [53]:
#Summen löschen über NaN
df_et_berufsabschluss = df_et_berufsabschluss.dropna(subset=['Geschlecht'])
df_et_berufsabschluss = df_et_berufsabschluss.dropna(subset=['Subtyp'])


In [54]:
df_et_berufsabschluss = df_et_berufsabschluss.drop(columns=['Subtyp_0'])

In [55]:
df_et_berufsabschluss['Subtyp'].unique()

array(['mit beruflichem Bildungsabschluss (ET)',
       'Lehre, duales System (ET)', 'Fachschulabschluss (ET)',
       'Bachelor, Master, Diplom, Promotion (ET)',
       'ohne beruflichen Bildungsabschluss (ET)'], dtype=object)

In [56]:
df_et_berufsabschluss.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
3724,20220515,15086,Jerichower Land,Stadtkreis/kreisfreie Stadt/Landkreis,9340,"Lehre, duales System (ET)",weiblich
2353,20220515,9362,Regensburg,Stadtkreis/kreisfreie Stadt/Landkreis,31310,mit beruflichem Bildungsabschluss (ET),weiblich
7058,20220515,15084,Burgenlandkreis,Stadtkreis/kreisfreie Stadt/Landkreis,6990,ohne beruflichen Bildungsabschluss (ET),männlich
7226,20220515,6531,Gießen,Stadtkreis/kreisfreie Stadt/Landkreis,15360,ohne beruflichen Bildungsabschluss (ET),weiblich
3668,20220515,10044,Saarlouis,Stadtkreis/kreisfreie Stadt/Landkreis,20620,"Lehre, duales System (ET)",weiblich


## Bearbeitung Stellung

In [57]:
df_stellung=dfs['df_raw_CSV-ET_Stellung_im_Beruf']
df_stellung.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,ET_STELLGBERF_STP,41047770
1,20220515,1,Schleswig-Holstein,Land,ET_STELLGBERF_STP,1479510
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_STELLGBERF_STP,48070
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_STELLGBERF_STP,128800
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_STELLGBERF_STP,104830


In [58]:
df_stellung['Subtyp_0'].unique()

array(['ET_STELLGBERF_STP', 'ET_STELLGBERF_STP__M',
       'ET_STELLGBERF_STP__W', 'ET_STELLGBERF_STP__1',
       'ET_STELLGBERF_STP__1_M', 'ET_STELLGBERF_STP__1_W',
       'ET_STELLGBERF_STP__2', 'ET_STELLGBERF_STP__2_M',
       'ET_STELLGBERF_STP__2_W', 'ET_STELLGBERF_STP__3',
       'ET_STELLGBERF_STP__3_M', 'ET_STELLGBERF_STP__3_W',
       'ET_STELLGBERF_STP__4', 'ET_STELLGBERF_STP__4_M',
       'ET_STELLGBERF_STP__4_W', 'ET_STELLGBERF_STP__5',
       'ET_STELLGBERF_STP__5_M', 'ET_STELLGBERF_STP__5_W'], dtype=object)

In [59]:
# Funktion zur Ableitung der Stellung
def derive_stellung(value):
    if '1' in value:
        return "Angestellte/Arbeiter*innen"
    elif '2' in value:
        return "Beamt*innen"
    elif '3' in value:
        return "Selbstständige mit Beschäftigten"
    elif '4' in value:
        return "Selbstständige ohne Beschäftigte"
    elif '5' in value:
        return "Mithelfende Familienangehörige"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Stellung/Geschlecht"
df_stellung['Subtyp'] = df_stellung['Subtyp_0'].apply(derive_stellung)
df_stellung['Geschlecht'] = df_stellung['Subtyp_0'].apply(derive_geschlecht)

In [60]:
#Summen löschen über NaN
df_stellung = df_stellung.dropna(subset=['Geschlecht'])
df_stellung = df_stellung.dropna(subset=['Subtyp'])


In [61]:
df_stellung = df_stellung.drop(columns=['Subtyp_0'])

In [62]:
df_stellung['Subtyp'].unique()

array(['Angestellte/Arbeiter*innen', 'Beamt*innen',
       'Selbstständige mit Beschäftigten',
       'Selbstständige ohne Beschäftigte',
       'Mithelfende Familienangehörige'], dtype=object)

In [63]:
df_stellung.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
3556,20220515,8336,Lörrach,Stadtkreis/kreisfreie Stadt/Landkreis,2080,Beamt*innen,weiblich
4629,20220515,3356,Osterholz,Stadtkreis/kreisfreie Stadt/Landkreis,780,Selbstständige mit Beschäftigten,weiblich
2393,20220515,9674,Haßberge,Stadtkreis/kreisfreie Stadt/Landkreis,18640,Angestellte/Arbeiter*innen,weiblich
4857,20220515,9371,Amberg-Sulzbach,Stadtkreis/kreisfreie Stadt/Landkreis,750,Selbstständige mit Beschäftigten,weiblich
2450,20220515,14,Sachsen,Land,787870,Angestellte/Arbeiter*innen,weiblich


## Bearbeitung Berufsgruppe

In [64]:
df_berufsgruppe=dfs['df_raw_CSV-ET_Beruf_Hauptgr_ISCO08']
df_berufsgruppe.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,ET_BERUFSKLSS_HGISCO_STP,41047770
1,20220515,1,Schleswig-Holstein,Land,ET_BERUFSKLSS_HGISCO_STP,1479510
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_BERUFSKLSS_HGISCO_STP,48070
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_BERUFSKLSS_HGISCO_STP,128800
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_BERUFSKLSS_HGISCO_STP,104830


In [65]:
df_berufsgruppe['Subtyp_0'].unique()

array(['ET_BERUFSKLSS_HGISCO_STP', 'ET_BERUFSKLSS_HGISCO_STP__M',
       'ET_BERUFSKLSS_HGISCO_STP__W', 'ET_BERUFSKLSS_HGISCO_STP__1',
       'ET_BERUFSKLSS_HGISCO_STP__1_M', 'ET_BERUFSKLSS_HGISCO_STP__1_W',
       'ET_BERUFSKLSS_HGISCO_STP__2', 'ET_BERUFSKLSS_HGISCO_STP__2_M',
       'ET_BERUFSKLSS_HGISCO_STP__2_W', 'ET_BERUFSKLSS_HGISCO_STP__3',
       'ET_BERUFSKLSS_HGISCO_STP__3_M', 'ET_BERUFSKLSS_HGISCO_STP__3_W',
       'ET_BERUFSKLSS_HGISCO_STP__4', 'ET_BERUFSKLSS_HGISCO_STP__4_M',
       'ET_BERUFSKLSS_HGISCO_STP__4_W', 'ET_BERUFSKLSS_HGISCO_STP__5',
       'ET_BERUFSKLSS_HGISCO_STP__5_M', 'ET_BERUFSKLSS_HGISCO_STP__5_W',
       'ET_BERUFSKLSS_HGISCO_STP__6', 'ET_BERUFSKLSS_HGISCO_STP__6_M',
       'ET_BERUFSKLSS_HGISCO_STP__6_W', 'ET_BERUFSKLSS_HGISCO_STP__7',
       'ET_BERUFSKLSS_HGISCO_STP__7_M', 'ET_BERUFSKLSS_HGISCO_STP__7_W',
       'ET_BERUFSKLSS_HGISCO_STP__8', 'ET_BERUFSKLSS_HGISCO_STP__8_M',
       'ET_BERUFSKLSS_HGISCO_STP__8_W', 'ET_BERUFSKLSS_HGISCO_STP__9',
     

In [66]:
# Funktion zur Ableitung der Berufsgruppe
def derive_berufsgruppe(value):
    if '1' in value:
        return "Führungskräfte"
    elif '2' in value:
        return "akademische Berufe"
    elif '3' in value:
        return "Techniker und gleichrangige nichttechnische Berufe"
    elif '4' in value:
        return "Bürokräfte und verwandte Berufe"
    elif '5' in value:
        return "Dienstleistungsberufe und Verkäufer*innen"
    elif '6' in value:
        return "Fachkräfte in Land-/Forstwirtschaft und Fischerei"
    elif '7' in value:
        return "Handwerks- und verwandte Berufe"
    elif '8' in value:
        return "Bedienung von Anlagen/Maschinen und Montageberufe"
    elif '9' in value:
        return "Hilfsarbeitskräfte"
    elif '0' in value:
        return "Angehörige der regulären Streitkräfte"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '_W' in value:
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Berufsgruppe/Geschlecht"
df_berufsgruppe['Subtyp'] = df_berufsgruppe['Subtyp_0'].apply(derive_berufsgruppe)
df_berufsgruppe['Geschlecht'] = df_berufsgruppe['Subtyp_0'].apply(derive_geschlecht)

In [67]:
#Summen löschen über NaN
df_berufsgruppe = df_berufsgruppe.dropna(subset=['Geschlecht'])
df_berufsgruppe = df_berufsgruppe.dropna(subset=['Subtyp'])


In [68]:
df_berufsgruppe = df_berufsgruppe.drop(columns=['Subtyp_0'])

In [69]:
df_berufsgruppe['Subtyp'].unique()

array(['Führungskräfte', 'akademische Berufe',
       'Techniker und gleichrangige nichttechnische Berufe',
       'Bürokräfte und verwandte Berufe',
       'Dienstleistungsberufe und Verkäufer*innen',
       'Fachkräfte in Land-/Forstwirtschaft und Fischerei',
       'Handwerks- und verwandte Berufe',
       'Bedienung von Anlagen/Maschinen und Montageberufe',
       'Hilfsarbeitskräfte', 'Angehörige der regulären Streitkräfte'],
      dtype=object)

In [70]:
df_berufsgruppe.sample(5)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
9222,20220515,3401,"Delmenhorst, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,4430,Handwerks- und verwandte Berufe,männlich
3070,20220515,7131,Ahrweiler,Stadtkreis/kreisfreie Stadt/Landkreis,4800,akademische Berufe,männlich
1966,20220515,9574,Nürnberger Land,Stadtkreis/kreisfreie Stadt/Landkreis,3000,Führungskräfte,männlich
7937,20220515,1060,Segeberg,Stadtkreis/kreisfreie Stadt/Landkreis,2060,Fachkräfte in Land-/Forstwirtschaft und Fischerei,männlich
5743,20220515,9775,Neu-Ulm,Stadtkreis/kreisfreie Stadt/Landkreis,4570,Bürokräfte und verwandte Berufe,männlich


## Bearbeitung Wirtschaftszweig

In [71]:
df_wirtschaft=dfs['df_raw_CSV-ET_Wirtschaftszweig']
df_wirtschaft.head()

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Subtyp_0,Anzahl
0,20220515,0,Deutschland,Bund,ET_WIRTSZWG_STP,41047770
1,20220515,1,Schleswig-Holstein,Land,ET_WIRTSZWG_STP,1479510
2,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_WIRTSZWG_STP,48070
3,20220515,1002,"Kiel, Landeshauptstadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_WIRTSZWG_STP,128800
4,20220515,1003,"Lübeck, Hansestadt",Stadtkreis/kreisfreie Stadt/Landkreis,ET_WIRTSZWG_STP,104830


In [72]:
df_wirtschaft['Subtyp_0'].unique()

array(['ET_WIRTSZWG_STP', 'ET_WIRTSZWG_STP__M', 'ET_WIRTSZWG_STP__W',
       'ET_WIRTSZWG_STP__1', 'ET_WIRTSZWG_STP__1_M',
       'ET_WIRTSZWG_STP__1_W', 'ET_WIRTSZWG_STP__2',
       'ET_WIRTSZWG_STP__2_M', 'ET_WIRTSZWG_STP__2_W',
       'ET_WIRTSZWG_STP__21', 'ET_WIRTSZWG_STP__21_M',
       'ET_WIRTSZWG_STP__21_W', 'ET_WIRTSZWG_STP__22',
       'ET_WIRTSZWG_STP__22_M', 'ET_WIRTSZWG_STP__22_W',
       'ET_WIRTSZWG_STP__23', 'ET_WIRTSZWG_STP__23_M',
       'ET_WIRTSZWG_STP__23_W', 'ET_WIRTSZWG_STP__3',
       'ET_WIRTSZWG_STP__3_M', 'ET_WIRTSZWG_STP__3_W',
       'ET_WIRTSZWG_STP__31', 'ET_WIRTSZWG_STP__31_M',
       'ET_WIRTSZWG_STP__31_W', 'ET_WIRTSZWG_STP__32',
       'ET_WIRTSZWG_STP__32_M', 'ET_WIRTSZWG_STP__32_W',
       'ET_WIRTSZWG_STP__33', 'ET_WIRTSZWG_STP__33_M',
       'ET_WIRTSZWG_STP__33_W', 'ET_WIRTSZWG_STP__34',
       'ET_WIRTSZWG_STP__34_M', 'ET_WIRTSZWG_STP__34_W',
       'ET_WIRTSZWG_STP__35', 'ET_WIRTSZWG_STP__35_M',
       'ET_WIRTSZWG_STP__35_W', 'ET_WIRTSZWG_STP_

In [73]:
# Funktion zur Ableitung des Wirtschaftszweiges
def derive_wirtschaft(value):
    if '_1_' in value:
        return "Land-/Forstwirtschaft, Fischerei"
    elif '_2_' in value:
        return "produzierendes Gewerbe"
    elif '21' in value:
        return "Bergbau und verarbeitendes Gewerbe"
    elif '22' in value:
        return "Energie-/Wasserversorgung, Abfallentsorgung"
    elif '23' in value:
        return "Baugewerbe"
    elif '_3_' in value:
        return "Dienstleistungsbereiche"
    elif '31' in value:
        return "Handel, Reparatur von KFZ, Gastgewerbe"
    elif '32' in value:
        return "Verkehr und Lagerei, Kommunikation"
    elif '33' in value:
        return "Finanz- und Versicherungsdienstleistungen"
    elif '34' in value:
        return "Grundstücks-/Wohnungswesen, wirtschaftliche Dienstleistungen"
    elif '35' in value:
        return "öffentliche Verwaltung, Verteidigung, Sozialversicherung"
    elif '36' in value:
        return "öffentliche und private Dienstleistungen (ohne öffentliche Verwaltung)"
    else:
        return np.nan

# Funktion zur Ableitung des Geschlechts
def derive_geschlecht(value):
    if '__W' in value:
        return "weiblich"
    elif re.search(r'__[0-9]+_W', value):
        return "weiblich"
    elif '_M' in value:
        return "männlich"
    else:
        return np.nan

# Anwenden der Funktionen auf die Spalte "Wirtschaft/Geschlecht"
df_wirtschaft['Subtyp'] = df_wirtschaft['Subtyp_0'].apply(derive_wirtschaft)
df_wirtschaft['Geschlecht'] = df_wirtschaft['Subtyp_0'].apply(derive_geschlecht)

In [74]:
#Summen löschen über NaN
df_wirtschaft = df_wirtschaft.dropna(subset=['Geschlecht'])
df_wirtschaft = df_wirtschaft.dropna(subset=['Subtyp'])


In [75]:
df_wirtschaft = df_wirtschaft.drop(columns=['Subtyp_0'])

In [76]:
df_wirtschaft['Subtyp'].unique()

array(['Land-/Forstwirtschaft, Fischerei', 'produzierendes Gewerbe',
       'Bergbau und verarbeitendes Gewerbe',
       'Energie-/Wasserversorgung, Abfallentsorgung', 'Baugewerbe',
       'Dienstleistungsbereiche',
       'Handel, Reparatur von KFZ, Gastgewerbe',
       'Verkehr und Lagerei, Kommunikation',
       'Finanz- und Versicherungsdienstleistungen',
       'Grundstücks-/Wohnungswesen, wirtschaftliche Dienstleistungen',
       'öffentliche Verwaltung, Verteidigung, Sozialversicherung',
       'öffentliche und private Dienstleistungen (ohne öffentliche Verwaltung)'],
      dtype=object)

In [77]:
df_wirtschaft['Geschlecht'].unique()

array(['männlich', 'weiblich'], dtype=object)

In [78]:
df_wirtschaft.shape

(10008, 7)

In [79]:
df_wirtschaft.sample(10)

Unnamed: 0,Berichtszeitpunkt,_RS,Name,Regionalebene,Anzahl,Subtyp,Geschlecht
7019,20220515,12065,Oberhavel,Stadtkreis/kreisfreie Stadt/Landkreis,7950,Baugewerbe,männlich
9978,20220515,15085,Harz,Stadtkreis/kreisfreie Stadt/Landkreis,8190,"Handel, Reparatur von KFZ, Gastgewerbe",weiblich
14796,20220515,8212,"Karlsruhe, Stadtkreis",Stadtkreis/kreisfreie Stadt/Landkreis,6270,"öffentliche Verwaltung, Verteidigung, Sozialve...",weiblich
4395,20220515,8421,"Ulm, Stadtkreis",Stadtkreis/kreisfreie Stadt/Landkreis,9640,Bergbau und verarbeitendes Gewerbe,männlich
2965,20220515,3360,Uelzen,Stadtkreis/kreisfreie Stadt/Landkreis,7380,produzierendes Gewerbe,männlich
10973,20220515,6435,Main-Kinzig-Kreis,Stadtkreis/kreisfreie Stadt/Landkreis,6500,"Verkehr und Lagerei, Kommunikation",weiblich
14873,20220515,9462,Bayreuth,Stadtkreis/kreisfreie Stadt/Landkreis,1880,"öffentliche Verwaltung, Verteidigung, Sozialve...",weiblich
13113,20220515,8,Baden-Württemberg,Land,199730,"Grundstücks-/Wohnungswesen, wirtschaftliche Di...",männlich
9176,20220515,1001,"Flensburg, Stadt",Stadtkreis/kreisfreie Stadt/Landkreis,4610,"Handel, Reparatur von KFZ, Gastgewerbe",männlich
4494,20220515,9777,Ostallgäu,Stadtkreis/kreisfreie Stadt/Landkreis,14260,Bergbau und verarbeitendes Gewerbe,männlich


## Bearbeitung aller neuen df gemeinsam

In [80]:
#neues Dict mit Dataframes anlegen:
dfs_new = {
    'df_klassenstufe':df_klassenstufe,
    'df_schulform':df_schulform,
    'df_schulabschluss':df_schulabschluss,
    'df_berufsabschluss':df_berufsabschluss,
    'df_erwerbsstatus':df_erwerbsstatus,
    'df_alter':df_alter,
    'df_et_berufsabschluss':df_et_berufsabschluss,
    'df_stellung':df_stellung,
    'df_berufsgruppe':df_berufsgruppe,
    'df_wirtschaft':df_wirtschaft
    
}

In [81]:

for df_name, df in dfs_new.items():
    # Teil des Namens nach "df_" extrahieren
    einheit_value = df_name.split('df_')[-1]
    # neue Spalte 'einheit' mit dem extrahierten Wert zufügen
    df['einheit'] = einheit_value

    # überprüfen
    print(f"Spalte 'einheit' zu '{df_name}' hinzugefügt mit Wert '{einheit_value}'")


Spalte 'einheit' zu 'df_klassenstufe' hinzugefügt mit Wert 'klassenstufe'
Spalte 'einheit' zu 'df_schulform' hinzugefügt mit Wert 'schulform'
Spalte 'einheit' zu 'df_schulabschluss' hinzugefügt mit Wert 'schulabschluss'
Spalte 'einheit' zu 'df_berufsabschluss' hinzugefügt mit Wert 'berufsabschluss'
Spalte 'einheit' zu 'df_erwerbsstatus' hinzugefügt mit Wert 'erwerbsstatus'
Spalte 'einheit' zu 'df_alter' hinzugefügt mit Wert 'alter'
Spalte 'einheit' zu 'df_et_berufsabschluss' hinzugefügt mit Wert 'et_berufsabschluss'
Spalte 'einheit' zu 'df_stellung' hinzugefügt mit Wert 'stellung'
Spalte 'einheit' zu 'df_berufsgruppe' hinzugefügt mit Wert 'berufsgruppe'
Spalte 'einheit' zu 'df_wirtschaft' hinzugefügt mit Wert 'wirtschaft'


In [82]:
# alles soll kleingeschrieben sein!
for df_name, df in dfs_new.items():
    # alle Strings in den Spaltennamen in Kleinbuchstaben umwandeln
    df.columns = df.columns.str.lower()
    
    # alle Strings in den Zellen des DataFrames in Kleinbuchstaben umwandeln
    df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
    
    # aktualisierte DataFrames wieder zurück ins Dict schreiben
    dfs_new[df_name] = df

    print(f"Alle Strings in '{df_name}' wurden kleingeschrieben.")


Alle Strings in 'df_klassenstufe' wurden kleingeschrieben.


  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)


Alle Strings in 'df_schulform' wurden kleingeschrieben.
Alle Strings in 'df_schulabschluss' wurden kleingeschrieben.
Alle Strings in 'df_berufsabschluss' wurden kleingeschrieben.
Alle Strings in 'df_erwerbsstatus' wurden kleingeschrieben.
Alle Strings in 'df_alter' wurden kleingeschrieben.
Alle Strings in 'df_et_berufsabschluss' wurden kleingeschrieben.
Alle Strings in 'df_stellung' wurden kleingeschrieben.
Alle Strings in 'df_berufsgruppe' wurden kleingeschrieben.
Alle Strings in 'df_wirtschaft' wurden kleingeschrieben.


  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)
  df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)


## Schreiben in die Datenbank

In [83]:
# Verbindung zur lokalen PostgreSQL-Datenbank
db_url = 'postgresql+psycopg2://postgres:25718@localhost:5432/postgres'
engine = create_engine(db_url)

# jeden DataFrame in die Datenbank schreiben, dazu den Tabellennamen aber anpassen
for df_name, df in dfs_new.items():
    match = re.search(r'df_(.*)', df_name)
    if match:
        table_name = f'raw_{match.group(1)}'
    else:
        table_name = f'raw_{df_name}'
    df.to_sql(table_name, engine, if_exists='replace', index=False)
    
    print(f"DataFrame {df_name} erfolgreich in die Datenbank geschrieben.") #Kontrolle
    

engine.dispose() #Verbindung schließen

DataFrame df_klassenstufe erfolgreich in die Datenbank geschrieben.
DataFrame df_schulform erfolgreich in die Datenbank geschrieben.
DataFrame df_schulabschluss erfolgreich in die Datenbank geschrieben.
DataFrame df_berufsabschluss erfolgreich in die Datenbank geschrieben.
DataFrame df_erwerbsstatus erfolgreich in die Datenbank geschrieben.
DataFrame df_alter erfolgreich in die Datenbank geschrieben.
DataFrame df_et_berufsabschluss erfolgreich in die Datenbank geschrieben.
DataFrame df_stellung erfolgreich in die Datenbank geschrieben.
DataFrame df_berufsgruppe erfolgreich in die Datenbank geschrieben.
DataFrame df_wirtschaft erfolgreich in die Datenbank geschrieben.
