## Integration von Beschäftigtenzahlen auf Bundeslandebene 

In [14]:
# Autor: Roman Schulze
# Datenquelle: Bundesagentur für Arbeit

In [15]:
# Bibliotheken importieren
import numpy as np
import pandas as pd

### 1. Funktionen zur Formattierung und Bereinigung der Daten

In [16]:
# Formattierung der Daten
def get_data_formatted(df):
    mask = df.loc[:, "Unnamed: 0"]  == "Sonstige / Keine Angabe"
    ind_pos = mask[mask==True].index[0] + 1
    df = df.iloc[0:ind_pos, :]
    df = df.iloc[1:, :]
    df.drop(index=2, inplace=True)
    df.reset_index(drop=True, inplace=True)
    df.rename(columns={"Unnamed: 0":"Berufsgruppe","Unnamed: 1":"Insgesamt"}, inplace=True)
    return df

In [17]:
# Bereinigung der Daten
def clean_data(df):
    df.replace("*", np.nan, inplace=True)
    for col in df.columns:
        if col not in ["Berufsgruppe"]:
            df[col] = df[col].astype("float64")
    return df

### 2. Laden und Zusammenführung der Daten - aGB

In [18]:
# Auflistung der Bundesländer
Bundesländer = ["Baden-Württemberg", "Bayern", "Berlin", "Brandenburg", "Bremen", "Hamburg", "Hessen", "Mecklenburg-Vorpommern",
               "Niedersachsen", "Nordrhein-Westfalen", "Rheinland-Pfalz", "Saarland", "Sachsen-Anhalt", "Sachsen", 
               "Schleswig-Holstein", "Thüringen"]

In [19]:
# Lade Daten für jedes Bundesland 
list_of_dataframes = []
for Bundesland in Bundesländer:
    df = pd.read_excel("Rohdaten_Bundesagentur_für_Arbeit_Bundesländer/" + Bundesland + ".xlsx", sheet_name="aGB - Tabelle II", header = 9, nrows=300)    
    df = get_data_formatted(df)
    df = clean_data(df)
    df["Bundesland"] = Bundesland
    list_of_dataframes.append(df) 

In [20]:
# Zusammenführen aller individuellen Dataframes in einen ganzen
df_all = pd.concat(list_of_dataframes)

In [21]:
# Überprüfung des Formats
for element in list_of_dataframes:
    print(element.shape)

(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)
(178, 11)


In [22]:
# Überprüfung des Formats 
df_all.shape[0] == 178*16

True

In [23]:
# Sortierung der Spalten
cols = list(df_all.columns)
cols = [cols[-1]] + cols[:-1]
df_all = df_all[cols]

In [24]:
# Ausgabe des finalen Dataframes
df_all.head()

Unnamed: 0,Bundesland,Berufsgruppe,Insgesamt,Helfer,Fachkraft,Spezialist,Experte,Ohne berufl. Ausbildungs- abschluss,mit anerkanntem Berufs- abschluss 1),mit akademi-schem Berufs-abschluss 2),Ausbildung unbekannt
0,Baden-Württemberg,Insgesamt,648869.0,299575.0,268666.0,30364.0,28086.0,166039.0,276844.0,48826.0,157160.0
1,Baden-Württemberg,"11 Land-, Tier-, Forstwirtschaftsberufe",16796.0,15214.0,1123.0,375.0,84.0,2749.0,4235.0,648.0,9164.0
2,Baden-Württemberg,111 Landwirtschaft,14797.0,14310.0,332.0,92.0,63.0,2289.0,3264.0,524.0,8720.0
3,Baden-Württemberg,112 Tierwirtschaft,439.0,351.0,62.0,23.0,3.0,123.0,181.0,20.0,115.0
4,Baden-Württemberg,113 Pferdewirtschaft,277.0,0.0,267.0,10.0,0.0,90.0,116.0,11.0,60.0


##### Speicherung der Daten als Excel Datei

In [25]:
# ALs Excel File speichern
df_all.to_excel("aGB_Beschäftigte_nach_BL.xlsx")  

### 3. Laden und Zusammenführung der Daten - SVB

In [26]:
# Lade Daten für jedes Bundesland 
list_of_dataframes = []
for Bundesland in Bundesländer:
    df = pd.read_excel("Rohdaten_Bundesagentur_für_Arbeit_Bundesländer/" + Bundesland + ".xlsx", sheet_name="SVB - Tabelle II", header = 9, nrows=300)    
    df = get_data_formatted(df)
    df = clean_data(df)
    df["Bundesland"] = Bundesland
    list_of_dataframes.append(df) 

In [27]:
# Zusammenführen aller individuellen Dataframes in einen ganzen
df_all = pd.concat(list_of_dataframes)

In [28]:
# Überprüfung des Formats
for element in list_of_dataframes:
    print(element.shape)

(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)
(178, 13)


In [29]:
# Sortierung der Spalten
cols = list(df_all.columns)
cols = [cols[-1]] + cols[:-1]
df_all = df_all[cols]

In [30]:
# Ausgabe des finalen Dataframes
df_all.head()

Unnamed: 0,Bundesland,Berufsgruppe,Insgesamt,in Vollzeit,in Teilzeit,Helfer,Fachkraft,Spezialist,Experte,Ohne berufl. Ausbildungs- abschluss,mit anerkanntem Berufs- abschluss 1),mit akademi-schem Berufs-abschluss 2),Ausbildung unbekannt
0,Baden-Württemberg,Insgesamt,4778076.0,3516861.0,1261215.0,723606.0,2694078.0,678284.0,662024.0,684045.0,2854921.0,894569.0,344541.0
1,Baden-Württemberg,"11 Land-, Tier-, Forstwirtschaftsberufe",24033.0,19022.0,5011.0,12179.0,8183.0,1916.0,1755.0,3859.0,10435.0,2762.0,6977.0
2,Baden-Württemberg,111 Landwirtschaft,14396.0,11434.0,2962.0,10056.0,2447.0,667.0,1226.0,2182.0,4731.0,1685.0,5798.0
3,Baden-Württemberg,112 Tierwirtschaft,864.0,530.0,334.0,466.0,161.0,224.0,13.0,145.0,419.0,118.0,182.0
4,Baden-Württemberg,113 Pferdewirtschaft,1066.0,733.0,333.0,0.0,1003.0,60.0,3.0,271.0,558.0,63.0,174.0


##### Speicherung der Daten als Excel Datei

In [31]:
# ALs Excel File speichern
df_all.to_excel("SVB_Beschäftigte_nach_BL.xlsx") 

In [32]:
# Anmerkung: Beim Öffnen der Excel Datei in Excel, entsprechen leere Zellen Missings (NaN) im Dataframe