# Daten der KMK aus einem PDF mit eingescannten Seiten von 1995

Die KMK Daten der Jahre 1995 wurden per hand aus den PDFs in Exceltabellen übertragen.

Folgende Bibliotheken werden geladen zur Analyse

In [2]:
import pandas as pd
import numpy as np
import re

## Laden der Daten von Excel

Aus der Excel Datei werden die Daten in ein pandas DataFrame geladen. Ein Format das wie eine mini rationale Datenbank zu handhaben ist.

In [3]:
data95 = pd.read_excel('Data/input/KMK_1995.xlsx')

Mit dem command head() kann man die ersten 5 Zeilen eines DataFrames sehen:

In [4]:
data95.head()

Unnamed: 0,Beruf,Land,besuchendesLand
0,Asphaltbauer (I),Nordrhein Westfalen,BW BY HH HE NI NW RP SL SH
1,Asphaltbauer (I),Mecklenburg-Vorpommern,BE BB MV SN ST TH
2,Assistent an Bibliotheken (öD),Baden-Württemberg,BW RP
3,Assistent an Bibliotheken (öD),Thüringen,BB MV SN ST TH
4,Aufbereitungsechaniker: Naturstein/sand und Ki...,Bayern,BW BY HH HE NI NW RP SL SH


In [5]:
print(data95.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 336 entries, 0 to 335
Data columns (total 3 columns):
Beruf              336 non-null object
Land               336 non-null object
besuchendesLand    336 non-null object
dtypes: object(3)
memory usage: 8.0+ KB
None


## Data-Cleaning
### 'Land' Einträge bereinigen 

In ein "array" werden im folgenden die unique entries aus der Spalte 'Land' mit Hilfe des commands unique() geladen.

In [6]:
uniqueLands95 = data95['Land'].unique()
print('=========================================')
print('Anzahl der uniques: ',  len(uniqueLands95))
print('=========================================')
print(uniqueLands95)

Anzahl der uniques:  19
['Nordrhein Westfalen' 'Mecklenburg-Vorpommern' 'Baden-Württemberg'
 'Thüringen' 'Bayern' 'Rheinland Pfalz' 'Saarland' 'Sachsen'
 'Sachsen-Anhalt' 'Schleswig-Holstein' 'Bremen' 'Brandenburg'
 'Niedersachsen' 'Schleswig-Holstein ' 'Hessen' 'Berlin' 'Hamburg' 'berlin'
 'sachsen']


Leider haben sich ein paar Tippfehler eingeschlichen. Zum Beispiel ist ab und zu 'berlin' klein geschrieben. Aus der obigen Ausgabe der uniques sind alle Fehler ersichtlich. Mit einer kleinen Funktion korrigieren wir die Fehler:

In [7]:
def cleanLands1995(land):
    if land == 'Schleswig-Holstein ':
        land = 'Schleswig-Holstein'
    if land == 'berlin':
        land = 'Berlin'
    if land == 'sachsen':
        land = 'Sachsen'
    else:
        land = land

    return land

Mit einer *"for-Schleife"* laufen wir über alle Einträge **'l'** in **data95['Land']** und wenden die Funktion cleanLands1995(l) an.

In [8]:
# speichern der zu bearbeitenden Daten in einer list,
# damit nicht auf den original Daten gearbeitet wird
land = data95['Land']
# eine leere list zum speichern der korrigierten Einträge
landList = [] 
# Start der For-Schleife
# l bezeichnet den x-ten Eintrag in 'land'
for l in land:
    # zwischenspeichern des korrigirten Landes
    correctedName = cleanLands1995(l)
    # speichern des korrigierten Landes in
    # kottekter Reihenfolge in 'landList'
    landList.append(correctedName)

# ersetzen der original Daten mit den korrigierten
data95['Land'] = landList
# einfache prints zum Testen ob alles richtig gelaufen ist!
print('Anzahl der uniques: ', len(data95['Land'].unique()))
print(data95['Land'].unique())

Anzahl der uniques:  16
['Nordrhein Westfalen' 'Mecklenburg-Vorpommern' 'Baden-Württemberg'
 'Thüringen' 'Bayern' 'Rheinland Pfalz' 'Saarland' 'Sachsen'
 'Sachsen-Anhalt' 'Schleswig-Holstein' 'Bremen' 'Brandenburg'
 'Niedersachsen' 'Hessen' 'Berlin' 'Hamburg']


Die original Daten werden nun mit der bereinigten Liste **landList** ersetzt. 

In [9]:
data95['Land'] = landList
data95.head()

Unnamed: 0,Beruf,Land,besuchendesLand
0,Asphaltbauer (I),Nordrhein Westfalen,BW BY HH HE NI NW RP SL SH
1,Asphaltbauer (I),Mecklenburg-Vorpommern,BE BB MV SN ST TH
2,Assistent an Bibliotheken (öD),Baden-Württemberg,BW RP
3,Assistent an Bibliotheken (öD),Thüringen,BB MV SN ST TH
4,Aufbereitungsechaniker: Naturstein/sand und Ki...,Bayern,BW BY HH HE NI NW RP SL SH


### 'BesuchendesLand' aufbereiten
Zu erst wandeln wir die Bundesland-Codes in die ausgeschriebenen Bundesländer um. Dann erzeugen wir eine neue Spalte mit dem Bundesland und setzen den Wert auf **'true'** wenn in der Spalte **'besuchendesLand'** der entsprächende Bundesland-Code vorhanden ist. Die Funktion **str.contains('STRING')** überprüft ob der entsprechende Eintrag vorhanden ist oder nicht:

--> wenn ja = 'True'

--> wenn nein = 'False'

In [9]:
data95['Berlin'] = data95['besuchendesLand'].str.contains('BE')
data95['Brandenburg'] = data95['besuchendesLand'].str.contains('BB')
data95['Bayern'] = data95['besuchendesLand'].str.contains('BY')
data95['Baden-Württemberg'] = data95['besuchendesLand'].str.contains('BW')
data95['Mecklenburg-Vorpommern'] = data95['besuchendesLand'].str.contains('MV')
data95['Sachsen'] = data95['besuchendesLand'].str.contains('SN')
data95['Sachsen-Anhalt'] = data95['besuchendesLand'].str.contains('ST')
data95['Saarland'] = data95['besuchendesLand'].str.contains('SL')
data95['Saarland'] = data95['besuchendesLand'].str.contains('SA')
data95['Schleswig-Holstein'] = data95['besuchendesLand'].str.contains('SH')
data95['Thüringen'] = data95['besuchendesLand'].str.contains('TH')
data95['Bremen'] = data95['besuchendesLand'].str.contains('HB')
data95['Bremen'] = data95['besuchendesLand'].str.contains('BR')
data95['Hessen'] = data95['besuchendesLand'].str.contains('HE')
data95['Hamburg'] = data95['besuchendesLand'].str.contains('HH')
data95['Hamburg'] = data95['besuchendesLand'].str.contains('HA')
data95['Niedersachsen'] = data95['besuchendesLand'].str.contains('NI')
data95['Niedersachsen'] = data95['besuchendesLand'].str.contains('NS')
data95['Nordrhein-Westfalen'] = data95['besuchendesLand'].str.contains('NW')
data95['Rheinland-Pfalz'] = data95['besuchendesLand'].str.contains('RP')
data95['Alle'] = data95['besuchendesLand'].str.contains('alle')
data95.head()

Unnamed: 0,Beruf,Land,besuchendesLand,Berlin,Brandenburg,Bayern,Baden-Württemberg,Mecklenburg-Vorpommern,Sachsen,Sachsen-Anhalt,Saarland,Schleswig-Holstein,Thüringen,Bremen,Hessen,Hamburg,Niedersachsen,Nordrhein-Westfalen,Rheinland-Pfalz,Alle
0,Asphaltbauer (I),Nordrhein Westfalen,BW BY HH HE NI NW RP SL SH,False,False,True,True,False,False,False,False,True,False,False,True,False,False,True,True,False
1,Asphaltbauer (I),Mecklenburg-Vorpommern,BE BB MV SN ST TH,True,True,False,False,True,True,True,False,False,True,False,False,False,False,False,False,False
2,Assistent an Bibliotheken (öD),Baden-Württemberg,BW RP,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,True,False
3,Assistent an Bibliotheken (öD),Thüringen,BB MV SN ST TH,False,True,False,False,True,True,True,False,False,True,False,False,False,False,False,False,False
4,Aufbereitungsechaniker: Naturstein/sand und Ki...,Bayern,BW BY HH HE NI NW RP SL SH,False,False,True,True,False,False,False,False,True,False,False,True,False,False,True,True,False


### Data-Sorting
Jetzt wollen wir die bereinigten Daten so aufbereiten und speichern wie wir sie für die Analyse brauchen.

Zu erst sortieren wir die Länder alphabetisch. 

In [10]:
uniqueLands = data95['Land'].unique()
sortedUniqueLands = sorted(uniqueLands)
sortedUniqueLands

['Baden-Württemberg',
 'Bayern',
 'Berlin',
 'Brandenburg',
 'Bremen',
 'Hamburg',
 'Hessen',
 'Mecklenburg-Vorpommern',
 'Niedersachsen',
 'Nordrhein Westfalen',
 'Rheinland Pfalz',
 'Saarland',
 'Sachsen',
 'Sachsen-Anhalt',
 'Schleswig-Holstein',
 'Thüringen']

Nun können wir uns ein DataFrame mit den nötigen Informationen zusammenbauen. Als erstes erzeugen wir eine Spalte mit den Ländern als unseren primären key.

In [11]:
dfLaender = pd.DataFrame(data = sortedUniqueLands, columns=['Land'])
dfLaender

Unnamed: 0,Land
0,Baden-Württemberg
1,Bayern
2,Berlin
3,Brandenburg
4,Bremen
5,Hamburg
6,Hessen
7,Mecklenburg-Vorpommern
8,Niedersachsen
9,Nordrhein Westfalen


Als nächstes zählen wir wie oft das entsprechende Land in **data95** auftaucht. Die Anzahl tragen wir als einen Wert, value, unseren Keys den Ländern zu.

In [26]:
count = np.ones(16, dtype=np.int32)
for i,land in enumerate(sorted(uniqueLands)):
    count[i] = data95[data95['Land'] == land]['Land'].count()
    print(i,land)
dfLaender['Count'] = count
print('Gespeicherte Anzahl: ', count)
dfLaender

0 Baden-Württemberg
1 Bayern
2 Berlin
3 Brandenburg
4 Bremen
5 Hamburg
6 Hessen
7 Mecklenburg-Vorpommern
8 Niedersachsen
9 Nordrhein Westfalen
10 Rheinland Pfalz
11 Saarland
12 Sachsen
13 Sachsen-Anhalt
14 Schleswig-Holstein
15 Thüringen
Gespeicherte Anzahl:  [43 80  2 12  3  8 13  3 12 36  9  3 49  3 27 33]


Unnamed: 0,Land,Count,Alle,Baden-Württemberg,Bayern,Berlin,Brandenburg,Bremen,Hamburg,Hessen,Mecklenburg-Vorpommern,Niedersachsen,Nordrhein-Westfalen,Rheinland-Pfalz,Saarland,Sachsen,Sachsen-Anhalt,Schleswig-Holstein,Thüringen
0,Baden-Württemberg,43,8,35,9,13,10,0,0,20,9,0,8,27,0,7,9,16,6
1,Bayern,80,6,26,72,35,22,0,0,44,24,1,19,48,1,24,15,31,28
2,Berlin,2,0,0,0,2,2,0,0,0,2,0,0,0,0,1,1,0,1
3,Brandenburg,12,0,0,0,5,12,0,0,0,12,0,0,0,0,8,9,0,4
4,Bremen,3,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0
5,Hamburg,8,0,0,1,1,2,0,0,0,5,0,1,0,0,0,0,7,1
6,Hessen,13,1,5,1,1,0,0,0,12,1,0,3,5,0,1,2,4,4
7,Mecklenburg-Vorpommern,3,0,0,0,1,3,0,0,0,3,0,0,0,0,1,2,0,2
8,Niedersachsen,12,1,0,0,4,2,1,1,6,3,1,3,1,0,1,3,8,0
9,Nordrhein Westfalen,36,5,2,1,2,12,0,1,11,11,1,31,9,0,1,4,17,1


Wir wollen wissen welche Bundesländer in welche aufnehmenden Länder entsenden. Wir erzeugen eine Spalte pro besuchendes Land

In [19]:
sortedUniqueLandsPlus = ['Alle','Baden-Württemberg', 'Bayern', 'Berlin', 'Brandenburg', 'Bremen', 'Hamburg', 'Hessen', 
                         'Mecklenburg-Vorpommern', 'Niedersachsen', 'Nordrhein-Westfalen', 'Rheinland-Pfalz', 'Saarland', 
                         'Sachsen', 'Sachsen-Anhalt', 'Schleswig-Holstein', 'Thüringen']
for land in sortedUniqueLandsPlus:
    dfLaender[land] = 0
dfLaender

Unnamed: 0,Land,Count,Alle,Baden-Württemberg,Bayern,Berlin,Brandenburg,Bremen,Hamburg,Hessen,Mecklenburg-Vorpommern,Niedersachsen,Nordrhein-Westfalen,Rheinland-Pfalz,Saarland,Sachsen,Sachsen-Anhalt,Schleswig-Holstein,Thüringen
0,Baden-Württemberg,43,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,Bayern,80,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,Berlin,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,Brandenburg,12,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,Bremen,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
5,Hamburg,8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6,Hessen,13,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
7,Mecklenburg-Vorpommern,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
8,Niedersachsen,12,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
9,Nordrhein Westfalen,36,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [22]:
for i,l in enumerate(sortedUniqueLands):
    for land in sortedUniqueLandsPlus:
        x = data95[(data95['Land'] == l) & (data95[land] == True)][land].count()
        dfLaender.set_value(i, land, x)
dfLaender

Unnamed: 0,Land,Count,Alle,Baden-Württemberg,Bayern,Berlin,Brandenburg,Bremen,Hamburg,Hessen,Mecklenburg-Vorpommern,Niedersachsen,Nordrhein-Westfalen,Rheinland-Pfalz,Saarland,Sachsen,Sachsen-Anhalt,Schleswig-Holstein,Thüringen
0,Baden-Württemberg,43,8,35,9,13,10,0,0,20,9,0,8,27,0,7,9,16,6
1,Bayern,80,6,26,72,35,22,0,0,44,24,1,19,48,1,24,15,31,28
2,Berlin,2,0,0,0,2,2,0,0,0,2,0,0,0,0,1,1,0,1
3,Brandenburg,12,0,0,0,5,12,0,0,0,12,0,0,0,0,8,9,0,4
4,Bremen,3,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0
5,Hamburg,8,0,0,1,1,2,0,0,0,5,0,1,0,0,0,0,7,1
6,Hessen,13,1,5,1,1,0,0,0,12,1,0,3,5,0,1,2,4,4
7,Mecklenburg-Vorpommern,3,0,0,0,1,3,0,0,0,3,0,0,0,0,1,2,0,2
8,Niedersachsen,12,1,0,0,4,2,1,1,6,3,1,3,1,0,1,3,8,0
9,Nordrhein Westfalen,36,5,2,1,2,12,0,1,11,11,1,31,9,0,1,4,17,1


In [23]:
dfLaender.to_excel('Data/output/quickInfo1995.xlsx')