## Import & Verknüpfung der Datensätze

In [37]:
import pandas as pd
import numpy as np

In [38]:
# Google-Drive Links (Excel-Dateien lassen sich über das GitHub-Repo nicht per Link öffnen)
städte_fläche_excel_link = 'G:\Meine Ablage\Python4DataScience\Daten\Bevölkerung\\05-staedte_nach-fläche-bevölkerung-bevölkerungsdichte.xlsx'
einkommen_kreise_link = 'G:\Meine Ablage\Python4DataScience\Daten\Einkommen_privateHaushalte_Kreise_DE_1995-2019.xlsx'

### Polizeiliche Kriminalstatistik 2020

In [39]:
url = "https://raw.githubusercontent.com/andreashrb/Python_for_DS_Project/main/data/Kriminalstatistik_Straftaten_2020.csv"

df_criminal = pd.read_csv(url,encoding="latin-1",skiprows=1,delimiter=";", decimal=".",usecols=range(18))
df_criminal.rename(columns={'Gemeindeschluessel':'Kreis_ID',
                           'Straftat':'Art_Straftat'},inplace=True)
df_criminal.drop(['Kreisart','Schluessel'],axis=1, inplace=True)

df_criminal['Kreis_ID'] = df_criminal['Kreis_ID'].astype(str)
df_criminal

Unnamed: 0,Art_Straftat,Kreis_ID,Stadt-/Landkreis,Anzahl erfasste Faelle,Haeufigkeitszahl,"erfasste Faelle, davon Versuche - Anzahl","erfasste Faelle, davon Versuche - Anteil in %",mit Schusswaffe gedroht,mit Schusswaffe geschossen,Auffklaerung - Anzahl Faelle,Aufklaerungsquote,Tatverdaechtige insgesamt,Tatverdaechtige - maennlich,Tatverdaechtige - weiblich,Nichtdeutsche Tatverdaechtige - Anzahl,Nichtdeutsche Tatverdaechtige - Anteil in % an der Gesamtzahl
0,Straftaten insgesamt,1001,Flensburg,8380,9294,598,7.1,11,5,5293,63.2,3618,2786,832,1233,34.1
1,Straftaten insgesamt,1002,Kiel,21384,8665,1413,6.6,23,5,11241,52.6,7278,5616,1662,2072,28.5
2,Straftaten insgesamt,1003,Lübeck,20942,9672,1513,7.2,26,13,11959,57.1,7603,5762,1841,1841,24.2
3,Straftaten insgesamt,1004,Neumünster,9453,11787,672,7.1,7,4,5836,61.7,4170,3097,1073,1955,46.9
4,Straftaten insgesamt,1051,Dithmarschen,6597,4953,457,6.9,13,12,3944,59.8,2989,2231,758,535,17.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16837,Cybercrime im engeren Sinne,16073,Saalfeld-Rudolstadt,66,64,8,12.1,0,0,40,60.6,35,19,16,4,11.4
16838,Cybercrime im engeren Sinne,16074,Saale-Holzland-Kreis,30,36,5,16.7,0,0,17,56.7,14,11,3,1,7.1
16839,Cybercrime im engeren Sinne,16075,Saale-Orla-Kreis,68,85,3,4.4,0,0,37,54.4,23,16,7,2,8.7
16840,Cybercrime im engeren Sinne,16076,Greiz,70,72,5,7.1,0,0,25,35.7,21,14,7,2,9.5


### Ausländerstatistik pro Kreis/kreisfreie Stadt

In [40]:
# Importieren der Ausländerstatistik-Geschlecht_Kreise.csv Datei
auslaender_stat = pd.read_csv('https://raw.githubusercontent.com/andreashrb/Python_for_DS_Project/main/data/Ausl%C3%A4nderstatistik%20-%20Geschlecht_Kreise.csv', encoding = 'ANSI', delimiter = ';', skiprows = [0,1,2,3,481,482,483,484,485,486,487,488,489,490,491,492,493,494,495,496,497,498,499,500,501,502,503,504,505,506])

# Umbenennung einiger Spalten
auslaender_stat.rename(columns={'Unnamed: 0': 'Datum', 
                           'Unnamed: 1': 'Kreis_ID',
                               'Unnamed: 2': 'Name',
                               'männlich': 'Ausländer männlich',
                               'weiblich': 'Ausländer weiblich',
                               'Insgesamt': 'Ausländer Gesamt'}, inplace=True)

auslaender_stat.head()

Unnamed: 0,Datum,Kreis_ID,Name,Ausländer männlich,Ausländer weiblich,Ausländer Gesamt
0,31.12.2020,1001,"Flensburg, kreisfreie Stadt",9330,7355,16685
1,31.12.2020,1002,"Kiel, kreisfreie Stadt",16455,14770,31230
2,31.12.2020,1003,"Lübeck, kreisfreie Stadt",13775,12365,26140
3,31.12.2020,1004,"Neumünster, kreisfreie Stadt",6595,4985,11575
4,31.12.2020,1051,"Dithmarschen, Landkreis",4975,4075,9055


### Bevölkerungsstatistik pro Kreis/kreisfreie Stadt

In [41]:
# Importieren der Bevölkerungsstatistik je Alter und Geschlecht
bevölkerung_alter_geschlecht = pd.read_csv('https://raw.githubusercontent.com/andreashrb/Python_for_DS_Project/main/data/Bev%C3%B6lkerung%20-%20Kreise_Geschlecht_Altersgruppe.csv', encoding = 'ANSI', delimiter = ';', header = [4,5], skiprows = [482,483,484,485])

# Zusammenführung der mehrstufigen (mehrfach indizierten) Spaltenstruktur
bevölkerung_alter_geschlecht.columns = [' '.join(col) for col in bevölkerung_alter_geschlecht.columns]

# Umbenennung von Spalten
bevölkerung_alter_geschlecht.rename(columns={'Unnamed: 0_level_0 Unnamed: 0_level_1': 'Datum',
                                           'Unnamed: 1_level_0 Unnamed: 1_level_1': 'Kreis_ID',
                                           'Unnamed: 2_level_0 Unnamed: 2_level_1': 'Name'}, inplace=True)
bevölkerung_alter_geschlecht.head()

Unnamed: 0,Datum,Kreis_ID,Name,männlich unter 3 Jahre,männlich 3 bis unter 6 Jahre,männlich 6 bis unter 10 Jahre,männlich 10 bis unter 15 Jahre,männlich 15 bis unter 18 Jahre,männlich 18 bis unter 20 Jahre,männlich 20 bis unter 25 Jahre,...,weiblich 25 bis unter 30 Jahre,weiblich 30 bis unter 35 Jahre,weiblich 35 bis unter 40 Jahre,weiblich 40 bis unter 45 Jahre,weiblich 45 bis unter 50 Jahre,weiblich 50 bis unter 55 Jahre,weiblich 55 bis unter 60 Jahre,weiblich 60 bis unter 65 Jahre,weiblich 65 bis unter 75 Jahre,weiblich 75 Jahre und mehr
0,31.12.2020,1001,"Flensburg, kreisfreie Stadt",1410,1308,1501,1982,1128,1008,4051,...,3636,2692,2361,2326,2521,3176,3092,2803,4681,5625
1,31.12.2020,1002,"Kiel, kreisfreie Stadt",3432,3310,3980,4923,2966,2469,10389,...,11448,9982,8170,7040,6864,8664,8765,7411,11839,14634
2,31.12.2020,1003,"Lübeck, kreisfreie Stadt",2799,2932,3640,4563,2811,1924,6744,...,7133,6979,6336,6370,6507,8476,8851,7468,12606,16813
3,31.12.2020,1004,"Neumünster, kreisfreie Stadt",1099,1130,1407,1990,1154,902,2572,...,2210,2524,2250,2263,2383,3109,3169,2698,4512,5828
4,31.12.2020,1051,"Dithmarschen, Landkreis",1615,1711,2252,3091,1967,1404,3801,...,3117,3408,3337,3544,3894,5732,5932,5262,8593,9699


In [42]:
# Joinen der Datasets
merged_df1 = pd.merge(auslaender_stat, bevölkerung_alter_geschlecht, on="Kreis_ID")
merged_df1.drop(['Datum_y'], axis = 1, inplace = True)
merged_df1.drop(['Name_y'], axis = 1, inplace = True)
merged_df1.rename(columns ={'Datum_x': 'Datum',
                           'Name_x': 'Name'}, inplace=True)
merged_df1['Kreis_ID']=merged_df1['Kreis_ID'].astype(str)

# Anzeige des gejointen Datasets
merged_df1.head()

Unnamed: 0,Datum,Kreis_ID,Name,Ausländer männlich,Ausländer weiblich,Ausländer Gesamt,männlich unter 3 Jahre,männlich 3 bis unter 6 Jahre,männlich 6 bis unter 10 Jahre,männlich 10 bis unter 15 Jahre,...,weiblich 25 bis unter 30 Jahre,weiblich 30 bis unter 35 Jahre,weiblich 35 bis unter 40 Jahre,weiblich 40 bis unter 45 Jahre,weiblich 45 bis unter 50 Jahre,weiblich 50 bis unter 55 Jahre,weiblich 55 bis unter 60 Jahre,weiblich 60 bis unter 65 Jahre,weiblich 65 bis unter 75 Jahre,weiblich 75 Jahre und mehr
0,31.12.2020,1001,"Flensburg, kreisfreie Stadt",9330,7355,16685,1410,1308,1501,1982,...,3636,2692,2361,2326,2521,3176,3092,2803,4681,5625
1,31.12.2020,1002,"Kiel, kreisfreie Stadt",16455,14770,31230,3432,3310,3980,4923,...,11448,9982,8170,7040,6864,8664,8765,7411,11839,14634
2,31.12.2020,1003,"Lübeck, kreisfreie Stadt",13775,12365,26140,2799,2932,3640,4563,...,7133,6979,6336,6370,6507,8476,8851,7468,12606,16813
3,31.12.2020,1004,"Neumünster, kreisfreie Stadt",6595,4985,11575,1099,1130,1407,1990,...,2210,2524,2250,2263,2383,3109,3169,2698,4512,5828
4,31.12.2020,1051,"Dithmarschen, Landkreis",4975,4075,9055,1615,1711,2252,3091,...,3117,3408,3337,3544,3894,5732,5932,5262,8593,9699


### Flächeninformationen pro Kreis/kreisfreie Stadt

In [43]:
# Importieren der Datei "Städte nach Fläche und Bevölkerung und Bevölkerungsdichte"
städte_fläche_excel = pd.read_excel(städte_fläche_excel_link,sheet_name='Städte', skiprows = [0,1,2,2065,2066,2067,2068,2069,2070,2071,2072,2073,2074,2075])

# Umbenennen einiger Spalten
städte_fläche_excel.rename(columns={'Schlüsselnummer': 'Land',
                                   'Unnamed: 2': 'RB',
                                   'Unnamed: 3': 'Kreis',
                                   'Unnamed: 4': 'Verb',
                                   'Unnamed: 5': 'Gem',
                                   'Post-leitzahl 1)': 'PLZ',
                                   'Fläche in km2 2)': 'Fläche in km2',
                                   'Bevölkerung3)': 'Bevölkerung Insgesamt',
                                   'Unnamed: 10': 'Bevölkerung männlich',
                                   'Unnamed: 11': 'Bevölkerung weiblich',
                                   'Unnamed: 12': 'Bevölkerungsdichte'},inplace=True)

# Löschen nicht benötigter Zeilen
städte_fläche_excel.drop([0], axis = 0, inplace=True)
städte_fläche_excel.drop([1], axis = 0, inplace=True)
städte_fläche_excel.drop([2], axis = 0, inplace=True)

# Erstellung eines zusammengesetzten Attributs "Kreis_ID"
städte_fläche_excel["Kreis_ID"] = städte_fläche_excel["Land"] + städte_fläche_excel["RB"]  + städte_fläche_excel['Kreis']

# Einige Spalten werden im weiteren Verlauf nicht benötigt
städte_fläche_excel.drop(['Stadt','PLZ','Land','RB', 'Kreis', 'Verb', 'Gem', 'Lfd. Nr.', 'Bevölkerung Insgesamt', 'Bevölkerung männlich', 'Bevölkerung weiblich', 'Bevölkerungsdichte'],axis=1, inplace=True)

# Kürzen der Kreis_ID, um sie für den Join mit anderen Datensätzen vorzubereiten
städte_fläche_excel['Kreis_ID'] = np.where(städte_fläche_excel['Kreis_ID'].str[0] == '0', städte_fläche_excel['Kreis_ID'].str[-4:], städte_fläche_excel['Kreis_ID'].str[-5:])

# Aggregation des städtebezogenen Datensatzes auf Kreisgebiete (mit Fokus auf die Fläche)
kreise_fläche = städte_fläche_excel.groupby(['Kreis_ID']).sum()

#Join der Datensätze
merged_df2 = pd.merge(merged_df1, kreise_fläche, on="Kreis_ID", how = "left")
merged_df2.head()

Unnamed: 0,Datum,Kreis_ID,Name,Ausländer männlich,Ausländer weiblich,Ausländer Gesamt,männlich unter 3 Jahre,männlich 3 bis unter 6 Jahre,männlich 6 bis unter 10 Jahre,männlich 10 bis unter 15 Jahre,...,weiblich 30 bis unter 35 Jahre,weiblich 35 bis unter 40 Jahre,weiblich 40 bis unter 45 Jahre,weiblich 45 bis unter 50 Jahre,weiblich 50 bis unter 55 Jahre,weiblich 55 bis unter 60 Jahre,weiblich 60 bis unter 65 Jahre,weiblich 65 bis unter 75 Jahre,weiblich 75 Jahre und mehr,Fläche in km2
0,31.12.2020,1001,"Flensburg, kreisfreie Stadt",9330,7355,16685,1410,1308,1501,1982,...,2692,2361,2326,2521,3176,3092,2803,4681,5625,56.73
1,31.12.2020,1002,"Kiel, kreisfreie Stadt",16455,14770,31230,3432,3310,3980,4923,...,9982,8170,7040,6864,8664,8765,7411,11839,14634,118.65
2,31.12.2020,1003,"Lübeck, kreisfreie Stadt",13775,12365,26140,2799,2932,3640,4563,...,6979,6336,6370,6507,8476,8851,7468,12606,16813,214.19
3,31.12.2020,1004,"Neumünster, kreisfreie Stadt",6595,4985,11575,1099,1130,1407,1990,...,2524,2250,2263,2383,3109,3169,2698,4512,5828,71.66
4,31.12.2020,1051,"Dithmarschen, Landkreis",4975,4075,9055,1615,1711,2252,3091,...,3408,3337,3544,3894,5732,5932,5262,8593,9699,128.4


### Verfügbares Einkommen pro Einwohner auf Ebene Kreis/kreisfreie Stadt

In [44]:
einkommen_kreise = pd.read_excel(einkommen_kreise_link,sheet_name='2.4', skiprows = [0,1,2,3])
einkommen_kreise.drop([0], axis = 0, inplace=True)

einkommen_kreise['Regional-schlüssel']=einkommen_kreise['Regional-schlüssel'].astype(int)
einkommen_kreise['Regional-schlüssel']=einkommen_kreise['Regional-schlüssel'].astype(str)

einkommen_kreise.head()

Unnamed: 0,Lfd. Nr.,EU-Code,Regional-schlüssel,Land,NUTS 1,NUTS 2,NUTS 3,Gebietseinheit,1995,1996,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
1,1.0,DE1,8,BW,1.0,,,Baden-Württemberg,15430,15736,...,20770.0,21609.0,22128.0,22365.0,22920.0,23206.0,23755.0,24345.0,25143.0,25730.0
2,2.0,DE11,81,BW,,2.0,,"Stuttgart, Regierungsbezirk",16062,16370,...,21563.0,22394.0,22904.0,23116.0,23620.0,23836.0,24456.0,25178.0,26001.0,26587.0
3,3.0,DE111,8111,BW,,,3.0,"Stuttgart, Landeshauptstadt, Stadtkreis",17883,18210,...,22413.0,23121.0,23487.0,23555.0,24222.0,24358.0,24788.0,25500.0,26267.0,26806.0
4,4.0,DE112,8115,BW,,,3.0,"Böblingen, Landkreis",16465,16898,...,21538.0,22364.0,23059.0,23261.0,23741.0,24248.0,24481.0,24962.0,25790.0,26468.0
5,5.0,DE113,8116,BW,,,3.0,"Esslingen, Landkreis",17167,17472,...,21574.0,22526.0,23139.0,23462.0,23950.0,24243.0,24454.0,25191.0,26025.0,26660.0


In [45]:
einkommen_kreise_2019 = einkommen_kreise.iloc[:,[2]]
einkommen_kreise_2019.rename(columns={'Regional-schlüssel': 'Kreis_ID',
                                     '2019': 'Einkommen'},inplace=True)

einkommen_kreise_2019['Verfügbares Einkommen pro Einwohner'] = einkommen_kreise.iloc[:,[32]]

einkommen_kreise_2019.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().rename(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  einkommen_kreise_2019['Verfügbares Einkommen pro Einwohner'] = einkommen_kreise.iloc[:,[32]]


Unnamed: 0,Kreis_ID,Verfügbares Einkommen pro Einwohner
1,8,25730.0
2,81,26587.0
3,8111,26806.0
4,8115,26468.0
5,8116,26660.0


In [46]:
merged_df3 = pd.merge(merged_df2, einkommen_kreise_2019, on="Kreis_ID", how = "left")
# merged_df3['Verfügbares Einkommen pro Einwohner'] = merged_df3['Verfügbares Einkommen pro Einwohner'].astype(int)
merged_df3.head()

Unnamed: 0,Datum,Kreis_ID,Name,Ausländer männlich,Ausländer weiblich,Ausländer Gesamt,männlich unter 3 Jahre,männlich 3 bis unter 6 Jahre,männlich 6 bis unter 10 Jahre,männlich 10 bis unter 15 Jahre,...,weiblich 35 bis unter 40 Jahre,weiblich 40 bis unter 45 Jahre,weiblich 45 bis unter 50 Jahre,weiblich 50 bis unter 55 Jahre,weiblich 55 bis unter 60 Jahre,weiblich 60 bis unter 65 Jahre,weiblich 65 bis unter 75 Jahre,weiblich 75 Jahre und mehr,Fläche in km2,Verfügbares Einkommen pro Einwohner
0,31.12.2020,1001,"Flensburg, kreisfreie Stadt",9330,7355,16685,1410,1308,1501,1982,...,2361,2326,2521,3176,3092,2803,4681,5625,56.73,19134.0
1,31.12.2020,1002,"Kiel, kreisfreie Stadt",16455,14770,31230,3432,3310,3980,4923,...,8170,7040,6864,8664,8765,7411,11839,14634,118.65,19886.0
2,31.12.2020,1003,"Lübeck, kreisfreie Stadt",13775,12365,26140,2799,2932,3640,4563,...,6336,6370,6507,8476,8851,7468,12606,16813,214.19,21028.0
3,31.12.2020,1004,"Neumünster, kreisfreie Stadt",6595,4985,11575,1099,1130,1407,1990,...,2250,2263,2383,3109,3169,2698,4512,5828,71.66,19773.0
4,31.12.2020,1051,"Dithmarschen, Landkreis",4975,4075,9055,1615,1711,2252,3091,...,3337,3544,3894,5732,5932,5262,8593,9699,128.4,23967.0


### Erwerbstätige Personen je Kreis/kreisfreie Stadt im Jahr 2019

In [47]:
erwerbstätige_kreise_2019 = pd.read_csv("https://raw.githubusercontent.com/andreashrb/Python_for_DS_Project/main/data/Erwerbst%C3%A4tige%20-%20Kreise_nach%20Wirtschaftszweigen_2019.csv", encoding = 'ANSI', delimiter = ';', header = [0,1,2], skiprows=(0,1,2,3,545,546,547,548,549))

# Zusammenführung der mehrstufigen (mehrfach indizierten) Spaltenstruktur
erwerbstätige_kreise_2019.columns = [' '.join(col) for col in erwerbstätige_kreise_2019.columns]

# Umbenennung von Spalten
erwerbstätige_kreise_2019.rename(columns={'Unnamed: 0_level_0 Unnamed: 0_level_1 Unnamed: 0_level_2': 'Datum',
                                           'Unnamed: 1_level_0 Unnamed: 1_level_1 Unnamed: 1_level_2': 'Kreis_ID',
                                           'Unnamed: 2_level_0 Unnamed: 2_level_1 Unnamed: 2_level_2': 'Name'}, inplace=True)

# Folgende Kreis_ID muss vorab eliminiert werden, da sie im folgenden Join mit der "logik" der Kürzung für die Spalte "Kreis_ID" ein Duplikat auf der Kreis_ID 1001 erzeugen würde
erwerbstätige_kreise_2019 = erwerbstätige_kreise_2019[erwerbstätige_kreise_2019.Kreis_ID != '03241001']

# Kürzen der Kreis_ID, um sie für den Join mit anderen Datensätzen vorzubereiten
erwerbstätige_kreise_2019['Kreis_ID'] = np.where(erwerbstätige_kreise_2019['Kreis_ID'].str[0] == '0', erwerbstätige_kreise_2019['Kreis_ID'].str[-4:], erwerbstätige_kreise_2019['Kreis_ID'].str[-5:])

erwerbstätige_kreise_2019.drop(['Datum', 'Name'], axis = 1, inplace = True)
erwerbstätige_kreise_2019.head()



Unnamed: 0,Kreis_ID,Erwerbstätige im Jahresdurchschnitt Insgesamt 1000,"Erwerbstätige im Jahresdurchschnitt Land- und Forstwirtschaft, Fischerei (A) 1000",Erwerbstätige im Jahresdurchschnitt Produzierendes Gewerbe ohne Baugewerbe (B-E) 1000,Erwerbstätige im Jahresdurchschnitt Verarbeitendes Gewerbe (C) 1000,Erwerbstätige im Jahresdurchschnitt Baugewerbe (F) 1000,"Erwerbstätige im Jahresdurchschnitt Handel,Verkehr,Gastgewerbe,Informa-/Kommunikation 1000","Erwerbstätige im Jahresdurchschnitt Fin-,Vers.-,Unt.-dienstl.,Grundst.-/Wohnungswesen 1000","Erwerbstätige im Jahresdurchschnitt öffentl. u. sonst. Dienstl.,Erziehung, Gesundheit 1000"
0,DG,452690,5990,83600,77580,25520,116320,77780,143480
1,01,14339,322,1919,1726,933,3951,2143,5071
2,1001,617,0,73,60,15,175,96,258
3,1002,1747,1,162,146,54,400,361,769
4,1003,1336,3,196,179,61,345,245,487


In [48]:
merged_df4 = pd.merge(merged_df3, erwerbstätige_kreise_2019, on="Kreis_ID", how = "left")

merged_df4.drop(['Name'], axis = 1, inplace = True)
merged_df4.head()

Unnamed: 0,Datum,Kreis_ID,Ausländer männlich,Ausländer weiblich,Ausländer Gesamt,männlich unter 3 Jahre,männlich 3 bis unter 6 Jahre,männlich 6 bis unter 10 Jahre,männlich 10 bis unter 15 Jahre,männlich 15 bis unter 18 Jahre,...,Fläche in km2,Verfügbares Einkommen pro Einwohner,Erwerbstätige im Jahresdurchschnitt Insgesamt 1000,"Erwerbstätige im Jahresdurchschnitt Land- und Forstwirtschaft, Fischerei (A) 1000",Erwerbstätige im Jahresdurchschnitt Produzierendes Gewerbe ohne Baugewerbe (B-E) 1000,Erwerbstätige im Jahresdurchschnitt Verarbeitendes Gewerbe (C) 1000,Erwerbstätige im Jahresdurchschnitt Baugewerbe (F) 1000,"Erwerbstätige im Jahresdurchschnitt Handel,Verkehr,Gastgewerbe,Informa-/Kommunikation 1000","Erwerbstätige im Jahresdurchschnitt Fin-,Vers.-,Unt.-dienstl.,Grundst.-/Wohnungswesen 1000","Erwerbstätige im Jahresdurchschnitt öffentl. u. sonst. Dienstl.,Erziehung, Gesundheit 1000"
0,31.12.2020,1001,9330,7355,16685,1410,1308,1501,1982,1128,...,56.73,19134.0,617,0,73,60,15,175,96,258
1,31.12.2020,1002,16455,14770,31230,3432,3310,3980,4923,2966,...,118.65,19886.0,1747,1,162,146,54,400,361,769
2,31.12.2020,1003,13775,12365,26140,2799,2932,3640,4563,2811,...,214.19,21028.0,1336,3,196,179,61,345,245,487
3,31.12.2020,1004,6595,4985,11575,1099,1130,1407,1990,1154,...,71.66,19773.0,548,4,67,60,34,168,109,166
4,31.12.2020,1051,4975,4075,9055,1615,1711,2252,3091,1967,...,128.4,23967.0,627,36,88,80,54,165,65,220


### Verknüpfen des Hauptdatensatzes "Kriminalstatistik 2020"

In [56]:
merged_df_5= pd.merge(df_criminal, merged_df4, on="Kreis_ID", how = "left")

merged_df_5

Unnamed: 0,Art_Straftat,Kreis_ID,Stadt-/Landkreis,Anzahl erfasste Faelle,Haeufigkeitszahl,"erfasste Faelle, davon Versuche - Anzahl","erfasste Faelle, davon Versuche - Anteil in %",mit Schusswaffe gedroht,mit Schusswaffe geschossen,Auffklaerung - Anzahl Faelle,...,Fläche in km2,Verfügbares Einkommen pro Einwohner,Erwerbstätige im Jahresdurchschnitt Insgesamt 1000,"Erwerbstätige im Jahresdurchschnitt Land- und Forstwirtschaft, Fischerei (A) 1000",Erwerbstätige im Jahresdurchschnitt Produzierendes Gewerbe ohne Baugewerbe (B-E) 1000,Erwerbstätige im Jahresdurchschnitt Verarbeitendes Gewerbe (C) 1000,Erwerbstätige im Jahresdurchschnitt Baugewerbe (F) 1000,"Erwerbstätige im Jahresdurchschnitt Handel,Verkehr,Gastgewerbe,Informa-/Kommunikation 1000","Erwerbstätige im Jahresdurchschnitt Fin-,Vers.-,Unt.-dienstl.,Grundst.-/Wohnungswesen 1000","Erwerbstätige im Jahresdurchschnitt öffentl. u. sonst. Dienstl.,Erziehung, Gesundheit 1000"
0,Straftaten insgesamt,1001,Flensburg,8380,9294,598,7.1,11,5,5293,...,56.73,19134.0,617,00,73,60,15,175,96,258
1,Straftaten insgesamt,1002,Kiel,21384,8665,1413,6.6,23,5,11241,...,118.65,19886.0,1747,01,162,146,54,400,361,769
2,Straftaten insgesamt,1003,Lübeck,20942,9672,1513,7.2,26,13,11959,...,214.19,21028.0,1336,03,196,179,61,345,245,487
3,Straftaten insgesamt,1004,Neumünster,9453,11787,672,7.1,7,4,5836,...,71.66,19773.0,548,04,67,60,34,168,109,166
4,Straftaten insgesamt,1051,Dithmarschen,6597,4953,457,6.9,13,12,3944,...,128.40,23967.0,627,36,88,80,54,165,65,220
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16837,Cybercrime im engeren Sinne,16073,Saalfeld-Rudolstadt,66,64,8,12.1,0,0,40,...,575.23,20878.0,467,09,131,121,33,87,57,150
16838,Cybercrime im engeren Sinne,16074,Saale-Holzland-Kreis,30,36,5,16.7,0,0,17,...,183.09,21083.0,347,14,91,88,34,80,38,91
16839,Cybercrime im engeren Sinne,16075,Saale-Orla-Kreis,68,85,3,4.4,0,0,37,...,620.68,20789.0,386,15,134,129,35,66,35,101
16840,Cybercrime im engeren Sinne,16076,Greiz,70,72,5,7.1,0,0,25,...,417.28,21373.0,391,12,101,95,46,96,36,101


### Migrationsdaten pro Kreis/kreisfreie Stadt

In [57]:
# Definition relevanter Spalten für den Migrationsdatensatz
rel_columns = ['RS','INSGESAMT','INSG_M','INSG_W','AUSL_INSG','AUSL_M','AUSL_W','IIU6','IMU6','IWU6','DIU6','DMU6','DWU6','AIU6','AMU6','AWU6','II6BU15','IM6BU15','IW6BU15','DI6BU15','DM6BU15','DW6BU15','AI6BU15','AM6BU15','AW6BU15','II15BU65','IM15BU65','IW15BU65','DI15BU65','DM15BU65','DW15BU65','AI15BU65','AM15BU65','AW15BU65','II65UM','IM65UM','IW65UM','DI65UM','DM65UM','DW65UM','AI65UM','AM65UM','AW65UM','ANT_AI','ANT_AM','ANT_AW','ANT_AIU6','ANT_AMU6','ANT_AWU6','ANT_AI6BU15','ANT_AM6BU15','ANT_AW6BU15','ANT_AI15BU65','ANT_AM15BU65','ANT_AW15BU65','ANT_AI65UM','ANT_AM65UM','ANT_AW65UM','ANT_ARBS_FLUMI','ALQ_AUSL','ANT_SOZ_AUS','BESCHQ_INS','BESCHQ_AUS','AZR_ANT_EU28_AUSL','AZR_ANT_NICHTEU_AUSL','AZR_ANT_GASTARB','AZR_ANT_OST2004','AZR_ANT_U6','AZR_ANT_6BU15','AZR_ANT_15BU65','AZR_ANT_65UM','AZR_ANT_ADU2','AZR_ANT_AD2BU10','AZR_ANT_AD10BU25','AZR_ANT_AD25UM']

In [58]:
migration = pd.read_csv('https://raw.githubusercontent.com/andreashrb/Python_for_DS_Project/main/data/migration_integration_regionen.csv', encoding = 'utf-8', delimiter = ',', usecols = rel_columns)

migration

Unnamed: 0,RS,INSGESAMT,INSG_M,INSG_W,AUSL_INSG,AUSL_M,AUSL_W,IIU6,IMU6,IWU6,...,AZR_ANT_OST2004,AZR_ANT_NICHTEU_AUSL,AZR_ANT_U6,AZR_ANT_6BU15,AZR_ANT_15BU65,AZR_ANT_65UM,AZR_ANT_ADU2,AZR_ANT_AD2BU10,AZR_ANT_AD10BU25,AZR_ANT_AD25UM
0,1001,89934,44797,45137,14202,7864,6338,5194,2718,2476,...,25.9,53.6,7.5,7.9,77.2,7.4,17.4,57.5,12.9,12.1
1,1002,246601,120045,126556,29968,15383,14585,13253,6742,6511,...,17.2,75.2,7.3,8.7,75.7,8.3,11.8,53.7,18.9,15.5
2,1003,215846,103623,112223,23392,12067,11325,11126,5731,5395,...,21.5,65.9,6.0,7.6,75.1,11.3,10.4,47.3,20.0,22.2
3,1004,79905,39558,40347,10523,5877,4646,4261,2229,2032,...,32.8,62.5,7.4,10.2,75.6,6.9,15.6,55.0,13.9,15.6
4,1051,133251,65711,67540,8191,4467,3724,6526,3326,3200,...,34.5,56.7,9.5,11.3,73.8,5.4,15.0,59.6,14.8,10.6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
396,16073,102139,50306,51833,2902,1675,1227,4665,2417,2248,...,25.7,68.3,8.6,9.5,78.3,3.6,17.2,58.4,15.9,8.6
397,16074,82816,41139,41677,2937,1786,1151,4104,2047,2057,...,59.5,34.8,6.1,7.6,82.8,3.5,23.3,57.5,13.5,5.7
398,16075,79632,39579,40053,2949,1731,1218,3797,1949,1848,...,37.2,55.3,7.3,10.2,78.9,3.3,24.6,56.3,13.6,5.4
399,16076,96668,47659,49009,2520,1510,1010,4337,2244,2093,...,42.4,50.6,7.4,10.6,77.7,4.2,23.3,56.6,12.9,7.4


In [59]:
# Definition der ausformulierten Spaltenbezeichnungen
spalten_namen =['Kreis_ID','Bevölkerung insgesamt',
'Bevölkerung insgesamt männlich',
'Bevölkerung insgesamt weiblich',
'Ausländer insgesamt',
'Ausländer insgesamt männlich',
'Ausländer insgesamt weiblich',
'Bevölkerung insgesamt unter 6 Jahren',
'Bevölkerung männlich, unter 6 Jahren',
'Bevölkerung weiblich, unter 6 Jahren',
'Bevölkerung Deutsche insgesamt unter 6 Jahren',
'Bevölkerung Deutsche männlich unter 6 Jahren',
'Bevölkerung Deutsche weiblich unter 6 Jahren',
'Bevölkerung Ausländer insgesamt unter 6 Jahren',
'Bevölkerung Ausländer männlich unter 6 Jahren',
'Bevölkerung Ausländer weiblich unter 6 Jahren',
'Bevölkerung insgesamt, 6 bis unter 15 Jahren',
'Bevölkerung männlich,, 6 bis unter 15 Jahren',
'Bevölkerung weiblich,, 6 bis unter 15 Jahren',
'Bevölkerung Deutsche insgesamt, 6 bis unter 15 Jahren',
'Bevölkerung Deutsche männlich, 6 bis unter 15 Jahren',
'Bevölkerung Deutsche weiblich, 6 bis unter 15 Jahren',
'Bevölkerung Ausländer insgesamt, 6 bis unter 15 Jahren',
'Bevölkerung Ausländer männlich, 6 bis unter 15 Jahren',
'Bevölkerung Ausländer weiblich, 6 bis unter 15 Jahren',
'Bevölkerung insgesamt, 15 bis unter 65 Jahren',
'Bevölkerung männlich,, 15 bis unter 65 Jahren',
'Bevölkerung weiblich,, 15 bis unter 65 Jahren',
'Bevölkerung Deutsche insgesamt, 15 bis unter 65 Jahren',
'Bevölkerung Deutsche männlich, 15 bis unter 65 Jahren',
'Bevölkerung Deutsche weiblich, 15 bis unter 65 Jahren',
'Bevölkerung Ausländer insgesamt, 15 bis unter 65 Jahren',
'Bevölkerung Ausländer männlich, 15 bis unter 65 Jahren',
'Bevölkerung Ausländer weiblich, 15 bis unter 65 Jahren',
'Bevölkerung insgesamt, 65 Jahre und älter',
'Bevölkerung männlich,, 65 Jahre und älter',
'Bevölkerung weiblich,, 65 Jahre und älter',
'Bevölkerung Deutsche insgesamt, 65 Jahre und älter',
'Bevölkerung Deutsche männlich, 65 Jahre und älter',
'Bevölkerung Deutsche weiblich, 65 Jahre und älter',
'Bevölkerung Ausländer insgesamt, 65 Jahre und älter',
'Bevölkerung Ausländer männlich, 65 Jahre und älter',
'Bevölkerung Ausländer weiblich, 65 Jahre und älter',
'Anteil der Ausländer insgesamt an der Bevölkerung insgesamt',
'Anteil der Ausländer männlich an der Bevölkerung männlich',
'Anteil der Ausländer weiblich an der Bevölkerung weiblich',
'Anteil der Ausländer unter 6 Jahren an der Bevölkerung unter 6 Jahren',
'Anteil der Ausländer männlich unter 6 Jahren an der Bevölkerung männlich unter 6 Jahren',
'Anteil der Ausländer weiblich unter 6 Jahren an der Bevölkerung weiblich unter 6 Jahren',
'Anteil der Ausländer, 6 bis unter 15 Jahre an der Bevölkerung, 6 bis unter 15 Jahre',
'Anteil der Ausländer männlich, 6 bis unter 15 Jahre an der Bevölkerung männlich, 6 bis unter 15 Jahre',
'Anteil der Ausländer weiblich, 6 bis unter 15 Jahre an der Bevölkerung weiblich, 6 bis unter 15 Jahre',
'Anteil der Ausländer, 15 bis unter 65 Jahre an der Bevölkerung, 15 bis unter 65 Jahre',
'Anteil der Ausländer männlich, 15 bis unter 65 Jahre an der Bevölkerung männlich, 15 bis unter 65 Jahre',
'Anteil der Ausländer weiblich, 15 bis unter 65 Jahre an der Bevölkerung weiblich, 15 bis unter 65 Jahre',
'Anteil der Ausländer, 65 Jahre und älter an der Bevölkerung, 65 Jahre und älter',
'Anteil der Ausländer männlich, 65 Jahre und älter an der Bevölkerung männlich, 65 Jahre und älter',
'Anteil der Ausländer weiblich, 65 Jahre und älter an der Bevölkerung weiblich, 65 Jahre und älter',
'Anteil Arbeitsuchender (Flucht und Migration) an allen Arbeitsuchenden',
'Arbeitslosenquoten von Ausländern (eingeschränkte Bezugsgröße) (nach Mig-Monitor)',
'Anteil sozialversicherungspflichtig beschäftigter Ausländer',
'Beschäftigungsquoten insgesamt',
'Beschäftigungsquoten Ausländer',
'Anteil der EU-Ausländer an allen Ausländern',
'Anteil der Nicht-EU-Ausländer an allen Ausländern',
'Anteil der Ausländer aus den Gastarbeiter-Anwerbestaaten an allen Ausländern',
'Anteil der Ausländer aus den seit 2004 der EU beigetretenen Staaten (EU-Osterweiterung)',
'Anteil Ausländer unter 6 Jahre',
'Anteil Ausländer 6 bis unter 15 Jahre',
'Anteil Auländer 15 bis unter 65 Jahre',
'Anteil Ausländer 65 Jahre und älter',
'Anteil Ausländer Aufenthaltsdauer unter 2 Jahre',
'Anteil Ausländer Aufenthaltsdauer 2 bis unter 10 Jahre',
'Anteil Ausländer Aufenthaltsdauer 10 bis unter 25 Jahre',
'Anteil Ausländer Aufenthaltsdauer 25 Jahre und mehr']

In [67]:
spalten_dict = dict(zip(rel_columns, spalten_namen))

migration.rename(columns=spalten_dict, inplace=True)
migration['Kreis_ID'] = migration['Kreis_ID'].astype(str)

In [68]:
migration.head()

Unnamed: 0,Kreis_ID,Bevölkerung insgesamt,Bevölkerung insgesamt männlich,Bevölkerung insgesamt weiblich,Ausländer insgesamt,Ausländer insgesamt männlich,Ausländer insgesamt weiblich,Bevölkerung insgesamt unter 6 Jahren,"Bevölkerung männlich, unter 6 Jahren","Bevölkerung weiblich, unter 6 Jahren",...,Anteil der Ausländer aus den seit 2004 der EU beigetretenen Staaten (EU-Osterweiterung),Anteil der Nicht-EU-Ausländer an allen Ausländern,Anteil Ausländer unter 6 Jahre,Anteil Ausländer 6 bis unter 15 Jahre,Anteil Auländer 15 bis unter 65 Jahre,Anteil Ausländer 65 Jahre und älter,Anteil Ausländer Aufenthaltsdauer unter 2 Jahre,Anteil Ausländer Aufenthaltsdauer 2 bis unter 10 Jahre,Anteil Ausländer Aufenthaltsdauer 10 bis unter 25 Jahre,Anteil Ausländer Aufenthaltsdauer 25 Jahre und mehr
0,1001,89934,44797,45137,14202,7864,6338,5194,2718,2476,...,25.9,53.6,7.5,7.9,77.2,7.4,17.4,57.5,12.9,12.1
1,1002,246601,120045,126556,29968,15383,14585,13253,6742,6511,...,17.2,75.2,7.3,8.7,75.7,8.3,11.8,53.7,18.9,15.5
2,1003,215846,103623,112223,23392,12067,11325,11126,5731,5395,...,21.5,65.9,6.0,7.6,75.1,11.3,10.4,47.3,20.0,22.2
3,1004,79905,39558,40347,10523,5877,4646,4261,2229,2032,...,32.8,62.5,7.4,10.2,75.6,6.9,15.6,55.0,13.9,15.6
4,1051,133251,65711,67540,8191,4467,3724,6526,3326,3200,...,34.5,56.7,9.5,11.3,73.8,5.4,15.0,59.6,14.8,10.6


In [69]:
merged_df_final = pd.merge(merged_df_5, migration, on="Kreis_ID", how = "left")

In [71]:
merged_df_final.head()

Unnamed: 0,Art_Straftat,Kreis_ID,Stadt-/Landkreis,Anzahl erfasste Faelle,Haeufigkeitszahl,"erfasste Faelle, davon Versuche - Anzahl","erfasste Faelle, davon Versuche - Anteil in %",mit Schusswaffe gedroht,mit Schusswaffe geschossen,Auffklaerung - Anzahl Faelle,...,Anteil der Ausländer aus den seit 2004 der EU beigetretenen Staaten (EU-Osterweiterung),Anteil der Nicht-EU-Ausländer an allen Ausländern,Anteil Ausländer unter 6 Jahre,Anteil Ausländer 6 bis unter 15 Jahre,Anteil Auländer 15 bis unter 65 Jahre,Anteil Ausländer 65 Jahre und älter,Anteil Ausländer Aufenthaltsdauer unter 2 Jahre,Anteil Ausländer Aufenthaltsdauer 2 bis unter 10 Jahre,Anteil Ausländer Aufenthaltsdauer 10 bis unter 25 Jahre,Anteil Ausländer Aufenthaltsdauer 25 Jahre und mehr
0,Straftaten insgesamt,1001,Flensburg,8380,9294,598,7.1,11,5,5293,...,25.9,53.6,7.5,7.9,77.2,7.4,17.4,57.5,12.9,12.1
1,Straftaten insgesamt,1002,Kiel,21384,8665,1413,6.6,23,5,11241,...,17.2,75.2,7.3,8.7,75.7,8.3,11.8,53.7,18.9,15.5
2,Straftaten insgesamt,1003,Lübeck,20942,9672,1513,7.2,26,13,11959,...,21.5,65.9,6.0,7.6,75.1,11.3,10.4,47.3,20.0,22.2
3,Straftaten insgesamt,1004,Neumünster,9453,11787,672,7.1,7,4,5836,...,32.8,62.5,7.4,10.2,75.6,6.9,15.6,55.0,13.9,15.6
4,Straftaten insgesamt,1051,Dithmarschen,6597,4953,457,6.9,13,12,3944,...,34.5,56.7,9.5,11.3,73.8,5.4,15.0,59.6,14.8,10.6


In [75]:
merged_df_final.isnull().sum().sort_values(ascending=False).head(20)

Erwerbstätige im Jahresdurchschnitt Insgesamt 1000                                            84
Erwerbstätige im Jahresdurchschnitt Fin-,Vers.-,Unt.-dienstl.,Grundst.-/Wohnungswesen 1000    84
Verfügbares Einkommen pro Einwohner                                                           84
Erwerbstätige im Jahresdurchschnitt Land- und Forstwirtschaft, Fischerei (A) 1000             84
Erwerbstätige im Jahresdurchschnitt Produzierendes Gewerbe ohne Baugewerbe (B-E) 1000         84
Erwerbstätige im Jahresdurchschnitt Verarbeitendes Gewerbe (C) 1000                           84
Erwerbstätige im Jahresdurchschnitt Baugewerbe (F) 1000                                       84
Erwerbstätige im Jahresdurchschnitt Handel,Verkehr,Gastgewerbe,Informa-/Kommunikation 1000    84
Erwerbstätige im Jahresdurchschnitt öffentl. u. sonst. Dienstl.,Erziehung, Gesundheit 1000    84
Fläche in km2                                                                                 42
Bevölkerung Deutsche männlich,

In [77]:
merged_df_final.to_csv('G:\\Meine Ablage\\Python4DataScience\\Daten\\Data Preparation\\DataPreparation_Sebastian.csv')