We load the necessary libraries

In [1]:
import pandas as pd
import numpy as np

We read in the classification for jobs into different job sectors according to the German office for statistics

In [2]:
berufbereiche=pd.read_excel("../data/ew2024_bewerb/ab2017_klassifikation_berufe.xlsx",sheet_name="Berufsbereiche",skiprows=5,dtype=str)
berufbereiche=berufbereiche.rename(columns={"Unnamed: 2":"Bezeichnung"})
berufbereiche=berufbereiche.dropna(thresh=2)
berufbereiche

Unnamed: 0,von,bis,Bezeichnung
1,1,,Militär
2,4,,"Schüler, Auszubildende, Studenten"
3,5,,"Rentner, Pensionäre"
4,6,,"Hausfrauen, Arbeitssuchende"
5,9,,"Ohne nähere Tätigkeitsangabe, z. B. Selbststän..."
6,11,12.0,"Land-, Forst- und Tierwirtschaft und Gartenbau"
7,21,29.0,"Rohstoffgewinnung, Produktion und Fertigung"
8,31,34.0,"Bau, Architektur, Vermessung und Gebäudetechnik"
9,41,43.0,"Naturwissenschaft, Geografie und Informatik"
10,51,54.0,"Verkehr, Logistik, Schutz und Sicherheit"


Now we modify this slightly by creating for the dataframe a "from" and a "to" column which defines between which encoded numbers certain job sectors can be found

In [3]:
berufbereiche["bis"]=np.where(berufbereiche["bis"].isna(),berufbereiche["von"],berufbereiche["bis"])
berufbereiche

Unnamed: 0,von,bis,Bezeichnung
1,1,1,Militär
2,4,4,"Schüler, Auszubildende, Studenten"
3,5,5,"Rentner, Pensionäre"
4,6,6,"Hausfrauen, Arbeitssuchende"
5,9,9,"Ohne nähere Tätigkeitsangabe, z. B. Selbststän..."
6,11,12,"Land-, Forst- und Tierwirtschaft und Gartenbau"
7,21,29,"Rohstoffgewinnung, Produktion und Fertigung"
8,31,34,"Bau, Architektur, Vermessung und Gebäudetechnik"
9,41,43,"Naturwissenschaft, Geografie und Informatik"
10,51,54,"Verkehr, Logistik, Schutz und Sicherheit"


Now we iterate through this dataframe and create a dictionary that assigns to each number a job sector

In [4]:
berufbereiche_dict={}
for index, row in berufbereiche.iterrows():
    print(row["von"],row["bis"])
    for i in range(int(row["von"]),int(row["bis"])+1):
        berufbereiche_dict[i]=row["Bezeichnung"]
        berufbereiche_dict
berufbereiche_dict

01 01
04 04
05 05
06 06
09 09
11 12
21 29
31 34
41 43
51 54
61 63
71 73
81 84
91 94


{1: 'Militär',
 4: 'Schüler, Auszubildende, Studenten',
 5: 'Rentner, Pensionäre',
 6: 'Hausfrauen, Arbeitssuchende',
 9: 'Ohne nähere Tätigkeitsangabe, z. B. Selbstständige',
 11: 'Land-, Forst- und Tierwirtschaft und Gartenbau',
 12: 'Land-, Forst- und Tierwirtschaft und Gartenbau',
 21: 'Rohstoffgewinnung, Produktion und Fertigung',
 22: 'Rohstoffgewinnung, Produktion und Fertigung',
 23: 'Rohstoffgewinnung, Produktion und Fertigung',
 24: 'Rohstoffgewinnung, Produktion und Fertigung',
 25: 'Rohstoffgewinnung, Produktion und Fertigung',
 26: 'Rohstoffgewinnung, Produktion und Fertigung',
 27: 'Rohstoffgewinnung, Produktion und Fertigung',
 28: 'Rohstoffgewinnung, Produktion und Fertigung',
 29: 'Rohstoffgewinnung, Produktion und Fertigung',
 31: 'Bau, Architektur, Vermessung und Gebäudetechnik',
 32: 'Bau, Architektur, Vermessung und Gebäudetechnik',
 33: 'Bau, Architektur, Vermessung und Gebäudetechnik',
 34: 'Bau, Architektur, Vermessung und Gebäudetechnik',
 41: 'Naturwissenschaf

Now we read in the data for the candidates for the Bundestagswahl and the European election

In [5]:
data_europa=pd.read_csv("../data/ew2024_bewerb/ew2024_bewerb_uft8.csv",sep=";",skiprows=8)
data_bund=pd.read_csv("../data/btw2021_bewerb/btw2021_bewerb_utf8.csv",sep=";",skiprows=8)
data_europa.columns

Index(['Wahlart', 'Wahltag', 'Titel', 'Namenszusatz', 'Name', 'Vornamen',
       'Künstlername', 'Geschlecht', 'Geburtsjahr', 'PLZ', 'Wohnort', 'Staat',
       'WohnortLand', 'Geburtsort', 'Staatsangehörigkeit', 'Beruf',
       'Berufsschluessel', 'Kennzeichen', 'Gebietsart', 'Gebietsnummer',
       'Gebietsname', 'GebietLandAbk', 'Gruppenname', 'GruppennameLang',
       'Listenplatz', 'VerknKennzeichen', 'VerknGebietsart',
       'VerknGebietsnummer', 'VerknGebietsname', 'VerknGebietLandAbk',
       'VerknGruppenname', 'VerknListenplatz', 'VorpGewaehlt'],
      dtype='object')

And then process the Berufsschluessel column so that we can assign to each candidate into which job sector he or she belongs

In [6]:
data_bund["Berufsbezeichnung"]=data_bund["Berufsschluessel"].astype(int)
data_bund["Berufsbezeichnung"]=data_bund["Berufsbezeichnung"].replace(berufbereiche_dict)

data_europa["Berufsbezeichnung"]=data_europa["Berufsschluessel"].astype(int)
data_europa["Berufsbezeichnung"]=data_europa["Berufsbezeichnung"].replace(berufbereiche_dict)
data_bund.Gruppenname.unique()

array(['CDU', 'SPD', 'FDP', 'GRÜNE', 'AfD', 'DIE LINKE', 'FREIE WÄHLER',
       'dieBasis', 'du.', 'LKR', 'SSW', 'V-Partei³', 'Die PARTEI', 'MLPD',
       'DKP', 'Volt', 'EB: Schlüter', 'EB: Kerkhoff', 'PIRATEN',
       'EB: Löwe', 'Tierschutzpartei', 'EB: Krüger', 'UNABHÄNGIGE', 'ÖDP',
       'NPD', 'EB: Janoske-Kizildag', 'ÖLDP', 'EB: Lenz', 'EB: Balzer',
       'EB: Gums', 'EB: Großkopf', 'EB: Weich', 'Die Humanisten',
       'EB: Kober', 'EB: Neumann', 'EB: Kunick', 'EB: Göller',
       'EB: Wieczorek', 'EB: Herzig', 'EB: Jagau', 'EB: Deutsch',
       'EB: Rosenbaum', 'EB: Wolter', 'EB: Gust', 'EB: Wiesenthal',
       'EB: Hönig', 'EB: Schäuble-Leopold', 'EB: Glamann',
       'EB: Eckelmann', 'EB: Buro', 'EB: Schlippenbach', 'EB: Lorenz',
       'EB: Schütz', 'EB: Conrad', 'EB: Hinners', 'EB: Roloff',
       'EB: Müller', 'EB: Grütte', 'EB: Charnow', 'EB: Gabler',
       'EB: Hitzer', 'EB: Commentz', 'FAMILIE', 'EB: Kaun',
       'EB: Marquardt', 'EB: Janda', 'EB: Bibiella', 'EB: J

In [8]:
data_bund.Gruppenname=data_bund.Gruppenname.astype(str).str.replace("CDU","Union")
data_bund.Gruppenname=data_bund.Gruppenname.astype(str).str.replace("CSU","Union")
data_europa.Gruppenname=data_europa.Gruppenname.astype(str).str.replace("CDU","Union")
data_europa.Gruppenname=data_europa.Gruppenname.astype(str).str.replace("CSU","Union")
data_europa.Gruppenname=data_europa.Gruppenname.astype(str).str.replace("DIE LINKE","Die Linke")
data_bund.Gruppenname=data_bund.Gruppenname.astype(str).str.replace("DIE LINKE","Die Linke")
data_europa.Gruppenname=data_europa.Gruppenname.astype(str).str.replace("GRÜNE","Grüne")
data_bund.Gruppenname=data_bund.Gruppenname.astype(str).str.replace("GRÜNE","Grüne")

In [49]:
data_europa.groupby(["Gruppenname"]).count()

Unnamed: 0_level_0,Wahlart,Wahltag,Titel,Namenszusatz,Name,Vornamen,Künstlername,Geschlecht,Geburtsjahr,PLZ,...,VerknKennzeichen,VerknGebietsart,VerknGebietsnummer,VerknGebietsname,VerknGebietLandAbk,VerknGruppenname,VerknListenplatz,VorpGewaehlt,Berufsbezeichnung,Alter
Gruppenname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ABG,9,9,0,0,9,9,0,9,9,9,...,0,0,0,0,0,0,0,0,9,9
AfD,35,35,4,0,35,35,0,35,35,35,...,0,0,0,0,0,0,0,4,35,35
BIG,23,23,0,0,23,23,0,23,23,23,...,0,0,0,0,0,0,0,0,23,23
BSW,20,20,4,2,20,20,0,20,20,20,...,0,0,0,0,0,0,0,0,20,20
BÜNDNIS DEUTSCHLAND,11,11,0,0,11,11,0,11,11,11,...,0,0,0,0,0,0,0,1,11,11
Bündnis C,13,13,2,0,13,13,0,13,13,13,...,0,0,0,0,0,0,0,0,13,13
DAVA,13,13,2,0,13,13,0,13,13,13,...,0,0,0,0,0,0,0,0,13,13
DKP,43,43,1,0,43,43,0,43,43,43,...,0,0,0,0,0,0,0,0,43,43
Die Linke,20,20,0,0,20,20,0,20,20,20,...,0,0,0,0,0,0,0,2,20,20
Die PARTEI,211,211,2,0,211,211,0,211,211,211,...,0,0,0,0,0,0,0,1,211,211


Then we count the occurence of each job sector for each party

In [10]:
data_bund_jobs=data_bund[["Nachname","Berufsbezeichnung","Gruppenname"]].groupby(["Gruppenname","Berufsbezeichnung"]).count().reset_index()
data_bund_jobs=data_bund_jobs.rename(columns={"Nachname":"count"})
data_bund_jobs

Unnamed: 0,Gruppenname,Berufsbezeichnung,count
0,#KLIMAfirst,"Gesundheit, Soziales, Lehre und Erziehung",1
1,#TeamFranka,"Rohstoffgewinnung, Produktion und Fertigung",1
2,AfD,"Bau, Architektur, Vermessung und Gebäudetechnik",8
3,AfD,"Gesundheit, Soziales, Lehre und Erziehung",45
4,AfD,"Kaufmännische Dienstleistungen, Warenhandel, V...",22
...,...,...,...
580,ÖDP,"Schüler, Auszubildende, Studenten",38
581,ÖDP,"Sprach-, Literatur-, Geistes-, Gesellschafts- ...",19
582,ÖDP,"Unternehmensorganisation, Buchhaltung, Recht u...",38
583,ÖDP,"Verkehr, Logistik, Schutz und Sicherheit",9


But as the number of candidates differ between the elections, we will only compare the percentage wise share. We do this using grpupby and transform.

In [11]:
data_bund_jobs["share"]=data_bund_jobs["count"]*100/data_bund_jobs.groupby("Gruppenname")["count"].transform('sum')
data_bund_jobs

Unnamed: 0,Gruppenname,Berufsbezeichnung,count,share
0,#KLIMAfirst,"Gesundheit, Soziales, Lehre und Erziehung",1,100.000000
1,#TeamFranka,"Rohstoffgewinnung, Produktion und Fertigung",1,100.000000
2,AfD,"Bau, Architektur, Vermessung und Gebäudetechnik",8,1.713062
3,AfD,"Gesundheit, Soziales, Lehre und Erziehung",45,9.635974
4,AfD,"Kaufmännische Dienstleistungen, Warenhandel, V...",22,4.710921
...,...,...,...,...
580,ÖDP,"Schüler, Auszubildende, Studenten",38,11.242604
581,ÖDP,"Sprach-, Literatur-, Geistes-, Gesellschafts- ...",19,5.621302
582,ÖDP,"Unternehmensorganisation, Buchhaltung, Recht u...",38,11.242604
583,ÖDP,"Verkehr, Logistik, Schutz und Sicherheit",9,2.662722


In [12]:
data_europa_jobs=data_europa[["Name","Berufsbezeichnung","Gruppenname"]].groupby(["Gruppenname","Berufsbezeichnung"]).count().reset_index()
data_europa_jobs=data_europa_jobs.rename(columns={"Name":"count"})
data_europa_jobs

Unnamed: 0,Gruppenname,Berufsbezeichnung,count
0,ABG,"Gesundheit, Soziales, Lehre und Erziehung",2
1,ABG,"Kaufmännische Dienstleistungen, Warenhandel, V...",1
2,ABG,"Rentner, Pensionäre",1
3,ABG,"Unternehmensorganisation, Buchhaltung, Recht u...",5
4,AfD,"Gesundheit, Soziales, Lehre und Erziehung",3
...,...,...,...
242,ÖDP,"Rohstoffgewinnung, Produktion und Fertigung",8
243,ÖDP,"Schüler, Auszubildende, Studenten",4
244,ÖDP,"Sprach-, Literatur-, Geistes-, Gesellschafts- ...",4
245,ÖDP,"Unternehmensorganisation, Buchhaltung, Recht u...",15


In [13]:
data_europa_jobs["share"]=data_europa_jobs["count"]*100/data_europa_jobs.groupby("Gruppenname")["count"].transform('sum')
data_europa_jobs

Unnamed: 0,Gruppenname,Berufsbezeichnung,count,share
0,ABG,"Gesundheit, Soziales, Lehre und Erziehung",2,22.222222
1,ABG,"Kaufmännische Dienstleistungen, Warenhandel, V...",1,11.111111
2,ABG,"Rentner, Pensionäre",1,11.111111
3,ABG,"Unternehmensorganisation, Buchhaltung, Recht u...",5,55.555556
4,AfD,"Gesundheit, Soziales, Lehre und Erziehung",3,8.571429
...,...,...,...,...
242,ÖDP,"Rohstoffgewinnung, Produktion und Fertigung",8,9.195402
243,ÖDP,"Schüler, Auszubildende, Studenten",4,4.597701
244,ÖDP,"Sprach-, Literatur-, Geistes-, Gesellschafts- ...",4,4.597701
245,ÖDP,"Unternehmensorganisation, Buchhaltung, Recht u...",15,17.241379


In [14]:
data_europa_bund_jobs=pd.merge(data_bund_jobs,data_europa_jobs, on=["Gruppenname","Berufsbezeichnung"],suffixes=["_bund","_europa"], how="outer")
data_europa_bund_jobs=data_europa_bund_jobs.fillna(0)

Then we only filter for the parties that are currently in the Bundestag

In [16]:
filterlist=['AfD','Union', 'Die Linke', 'FDP',
       'Grüne', 'SPD']

In [17]:
bundes_parteien_filtered=data_europa_bund_jobs[data_europa_bund_jobs["Gruppenname"].str.contains('|'.join(filterlist))]
bundes_parteien_filtered_share=bundes_parteien_filtered[["Gruppenname","Berufsbezeichnung","share_bund","share_europa"]]
bundes_parteien_filtered_share

Unnamed: 0,Gruppenname,Berufsbezeichnung,share_bund,share_europa
6,AfD,"Bau, Architektur, Vermessung und Gebäudetechnik",1.713062,0.000000
7,AfD,"Gesundheit, Soziales, Lehre und Erziehung",9.635974,8.571429
8,AfD,"Kaufmännische Dienstleistungen, Warenhandel, V...",4.710921,14.285714
9,AfD,"Land-, Forst- und Tierwirtschaft und Gartenbau",1.284797,0.000000
10,AfD,Militär,0.642398,0.000000
...,...,...,...,...
601,Union,"Rohstoffgewinnung, Produktion und Fertigung",3.947368,4.247104
602,Union,"Schüler, Auszubildende, Studenten",2.990431,7.335907
603,Union,"Sprach-, Literatur-, Geistes-, Gesellschafts- ...",5.861244,7.335907
604,Union,"Unternehmensorganisation, Buchhaltung, Recht u...",66.985646,51.737452


And write this as a long form to a csv

In [50]:
bundes_parteien_filtered_share.to_csv("jobs_longform.csv",index=False)

We also rewrite the names of the job sectors into shorter forms

In [51]:
pivot_df_bund=bundes_parteien_filtered.pivot(index='Gruppenname', columns='Berufsbezeichnung')["share_bund"].reset_index().fillna(0)
pivot_df_europa=bundes_parteien_filtered.pivot(index='Gruppenname', columns='Berufsbezeichnung')["share_europa"].reset_index().fillna(0)
alt_columns=['Partei', 'Baubranche',
       'Gesundheit und Soziales',
       'Hausfrauen und Arbeitssuchende',
       'Kaufmännisch',
       'Landwirtschaft', 'Militär',
       'Naturwissenschaften',
       'Ohne Angabe',
       'Rentner', 'Rohstoffe und Produktion',
       'Azubis und Studenten',
       'Geisteswissenschaften und Wirtschaft',
       'Recht und Verwaltung',
       'Verkehr und Logistik']
pivot_df_europa.columns=alt_columns
pivot_df_bund.columns=alt_columns

pivot_df_bund_T=pivot_df_bund.T
pivot_df_europa_T=pivot_df_europa.T
pivot_df_europa_T.columns=pivot_df_europa_T.iloc[0].tolist()
pivot_df_bund_T.columns=pivot_df_bund_T.iloc[0].tolist()
pivot_df_bund_T=pivot_df_bund_T.iloc[1:]
pivot_df_europa_T=pivot_df_europa_T.iloc[1:]
pivot_df_europa_T

Unnamed: 0,AfD,Die Linke,FDP,Grüne,SPD,Union
Baubranche,0.0,0.0,1.030928,0.0,0.0,0.772201
Gesundheit und Soziales,8.571429,20.0,10.824742,15.0,19.57672,16.988417
Hausfrauen und Arbeitssuchende,0.0,0.0,0.515464,2.5,0.0,0.3861
Kaufmännisch,14.285714,5.0,4.123711,0.0,2.645503,1.930502
Landwirtschaft,0.0,0.0,1.030928,5.0,1.587302,2.702703
Militär,0.0,0.0,2.061856,2.5,0.529101,1.544402
Naturwissenschaften,0.0,5.0,7.731959,0.0,2.645503,1.930502
Ohne Angabe,2.857143,0.0,1.546392,0.0,1.058201,0.3861
Rentner,0.0,5.0,1.546392,0.0,1.587302,1.930502
Rohstoffe und Produktion,8.571429,5.0,4.123711,7.5,4.232804,4.247104


In [52]:
pivot_df_bund_T

Unnamed: 0,AfD,Die Linke,FDP,Grüne,SPD,Union
Baubranche,1.713062,2.061856,1.866252,2.002861,0.821918,0.598086
Gesundheit und Soziales,9.635974,18.556701,9.486781,17.88269,15.479452,9.449761
Hausfrauen und Arbeitssuchende,0.0,0.206186,0.155521,0.143062,0.273973,0.0
Kaufmännisch,4.710921,4.123711,5.443235,1.8598,3.287671,3.229665
Landwirtschaft,1.284797,0.206186,2.177294,3.147353,0.0,0.837321
Militär,0.642398,0.0,1.244168,0.0,0.821918,0.119617
Naturwissenschaften,4.282655,3.71134,4.66563,5.150215,3.69863,1.913876
Ohne Angabe,1.284797,0.824742,1.399689,0.858369,0.136986,0.717703
Rentner,4.710921,3.505155,0.155521,0.572246,1.09589,1.555024
Rohstoffe und Produktion,9.635974,5.56701,5.754277,5.865522,2.191781,3.947368


And then we calculate a diff dataframe that shows which sectors are more or less represented this time around

In [54]:
diff_eu_bund=pivot_df_europa_T-pivot_df_bund_T

diff_eu_bund["mean_union_afd"]=diff_eu_bund[["Union","AfD"]].mean(axis=1)
diff_eu_bund["mean_spd_gruene"]=diff_eu_bund[["Grüne","SPD"]].mean(axis=1)
diff_eu_bund["mean_fdp_linke"]=diff_eu_bund[["FDP","Die Linke"]].mean(axis=1)
diff_eu_bund

Unnamed: 0,AfD,Die Linke,FDP,Grüne,SPD,Union,mean_union_afd,mean_spd_gruene,mean_fdp_linke
Baubranche,-1.713062,-2.061856,-0.835324,-2.002861,-0.821918,0.174115,-0.769474,-1.41239,-1.44859
Gesundheit und Soziales,-1.064546,1.443299,1.337962,-2.88269,4.097268,7.538656,3.237055,0.607289,1.39063
Hausfrauen und Arbeitssuchende,0.0,-0.206186,0.359943,2.356938,-0.273973,0.3861,0.19305,1.041483,0.076879
Kaufmännisch,9.574794,0.876289,-1.319523,-1.8598,-0.642169,-1.299163,4.137815,-1.250984,-0.221617
Landwirtschaft,-1.284797,-0.206186,-1.146366,1.852647,1.587302,1.865382,0.290293,1.719974,-0.676276
Militär,-0.642398,0.0,0.817688,2.5,-0.292817,1.424784,0.391193,1.103591,0.408844
Naturwissenschaften,-4.282655,1.28866,3.066329,-5.150215,-1.053127,0.016626,-2.133014,-3.101671,2.177494
Ohne Angabe,1.572346,-0.824742,0.146703,-0.858369,0.921215,-0.331603,0.620372,0.031423,-0.33902
Rentner,-4.710921,1.494845,1.390871,-0.572246,0.491411,0.375478,-2.167721,-0.040417,1.442858
Rohstoffe und Produktion,-1.064546,-0.56701,-1.630565,1.634478,2.041023,0.299736,-0.382405,1.837751,-1.098788


In [55]:
diff_eu_bund[["Union","AfD","mean_union_afd"]].to_csv("diff_eu_bund_1.csv")
diff_eu_bund[["SPD","Grüne","mean_spd_gruene"]].to_csv("diff_eu_bund_2.csv")
diff_eu_bund[["FDP","Die Linke","mean_fdp_linke"]].to_csv("diff_eu_bund_3.csv")


In [56]:
pivot_df_europa_T_first_half=pivot_df_europa_T[["Union","SPD","AfD"]].reset_index()
pivot_df_bund_T_first_half=pivot_df_bund_T[["Union","SPD","AfD"]].reset_index()
pivot_df_europa_T_first_half=pivot_df_europa_T_first_half.rename(columns={"index":"Branche"})
pivot_df_bund_T_first_half=pivot_df_bund_T_first_half.rename(columns={"index":"Branche"})
europa_bund_comp=pd.merge(pivot_df_bund_T_first_half,pivot_df_europa_T_first_half,on="Branche",suffixes=[" Bund"," Europa"])
europa_bund_comp.to_csv("bund_europa_comparison.csv",index=False)
europa_bund_comp

Unnamed: 0,Branche,Union Bund,SPD Bund,AfD Bund,Union Europa,SPD Europa,AfD Europa
0,Baubranche,0.598086,0.821918,1.713062,0.772201,0.0,0.0
1,Gesundheit und Soziales,9.449761,15.479452,9.635974,16.988417,19.57672,8.571429
2,Hausfrauen und Arbeitssuchende,0.0,0.273973,0.0,0.3861,0.0,0.0
3,Kaufmännisch,3.229665,3.287671,4.710921,1.930502,2.645503,14.285714
4,Landwirtschaft,0.837321,0.0,1.284797,2.702703,1.587302,0.0
5,Militär,0.119617,0.821918,0.642398,1.544402,0.529101,0.0
6,Naturwissenschaften,1.913876,3.69863,4.282655,1.930502,2.645503,0.0
7,Ohne Angabe,0.717703,0.136986,1.284797,0.3861,1.058201,2.857143
8,Rentner,1.555024,1.09589,4.710921,1.930502,1.587302,0.0
9,Rohstoffe und Produktion,3.947368,2.191781,9.635974,4.247104,4.232804,8.571429


In [58]:
pivot_df_europa_T_second_half=pivot_df_europa_T[["Grüne","FDP","Die Linke"]].reset_index()
pivot_df_bund_T_second_half=pivot_df_bund_T[["Grüne","FDP","Die Linke"]].reset_index()
pivot_df_europa_T_second_half=pivot_df_europa_T_second_half.rename(columns={"index":"Branche"})
pivot_df_bund_T_second_half=pivot_df_bund_T_second_half.rename(columns={"index":"Branche"})
europa_bund_comp_2=pd.merge(pivot_df_bund_T_second_half,pivot_df_europa_T_second_half,on="Branche",suffixes=[" Bund"," Europa"])
europa_bund_comp_2

Unnamed: 0,Branche,Grüne Bund,FDP Bund,Die Linke Bund,Grüne Europa,FDP Europa,Die Linke Europa
0,Baubranche,2.002861,1.866252,2.061856,0.0,1.030928,0.0
1,Gesundheit und Soziales,17.88269,9.486781,18.556701,15.0,10.824742,20.0
2,Hausfrauen und Arbeitssuchende,0.143062,0.155521,0.206186,2.5,0.515464,0.0
3,Kaufmännisch,1.8598,5.443235,4.123711,0.0,4.123711,5.0
4,Landwirtschaft,3.147353,2.177294,0.206186,5.0,1.030928,0.0
5,Militär,0.0,1.244168,0.0,2.5,2.061856,0.0
6,Naturwissenschaften,5.150215,4.66563,3.71134,0.0,7.731959,5.0
7,Ohne Angabe,0.858369,1.399689,0.824742,0.0,1.546392,0.0
8,Rentner,0.572246,0.155521,3.505155,0.0,1.546392,5.0
9,Rohstoffe und Produktion,5.865522,5.754277,5.56701,7.5,4.123711,5.0


Next up, we want to calculate the age of the candidates and compare the age of canditates between both elections

In [31]:
data_europa["Alter"]=data_europa["Wahltag"].astype(str).str[-4:].astype(int)-data_europa["Geburtsjahr"]
data_bund["Alter"]=data_bund["Wahltag"].astype(str).str[-4:].astype(int)-data_bund["Geburtsjahr"]
data_bund

Unnamed: 0,Wahlart,Wahltag,Titel,Namenszusatz,Nachname,Vornamen,Künstlername,Geschlecht,Geburtsjahr,PLZ,...,VerknKennzeichen,VerknGebietsart,VerknGebietsnummer,VerknGebietsname,VerknGebietLandAbk,VerknGruppenname,VerknListenplatz,VorpGewaehlt,Berufsbezeichnung,Alter
0,BT,26.09.2021,,,Nicolaisen,Petra,,w,1965,24997,...,Landesliste,Land,1.0,Schleswig-Holstein,SH,CDU,4.0,X,"Unternehmensorganisation, Buchhaltung, Recht u...",56
1,BT,26.09.2021,,,Brzezicha,Franziska Maria,,w,1993,24896,...,Landesliste,Land,1.0,Schleswig-Holstein,SH,SPD,6.0,,"Gesundheit, Soziales, Lehre und Erziehung",28
2,BT,26.09.2021,,,Anastasiadis,Christoph Georgios,,m,1995,24943,...,Landesliste,Land,1.0,Schleswig-Holstein,SH,FDP,6.0,,"Kaufmännische Dienstleistungen, Warenhandel, V...",26
3,BT,26.09.2021,,,Habeck,Robert,,m,1969,24939,...,Landesliste,Land,1.0,Schleswig-Holstein,SH,GRÜNE,2.0,,"Unternehmensorganisation, Buchhaltung, Recht u...",52
4,BT,26.09.2021,,,Petersen-Brendel,Jan,,m,1968,24997,...,,,,,,,,,"Rohstoffgewinnung, Produktion und Fertigung",53
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8282,BT,26.09.2021,,,Beutler,Benno,,m,1967,99610,...,,,,,,,,,"Kaufmännische Dienstleistungen, Warenhandel, V...",54
8283,BT,26.09.2021,,,Trautmann,Sophie,,w,1998,7743,...,,,,,,,,,"Schüler, Auszubildende, Studenten",23
8284,BT,26.09.2021,,,Volz,Maximilian,,m,1996,99423,...,,,,,,,,,"Schüler, Auszubildende, Studenten",25
8285,BT,26.09.2021,,,Arlaud,Leah Esther,,w,1997,99086,...,,,,,,,,,"Schüler, Auszubildende, Studenten",24


Then we group by party and calculate the mean age of candidates per party

In [32]:
EU_born_years=data_europa[["Alter","Gruppenname"]].groupby("Gruppenname").mean().reset_index()
EU_born_years

Unnamed: 0,Gruppenname,Alter
0,ABG,54.888889
1,AfD,48.657143
2,BIG,46.782609
3,BSW,55.65
4,BÜNDNIS DEUTSCHLAND,51.909091
5,Bündnis C,61.769231
6,DAVA,47.307692
7,DKP,51.790698
8,Die Linke,42.85
9,Die PARTEI,41.815166


In [33]:
Bund_born_years=data_bund[["Alter","Gruppenname"]].groupby("Gruppenname").mean().reset_index()
Bund_born_years

Unnamed: 0,Gruppenname,Alter
0,#KLIMAfirst,61.000000
1,#TeamFranka,40.000000
2,AfD,51.306210
3,B*,39.000000
4,BP,48.868852
...,...,...
231,dieBasis,52.662500
232,du.,37.270270
233,sonstige,51.000000
234,ÖDP,47.360947


And we merge the average ages from both elections

In [34]:
age_comp=pd.merge(Bund_born_years,EU_born_years,on="Gruppenname",suffixes=["_Bund","_EU"])
main_parties_age_comp=age_comp[age_comp.Gruppenname.str.contains(('|'.join(filterlist)))]
main_parties_age_comp.to_csv("mainparties_age.csv",index=False)

*And we see that for most bigger parties actually the average candidates were younger for the EU election*

Next up, we want to check, if age is younger BUT whether older candidates got better places on the list in general and especially at the European level

In [35]:
data_bund["Listenplatz_gemeinsam"]=data_bund["Listenplatz"]
data_bund["Listenplatz_gemeinsam"]=np.where(data_bund["Listenplatz"].isna(),data_bund["VerknListenplatz"],data_bund["Listenplatz"])

In [36]:
data_bund

Unnamed: 0,Wahlart,Wahltag,Titel,Namenszusatz,Nachname,Vornamen,Künstlername,Geschlecht,Geburtsjahr,PLZ,...,VerknGebietsart,VerknGebietsnummer,VerknGebietsname,VerknGebietLandAbk,VerknGruppenname,VerknListenplatz,VorpGewaehlt,Berufsbezeichnung,Alter,Listenplatz_gemeinsam
0,BT,26.09.2021,,,Nicolaisen,Petra,,w,1965,24997,...,Land,1.0,Schleswig-Holstein,SH,CDU,4.0,X,"Unternehmensorganisation, Buchhaltung, Recht u...",56,4.0
1,BT,26.09.2021,,,Brzezicha,Franziska Maria,,w,1993,24896,...,Land,1.0,Schleswig-Holstein,SH,SPD,6.0,,"Gesundheit, Soziales, Lehre und Erziehung",28,6.0
2,BT,26.09.2021,,,Anastasiadis,Christoph Georgios,,m,1995,24943,...,Land,1.0,Schleswig-Holstein,SH,FDP,6.0,,"Kaufmännische Dienstleistungen, Warenhandel, V...",26,6.0
3,BT,26.09.2021,,,Habeck,Robert,,m,1969,24939,...,Land,1.0,Schleswig-Holstein,SH,GRÜNE,2.0,,"Unternehmensorganisation, Buchhaltung, Recht u...",52,2.0
4,BT,26.09.2021,,,Petersen-Brendel,Jan,,m,1968,24997,...,,,,,,,,"Rohstoffgewinnung, Produktion und Fertigung",53,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8282,BT,26.09.2021,,,Beutler,Benno,,m,1967,99610,...,,,,,,,,"Kaufmännische Dienstleistungen, Warenhandel, V...",54,6.0
8283,BT,26.09.2021,,,Trautmann,Sophie,,w,1998,7743,...,,,,,,,,"Schüler, Auszubildende, Studenten",23,1.0
8284,BT,26.09.2021,,,Volz,Maximilian,,m,1996,99423,...,,,,,,,,"Schüler, Auszubildende, Studenten",25,2.0
8285,BT,26.09.2021,,,Arlaud,Leah Esther,,w,1997,99086,...,,,,,,,,"Schüler, Auszubildende, Studenten",24,3.0


In [37]:
#we only take in the columns for party, list spot and age
GruppePlatzAlter_EU=data_europa[["Gruppenname","Listenplatz","Alter"]]
listofparties=GruppePlatzAlter_EU.Gruppenname.unique()
print(listofparties)
coeff_eu={}
#and we iterate through the name of parties
for party in listofparties:
    #filter for the party
    partydf=GruppePlatzAlter_EU[GruppePlatzAlter_EU["Gruppenname"]==party]
    #calculate the correlation using spearman-rank coefficient to exclude non-normality
    result=partydf[["Listenplatz","Alter"]].corr(method="spearman",min_periods=10)
    #and save the coefficient for each party in a dictionary
    corrcoeff=result["Listenplatz"].iloc[-1]
    coeff_eu[party]=corrcoeff
coeff_eu

['Union' 'BIG' 'SPD' 'PdH' 'FDP' 'DAVA' 'PDV' 'MERA25' 'AfD' 'Grüne'
 'V-Partei³' 'SGP' 'Die PARTEI' 'Die Linke' 'KLIMALISTE'
 'MENSCHLICHE WELT' 'MLPD' 'BSW' 'ÖDP' 'DKP' 'PIRATEN' 'Volt'
 'BÜNDNIS DEUTSCHLAND' 'ABG' 'nan' 'LETZTE GENERATION' 'PdF' 'Bündnis C'
 'FAMILIE' 'Tierschutzpartei' 'FREIE WÄHLER' 'HEIMAT' 'dieBasis'
 'TIERSCHUTZ hier!']


{'Union': -0.2647576692109586,
 'BIG': -0.4036609567214213,
 'SPD': -0.15325237185331658,
 'PdH': 0.07947924900773393,
 'FDP': 0.08136007682341583,
 'DAVA': 0.04126551359105471,
 'PDV': -0.14344950397247302,
 'MERA25': 0.2156216926334733,
 'AfD': -0.02425177988627412,
 'Grüne': -0.1632309178390667,
 'V-Partei³': -0.17032491200132613,
 'SGP': -0.4555820475782052,
 'Die PARTEI': 0.09415416477582231,
 'Die Linke': 0.060971058811826497,
 'KLIMALISTE': 0.4532455988009745,
 'MENSCHLICHE WELT': nan,
 'MLPD': -0.07028432219742134,
 'BSW': -0.21068478499955973,
 'ÖDP': 0.03118317480157763,
 'DKP': 0.07988213684001644,
 'PIRATEN': 0.5906786495739423,
 'Volt': -0.08487882087435483,
 'BÜNDNIS DEUTSCHLAND': 0.5330309956665001,
 'ABG': nan,
 'nan': -0.011428599030582857,
 'LETZTE GENERATION': 0.6935212036549627,
 'PdF': 0.06097674333191042,
 'Bündnis C': 0.12707376262526088,
 'FAMILIE': -0.07272727272727272,
 'Tierschutzpartei': nan,
 'FREIE WÄHLER': 0.09871645518356244,
 'HEIMAT': 0.344950986714590

In [38]:
#same on the eu level
GruppePlatzAlter_Bund=data_bund[["Gruppenname","Listenplatz_gemeinsam","Alter"]]
listofparties=GruppePlatzAlter_Bund.Gruppenname.unique()
coeff_bund={}
for party in listofparties:
    partydf=GruppePlatzAlter_Bund[GruppePlatzAlter_Bund["Gruppenname"]==party]
    result=partydf[["Listenplatz_gemeinsam","Alter"]].corr(method="spearman",min_periods=10)
    corrcoeff=result["Listenplatz_gemeinsam"].iloc[-1]
    coeff_bund[party]=corrcoeff

In [39]:
coeff_bund

{'Union': -0.19762800430375888,
 'SPD': -0.07171627753249857,
 'FDP': -0.09623823520618426,
 'Grüne': -0.056843865760654366,
 'AfD': 0.00441200434203883,
 'Die Linke': -0.39110616286787003,
 'FREIE WÄHLER': 0.026681040285578835,
 'dieBasis': -0.047080921059994396,
 'du.': 0.05373393269350766,
 'LKR': -0.17900785747938341,
 'SSW': -0.08292905364553438,
 'V-Partei³': -0.11578471586534259,
 'Die PARTEI': -0.005598485544065585,
 'MLPD': 0.3501508616713351,
 'DKP': 0.08647781651080104,
 'Volt': -0.0284223374098359,
 'EB: Schlüter': nan,
 'EB: Kerkhoff': nan,
 'PIRATEN': 0.022729947545964416,
 'EB: Löwe': nan,
 'Tierschutzpartei': -0.05446603364639135,
 'EB: Krüger': nan,
 'UNABHÄNGIGE': 0.38285691853056275,
 'ÖDP': 0.1527812888525821,
 'NPD': 0.07257444343996998,
 'EB: Janoske-Kizildag': nan,
 'ÖLDP': nan,
 'EB: Lenz': nan,
 'EB: Balzer': nan,
 'EB: Gums': nan,
 'EB: Großkopf': nan,
 'EB: Weich': nan,
 'Die Humanisten': -0.10361323263219997,
 'EB: Kober': nan,
 'EB: Neumann': nan,
 'EB: Kun

In [40]:
#we create dataframes that we merge
coeff_bund=pd.DataFrame(coeff_bund,index=["corr"]).T.reset_index()
coeff_eu=pd.DataFrame(coeff_eu,index=["corr"]).T.reset_index()
coefficients_age=pd.merge(coeff_bund,coeff_eu,on="index",suffixes=["_bund","_eu"]).dropna()
coefficients_age

Unnamed: 0,index,corr_bund,corr_eu
0,Union,-0.197628,-0.264758
1,SPD,-0.071716,-0.153252
2,FDP,-0.096238,0.08136
3,Grüne,-0.056844,-0.163231
4,AfD,0.004412,-0.024252
5,Die Linke,-0.391106,0.060971
6,FREIE WÄHLER,0.026681,0.098716
8,V-Partei³,-0.115785,-0.170325
9,Die PARTEI,-0.005598,0.094154
10,MLPD,0.350151,-0.070284


In [41]:
df_parties_coefficients=coefficients_age[coefficients_age["index"].str.contains("|".join(filterlist))]
df_parties_coefficients

Unnamed: 0,index,corr_bund,corr_eu
0,Union,-0.197628,-0.264758
1,SPD,-0.071716,-0.153252
2,FDP,-0.096238,0.08136
3,Grüne,-0.056844,-0.163231
4,AfD,0.004412,-0.024252
5,Die Linke,-0.391106,0.060971


In [42]:
df_parties_coefficients.to_csv("coefficients.csv",index=False)

*We see that for CDU, SPD and greens the correlation is stronger, for AfD and FDP it is debatable, and for AfD,CSU it is actually the other way*

In [43]:
data_bund.columns

Index(['Wahlart', 'Wahltag', 'Titel', 'Namenszusatz', 'Nachname', 'Vornamen',
       'Künstlername', 'Geschlecht', 'Geburtsjahr', 'PLZ', 'Wohnort', 'Staat',
       'WohnortLandAbk', 'Geburtsort', 'Staatsangehörigkeit', 'Beruf',
       'Berufsschluessel', 'Kennzeichen', 'Gebietsart', 'Gebietsnummer',
       'Gebietsname', 'GebietLandAbk', 'Gruppenname', 'GruppennameLang',
       'Listenplatz', 'VerknKennzeichen', 'VerknGebietsart',
       'VerknGebietsnummer', 'VerknGebietsname', 'VerknGebietLandAbk',
       'VerknGruppenname', 'VerknListenplatz', 'VorpGewaehlt',
       'Berufsbezeichnung', 'Alter', 'Listenplatz_gemeinsam'],
      dtype='object')

In [44]:
data_bund_gender=data_bund[['Gruppenname',"Geschlecht","Alter"]].groupby(['Gruppenname',"Geschlecht"]).count().reset_index()
data_europa_gender=data_europa[['Gruppenname',"Geschlecht","Alter"]].groupby(['Gruppenname',"Geschlecht"]).count().reset_index()
data_europa_gender

Unnamed: 0,Gruppenname,Geschlecht,Alter
0,ABG,m,3
1,ABG,w,6
2,AfD,m,31
3,AfD,w,4
4,BIG,m,18
...,...,...,...
61,dieBasis,w,2
62,,m,16
63,,w,3
64,ÖDP,m,59


In [45]:
data_bund_gender["gender_share"]=data_bund_gender["Alter"]*100/data_bund_gender.groupby("Gruppenname")["Alter"].transform('sum')
data_europa_gender["gender_share"]=data_europa_gender["Alter"]*100/data_europa_gender.groupby("Gruppenname")["Alter"].transform('sum')
data_bund_europa_gender=pd.merge(data_bund_gender,data_europa_gender,on=["Gruppenname","Geschlecht"],suffixes=["_bund","_europa"])
data_bund_europa_gender

Unnamed: 0,Gruppenname,Geschlecht,Alter_bund,gender_share_bund,Alter_europa,gender_share_europa
0,AfD,m,404,86.509636,31,88.571429
1,AfD,w,63,13.490364,4,11.428571
2,Bündnis C,m,47,73.4375,10,76.923077
3,Bündnis C,w,17,26.5625,3,23.076923
4,DKP,m,91,71.653543,30,69.767442
5,DKP,w,36,28.346457,13,30.232558
6,Die Linke,m,286,58.969072,10,50.0
7,Die Linke,w,198,40.824742,10,50.0
8,Die PARTEI,m,492,70.893372,165,78.199052
9,Die PARTEI,w,202,29.106628,46,21.800948


In [46]:
data_bund_europa_gender_filtered=data_bund_europa_gender[data_bund_europa_gender["Gruppenname"].astype(str).str.contains('|'.join(filterlist))]

In [47]:
data_bund_europa_gender_filtered[data_bund_europa_gender_filtered["Geschlecht"]=="w"].to_csv("gender_share_comp.csv",index=False)

In [48]:
data_bund.Kennzeichen

0       Kreiswahlvorschlag
1       Kreiswahlvorschlag
2       Kreiswahlvorschlag
3       Kreiswahlvorschlag
4       Kreiswahlvorschlag
               ...        
8282           Landesliste
8283           Landesliste
8284           Landesliste
8285           Landesliste
8286           Landesliste
Name: Kennzeichen, Length: 8287, dtype: object