# Converting .xml to pd.DataFrame

In [3]:
#Import der packages
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="darkgrid")

In [4]:
#Import von .xml Daten

import xml.etree.ElementTree as ET


def read_xml(path):
   xml = ET.parse(path).getroot()
   return xml

def search_for_name(tree, attr):
   names = []
   for child in tree:
       if child.tag == attr:
           names += [child.text]
       else:
           names += search_for_name(child, attr)
   return names

#Test
if __name__=="__main__":
   xml = read_xml("MDB_STAMMDATEN.XML")
   names = search_for_name(xml,"GESCHLECHT")
   
print(names[:4])
print(len(names))

['männlich', 'männlich', 'weiblich', 'weiblich']
4073


In [5]:
#Erste Ansätze für ein DataFrame mit den folgenden Spalten

#Merkmale
liste_merk = ["ID", "NACHNAME", "VORNAME","GESCHLECHT", "PARTEI_KURZ","GEBURTSDATUM","BERUF", "GEBURTSLAND", "WP"]

#Einmaliges zusammensetzten einer Liste von Listen mit den Ausprägungen der obigen Merkmale
column_list = []
for attr in liste_merk:
    if __name__=="__main__":
        xml = read_xml("MDB_STAMMDATEN.XML")
        names = search_for_name(xml, attr)
        column_list.append(names)

In [6]:
#Nun wird die Kompatibilität der einzelnen Listen überprüft. Es soll ein pd.DataFrame erstellt werden und dafür müssen die 
#Spaltenlängen übereinstimmen

print(len(column_list))

for i in column_list:
    print(len(i))

9
4073
4336
4336
4073
4073
4073
4073
4073
11600


In [7]:
#Mit diesen verkürzten Liste lässt sich schon ein DataFrame erstellen
liste_merk_2 = ["ID","GESCHLECHT", "PARTEI_KURZ","GEBURTSDATUM","BERUF", "GEBURTSLAND"]

In [8]:
#Etwas umstänlich, aber wirksam wird ein DF zusammen gestellt und ein erster Mangel behoben 
#(none values werden durch "Deutschland" ersetzt)

df_first = pd.DataFrame(np.column_stack([column_list[0],column_list[3],column_list[4],column_list[5],column_list[6],column_list[7]]), columns = liste_merk_2)

df_first.loc[df_first["GEBURTSLAND"].isnull(), "GEBURTSLAND"] = "Deutschland"


print(df_first.head())

   

         ID GESCHLECHT PARTEI_KURZ GEBURTSDATUM  \
0  11000001   männlich         CDU         1930   
1  11000002   männlich         FDP         1909   
2  11000003   weiblich         CDU         1913   
3  11000004   weiblich         CDU         1933   
4  11000005   männlich         CDU         1950   

                                               BERUF  GEBURTSLAND  
0  Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...  Deutschland  
1                             Rechtsanwalt und Notar  Deutschland  
2                                    Hilfsreferentin  Jugoslawien  
3                                             Ärztin  Deutschland  
4                      Mathematiker, Geschäftsführer  Deutschland  


In [9]:
#hier besteht noch Verbesserungsbedarf, dazu aber später mehr
df_first.dtypes

ID              object
GESCHLECHT      object
PARTEI_KURZ     object
GEBURTSDATUM    object
BERUF           object
GEBURTSLAND     object
dtype: object

In [10]:
#Mit Hilfe einer höheren Macht lässt sich der Parsing-Prozess weiterentwickeln
#Hier für die Vor- und Nachnamen

def search_for_nameRoots(root):
 names = []
 for child in root:
     if child.tag == "NAMEN":
         names += [child]
     else:
         names += search_for_nameRoots(child)
 return names

xml = read_xml(path = "MDB_STAMMDATEN.XML")

nameRoots = search_for_nameRoots(xml)

firstNameElements = []
for element in nameRoots:
   firstNameElements += [element[0].find('VORNAME').text]

lastNameElements = []
for element in nameRoots:
   lastNameElements += [element[0].find('NACHNAME').text]

df_first["NACHNAME"] = lastNameElements
df_first["VORNAME"] = firstNameElements


In [11]:
#Die Integration ist geglückt
df_first.head()

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME
0,11000001,männlich,CDU,1930,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",Deutschland,Abelein,Manfred
1,11000002,männlich,FDP,1909,Rechtsanwalt und Notar,Deutschland,Achenbach,Ernst
2,11000003,weiblich,CDU,1913,Hilfsreferentin,Jugoslawien,Ackermann,Annemarie
3,11000004,weiblich,CDU,1933,Ärztin,Deutschland,Ackermann,Else
4,11000005,männlich,CDU,1950,"Mathematiker, Geschäftsführer",Deutschland,Adam,Ulrich


In [12]:
#Nun muss der Parsing-Prozess nochmal umgestaltet werden, um zu einer spezifischen ID/einem spezifischen MdB die Nummern
#aller Wahlperioden zu finden.
#Langfrisitg soll auf diese Perioden umindiziert werden.


#Die folgende Funktion soll eine Liste von Listen dieser nummerierten Wahlperioden produzieren

def search_for_wahlRoots1(root):
    
    #nestet function (Entscheidend ist hier der Break beim nächsten "ID" tag)
    def search_for_wpRoots2(root2):
        wplist2 = []
        for child2 in root2:
            if child2.tag == "WP":
                wplist2 += [child2]
            elif child2.tag == "ID":
                break
            else:
                wplist2 += search_for_wpRoots2(child2)
        return wplist2
    #ende nested function
    
    wplist = []
    for child in root:
        if child.tag == "WAHLPERIODEN":
            wplist += [search_for_wpRoots2(child)]
        else:
            wplist += search_for_wahlRoots1(child)
    return wplist


xml = read_xml(path = "MDB_STAMMDATEN.XML")

WProots = search_for_wahlRoots1(xml)
    
#Nunn müssen noch die gewünschten Nummern aus dem Code extrahiert werden    

def extracting_WP(list1):
    WPelements = []
    for i in list1:
        sub_list = []
        for a in i:
            sub_list += [a.text]
        WPelements += [sub_list]
    return WPelements

WPs = extracting_WP(WProots)


#Testen der neuen Liste auf längenmäßige Kompatibilität mit dem DF  
print(WPs[:4])
print(len(WPs))

[['5', '6', '7', '8', '9', '10', '11'], ['3', '4', '5', '6', '7'], ['2', '3', '4'], ['11', '12']]
4073


In [13]:
#Erweiterung
df_first["WAHLPERIODEN"] = WPs

df_first.head()

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN
0,11000001,männlich,CDU,1930,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",Deutschland,Abelein,Manfred,"[5, 6, 7, 8, 9, 10, 11]"
1,11000002,männlich,FDP,1909,Rechtsanwalt und Notar,Deutschland,Achenbach,Ernst,"[3, 4, 5, 6, 7]"
2,11000003,weiblich,CDU,1913,Hilfsreferentin,Jugoslawien,Ackermann,Annemarie,"[2, 3, 4]"
3,11000004,weiblich,CDU,1933,Ärztin,Deutschland,Ackermann,Else,"[11, 12]"
4,11000005,männlich,CDU,1950,"Mathematiker, Geschäftsführer",Deutschland,Adam,Ulrich,"[15, 16, 12, 13, 14]"


In [14]:
#Der gleiche Prozess wird nun auch für die Manadatsart gewählt. In der Liste die nun bei jedem MdB steht, kann man die Mandatsart
#zur jeweiligen Wahlperiode(gleicher Index) finden.

def search_for_MandatsArtRoots1(root):
    
    #nested function (Entscheidend ist hier der Break beim nächsten "ID" tag)
    def search_for_MandatRoots2(root2):
        mandatlist2 = []
        for child2 in root2:
            if child2.tag == "MANDATSART":
                mandatlist2 += [child2]
            elif child2.tag == "ID":
                break
            else:
                mandatlist2 += search_for_MandatRoots2(child2)
        return mandatlist2
    #ende nested function
    
    mandatlist = []
    for child in root:
        if child.tag == "WAHLPERIODEN":
            mandatlist += [search_for_MandatRoots2(child)]
        else:
            mandatlist += search_for_MandatsArtRoots1(child)
    return mandatlist


# Schon weiter oben passiert: xml = read_xml(path = "MDB_STAMMDATEN.XML")

MandatRoots = search_for_MandatsArtRoots1(xml)
    
#Nun müssen noch die gewünschten Mandatsarten aus dem Code extrahiert werden    

def extracting_Mandate(list1):
    MandatElements = []
    for i in list1:
        sub_list = []
        for a in i:
            sub_list += [a.text]
        MandatElements += [sub_list]
    return MandatElements

Mandate = extracting_Mandate(MandatRoots)


#Testen der neuen Liste auf längenmäßige Kompatibilität mit dem DF  
print(Mandate[:4])
print(len(Mandate))

[['Direktwahl', 'Direktwahl', 'Direktwahl', 'Direktwahl', 'Direktwahl', 'Direktwahl', 'Direktwahl'], ['Landesliste', 'Landesliste', 'Landesliste', 'Landesliste', 'Landesliste'], ['Landesliste', 'Landesliste', 'Landesliste'], ['Volkskammer', 'Landesliste']]
4073


In [15]:
#Einfügen ins DF
df_first["MANDATSARTEN"] = Mandate
df_first.head()

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN,MANDATSARTEN
0,11000001,männlich,CDU,1930,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",Deutschland,Abelein,Manfred,"[5, 6, 7, 8, 9, 10, 11]","[Direktwahl, Direktwahl, Direktwahl, Direktwah..."
1,11000002,männlich,FDP,1909,Rechtsanwalt und Notar,Deutschland,Achenbach,Ernst,"[3, 4, 5, 6, 7]","[Landesliste, Landesliste, Landesliste, Landes..."
2,11000003,weiblich,CDU,1913,Hilfsreferentin,Jugoslawien,Ackermann,Annemarie,"[2, 3, 4]","[Landesliste, Landesliste, Landesliste]"
3,11000004,weiblich,CDU,1933,Ärztin,Deutschland,Ackermann,Else,"[11, 12]","[Volkskammer, Landesliste]"
4,11000005,männlich,CDU,1950,"Mathematiker, Geschäftsführer",Deutschland,Adam,Ulrich,"[15, 16, 12, 13, 14]","[Direktwahl, Direktwahl, Direktwahl, Direktwah..."


# Data Cleaning


Das Dataframe muss nun gecleant werden, um gut für die Visualisierung genutzt werden zu können. 

Hierzu muss:
- Parteien sinnvoll zusammengefasst werden
- geguckt werden, ob ein drittes Geschlecht vorliegt und mit Boolean Werten ersetzt werden
- ID auf Dopplungen überprüft werden
- Geburtsdatum mit Alter ersetzt werden
- Geburtsland mit Boolean Werten ersetzt werden
- Dopplungen von Abgeordneten überprüft werden
- Mandatsarten mit Boolean Werten ersetzt werden (0=Direktwahl, 1=Landesliste, Volkskammer wird zu Landesliste gezählt)
- Einzelne Columns für die WP erstellt werden, um pivotisieren zu können
- Die Anzahl der Abgeordneten in jeder Wahlperiode mit historischen Daten abgeglichen werden

In [16]:
#Gucken, welche Parteien vorhanden sind
df_first['PARTEI_KURZ'].unique()

array(['CDU', 'FDP', 'SPD', 'KPD', 'DP', 'CSU', 'DZP', 'FU', 'GRÜNE',
       'BP', 'BÜNDNIS 90/DIE GRÜNEN', 'GB/ BHE', 'DIE GRÜNEN/BÜNDNIS 90',
       'PDS', 'PDS/LL', 'DIE LINKE.', 'SRP', 'Plos', None, 'WAV', 'DRP',
       'CSUS', 'DSU', 'DPB', 'CVP', 'DPS', 'AfD', 'Blaue'], dtype=object)

Glossar:

* KPD = Kommunistische Partei Deutschlands
* DP = Deutsche Partei
* DZP = Deutsche Zentrumspartei
* FU = Föderalistische Union (Fraktion aus BP und DZP)
* BP = Bayernpartei
* GB/ BHE = Gesamtdeutscher Block/Bund der Heimatvertriebenen und Entrechteten
* PDS = Partei des Demokratischen Sozialismus 
* PDS/LL = Partei des Demokratischen Sozialismus - Landesliste
* SRP = Sozialistische Reichspartei
* Plos = Parteilos
* WAV = Wirtschaftliche Aufbau-Vereinigung
* DRP = Deutsche Reichspartei
* CSUS = CSU-Saar
* DSU = Deutsche Soziale Union
* DPB = Deutsche Partei Bayern
* CVP = Christdemokratische Volkspartei des Saarlandes
* DPS = Demokratische Partei Saar (Saarpartei der FDP)
* Blaue = Blaue Partei

None Einträge müssen gefüllt oder gedropt werden

CDU, CSU, CSUS, CVP -> Union

Grüne, Bündnis 90/Die Grünen, Die Grünen/Bündnis 90 -> Bündnis 90/Die Grünen

PDS, PDS/LL, Die Linke -> Die Linke

FDP, DPS -> FDP

AfD, Blaue -> AfD

KPD, DP, DZP, FU, BP, GB/ BHE, SRP, WAV, DRP, DSU, DPB, Plos -> Andere

In [17]:
# Zusammenfassen von Parteien
df_first['PARTEI_KURZ'].replace(["CDU", "CSU", "CSUS", "CVP"],["Union", "Union", "Union", "Union"], inplace = True)
df_first['PARTEI_KURZ'].replace(["GRÜNE", "BÜNDNIS 90/DIE GRÜNEN", "DIE GRÜNEN/BÜNDNIS 90"],["Bündnis 90/Die Grünen", "Bündnis 90/Die Grünen", "Bündnis 90/Die Grünen"], inplace = True)
df_first['PARTEI_KURZ'].replace(["PDS", "PDS/LL", "DIE LINKE."],["Die Linke", "Die Linke", "Die Linke"], inplace = True)
df_first['PARTEI_KURZ'].replace(["FDP", "DPS"],["FDP", "FDP"], inplace = True)
df_first['PARTEI_KURZ'].replace(["AfD", "Blaue"],["AfD", "AfD"], inplace = True)
df_first['PARTEI_KURZ'].replace(["KPD", "DP", "DZP", "FU", "BP", "GB/ BHE", "SRP", "WAV", "DRP", "DSU", "DPB", "Plos"],["Andere", "Andere", "Andere", "Andere", "Andere", "Andere", "Andere", "Andere", "Andere", "Andere", "Andere", "Andere"], inplace = True)

In [18]:
# Füllen von None Werten mit Andere
df_first.PARTEI_KURZ.fillna(value="Andere", inplace=True)

In [19]:
#Das Zusammenfassen ist geglückt
df_first['PARTEI_KURZ'].unique()

array(['Union', 'FDP', 'SPD', 'Andere', 'Bündnis 90/Die Grünen',
       'Die Linke', 'AfD'], dtype=object)

In [20]:
#Überpüfung der Anzahl an Geschlechtern
df_first['GESCHLECHT'].unique()

array(['männlich', 'weiblich'], dtype=object)

In [21]:
#Überprüfung auf Dopplungen der ID
df_first[df_first.duplicated(subset="ID", keep=False)]

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN,MANDATSARTEN


In [22]:
#Überprüfung auf Dopplungen der Namen
df_first[df_first.duplicated(subset=["NACHNAME", "VORNAME", "GEBURTSDATUM"], keep=False)]

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN,MANDATSARTEN


In [23]:
#Überpüfung auf Korrektheit der Geburtsjahre
df_first['GEBURTSDATUM'].unique()

array(['1930', '1909', '1913', '1933', '1950', '1919', '1912', '1876',
       '1944', '1920', '1941', '1904', '1922', '1879', '1902', '1924',
       '1936', '1890', '1901', '1943', '1914', '1896', '1947', '1949',
       '1928', '1946', '1889', '1888', '1955', '1934', '1940', '1951',
       '1923', '1942', '1880', '1939', '1932', '1925', '1918', '1894',
       '1927', '1882', '1899', '1931', '1895', '1898', '1964', '1915',
       '1921', '1893', '1938', '1917', '1926', '1911', '1891', '1903',
       '1937', '1905', '1900', '1929', '1910', '1957', '1908', '1907',
       '1897', '1883', '1945', '1954', '1906', '1948', '1952', '1935',
       '1956', '1959', '1887', '1884', '1885', '1966', '1953', '1892',
       '1886', '1916', '1958', '1960', '1965', '1961', '1963', '1881',
       '1877', '1875', '1878', '1962', '1971', '1968', '1967', '1969',
       '1972', '1973', '1970', '1976', '1975', '1974', '1977', '1983',
       '1978', '1980', '1979', '1981', '1982', '1986', '1985', '1984',
      

In [24]:
#Überpüfung auf Korrektheit der Geburtsorte
df_first['GEBURTSLAND'].unique()

array(['Deutschland', 'Jugoslawien', 'Australien', 'Kenia', 'Spanien',
       'CSSR', 'Ukraine', 'Finnland', 'Dänemark', 'Österreich',
       'Lettland', 'Oberösterreich',
       'Tansania (ehem. Deutsch-Ost-Afrika)', 'Niederlande',
       'Niederösterreich', 'Estland', 'ehem. Deutsch-Ost-Afrika',
       'Tschechoslowakei', 'Slowakei', 'Ceylon', 'Rumänien', 'Perú',
       'Schweiz', 'Israel', 'Ungarn', 'Frankreich', 'Tonga-Insel, Südsee',
       '(damalige) CSR', 'Tansania', 'USA', 'CSFR', 'Polen',
       'Südwestafrika', 'Türkei', 'Italien', 'Kroatien', 'Iran',
       'Russland'], dtype=object)

In [25]:
#Um unser DF analysierbarer zu machen legen wir nun boolean-Spalten an.
#Alle Geburtsländer, die nicht Deutschland sind, werden der Einfachheit halber zusammengefasst und mit 0 kodiert
df_first["AUSLAND"] = df_first["GEBURTSLAND"] != "Deutschland"
df_first['AUSLAND'].replace([True, False], [1,0], inplace = True)

In [26]:
#Ähnliche Umgestaltung auch für die Spalte mt dem Geschlecht
df_first['GESCHLECHT'].replace(["männlich", "weiblich"],[1,0], inplace = True)

In [27]:
#und das Gleiche noch einmal für Mandatsart, Volkskammer wird hier zu Landesliste zusammengefasst
mandate = list(df_first['MANDATSARTEN'])
dictionarym = {"Direktwahl": 1, "Landesliste": 0, "Volkskammer": 0}

def replace_mandate(mandate_list, dictionary):
    mandate_list = [[dictionary.get(item, item) for item in lst] for lst in mandate_list]
    return mandate_list

mandate = replace_mandate(mandate, dictionarym)
df_first["MANDATSARTEN"] = mandate

Nun muss noch das Geburtsdatum mit dem Alter ersetzt werden. Dies ist allerdings nicht eindeutig,
da nicht klar ist, welche Wahlperiode zur Berechnung herangezogen werden sollte. Was ist mit Personen, die sehr lange im
Bundestag sitzen? Zählt dort der erste Eintritt in den Bundestag? Ebenfalls nicht klar ist, ob zur Berechnung bei einer Wahlperiode das erste Jahr oder das mittlere Jahr heranzgezogen werden sollte.

Ich habe mich dafür entschieden, für jeden Abgeordneten eine Liste mit dem jeweiligen Alter zum Beginn einer jeden Wahlperiode festzulegen. Hierfür muss zunächst ein Dictionary erstellt werden, welches die WP dem jeweiligen Startjahr zuordnet. Als Alternative wäre es bei Bedarf auch noch möglich, das Durchschnittsalter über alle Perioden zu berechnen.

In [28]:
Jahre = df_first["WAHLPERIODEN"]
dictionary1 = {"1": 1949, "2": 1953, "3": 1957, "4": 1961, "5": 1965, "6": 1969, "7": 1972, "8": 1976, "9": 1980, "10": 1983, "11": 1987, "12": 1990, "13": 1994, "14": 1998, "15": 2002, "16": 2005, "17": 2009, "18": 2013, "19": 2017}

In [29]:
#Nun wird eine Liste angelegt, die anstattt der Wahlperioden die Startjahre der jeweiligen Wahlperioden enthält
def replace_matched_items(word_list, dictionary):
    new_list = [[dictionary.get(item, item) for item in lst] for lst in word_list]
    return new_list

Jahre1 = replace_matched_items(Jahre, dictionary1)
print(Jahre1)

[[1965, 1969, 1972, 1976, 1980, 1983, 1987], [1957, 1961, 1965, 1969, 1972], [1953, 1957, 1961], [1987, 1990], [2002, 2005, 1990, 1994, 1998], [1965, 1969, 1972, 1976], [1957], [1949, 1953, 1957, 1961, 1965], [1987, 1990, 1994, 1998], [1961, 1965, 1969], [1976, 1980], [1949], [1972, 1976], [1949], [1965], [1969, 1972, 1976, 1980, 1983, 1987], [1957, 1961, 1965, 1969, 1972, 1976], [1969, 1972, 1976], [1949, 1953], [1949, 1953, 1957, 1961, 1965], [1990, 1994, 1998], [1953], [1949, 1953, 1957], [1987], [1990], [1969, 1972], [1961, 1965, 1969, 1972, 1976, 1980, 1983], [1990], [1949, 1953, 1957, 1961], [1957], [1949], [1987], [1972, 1976, 1980, 1983, 1987], [1969, 1972, 1976, 1980], [1969, 1972], [1961], [1987, 1990, 1994, 1998, 2002, 2005], [1976], [1987], [1949], [1980, 1983, 1987, 1990, 1994], [1965, 1969, 1972, 1976, 1980, 1983, 1987], [1961, 1965, 1969, 1972, 1976], [1949], [1949, 1953, 1957, 1961], [1949, 1953, 1957, 1961, 1965], [1965, 1969, 1972], [1965, 1969, 1972], [1949, 1953], [

In [30]:
#Nun muss noch das Alter, aus der Differenz von dem Wahlperiodenjahr und Geburtsjahr gebildet werden
Datum = df_first["GEBURTSDATUM"]
def calc_age(word_list):
   new_list = [[item - (int(Datum[word_list.index(lst)])) for item in lst] for lst in word_list]
   return new_list

Alter = calc_age(Jahre1)
print(Alter)

[[35, 39, 42, 46, 50, 53, 57], [48, 52, 56, 60, 63], [40, 44, 48], [54, 57], [52, 55, 40, 44, 48], [46, 50, 53, 57], [45], [73, 77, 81, 85, 89], [43, 46, 50, 54], [41, 45, 49], [35, 39], [45], [50, 54], [45], [63], [45, 48, 52, 56, 59, 63], [33, 37, 41, 45, 48, 52], [33, 36, 40], [59, 63], [73, 77, 81, 85, 89], [47, 51, 55], [39], [53, 57, 61], [40], [41], [47, 50], [33, 37, 41, 44, 48, 52, 55], [41], [60, 64, 68, 72], [45], [45], [40], [38, 42, 46, 49, 53], [57, 60, 64, 68], [47, 50], [65], [36, 39, 43, 47, 51, 54], [53], [40], [45], [41, 44, 48, 51, 55], [35, 39, 42, 46, 50, 53, 57], [36, 40, 44, 47, 51], [45], [60, 64, 68, 72], [73, 77, 81, 85, 89], [38, 42, 45], [38, 42, 45], [59, 63], [28, 32, 36, 39, 43, 47], [45], [45], [49, 53, 57, 60], [65], [49], [62, 66, 54, 58], [49], [59, 63, 67], [50, 54], [49], [53, 57, 60, 64], [26, 30], [32], [45], [39, 42, 46, 49, 53, 57, 61], [57, 60, 64, 68], [60, 64, 68, 72], [26, 30], [52], [45], [44, 48, 51, 55, 59, 63], [59, 63, 67], [53, 57, 61

In [31]:
#Einfügen ins DF
df_first["ALTER"] = Alter
df_first.head()

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN,MANDATSARTEN,AUSLAND,ALTER
0,11000001,1,Union,1930,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",Deutschland,Abelein,Manfred,"[5, 6, 7, 8, 9, 10, 11]","[1, 1, 1, 1, 1, 1, 1]",0,"[35, 39, 42, 46, 50, 53, 57]"
1,11000002,1,FDP,1909,Rechtsanwalt und Notar,Deutschland,Achenbach,Ernst,"[3, 4, 5, 6, 7]","[0, 0, 0, 0, 0]",0,"[48, 52, 56, 60, 63]"
2,11000003,0,Union,1913,Hilfsreferentin,Jugoslawien,Ackermann,Annemarie,"[2, 3, 4]","[0, 0, 0]",1,"[40, 44, 48]"
3,11000004,0,Union,1933,Ärztin,Deutschland,Ackermann,Else,"[11, 12]","[0, 0]",0,"[54, 57]"
4,11000005,1,Union,1950,"Mathematiker, Geschäftsführer",Deutschland,Adam,Ulrich,"[15, 16, 12, 13, 14]","[1, 1, 1, 1, 1]",0,"[52, 55, 40, 44, 48]"


In [32]:
#Das Cleaning ist abgeschlossen, jetzt geht es an die Pivotisierung
dfnew = df_first
dfnew.head()

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN,MANDATSARTEN,AUSLAND,ALTER
0,11000001,1,Union,1930,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",Deutschland,Abelein,Manfred,"[5, 6, 7, 8, 9, 10, 11]","[1, 1, 1, 1, 1, 1, 1]",0,"[35, 39, 42, 46, 50, 53, 57]"
1,11000002,1,FDP,1909,Rechtsanwalt und Notar,Deutschland,Achenbach,Ernst,"[3, 4, 5, 6, 7]","[0, 0, 0, 0, 0]",0,"[48, 52, 56, 60, 63]"
2,11000003,0,Union,1913,Hilfsreferentin,Jugoslawien,Ackermann,Annemarie,"[2, 3, 4]","[0, 0, 0]",1,"[40, 44, 48]"
3,11000004,0,Union,1933,Ärztin,Deutschland,Ackermann,Else,"[11, 12]","[0, 0]",0,"[54, 57]"
4,11000005,1,Union,1950,"Mathematiker, Geschäftsführer",Deutschland,Adam,Ulrich,"[15, 16, 12, 13, 14]","[1, 1, 1, 1, 1]",0,"[52, 55, 40, 44, 48]"


In [33]:
#Für die Pivotisierung wollen wir jetzt 19 Columns für die verschiedenen Wahlperioden erstellen und diese mit elementen aus [1,0] besetzen.
#Wie viele Wahlperioden gibt es?
unique_list = []
for e in dfnew["WAHLPERIODEN"]:
    for i in e:
        if int(i) in unique_list:
            None
        else:
            unique_list.append(int(i))
            
unique_list.sort()            
print(unique_list)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]


In [34]:
#Erstellen der 19 Spalten

def WPcolumnchecker(column, range1):
    
    #Diese Funktion soll eine iteration über die Listen in der Spalte "Wahlperioden" durchführen
    def listchecker(WPNum, WPList):
        if WPNum in WPList:
            return 1
        else:
            return 0
    
    for n in range1:
        WPstr = "WP" + str(n)
        emp_list = []
        nstr= str(n)
        for index in range(0,4073):
            WPListe = column.loc[index]
            emp_list.append(listchecker(nstr, WPListe))
        dfnew[WPstr] = emp_list
        
     
dfrange1 = unique_list
dfcolumn = dfnew["WAHLPERIODEN"]

WPcolumnchecker(dfcolumn, dfrange1)

In [35]:
#Überprüfung für ein Beispiel --> sind die 1 und 0 an den richtigen Stellen
print(dfnew.loc[1])

ID                            11000002
GESCHLECHT                           1
PARTEI_KURZ                        FDP
GEBURTSDATUM                      1909
BERUF           Rechtsanwalt und Notar
GEBURTSLAND                Deutschland
NACHNAME                     Achenbach
VORNAME                          Ernst
WAHLPERIODEN           [3, 4, 5, 6, 7]
MANDATSARTEN           [0, 0, 0, 0, 0]
AUSLAND                              0
ALTER             [48, 52, 56, 60, 63]
WP1                                  0
WP2                                  0
WP3                                  1
WP4                                  1
WP5                                  1
WP6                                  1
WP7                                  1
WP8                                  0
WP9                                  0
WP10                                 0
WP11                                 0
WP12                                 0
WP13                                 0
WP14                     

In [36]:
#Wenn irgendwer Ahnung hat, wie man Namen von Variablen generieren kann, BITTE ÄNDERN!
df_WP1 = dfnew.loc[dfnew["WP1"] == 1]
df_WP2 = dfnew.loc[dfnew["WP2"] == 1]
df_WP3 = dfnew.loc[dfnew["WP3"] == 1]
df_WP4 = dfnew.loc[dfnew["WP4"] == 1]
df_WP5 = dfnew.loc[dfnew["WP5"] == 1]
df_WP6 = dfnew.loc[dfnew["WP6"] == 1]
df_WP7 = dfnew.loc[dfnew["WP7"] == 1]
df_WP8 = dfnew.loc[dfnew["WP8"] == 1]
df_WP9 = dfnew.loc[dfnew["WP9"] == 1]
df_WP10 = dfnew.loc[dfnew["WP10"] == 1]
df_WP11 = dfnew.loc[dfnew["WP11"] == 1]
df_WP12 = dfnew.loc[dfnew["WP12"] == 1]
df_WP13 = dfnew.loc[dfnew["WP13"] == 1]
df_WP14 = dfnew.loc[dfnew["WP14"] == 1]
df_WP15 = dfnew.loc[dfnew["WP15"] == 1]
df_WP16 = dfnew.loc[dfnew["WP16"] == 1]
df_WP17 = dfnew.loc[dfnew["WP17"] == 1]
df_WP18 = dfnew.loc[dfnew["WP18"] == 1]
df_WP19 = dfnew.loc[dfnew["WP19"] == 1]

In [37]:
df_WP19.head()

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN,MANDATSARTEN,...,WP10,WP11,WP12,WP13,WP14,WP15,WP16,WP17,WP18,WP19
195,11000198,1,Union,1952,"Landwirtschaftsmeister, Parl. Staatssekretär",Deutschland,Bleser,Peter,"[12, 13, 14, 15, 16, 17, 18, 19]","[1, 1, 1, 1, 1, 1, 1, 1]",...,0,0,1,1,1,1,1,1,1,1
360,11000365,1,Die Linke,1950,"Autor, Geschäftsführer",Deutschland,Dehm-Desoi,Jörg-Diether,"[12, 16, 17, 18, 19]","[0, 0, 0, 0, 0]",...,0,0,1,0,0,0,1,1,1,1
609,11000616,1,Union,1952,Parl. Staatssekretär,Deutschland,Fuchtel,Hans-Joachim,"[11, 12, 13, 14, 15, 16, 17, 18, 19]","[1, 1, 1, 1, 1, 1, 1, 1, 1]",...,0,1,1,1,1,1,1,1,1,1
749,11000756,1,Die Linke,1948,Rechtsanwalt,Deutschland,Gysi,Gregor,"[11, 12, 13, 14, 16, 17, 18, 19]","[0, 1, 1, 1, 1, 1, 1, 1]",...,0,1,1,1,1,0,1,1,1,1
1014,11001023,0,Die Linke,1951,"Dipl.-Soziologin, Journalistin",Deutschland,Jelpke,Ulla,"[12, 13, 14, 16, 17, 18, 19]","[0, 0, 0, 0, 0, 0, 0]",...,0,0,1,1,1,0,1,1,1,1


In [38]:
df_WP19.describe()

Unnamed: 0,GESCHLECHT,AUSLAND,WP1,WP2,WP3,WP4,WP5,WP6,WP7,WP8,...,WP10,WP11,WP12,WP13,WP14,WP15,WP16,WP17,WP18,WP19
count,711.0,711.0,711.0,711.0,711.0,711.0,711.0,711.0,711.0,711.0,...,711.0,711.0,711.0,711.0,711.0,711.0,711.0,711.0,711.0,711.0
mean,0.690577,0.016878,0.0,0.0,0.0,0.0,0.0,0.0,0.001406,0.001406,...,0.002813,0.007032,0.021097,0.042194,0.091421,0.158931,0.232068,0.407876,0.592124,1.0
std,0.462581,0.128904,0.0,0.0,0.0,0.0,0.0,0.0,0.037503,0.037503,...,0.053,0.083623,0.143809,0.201173,0.288409,0.365869,0.422449,0.491786,0.491786,0.0
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
50%,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0
75%,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0
max,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


Es gibt also scheinbar 711 Abgeordnete in der 19. Wahlperiode, obwohl es eigentlich nur 709 sein dürften. Die 2 Überschüssigen Abgeordneten müssen ausfindig gemacht werden.

In [39]:
#Die SPD hat nur 153 gewählte Abgeordnete, daher kommen also die zwei weiteren Abgeordneten
len(df_WP19[dfnew.PARTEI_KURZ == "SPD"])

  


155

Eine Überprüfung mit den historischen Daten zeigt das Problem: Die SPD hatte 2 Abgeordnete (Reimann, Kelber) die ausgeschieden sind und mit neuen (Völlers, Träger) ersetzt wurden. Doch die ausgeschiedenen Abgeordneten sind immer noch in den Daten enthalten! Ebenfalls wurde bei Abgeordneten, die fraktionslos geworden sind, diese Veränderung nicht eingetragen! Dieses Problem betrifft nicht nur die 19. Wahlperiode, sondern sämtliche Wahlperioden, wodurch die Abgeordnetenzahl teilweise deutlich von den realen Daten abweicht. Ein Cleaning wäre jedoch nur per Hand möglich und daher viel zu aufwendig, weshalb darauf schlicht verzichtet wird!

In [40]:
#Fertig!
df_final = dfnew
df_final.head()

Unnamed: 0,ID,GESCHLECHT,PARTEI_KURZ,GEBURTSDATUM,BERUF,GEBURTSLAND,NACHNAME,VORNAME,WAHLPERIODEN,MANDATSARTEN,...,WP10,WP11,WP12,WP13,WP14,WP15,WP16,WP17,WP18,WP19
0,11000001,1,Union,1930,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",Deutschland,Abelein,Manfred,"[5, 6, 7, 8, 9, 10, 11]","[1, 1, 1, 1, 1, 1, 1]",...,1,1,0,0,0,0,0,0,0,0
1,11000002,1,FDP,1909,Rechtsanwalt und Notar,Deutschland,Achenbach,Ernst,"[3, 4, 5, 6, 7]","[0, 0, 0, 0, 0]",...,0,0,0,0,0,0,0,0,0,0
2,11000003,0,Union,1913,Hilfsreferentin,Jugoslawien,Ackermann,Annemarie,"[2, 3, 4]","[0, 0, 0]",...,0,0,0,0,0,0,0,0,0,0
3,11000004,0,Union,1933,Ärztin,Deutschland,Ackermann,Else,"[11, 12]","[0, 0]",...,0,1,1,0,0,0,0,0,0,0
4,11000005,1,Union,1950,"Mathematiker, Geschäftsführer",Deutschland,Adam,Ulrich,"[15, 16, 12, 13, 14]","[1, 1, 1, 1, 1]",...,0,0,1,1,1,1,1,0,0,0


In [42]:
#Exportieren als CSV
df_final.to_csv("df_final.csv")