# Abgeordnete (Stammdatenanalyse)

Auswertung von Abgeordnetenstammdaten aus dem Open-Data Portal des Bundestages

## imports & variables

In [255]:
import requests
import zipfile
import os
import shutil
import pandas as pd
import xml.etree.ElementTree as et
import pandas_profiling

In [256]:
folder_data = '../data'
file_download = 'mdb-stammdaten-data.zip'
file_xml = os.path.join(folder_data,'MDB_STAMMDATEN.XML')

## data prep

### data download & deflate to data folder

In [257]:
try:
    shutil.rmtree(folder_data)
except:
    pass
os.makedirs(folder_data)

In [258]:
url = 'https://www.bundestag.de/blob/472878/c1a07a64c9ea8c687df6634f2d9d805b/mdb-stammdaten-data.zip'
r = requests.get(url)
with open(os.path.join(folder_data, file_download), "wb") as data_zip:
    data_zip.write(r.content)

In [259]:
zip_ref = zipfile.ZipFile("../data/mdb-stammdaten-data.zip", 'r')
zip_ref.extractall("../data/")
zip_ref.close()

### parse xml and add relevant params to mdb_list

In [260]:
tree = et.parse(file_xml)  
root = tree.getroot()

In [261]:
mdb_list = []
for mdb in root[1:]:
    mdb_id =  mdb[0].text
    nachname = mdb[1][0][0].text
    vorname = mdb[1][0][1].text
    geburtsdatum = mdb[2][0].text
    geburtsort = mdb[2][1].text
    sterbedatum = mdb[2][3].text
    geschlecht = mdb[2][4].text
    familienstand = mdb[2][5].text
    religion = mdb[2][6].text
    beruf = mdb[2][7].text
    partei = mdb[2][8].text
    
    mdb_values = (
        mdb_id, 
        nachname, 
        vorname, 
        geburtsdatum, 
        geburtsort, 
        sterbedatum, 
        geschlecht,
        familienstand,
        religion,
        beruf,
        partei)
    
    mdb_list.append(mdb_values)

### mdb_list to dataframe

In [264]:
labels = [
    'mdb_id', 
    'nachname', 
    'vorname', 
    'geburtsdatum', 
    'geburtsort', 
    'sterbedatum', 
    'geschlecht',
    'familienstand',
    'religion',
    'beruf',
    'partei'
    ]
df = pd.DataFrame.from_records(mdb_list, columns=labels, index = 'mdb_id')

## data analysis

In [272]:
df.head()

Unnamed: 0_level_0,nachname,vorname,geburtsdatum,geburtsort,sterbedatum,geschlecht,familienstand,religion,beruf,partei
mdb_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
11000001,Abelein,Manfred,20.10.1930,Stuttgart,17.01.2008,männlich,keine Angaben,katholisch,"Rechtsanwalt, Wirtschaftsprüfer, Universitätsp...",CDU
11000002,Achenbach,Ernst,09.04.1909,Siegen,02.12.1991,männlich,"verheiratet, 3 Kinder",evangelisch,Rechtsanwalt und Notar,FDP
11000003,Ackermann,Annemarie,26.05.1913,Parabutsch,18.02.1994,weiblich,"verheiratet, 5 Kinder",katholisch,Hilfsreferentin,CDU
11000004,Ackermann,Else,06.11.1933,Berlin,,weiblich,ledig,evangelisch,Ärztin,CDU
11000005,Adam,Ulrich,09.06.1950,"Teterow, Kr. Teterow, Bezirk Neubrandenburg",,männlich,"verheiratet, 2 Kinder",evangelisch,"Mathematiker, Geschäftsführer",CDU


In [273]:
df.describe()

Unnamed: 0,nachname,vorname,geburtsdatum,geburtsort,sterbedatum,geschlecht,familienstand,religion,beruf,partei
count,4073,4073,4073,4071,1767,4073,3990,3847,4073,4070
unique,3262,1002,3834,2176,1690,2,59,22,2168,27
top,Müller,Hans,23.02.1943,Berlin,26.01.2015,männlich,"verheiratet, 2 Kinder",ohne Angaben,Rechtsanwalt,CDU
freq,45,74,4,174,3,3223,921,1216,193,1347
