In [3]:
import pandas as pd
import numpy as np
import plotly.express as px

In [4]:
# read mps.csv
mps = pd.read_csv('data/mps.csv', index_col=0, sep=';')

In [5]:
# list columns
mps.columns

Index(['id', 'name', 'surname', 'link', 'party_list', 'constituency',
       'elected_date', 'no_of_votes', 'oath_date', 'parliamentary_experience',
       'club', 'birth_date', 'education', 'school', 'profession', 'email'],
      dtype='object')

In [6]:
# list unique values in column 'education'
mps['education'].unique()

array(['wyższe', 'średnie ogólne', 'średnie zawodowe',
       'średnie policealne/pomaturalne', nan], dtype=object)

In [7]:
# chart values of column 'education' by value in column 'party_list'
fig = px.histogram(mps, x='party_list', color='education')
fig.show()

# calculate the percentage of MPs with higher education for each party
avg_high = mps.groupby('party_list')['education'].apply(lambda x: (x == 'wyższe').sum() / len(x) * 100)

# graph avg_high
avg_high = avg_high.sort_values(ascending=False)
fig = px.bar(avg_high, x=avg_high.index, y=avg_high.values, color=avg_high.index)
# add title
fig.update_layout(title_text='Percentage of MPs with higher education')
# y_axis_label = Percentage
fig.update_yaxes(title_text='Percentage')
# x axis label = Party
fig.update_xaxes(title_text='Party')
# hige legend
fig.update_traces(showlegend=False)
# change tooltip
fig.update_traces(hovertemplate='Party: %{x}<br>Percentage: %{y:.2f}%')
# hide name of the trace
fig.update_traces(name='')
# set size to 1200x800
fig.update_layout(width=1200, height=600)

# show values above bars
fig.update_traces(texttemplate='%{y:.2f}%', textposition='outside')
fig.show()

# save to png
fig.write_image('data/avg_high.png')

In [8]:
# add column 'sex' to mps -> detect if last letter of name is 'a' -> then woman
mps['sex'] = [1 if x[-1] == 'a' else 0 for x in mps['name']]
mps



Unnamed: 0,id,name,surname,link,party_list,constituency,elected_date,no_of_votes,oath_date,parliamentary_experience,club,birth_date,education,school,profession,email,sex
0,1,Andrzej,Adamczyk,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=001,Prawo i Sprawiedliwość,13 Kraków,13-10-2019,29686,2019-11-12,"poseł V kadencji, poseł VI kadencji, poseł VII...",Klub Parlamentarny Prawo i Sprawiedliwość,1959-01-04,wyższe,"Społeczna Akademia Nauk w Łodzi, Wydział Zarzą...",parlamentarzysta,Andrzej.Adamczyk@sejm.pl,0
1,2,Rafał,Adamczyk,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=002,Sojusz Lewicy Demokratycznej,32 Katowice,13-10-2019,12148,2019-11-12,brak,Koalicyjny Klub Parlamentarny Lewicy (Nowa Lew...,1974-05-30,wyższe,"Politechnika Śląska, Organizacja i Zarządzanie...",samorządowiec,Rafal.Adamczyk@sejm.pl,0
2,3,Piotr,Adamowicz,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=003,Koalicja Obywatelska,25 Gdańsk,13-10-2019,41795,2019-11-12,brak,Klub Parlamentarny Koalicja Obywatelska - Plat...,1961-06-26,średnie ogólne,VI LO Gdańsk (1980),dziennikarz,Piotr.Adamowicz@sejm.pl,0
3,4,Romuald,Ajchler,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=004,Sojusz Lewicy Demokratycznej,38 Piła,13-10-2019,14438,2019-11-12,"poseł II kadencji, poseł III kadencji, poseł I...",Koalicyjny Klub Parlamentarny Lewicy (Nowa Lew...,1949-01-19,średnie zawodowe,"Państwowe Technikum Rolnicze, Rolnictwo - tech...",rolnik,Romuald.Ajchler@sejm.pl,0
4,469,Zbigniew,Ajchler,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=469,Koalicja Obywatelska,38 Piła,13-10-2019,6654,2021-06-15,poseł VIII kadencji,Poseł niezrzeszony,1955-11-21,wyższe,"Akademia Rolnicza w Poznaniu, Wydział Rolniczy...",przedsiębiorca rolny,Zbigniew.Ajchler@sejm.pl,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
455,457,Jacek,Żalek,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=457,Prawo i Sprawiedliwość,24 Białystok,13-10-2019,12141,2019-11-12,"poseł VI kadencji, poseł VII kadencji, poseł V...",Klub Parlamentarny Prawo i Sprawiedliwość,1973-01-13,wyższe,"Uniwersytet w Białymstoku, Wydział Prawa, Nauk...",poseł,Jacek.Zalek@sejm.pl,0
456,458,Bożena,Żelazowska,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=458,Polskie Stronnictwo Ludowe,20 Warszawa,13-10-2019,8665,2019-11-12,brak,"Klub Parlamentarny Koalicja Polska - PSL, UED,...",1970-08-23,wyższe,Uniwersytet Marii Curie-Skłodowskiej w Lublini...,politolog,Bozena.Zelazowska@sejm.pl,1
457,475,Stanisław,Żmijan,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=475,Koalicja Obywatelska,7 Chełm,13-10-2019,6621,2023-06-13,"poseł IV kadencji, poseł V kadencji, poseł VI ...",Klub Parlamentarny Koalicja Obywatelska - Plat...,1956-12-13,wyższe,"Politechnika Lubelska, Wydział Inżynieria Budo...",inżynier budownictwa,Stanislaw.Zmijan@sejm.pl,0
458,459,Stanisław,Żuk,https://sejm.gov.pl/Sejm9.nsf/posel.xsp?id=459,Polskie Stronnictwo Ludowe,1 Legnica,13-10-2019,7694,2019-11-12,brak,Koło Poselskie Kukiz'15 - Demokracja Bezpośrednia,1954-10-01,wyższe,"Akademia Górniczo-Hutnicza w Krakowie, Górnict...",menedżer,Stanislaw.Zuk@sejm.pl,0


In [9]:
# how many women are in parliament -> column 'sex' == 1
mps['sex'].sum()

131

In [10]:
# group by party_list
prt = mps.groupby('party_list')


# unique party_list
mps['party_list'].unique()

# how many women in each party
wmn_num = mps['sex'].groupby(mps['party_list']).sum()
wmn_num

# percentage of women
wmn_per = wmn_num / prt.size() * 100
wmn_per

wmn_per = wmn_per.sort_values(ascending=False)


# graph
fig = px.bar(wmn_per, x=wmn_per.index, y=wmn_per.values, color=wmn_per.index)
# graph avg_high
# add title
fig.update_layout(title_text='Percentage of women in parties')
# y_axis_label = Percentage
fig.update_yaxes(title_text='Percentage')
# x axis label = Party
fig.update_xaxes(title_text='Party')
# hige legend
fig.update_traces(showlegend=False)
# change tooltip
fig.update_traces(hovertemplate='Party: %{x}<br>Percentage: %{y:.2f}%')
# hide name of the trace
fig.update_traces(name='')
# set size to 1200x800
fig.update_layout(width=1200, height=600)

# show values above bars
fig.update_traces(texttemplate='%{y:.2f}%', textposition='outside')
fig.show()

# save to png
fig.write_image('data/wmn_pct.png')


In [11]:
# add 'age' column
import datetime
current_year = datetime.datetime.now().year
mps['age'] = current_year - mps['birth_date'].str.split('-').str[0].astype(int)
mps['age']

# average age of MPs
avg_age = mps['age'].mean()
avg_age

# average age of MPs by party
avg_age = mps['age'].groupby(mps['party_list']).mean()
avg_age

# sort by age
avg_age = avg_age.sort_values(ascending=False)

# graph
fig = px.bar(avg_age, x=avg_age.index, y=avg_age.values, color=avg_age.index)
# graph avg_high
# add title
fig.update_layout(title_text='Average age of MPs by party')
# y_axis_label = Percentage
fig.update_yaxes(title_text='Age')
# x axis label = Party
fig.update_xaxes(title_text='Party')
# hige legend
fig.update_traces(showlegend=False)
# change tooltip
fig.update_traces(hovertemplate='Party: %{x}<br>Age: %{y:.2f}')
# hide name of the trace
fig.update_traces(name='')

# show values above bars
fig.update_traces(texttemplate='%{y:.2f}', textposition='outside')
fig.show()

# size = 1200x800
fig.update_layout(width=1200, height=600)
# save to png
fig.write_image('data/avg_age.png')

In [12]:
# unique values in profession column
# mps['profession'].unique()
len(mps['profession'].unique())

# how many MPs have each profession
prof = mps['profession'].groupby(mps['profession']).size()
prof

# sort by number of MPs
prof = prof.sort_values(ascending=False)

# filter out professions with less than 2 MPs
prof = prof[prof > 1]

# graph
fig = px.bar(prof, x=prof.index, y=prof.values, color=prof.index)
fig.show()

# check whose profession is 'nauczyciel'
mps[mps['profession'] == 'parlamentarzysta']

# check profession of MPs from PiS
mps[mps['party_list'] == 'Prawo i Sprawiedliwość']['profession']

# graph pis vs po profession
fig = px.histogram(mps, x='profession', color='party_list')
fig.show()


In [13]:
# number of votes -> no_of_votes column, print with separators -> 1 000 000
number = mps['no_of_votes'].sum()
print(f'{number:,}')

11,370,284
