In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
import os
%matplotlib inline
%config InlineBackend.figure_format = 'svg' 
sns.set()

# Aldersfordeling
I datasæt 2 eksisterer der en kolonne, der hedder 'Age'. Kolonnen indeholder oplysninger om folketingsmedlemmernes alder. Med udgangspunkt i folketingsmedlemmernes alder kan vi undersøge, hvordan aldersfordelingen er inden for forskellige partier, inden for forskellige samlinger og hvordan aldersfordelingen er i relation til de forskellige emner, som bliver behandlet. 

Nedenfor findes forskellige forslag til, hvordan dette kan foregå. Meningen er, at I med udgangspunkt i notebooken kan besvare spørgsmål i relation til alder, og at I ved at ændre lidt i koden ville kunne finde svar på andre spørgsmål, som I måtte have.  

# Find frem til data

Modulet 'os' giver forskellige muligheder for at bevæge sig rundt på stier mellem mapper og tjekke indholdet i mapper. Vi bruger biblioteket til at finde frem til den mappe, hvor datasæt 2 findes.

In [None]:
os.getcwd()

In [None]:
os.chdir('/work')

In [None]:
os.listdir()

# Indlæs data.

In [None]:
df = pd.read_pickle('Common-files/Data/Datasæt2/whole_set/whole_set.pkl')

Vi kan se, hvilke kolonner datasættes udgøres af vha. df.head()

In [None]:
df.head()

Nogle af datasættets kolonner består af tal, som vi kan opsummere statistisk vha. metoden .describe().

Kolonnen 'Age' er en af dem, og når vi skal undersøge aldersfordelingen er det den, som vi skal kigge nærmere på.

Læs mere her: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

In [None]:
df['Age'].describe()

I år med folketingsvalg består et år af to samlinger. Det bliver vigtigt, hvis vi skal se nærmere på aldersfordlingen blandt de politikere, der er på talerstolen i folketinget. 

Vi bruge .value_counts til at undersøge, hvor mange forskellige samlinger datasættet rummer og hvor mange taler, der er knyttet til hver samling.   

In [None]:
df['Session'].value_counts()

# Aldersfordelingen inden for en udvalgt samling

Vi kan besvare spørgsmålet, hvordan er aldersfordelingen blandt de politikere, der har været på talerstolen inden for en udvalgt samling?

I første linje gemmer vi en samling, f.eks. 20101 i variablen session.

I anden linje vælger vi at lave en ny dataframe, der består af alle rækker, der indeholder den samling, som vi har udvalgt.

I tredje linje grupper vi data efter alder og vi tæller antallet af unikke navne sammen.

I fjerde linje plotter vi alder på x-aksen og på y-aksen plotter vi antallet.  

In [None]:
session = '20101'
df_select_session = df[df['Session'] == session]
age_dist = df_select_session.groupby('Age')['Name'].nunique()
age_dist.plot(kind='bar', figsize=(10, 10), title='Aldersfordeling i samling ' + session)

# Aldersfordelingen inden for en samling år grupperet i femårsinterval 

Koden neden for minder om koden ovenfor. Der er en lille forskel. Vi bruger .cut til at opdele kolonnen 'Age'. Kolonnen bliver opdelt i et antal 'bins'. 'Bins' er i dette tilfælde en liste med tal i et interval af 5 fra 20 til 75 + 5. Det betyder, at kolonnen alder bliver opdelt i aldersgrupper af 5 år.    

In [None]:
session = '20101'
df_select_session = df[df['Session'] == session]
age_groups = pd.cut(df_select_session['Age'], bins=list(range(20,75+5,5)))
age_group_dist = df_select_session.groupby(age_groups)['Name'].nunique()

In [None]:
age_group_dist.plot(kind='bar', figsize=(10, 10), title='Aldersfordeling i samling ' + session + ' fordelt i grupper')

# Aldersfordelingen inden for en samling inden for ét parti

Vi kan besvare spørgsmålet, hvordan er aldersfordelingen inden for en samling inden for et udvalgt parti?

I koden nedenfor besvarer vi ovenstående sprøgsmål. 
I første linje gemmer vi navnet på en samling og i anden linje gemmer vi navnet på et parti.
I tredje linje og fjerde linje bygger vi en dataframe, der indeholder de rækker, der indeholder de data vi har defineret i linje 1 og 2.
I femte linje laver vi 'cut og bins' som i koden ovenfor.
I sjette linje laver vi grupperingen og sammmentællingen og i linjen i næste felt plotter vi data.

In [None]:
session = "20101"
party = 'KF'
df_select_session = df[df['Session'] == session]
df_select_party = df_select_session[df_select_session['Party'] ==  party]
age_groups = pd.cut(df_select_party['Age'], bins=list(range(20,75+5,5)))
age_group_dist = df_select_party.groupby(age_groups)['Name'].nunique()

In [None]:
age_group_dist.plot(kind='bar', figsize=(10, 10), title='Aldersfordeling i samling ' + session + ' i ' + party + ' fordelt i grupper')

# Aldersfordeling blandt mænd og kvinder inden for en samling

Vi kan besvare spørgsmålet, hvordan er aldersfordeling blandt de mænd og kvinder, der har været på talerstolen inden for en samling?

Nedenfor følger tre forskellige plots:

- Det første plot handler om aldersfordelingen for mænd inden for en udvalgt samling og inden for et udvalgt parti.

- Det andet plot handler om aldersfordelingen for kvinder inden for en udvalgt samling og inden for et udvalgt parti.

- Det trejde plot handler om aldersfordeling blandt mænd og kvinder inden for en samling.

In [None]:
session = '20101'
df_select_session = df[df['Session'] == session]
df_year_male = df_select_session[df_select_session['Gender'] == 'Male']
df_year_female = df_select_session[df_select_session['Gender'] == 'Female']
age_groups_male = pd.cut(df_year_male['Age'], bins=list(range(20,75+5,5)))
age_groups_female = pd.cut(df_year_female['Age'], bins=list(range(20,75+5,5)))
age_group_dist_male = df_year_male.groupby(age_groups_male)['Name'].nunique()
age_group_dist_female = df_year_female.groupby(age_groups_female)['Name'].nunique()

In [None]:
age_group_dist_male.plot(kind='bar', figsize=(10, 10), title='Aldersfordeling blandt mænd i samling ' + session)

In [None]:
age_group_dist_female.plot(kind='bar', figsize=(10, 10), title='Aldersfordeling blandt kvinder i samling ' + session)

In [None]:
age =  ['20-25', '25-30', '30-35', '35-40', '40-45', '45-50', '50-55', '55-60', '60-65', '65-70', '70-75']
male = -age_group_dist_male.values # de numeriske værdier bliver negative med -frame
female = age_group_dist_female.values

df_pyramide = pd.DataFrame({'Age' : age,
                             'Male' : male,
                             'Female' : female})

In [None]:
AgeClass = ['70-75', '65-70', '60-65', '55-60', '50-55', '45-50', '40-45', '35-40', '30-35', '25-30', '20-25']
bar_plot = sns.barplot(x='Male', y='Age', data=df_pyramide, order=AgeClass, lw=0, color = 'navy')
bar_plot = sns.barplot(x='Female', y='Age', data=df_pyramide, order=AgeClass, lw=0 , color = 'indianred')
bar_plot.set(xlabel='Mænd og kvinder', ylabel='Aldersgrupper', title = 'Aldersfordeling blandt mænd og kvinder i samling ' + session)

# Aldersfordeling i relation til emner

Vi kan besvare spørgsmålet, hvordan er aldersfordelingen i relation til de emner, som folketingsmedlemmerne taler om? 

Nedenfor er der to plots, der viser, hvordan alder relaterer sig til emner.

Kig på de to plots og overvej, hvilket der egner sig bedst til at visualisere data.

In [None]:
age_subject1 = df.groupby(['Age','Subject 1']).sum()
age_subject1.reset_index(inplace=True)
age_subject1['Age group'] = pd.cut(age_subject1['Age'], bins=list(range(19,75+5,5)))

sns.set(rc={"figure.figsize":(12, 15)}) #width, height
sns.histplot(data=age_subject1, x="Age", bins=10, hue="Subject 1", multiple="stack")

In [None]:
sns.catplot(y="Age group", x='Time', col="Subject 1",
                data=age_subject1, saturation=.5,
                kind="bar", orient='h' , ci=None, aspect=.6)

Notebooken slutter her. Prøv at vælge andre samlinger og sammenlign resultaterne. Er der for eksempel en udvikling over tid i relation til aldersfordelingen i folketinget?