# Levensverwachting case
In deze case gaan we kijken wat het verschil is in levensverwachting tussen 5 Amerikaanse bevolkingsgroepen:
* Asian
* Blacks
* Hispanics
* Natives
* Whites
<p><p>De resultaten van onze analyse communiceren we in de vorm van een tabel met per bevolginsgroep de levensverwachting (bij geboorte) plus een barchart.</p></p>


In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('ggplot')

# A. Omgaan met text strings en dataframes (algemeen)

In [None]:
# String splitsen
string = 'aap_noot_mies'

splitted = string.split('_')
print(splitted)
print(splitted[0])



In [None]:
# Strings samenvoegen
'lx' + '_asian'

In [None]:
# Dataframe bewerken
my_dict = {'aap': [10, 8, 6, 2], 'noot': [1, 7, 8, 10]}
df = pd.DataFrame(my_dict)
df

In [None]:
# kolom er uit halen met behoud van DataFrame
aap = df[['aap']]
aap

In [None]:
# kolomnaam veranderen
aap = aap.rename(columns={'aap': 'mies'})
aap

In [None]:
# berekende kolommen toevoegen
aap['keer2'] = 2 * aap.mies 
aap['shifted'] = aap.mies.shift(-1)
aap['delta'] = aap.mies - aap.shifted
aap['cumsum'] = aap.mies.cumsum()
aap['cumsum_reverse'] = aap.mies.iloc[::-1].cumsum().iloc[::-1]
aap

# B. Berekenen levensverwachting per bevolkingsgroep

In [None]:
# inlezen gegevens

# PAS data_dir AAN NAAR MAP OP JOUW EIGEN COMPUTER!

# Linux / Mac
data_dir = '/home/pieter/projects/pythonAG202205/data'

# Windows
# data_dir = r'C:\Users\pieter\Documents\pythonAG202205\data'

full_path = os.path.join(data_dir, 'lifetables.xlsx')
data = pd.read_excel(full_path)

In [None]:
# We beginnen met tabel opbouwen voor de Asians
df = data[['lx_asians']].rename(columns={'lx_asians': 'lx'})

In [None]:
# Voeg kolom px toe (kans dat x nog in leven is na 1 jaar)
df['px'] = df.lx.shift(-1) / df.lx
df

In [None]:
# Voeg kolom qx toe (kans dat x binnen 1 jaar overlijdt) 
df['qx'] = 1 - df.px
df

In [None]:
# Voeg kolom Lx toe (aantal mensen met leeftijd x dat in leven is)
df['Lx'] = (df.lx + df.lx.shift(-1)) / 2
df

In [None]:
# Voeg kolom Tx toe (aantal persoon-jaren boven leeftijd x)
df['Tx'] = df.Lx.iloc[::-1].cumsum().iloc[::-1]
df

In [None]:
# Voeg kolom ex toe (levensverwachting bij leeftijd x)
df['ex'] = df.Tx / df.lx
df

In [None]:
# Als je goed is heb je nu een volledige overlevingstabel voor de Aziaten met daarin de volgende kolommen:
# lx | px | qx | Lx | Tx | ex
display(df)
# Haal uit kolom ex de levensverwachting van een Aziaat bij geboorte
print('Levensverwachting bij geboorte van bevolginsgroep Aziaten: {:4.1f} jaar'.format(df.ex[0]))

In [None]:
# We gaan nu met een for-loop een dict opbouwen met daarin de berekende overlevingstabellen voor 
# elk van de 5 bevolkingsgroepen:
#
# live_tables = {'asian': df_asian,
#               ' blacks': df_blacks,
#                'hispanics': df_hispanics,
#                'natives': df_natives,
#                'whites': df_whites}
#
#
# Vervang daarvoor in onderstaande code de #XXXXXXXXXX met hetgeen je hiervoor al hebt berekend voor de Aziaten:
#
#

life_table = {}
life_expectancy = {}

for col in data.columns:
    
    tab = data[[col]]
    group = tab.columns[0].split('_')[1]
    label = 'lx_' + group 
    df = tab.rename(columns={label: 'lx'})

    df['px'] = df.lx.shift(-1) / df.lx
    df['qx'] = #XXXXXXXXXX
    df['Lx'] = #XXXXXXXXXX
    df['Tx'] = #XXXXXXXXXX
    df['ex'] = #XXXXXXXXXX
    
    life_table[group] = df
    life_expectancy[group] = df.ex[0]

In [None]:
# Als het goed is kun je nu voor elke bevolkingsgroep de berekende overlevingstabel oproepen.
# Probeer het zelf eens door onderstaande regel te runnen voor diverse bevolgingsgroepen
life_table['whites']

In [None]:
# En net zo voor de levensverwachting bij geboorte:
life_expectancy['hispanics']

In [None]:
# We zetten de dict life_expectancy nu om naar een pd.Series
s = pd.Series(life_expectancy).sort_values(ascending=False).round(1)
s

In [None]:
# Tenslotte: zet de tabel (Series datastructuur) om naar een barplot!
s.sort_values().plot(kind='barh', color='purple')

In [None]:
# Kun je barplot nogmaals afdrukken maar dan met de balken in AG Groen of AG oranje?
# Kleur AG Groen : '#0B6464' 
# Kleur AG Oranje: '#c86400'

In [None]:
# Tenslotte: Kun je de plot ook een titel geven?