# Digital Twin of Society - Unemployment rate 📉

Visualisierung der Arbeitslosenquote von Europa von 2003 - 2021.

<q>Die Arbeitslosenquote bezeichnet die Anzahl der Arbeitslosen als Prozentsatz der Erwerbsbevölkerung basierend auf der Definition der Internationalen Arbeitsorganisation (ILO). Die Erwerbsbevölkerung setzt sich aus Beschäftigten und Arbeitslosen zusammen. Zu den Arbeitslosen zählen Personen im Alter zwischen 15 und 74 Jahren, die in der Berichtswoche ohne Arbeit waren, für eine Arbeit sofort verfügbar waren und in den vergangenen vier Wochen aktiv auf Arbeitssuche waren oder eine Arbeit gefunden hatten, die sie innerhalb der nächsten drei Monate aufnehmen würden.</q> (Quelle: https://ec.europa.eu/eurostat/de/web/products-datasets/-/TIPSUN20)

Älteste Daten: 2003 \
Die neuesten Daten: 2021 \
Anzahl der Werte: 1071

<br>
<br>
<table align="left">
<tr>
<td><img src="https://nuernberg.digital/fileadmin/system/NDF-Logo-Jahresneutral-RGB-black-keinRand.svg" width="100" /></td>
<td><img src="https://www.capgemini.com/de-de/wp-content/themes/capgemini-komposite/assets/images/logo.svg" /></td>
</tr>
</table>

## 1. Install Requirements

In [7]:
!pip install -q pandas pycountry plotly

[K     |████████████████████████████████| 10.1 MB 5.3 MB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
  Building wheel for pycountry (PEP 517) ... [?25l[?25hdone


## 2. Imports

In [9]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import pycountry

## 3. Data preprocessing

#### Get the data
European Commission, Eurostat, ‘Arbeitslosenquoten - jährliche Daten’ (tipsun20), 2022, accessed 2022-06-16, http://data.europa.eu/88u/dataset/DJWzl5McFh9fcCW8bzSxw

#### Dataset information
https://ec.europa.eu/eurostat/cache/metadata/EN/une_rt_m_esms.htm

<img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Lade die Daten von http://data.europa.eu/88u/dataset/DJWzl5McFh9fcCW8bzSxw in ein DataFrame. <br> Infos zum Datensatz findest du unter https://ec.europa.eu/eurostat/cache/metadata/EN/une_rt_m_esms.htm

In [1]:
#@title Lösung
# df = pd.read_csv("https://raw.githubusercontent.com/Sultanow/dt_society/main/data/unemployment.tsv", sep="\t")
# df.head()

<img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Entferne die Jahre die keine vollständigen Daten haben (2003-2008). <br>Tipp: Achte dabei auf die Column-Names.


In [2]:
#@title Lösung

# # Remove taling whitespaces in column names
# df.columns = df.columns.str.rstrip()

# # Years that will be ignored, because of insufficient data
# ignored_years = ['2003', '2004', '2005', '2006', '2007', '2008']
# df = df.drop(ignored_years, axis=1)

# # Show dataframe
# df.head()

<img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Splitte die erste Spalte in vier seperate Spalten (sex, age, unit, geo) auf. \\
Tipp: Zwei der Spalten sind irelevant und können daher entfernt werden. Warum?

In [None]:
#@title Lösung
# Rename First Column to work with it
df.rename(columns={ df.columns[0]: "meta" }, inplace = True)

# Split up 'meta' column to get sex, age, unit and geo data
df_meta = pd.DataFrame(df.meta.str.split(',',3).tolist(), columns = ['sex','age', 'unit', 'geo'])

# Remove the 'meta' column 
df = df.drop('meta', axis=1)

# Merge the two dataframes again
result = pd.concat([df_meta, df], axis=1)

# Since 'sex' and 'unit' are the same for each row, we can ignore them 
result = result.drop(['sex', 'unit'], axis=1)

result.head()

<img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Schaut man sich die Daten etwas genauer an, so fällt auf das darin Werte existieren, hinter denen ein 'b' oder ein 'd' stehen. \
Der Einfachheit halber ignorieren wir diese Angaben. Entferne dazu einfach das ' b' bzw. das ' d' hinter den Werten.

In [4]:
#@title Lösung
# # Clean Up Data 
# result = result.replace(' b','', regex=True)
# result = result.replace(' d','', regex=True) 

<img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Länderkennung anpassen:

*   Die angegebenen Daten beinhalten die Länderkennung im ISO 3166-1 alpha-2 Format also zum Beispiel DE für Deutschland.
*   Für die spätere Verarbeitung der Daten ist jedoch das ISO 3166-1 alpha-3 Format, also zum Beispiel DEU für Deutschland, notwendig.
* Die Ländercodes müssen daher in das entsprechende Format gebracht werden.


**Tipp:** Nutze für die Konvertierung die Bibliothek pycountry.
\
**Hinweis:** Der alpha-2 Code 'EL' steht für Griechenland und muss händisch auf den alpha-3 'GRC' gesetzt werden. Es handelt sich dabei um einen veralteten Code der nicht mehr verwendet und somit von pycountry nicht mehr gefunden wird.

In [None]:
# @title Lösung
# def iso2_to_iso3(iso2):
#   country = pycountry.countries.get(alpha_2=iso2)
#   # Old Code for Greek is EL -> the new one is GR (iso2) or GRC (iso3)
#   if(iso2 == 'EL'):
#     return 'GRC'
#   return country.alpha_3

# # Convert Iso2 to Iso3 country code
# result['geo'] = result['geo'].apply(lambda x: iso2_to_iso3(x))


# # Show dataframe
# result

 <img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Nach der Vorverarbeitung der Daten sollte das Dataframe (hier werden nur die ersten 10 Reihen angezeigt) in etwa so aussehen:


 |index|age|geo|2009|2010|2011|2012|2013|2014|2015|2016|2017|2018|2019|2020|2021|
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|0|Y15-24|AUT|11\.3|10\.1 |9\.5 |10\.0|10\.3|11\.0|11\.3 |12\.0 |10\.5 |10\.0 |9\.1|11\.7 |11\.0 |
|1|Y15-24|BEL|22\.0|22\.4 |18\.9 |20\.0|23\.9|23\.4|22\.5 |20\.3 |19\.4|16\.0 |14\.5|15\.9 |18\.2 |
|2|Y15-24|BGR|19\.4|25\.1|28\.2|31\.2|31\.5|26\.9|24\.7 |20\.4 |16\.1 |15\.9 |12\.1|17\.4 |15\.8 |
|3|Y15-24|CYP|13\.8|16\.6 |22\.4 |27\.7|38\.9|36\.0|32\.8 |29\.1 |24\.7 |20\.2 |16\.6|18\.2 |17\.1 |
|4|Y15-24|CZE|16\.6|18\.3 |18\.1|19\.5|19\.0|15\.9|12\.6 |10\.5 |7\.9 |6\.7 |5\.6|8\.0 |8\.2 |
|5|Y15-24|DEU|11\.9|10\.5|9\.1|8\.6|8\.3|8\.3|7\.7 |7\.5 |7\.2 |6\.6 |6\.2|8\.0|6\.9 |
|6|Y15-24|DNK|13\.5|15\.6 |16\.4 |15\.8|14\.8|14\.2|12\.2 |12\.2|12\.4|10\.5 |10\.1|11\.6 |10\.8 |
|7|Y15-24|EST|27\.2|32\.6 |22\.3 |20\.7|18\.6|14\.9|14\.3 |14\.0 |12\.1 |12\.0 |11\.6|18\.3 |16\.7 |
|8|Y15-24|GRC|26\.1|33\.6 |45\.2 |55\.9|59\.2|53\.0|50\.3 |48\.2 |44\.5 |41\.2 |37\.5|38\.0 |35\.5 |
|9|Y15-24|ESP|37\.7|41\.5 |46\.2 |52\.9|55\.5|53\.2|48\.3 |44\.4 |38\.6 |34\.3 |32\.5|38\.3 |34\.8|
|10|Y15-24|FIN|21\.7|22\.0 |20\.3 |19\.5|20\.6|20\.5|22\.5 |20\.5 |20\.0 |17\.3 |17\.7|21\.0 |17\.1 |


# 4. Data visualization

 <img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Für die Visualisierung brauchen wir zunächst folgende Informationen aus dem df:

*   Eine Liste mit allen Jahren im Dataframe
*   Eine Liste der eindeutigen Identifier der Altersgruppen
*   Eine Liste mit den eindeutigen Ländercodes



In [None]:
#@title Lösung

# # Get all columns without age and geo
# years = result.columns.tolist()[2:]
# print(years)
# # Get all unique elements of row age 
# agegroups = sorted(result['age'].unique())
# print(agegroups)
# # Get all unique elments of row geo
# countries = sorted(result['geo'].unique())
# print(countries)

### Bar / Line chart

 <img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Um nun die Daten mittels der Bibliothek Plotly in einem Barchart anzuzeigen muss folgendes implentiert werden:

*   Eine Funktion die basierend auf dem Ländercode und der Altersgruppe die Arbeitslosenquote für jedes Jahr zurück liefert
*   Eine Funktion die für das übergebene Land und die Altersgruppe eine Barchart erstellt und anzeigt.

\
\
Hier unten findest du eine simples Beispiel für ein Barchart mit Hilfe von Plotly:

In [None]:
x = ['Category 1', 'Category 2', 'Category 3']
y = [5, 3, 6]

fig = go.Figure(
      data=[go.Bar(x=x, y=y)],
      layout=go.Layout(
          title=go.layout.Title(text="Test")
      )
  ) 
fig.show()

In [13]:
# @title Lösung
# #Get values based of geo and age
# def get_row_from_dataframe_by_geo_and_age(df, country, agegroup):

#   filtered_df = df.loc[(df['geo'] == country) & (df['age'] == agegroup)]
#   filtered_df = filtered_df.drop(['geo', 'age'], axis=1)  
  
#   return filtered_df.astype(float).values.tolist()[0]


# #Render bar chart based of the given country and agegroup
# def render_barchart(country, agegroup):
#   y = get_row_from_dataframe_by_geo_and_age(result, country, agegroup)

#   fig = go.Figure(
#       data=[go.Bar(x=years, y=y)],
#       layout=go.Layout(
#           title=go.layout.Title(text="Unemployment | " + country + " | " + agegroup)
#       )
#   ) 

#   fig.show()


# #Set example agegroup and country
# agegroup = "Y15-74"
# country = "DEU"
# #Render barchart
# render_barchart(country, agegroup)

 <img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Sehr gut das Barchart für ein Land und Altersgruppe funtkioniert jetzt! \
\
Ergänze nun das Diagramm um ein Dropdown Feld um zwischen den einzelnen Ländern zu wechseln. Als Auswahloptionen dient die Liste an eindeutigen Ländercodes die wir oben definiert haben.
\
\
**Tipp**: Du musst für jedes Land ein Barchart erstellen und dieses einer übergeordnenten Figure zuweisen. Anschließend wird nur die Sichtbarkeit der einzelnen Charts geändert. 

**Zusatzaufgabe:** Baue einen Button ein um zwischen der Art des Charts zu wechseln. Zum Beispiel von Barchart auf Linechart.

In [None]:
# @title Lösung
# def multi_plot_countries(df):
#     fig = go.Figure()

#     # For every country create a Barchart (for training with the agegroup 'Y15-74')
#     for country in countries:
#       fig.add_trace(
#           go.Bar(
#               x = years,
#               y = get_row_from_dataframe_by_geo_and_age(result, country, 'Y15-74'),
#               name = country,
#               visible='legendonly'
#           )
#       )
    
#     # Only show first trace
#     fig.data[0].update(visible=True, showlegend=True)

#     # Create dropdown for counties
#     def create_country_dropdown(country):

#         res = ['legendonly' for country in countries]
#         res[countries.index(country)] = True

#         return dict(label = country,
#                     method = 'update',
#                     args = [{'visible': res,
#                              'title': country,
#                              'showlegend': True}])

#     # Add dropdown to figure
#     button_layer_1_height = 1.20
#     fig.update_layout(
#         updatemenus=[
#           dict(
#             buttons=[create_country_dropdown(country) for country in countries],
#             direction="down",
#             pad={"r": 10, "t": 10},
#             showactive=True,
#             active=0,
#             x=0.20,
#             xanchor="left",
#             y=button_layer_1_height,
#             yanchor="top"
#           ),
#           dict(
#             type = "buttons",
#             direction = "left",
#             buttons=list([
#               dict(
#                 args=["type", "bar"],
#                 label="Bar",
#                 method="restyle"
#               ),
#               dict(
#                 args=["type", "line"],
#                 label="Line",
#                 method="restyle"
#               )
#             ]),
#             pad={"r": 10, "t": 10},
#             showactive=True,
#             x=0.0,
#             xanchor="left",
#             y=button_layer_1_height,
#             yanchor="top"
#             )
#         ])
    
#     # Add label for dropdown 
#     fig.update_layout(
#     annotations=[
#         dict(text="Country", x=0.15, xref="paper", y=1.15,
#                              yref="paper", showarrow=False),
#     ])
  
#     fig.show()

# multi_plot_countries(result)

 <img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Nachdem jetzt auch das Land auswählbar ist kann das Barchart auch noch um ein Dropdown für die Altersgruppe ergänzt werden. \
\
Also Auswahloptionen wird hierfür die Liste an eindeutigen Identifieren der Altersgruppen verwendet, die oben bereits definiert wurden.

In [None]:
# @title Lösung
# def multi_plot_countries_agegroup(df):
#     fig = go.Figure()

#     charts_per_agegroup = dict()
#     for agegroup in agegroups:
#       charts = []   
#       for country in countries:
#           charts.append(
#               go.Bar(
#                   x = years,
#                   y = get_row_from_dataframe_by_geo_and_age(result, country, agegroup),
#                   name = country,
#                   visible='legendonly'
#               )
#           )

#       charts_per_agegroup[agegroup] = charts

#     fig.add_traces(charts_per_agegroup['Y15-74'])
#     fig.data[0].update(visible=True, showlegend=True)
    
#     def create_country_dropdown(country):
#         res = ['legendonly' for country in countries]
#         res[countries.index(country)] = True

#         return dict(label = country,
#                     method = 'update',
#                     args = [{'visible': res,
#                              'title': country,
#                              'showlegend': True}])
        
#     def create_agegroup_dropdown(agegroup):
#       return dict(label = 'All' if agegroup == 'Y15-74' else agegroup,
#                   method = 'update',
#                   args = [{'y': [chart.y for chart in charts_per_agegroup[agegroup]],
#                             'title': agegroup,
#                             'showlegend': True}])

#     button_layer_1_height = 1.20
#     fig.update_layout(
#         updatemenus=[
#           dict(
#             buttons=sorted([create_agegroup_dropdown(agegroup) for agegroup in agegroups], key=lambda d: d['label']),
#             direction="down",
#             pad={"r": 10, "t": 10},
#             showactive=True,
#             x=0.15,
#             xanchor="left",
#             y=button_layer_1_height,
#             yanchor="top"
#           ),
#           dict(
#             buttons=[create_country_dropdown(country) for country in countries],
#             direction="down",
#             pad={"r": 10, "t": 10},
#             showactive=True,
#             x=0.30,
#             xanchor="left",
#             y=button_layer_1_height,
#             yanchor="top"
#           ),
#           dict(
#             type = "buttons",
#             direction = "left",
#             buttons=list([
#               dict(
#                 args=["type", "bar"],
#                 label="Bar",
#                 method="restyle"
#               ),
#               dict(
#                 args=["type", "line"],
#                 label="Line",
#                 method="restyle"
#               )
#             ]),
#             pad={"r": 10, "t": 10},
#             showactive=True,
#             x=0.0,
#             xanchor="left",
#             y=button_layer_1_height,
#             yanchor="top"
#             )
#         ])
    
#     fig.update_layout(
#     annotations=[
#         dict(text="Agegroup", x=0.1, xref="paper", y=1.15, yref="paper",
#                              align="left", showarrow=False),
#         dict(text="Country", x=0.25, xref="paper", y=1.15,
#                              yref="paper", showarrow=False),
#     ])
    
#     fig.show()

# multi_plot_countries_agegroup(result)

### Map

 <img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Geodaten bezogenen Daten können am besten über eine Karte dargestellt werden. Daher ist die nächste Aufgabe die Darstellung der Arbeitslosenquoute auf einer Karte. 
\
\
Hierfür kann ebenfalls die Bibliothek Plotly verwendet werden. Das Stichwort hierbei heißt Choropleth.

In [None]:
# @title Lösung
# def preprocess_dataframe_for_agegrouop(df, agegroup):
#   # Get new dataframe with values where age equals the given agegroup, then drop age column since it is no longer needed.
#   result_without_age = df.loc[(df['age'] == agegroup)].drop('age', axis=1)
#   # Get dataframe into shape geo, year, value
#   processed_dataframe = result_without_age.melt(id_vars='geo', value_vars=result_without_age.columns, var_name='years')
#   # Convert value to Float and years to int 
#   processed_dataframe['value'] = processed_dataframe['value'].astype('float64')
#   processed_dataframe['years'] = processed_dataframe['years'].astype('int')
#   return processed_dataframe


# def create_map_with_slider(df, agegroup):

#   # Preprocess dataframe
#   preprocessed_df = preprocess_dataframe_for_agegrouop(df, agegroup)
  
#   # Create Plot
#   fig = px.choropleth(
#           preprocessed_df,
#           locations='geo', color='value',
#           color_continuous_scale="Viridis",
#           range_color=(preprocessed_df['value'].min(), preprocessed_df['value'].max()),
#           scope="europe",
#           height=600,
#           animation_frame="years",
#           basemap_visible=True,
#           labels={'value': 'Unemployment rate in %'}
#         )
  
#   # Change styling 
#   fig.update_geos(fitbounds="locations", resolution=50, projection_type="orthographic")
#   fig.update_layout(margin={"r":50,"t":50,"l":50,"b":50})
#   return fig

# fig = create_map_with_slider(result, agegroups[0])
# fig.show()

 <img src="https://cdn3.iconfinder.com/data/icons/miscellaneous-80/60/info-256.png" width="32" height="32">

Glückwunsch die Karte zur Visulisierung der Arbeitslosenquote funktioniert! 🎉
\
\
Ähnlich wie beim Barchat kann die Karte jetzt noch um ein Dropdown für die Altersgruppe ergänzt werden. 
\
\
**Tipp:** Wie bei den Barcharts, werden hier auch wieder für alle Kombinationen Teil-Plots erstellt und dann wieder die Sichtbarkeit durch geschaltet. 

In [None]:
#@title Lösung
# fig = go.Figure()
# charts_per_agegroup = dict()
# df_agegroups = dict()

# for agegroup in agegroups:
#   charts = []   
#   df_agegroup = preprocess_dateframe(result, agegroup)
#   df_agegroups[agegroup] = df_agegroup
#   for year in df_agegroup['years'].unique():
#       df_year = df_agegroup[(df_agegroup['years']== year)]
#       charts.append(
#           go.Choropleth(
#               locations = df_year['geo'],
#               z=df_year['value'],
#               coloraxis='coloraxis',
#               geo= 'geo',
#               hovertemplate= 'years='+str(year)+'<br>geo=%{location}<br>value=%{z}<extra></extra>',
#               visible = False
#           )
#       )
  
#   charts_per_agegroup[agegroup] = charts

# fig.add_traces(charts_per_agegroup['Y15-74'])
# fig.data[0].update(visible=True)

# def create_agegroup_button(agegroup):
#     return dict(label = 'All' if agegroup == 'Y15-74' else agegroup,
#                 method = 'update',
#                 args = [{'z':  [chart.z for chart in charts_per_agegroup[agegroup]], 'title': agegroup},
#                         {'coloraxis': {
#                             'cmin':df_agegroups[agegroup]['value'].min(), 
#                             'cmax':df_agegroups[agegroup]['value'].max()}}])

# def create_sliders():
#     steps = []
#     for i in range(13):
#         step = dict(method='restyle',
#                     args=['visible', [False] * 13],
#                     label='{}'.format(i + 2009))
#         step['args'][1][i] = True
#         steps.append(step)

#     return [dict(active=0, pad= {'b': 10, 't': 10}, steps=steps)]

# fig.update_layout(
#     updatemenus=[
#       dict(
#         buttons=[create_agegroup_button('Y15-74'), create_agegroup_button('Y15-24'), create_agegroup_button('Y25-74')],
#         direction="down",
#         pad={"r": 10, "t": -8},
#         showactive=True,
#         x=0.04,
#         xanchor="left",
#         y=0.9,
#         yanchor="top"
#       )
#     ],
#     sliders=create_sliders(),
#     coloraxis={
#       'cmin':df_agegroups['Y15-74']['value'].min(), 
#       'cmax':df_agegroups['Y15-74']['value'].max(),
#       'colorbar': {'title': {'text': 'value'}}},
#     geo= {
#         'center': {},
#         'domain': {'x': [0.0, 1.0], 'y': [0.0, 1.0]},
#         'resolution': 50,
#         'scope': 'europe',
#         'visible': True},
#     height= 600,
#     legend= {'tracegroupgap': 0},
#     margin= {'b': 50, 'l': 50, 'r': 50, 't': 50},
#     annotations=[dict(text="Agegroup", x=0, xref="paper", y=0.9, yref="paper", showarrow=False)]
# )

# fig.show()