# <span style="color:red">Rapport mondial du bonheur</span>

Rédigé par Pierre de La Ruffie et Mathieu Guérin, basé sur les données du World Happiness Report par Gallup World Poll, aggrégées par années par Ajaypal Singh (https://www.kaggle.com/ajaypalsinghlo/world-happiness-report-2021, les métadatas du dataset : https://happiness-report.s3.amazonaws.com/2022/Appendix_1_StatiscalAppendix_Ch2.pdf).

### <span style="color:green">Life Ladder :</span>

Il s'agit d'une mesure du bien-être subjectif. Le rapport du 18 février 2022 signé par le GWP couvrant de 2005 à 2021 correspond à la moyenne nationale de réponse à la question d'évaluation du niveau de vie. La version en anglais est : "Please imagine a ladder, with steps numbered from 0 at the bottom to 10 at the top. The top of the ladder represents the best possibe life for you and the bottom of the ladder represents the worst possible life for you. On which step of the ladder would you say you personally feel you stand at this time ?". On appelle également cette mesure l'échelle de Cantril.


### <span style="color:green">Log GDP (Gross Domestic Product) per capita (in purchasing power parity):</span> 

Il s'agit du logarithme du PIB par habitants en parité de pouvoir d'achat en dollar (dollar constant fixé à 2017), venant du rapport du World Development Indicator du 16 décembre 2021.

Il peut être intéressant de noter que les PIBs de l'année 2021 n'étant pas encore disponible, des données ont dû être extrapolées en ce basnat sur des prévisions spécifiques à chaque pays ainsi que sur des rapports de l'OECD et du WBGEP.


### <span style="color:green">Social Support :</span>

Il s'agit de la mesure de la moyenne nationale à la question binaire (0 ou 1) : "If you were in trouble, do you have relatives or friends you can count on to help you whenever you need them, or not".

### <span style="color:green">Healthy Life expectancy at birth :</span>

Espérance de vie calculée sur les données extraites du repo de l'OMS Global Health Observatory à la granularité de 5 années, ensuite extrapolées pour correspondre au dataset.


### <span style="color:green">Freedom to make life choice :</span>

Il s'agit de la mesure de la moyenne nationale à la question "Are you satisfied or dissatisfied with your freedom to choose what you do with your life ?"

### <span style="color:green">Generosity :</span>

Il s'agit de la mesure de la moyenne nationale à la question "Have you donated mo,ey to charity in the mast month ?". Cependant la donnée n'est pas basée sur la moyenne simple mais est le résidu d'une régression linéaire, c'est à dire qu'une valeur positive veut dire qu'il y a eu plus de générosité que ce à quoi on s'attendait, et une valeur négative veut dire moins que ce à quoi on s'attendait.

### <span style="color:green">Perceptions of corruption :</span>

Il s'agit de la mesure de la moyenne nationale aux questions :
- "Is corruption widespread throughout the government or not"
- "Is corruption widespread within businesses or not ?"
En resulte la moyenne des deux réponses binaires (On peut noter qu'on utilise la perception de la corruption privée quand la perception de la corruption publique est manquante (certains pays n'apprécient pas de parler de corruption publique)).

### <span style="color:green">Positive affect :</span>

L'effet positif est définit par la moyenne des questions binaires suivantes :
- "Did you smile or laugh a lot yerterday ?"
- "Did you experience the following feelings during A LOT OF THE DAY yesterday? How about Enjoyment ?"
- "Did you learn or do something interesting yesterday ?"


### <span style="color:green">Negative affect :</span>

L'effet positif est définit par la moyenne des questions binaires suivantes :
- "Did you experience the following feelings during A LOT OF THE DAY yesterday ? How about Worry ?"
- "Did you experience the following feelings during A LOT OF THE DAY yesterday ? How about Sadness ?"
- "Did you experience the following feelings during A LOT OF THE DAY yesterday ? How about Anger ?"


<span style="color:blue">*Notes du compte rendu avec la professeur : Le but est vraiment de correler les informations pour faire un rendu dynamique qui puisse montrer des comportements, des modèles qu'on ne peut pas remarquer simplement en regardant le tableau (comportements linéaires etc). Le danger est donc également de trop s'éparpiller (surtout avec le dataset conséquent qu'on a) et de traiter le sujet sur beaucoup d'axes différents mais toujours à moitié. On pourrait par exemple chercher quels indicateurs sont proportionnels au bonheur ressentis du pays, ou les aggréger en fonction des continents, des langues parlées etc...*</span>

Le dataset Countries Continent a été légèrement modifié pour pouvoir englober tout les pays (notamment les pays non-reconnus).

In [10]:
# IMPORTS NECESSAIRES
import pandas as pd
import matplotlib.cm as colormap
import matplotlib.pyplot as plt
import numpy as np

from utils import *

from get_data import df_hr, df_cc

In [2]:
display(df_hr)

Unnamed: 0,Country,Continent,Year,Life ladder,logGDP,Social support,Life expectancy,Freedom of life,Generosity,Corruption,Positive affect,Negative affect,GDP
0,Afghanistan,Asia,2008,3.724,7.370,0.451,50.80,0.718,0.168,0.882,0.518,0.258,1587.63
1,Afghanistan,Asia,2009,4.402,7.540,0.552,51.20,0.679,0.190,0.850,0.584,0.237,1881.83
2,Afghanistan,Asia,2010,4.758,7.647,0.539,51.60,0.600,0.121,0.707,0.618,0.275,2094.35
3,Afghanistan,Asia,2011,3.832,7.620,0.521,51.92,0.496,0.162,0.731,0.611,0.267,2038.56
4,Afghanistan,Asia,2012,3.783,7.705,0.521,52.24,0.531,0.236,0.776,0.710,0.268,2219.42
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1944,Zimbabwe,Africa,2016,3.735,7.984,0.768,54.40,0.733,-0.095,0.724,0.738,0.209,2933.64
1945,Zimbabwe,Africa,2017,3.638,8.016,0.754,55.00,0.753,-0.098,0.751,0.806,0.224,3029.04
1946,Zimbabwe,Africa,2018,3.616,8.049,0.775,55.60,0.763,-0.068,0.844,0.710,0.212,3130.66
1947,Zimbabwe,Africa,2019,2.694,7.950,0.759,56.20,0.632,-0.064,0.831,0.716,0.235,2835.57


In [3]:
years = df_hr["Année"].unique()

# CREER UN NOUVEAU DF AVEC LES PAYS EN INDEX, LES ANNEES EN COLONNES ET LA GENEROSITE EN VALEUR
dfpivot = df_hr.pivot(index = "Pays", columns = "Année", values = "Echelle de vie")
display(dfpivot)

# PLOT LES VALEURS POUR L'ALGERIE' UNIQUEMENT
dfpivot.transpose()[["Algeria"]].plot(style='.-', title="Données de l'Algérie sans interpolation");
# INTERPOLATE PERMET DE COMBLER LES VALEURS MANQUANTES PAR INTERPOLATION
dfpivot.transpose()[["Algeria"]].interpolate(method='linear').plot(
    style='.-',
    title = "Données de l'Algérie avec interpolation");

#df.aggregate(func = lambda x: x.isna().sum(), axis = 0).sort_values(ascending = True).plot(kind = 'bar', width=0.9, title = "Abscence de données dans le dataset");

KeyError: 'Année'

In [None]:
# RECUPERE LE DATASET COUNTRIES CONTINENT ET CREER UNE ENUM ASSOCIEE

from enum import Enum
class Continent(Enum):
    AF = "Africa"
    AS = "Asia"
    EU = "Europe"
    NA = "North America"
    OC = "Oceania"
    SA = "South America"
# Continent["AF"].value => "Africa" <good>
# Continent["AF"] => Continent.AF    <bad>
    
# ON RECUPERE LA LISTE DES PAYS DU CONTINENT
continentId = 'EU'
continent = Intersection(df_cc[df_cc["Continent"] == Continent[continentId].value].index.values,dfpivot.index.values)
dfpivot.loc[continent].transpose().interpolate('linear').plot(figsize = (20, 20));

# ON RECUPERE LES MOYENNES DE 2005 A 2020 POUR CHAQUE PAYS DU CONTINENT DANS L'ORDRE
# Utiliser des couleurs ne sert pas à grand chose, on va probablement plutot utiliser express de plotly
my_cmap = plt.get_cmap("magma")

#dfpivot.loc[continent].transpose().interpolate('linear').mean().sort_values(ascending = False).plot()
#display(dfpivot.transpose().interpolate('linear'))

In [17]:
from math import log as log
from math import exp as exp
from math import trunc as trunc
from math import isnan as isnan


# Log PIB -> PIB
df_hr["PIB par habitant"] = df_hr.apply(lambda x: round(exp(x["log PIB par habitant"]),2), axis=1)
pibfr = df_hr[df_hr["Pays"] == "France"][["Année", "PIB par habitant"]]
pibde = df_hr[df_hr["Pays"] == "Germany"][["Année", "PIB par habitant"]]

# Display du PIB de la france et de l'allemagne (le ";" à la fin de la ligne empêche plt d'afficher le nom du plot)
pibfr.plot(x = "Année", y = "PIB par habitant", title = "PIB français", legend = False);
pibde.plot(x = "Année", y = "PIB par habitant", title = "PIB allemands", legend = False);

KeyError: 'log PIB par habitant'

In [7]:
import plotly.express as px
df_hr_ex = df_hr.groupby("Continent").mean()
display(df_hr_ex)
primary_figure = px.bar(
    x = df_hr_ex[["GDP"]],
    y = df_hr_ex[["Life ladder"]],
    title = f'{"GDP"}, ',
    labels=dict(x = "GDP", y = "Continents"),
    template='plotly_white'
)

Unnamed: 0_level_0,Year,Life ladder,logGDP,Social support,Life expectancy,Freedom of life,Generosity,Corruption,Positive affect,Negative affect,GDP
Continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Africa,2013.491632,4.370642,8.143349,0.714928,53.874374,0.690172,-0.026431,0.782256,0.674881,0.279542,5308.791663
Asia,2013.025878,5.336179,9.386994,0.800891,63.89351,0.751083,0.042734,0.745805,0.696213,0.265501,20339.205545
Europe,2013.435678,6.043967,10.235477,0.872566,68.678339,0.746603,-0.02613,0.719917,0.689708,0.257861,33357.345214
North America,2012.647059,6.167147,9.470706,0.849621,65.678941,0.794682,0.043079,0.747038,0.810371,0.267282,19315.188
Oceania,2013.25,7.296179,10.669286,0.950143,72.560714,0.922429,0.258661,0.340857,0.82325,0.206607,43218.915714
South America,2012.805369,6.055221,9.504101,0.868591,66.339195,0.775054,-0.065695,0.785369,0.812537,0.301235,14423.752383


ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [25]:
#display(df_hr[df_hr["Country"] == "South Sudan"])

display(df[df["Country"] == "North Cyprus"])
#df_hr.interpolate(method = 'linear', inplace = True)

Unnamed: 0,Country,Continent,Year,Life ladder,logGDP,Social support,Life expectancy,Freedom of life,Generosity,Corruption,Positive affect,Negative affect
1280,North Cyprus,Europe,2012,5.463,,0.871,,0.693,,0.855,0.709,0.405
1281,North Cyprus,Europe,2013,5.567,,0.869,,0.775,,0.715,0.622,0.443
1282,North Cyprus,Europe,2014,5.786,,0.802,,0.83,,0.692,0.724,0.311
1283,North Cyprus,Europe,2015,5.843,,0.791,,0.785,,0.659,0.702,0.319
1284,North Cyprus,Europe,2016,5.827,,0.808,,0.796,,0.67,0.644,0.346
1285,North Cyprus,Europe,2018,5.608,,0.837,,0.797,,0.614,0.48,0.262
1286,North Cyprus,Europe,2019,5.467,,0.803,,0.793,,0.64,0.494,0.296


In [1]:
import math

df_hr_ex = df_hr[df_hr["Continent"] == "North America"].groupby("Country").mean()[["GDP", "Life ladder"]]
df_hr_ex = df_hr_ex.sort_values(by = "Life ladder", ascending = True)

def lbd(row):
    if math.isnan(df_hr_ex.loc[[row]]["GDP"]):
        return row + "test"
    return row

df_hr_ex.rename(lbd, axis = "index", inplace = True)
display(df_hr_ex)

NameError: name 'df_hr' is not defined

In [100]:
radioItems = [{'label': "PIB par habitant", 'value': "GDP"},
        {'label': "Support social", 'value': "Social support"},
        {'label': "Espérance de vie", 'value': "Life expectancy"},
        {'label': "Liberté de vivre", 'value': "Freedom of life"},
        {'label': "Générosité", 'value': "Generosity"},
        {'label': "Perception de la corruption", 'value': "Corruption"},
        {'label': "Effets positifs", 'value': "Positive affect"},
        {'label': "Effets négatifs", 'value': "Negative affect"}]
display(find(lambda x: x["value"] == "GDP", radioItems))

NameError: name 'find' is not defined

In [103]:
display(df_hr[df_hr["Country"] == "Panama"])

Unnamed: 0,Country,Continent,Year,Life ladder,logGDP,Social support,Life expectancy,Freedom of life,Generosity,Corruption,Positive affect,Negative affect,GDP
1339,Panama,North America,2006,6.128,9.764,0.951,67.9,0.882,-0.047,0.912,0.845,0.232,17396.08
1340,Panama,North America,2007,6.894,9.859,0.937,68.0,0.64,0.083,0.915,0.82,0.149,19129.75
1341,Panama,North America,2008,6.931,9.935,0.922,68.1,0.707,0.06,0.881,0.819,0.15,20640.28
1342,Panama,North America,2009,7.034,9.93,0.905,68.2,0.721,0.014,0.889,0.883,0.144,20537.34
1343,Panama,North America,2010,7.321,9.969,0.928,68.3,0.755,-0.009,0.88,0.888,0.146,21354.12
1344,Panama,North America,2011,7.248,10.059,0.876,68.5,0.829,0.009,0.84,0.885,0.18,23365.13
1345,Panama,North America,2012,6.86,10.135,0.897,68.7,0.783,-0.002,0.796,0.869,0.207,25210.1
1346,Panama,North America,2013,6.866,10.184,0.896,68.9,0.811,0.018,0.814,0.869,0.226,26476.16
1347,Panama,North America,2014,6.631,10.217,0.873,69.1,0.894,0.002,0.847,0.808,0.254,27364.45
1348,Panama,North America,2015,6.606,10.255,0.883,69.3,0.847,-0.007,0.81,0.801,0.264,28424.31
