# Précisions
N'oubliez pas d'aller consulter les ressources sur les fonctions existentes de pandas, numpy et seaborn qui vous seront utiles lorsque vous réponderez aux questions qui suivent. Voici les sites web concernés à consulter pour les plus récentes versions de chacunes des librairies scientifiques:
* Pandas: [documentation](https://pandas.pydata.org/docs/)
* Numpy: [documentation](https://numpy.org/doc/1.21/)
* Matplotlib: [quelques fonctions plot() pertinentes](https://matplotlib.org/3.5.0/plot_types/index.html)
* Seaborn: [introduction à seaborn](https://seaborn.pydata.org/introduction.html)

Tout au long du TP, vous pouvez cliquer sur les liens bleus qui vous mèneront vers des ressources encore plus spécifiques pour réaliser chacune des questions.

# Partie 1: Exploration de la base de données

In [1]:
#Différents 'imports' nécessaires pour ce TP
import os
import numpy as np
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['figure.figsize'] = [12,6] 
plt.style.use('fivethirtyeight')

## 1.1 Visualisation des données

Nous allons travailler avec un fichier .csv (comma separated values), qui contient les 'Happiness score', soit les indicateurs de bonheur de l'année 2020 pour 153 pays du monde. Ces pays sont organisés sur les rangées du Dataframe 'df', une structure de données tabulaire de la librairie pandas. Des paramètres additionnels sont disponibles sur chaque colonnes, qui incluent notamment l'indicateur régional ('Region'), le support social ('Social Support'), le logarithme du produit intérieur brut par capita ('Logged GDP per capita') et plusieurs autres. Il faut en premier visualiser les données en notre possession. Pour ce faire, rouler le code qui suit. 

In [2]:
#Trouve le chemin relatif pour accéder aux données par la suite
path = os.getcwd()

df = pd.read_csv(os.path.join(path, '2020.csv'))

#Précision mise à 2 chiffres après la virgule
pd.set_option("display.precision", 2)

#df.head(x) permet d'afficher les x premières rangées de données, cette fonction vous sera utile pour la suite des choses
#lors de la visualisation de la banque de données modifiée, utilisez la fonction display() au lieu de print() dans le 
#jupyter notebook pour un meilleur affichage
display(df.head(15))
# df.describe()

#La commande ci-dessous vous donne de l'information sur la base de données (dataset), la quantité de valeurs et le type
#de variable utilisée (dtypes, à droite complètement ex:float64 et object est un string)
df.info()
print('\n')
#Pour retrouver un élément de la case 'Country name'
print(f"Le premier élément de la colonne Country name est : {df['Country name'][0]}")

#Nous pouvons aussi retrouver le nombre de régions en utilisant la ligne de code suivante:
df['Region'].value_counts()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 12 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Country name                       153 non-null    object 
 1   Region                             153 non-null    object 
 2   Happiness score                    153 non-null    float64
 3   Standard error of happiness score  153 non-null    float64
 4   Upper Confidence Interval          153 non-null    float64
 5   Lower Confidence Interval          153 non-null    float64
 6   Logged GDP per capita              153 non-null    float64
 7   Social support                     153 non-null    float64
 8   Healthy life expectancy            153 non-null    float64
 9   Freedom to make life choices       153 non-null    float64
 10  Generosity                         153 non-null    float64
 11  Perceptions of corruption          153 non-null    float64

## Question 1.
Pour cette question, vous devez retourner les valeurs maximales de 'Happiness score' pour chacune des 10 régions ('Region'). Ainsi la fonction ci-dessous doit retourner un dictionnaire avec ces scores maximaux en ordre décroissant et leurs pays associés en tant que clé. Par exemple: Australia:7.3, Israel:7.21, etc. N'oubliez pas que vous avez accès aux librairies de pandas et numpy qui possèdent plein d'outils pour automatiser un processus de ce genre!

### 1.1 
Vous devez en premier lieu créer une fonction simple qui retourne une base de données de la région voulue, soit celle donnée en paramètre à la fonction CreateSubsetPerRegion(). Un exemple de ce qui doit être retourné est présenté ci-dessous:
![](attachment:./Capture1.PNG)

In [3]:
def CreateSubsetPerRegion(df, region):
    #TODO Extraire les sous-données par région à l'aide du dataframe pandas ('subset' de données)
    
    ...
    
    return 

display(CreateSubsetPerRegion(df,'East Asia'))
display(CreateSubsetPerRegion(df,'Central and Eastern Europe'))

None

### 1.2
Il faut maintenant retourner le dictionnaire ordonné en ordre décroissant du pays associé à la valeur maximale par région tel qu'indiqué dans la question 1. À nouveau, n'oubliez pas que vous avez accès à des librairies qui automatisent ces processus plus facilement. 

In [4]:
def ClassMaxScorePerRegion(df):
    #TODO Trouver les régions pour en faire une liste (https://numpy.org/doc/stable/reference/generated/numpy.unique.html)
    ...
    #TODO Pour chacune des régions, trouves les valeurs maximales et le pays associé
    ...
    
    #TODO Création d'un dictionnaire en ordre décroissant des valeurs de 'Happiness score'   
    ...

    return sorted_dict

print(ClassMaxScorePerRegion(df))

NameError: NameError: name 'sorted_dict' is not defined

## Question 2
Nous allons maintenant rajouter les données de 2016 afin de les comparer à celles de 2020. Tout d'abord, utilisez ImportNewData() pour importer cette nouvelle base de données nommée 2016.csv. Avec les pays ayant obtenu les scores maximaux de 'Happiness score' par région, le but est de tracer leur évolution entre 2016 à 2020. L'évolution doit être représentée de la plus petite différence à la plus grande. Pour ce faire, vous allez en premier lieu trouver les différences avec la fonction FindDifferences() qui retourne un dictionnaire en ordre croissant de ces différences. Par la suite, vous tracerez ces différences par pays. Voici un exemple de graphique à barre voulu à réaliser avec la fonction PlotComparison(), ce ne sont pas nécessairement les pays voulus. Vous pouvez vous renseigner sur la fonction [plt.bar](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html) de matplotlib.
![](attachment:./Capture2.PNG)

### 2.1
Importation des données de l'année 2016

In [0]:
def ImportNewData():
    #TODO Import de la base de données pour 2016
    #TODO Afficher les 10 premières rangées de la base de données de 2016
    path = os.getcwd()

    
    return df_2016
    
df_2016 = ImportNewData()

### 2.2
Implémentation des fonctions pour illustrer les différences pour les 10 pays concernés entre 2016 et 2020

In [0]:
def FindDifferences(df_1,df_2):
    #TODO Reprendre les valeurs obtenues précédemment du pays avec le score maximal par région
    #TODO Retourner un dictionnaire des différences en ordre croissant
   
    return sorted_dict
def PlotComparison(sorted_dict):
    #TODO Faire un bar plot de ces différences
    
    
    plt.show()
    
sorted_dict = FindDifferences(df, df_2016)
PlotComparison(sorted_dict)

## Question 3
Seaborn est une librairie qui permet de plus facilement tracer des graphiques complexes. Souvent, des [subplot](https://matplotlib.org/stable/gallery/subplots_axes_and_figures/subplots_demo.html) via matplotlib sont utilisés afin d'afficher plusieurs graphiques dans la même figure à des fins de comparaisons. Nous nous intéresserons maintenant à deux paramètres particuliers:
1. Healthy life expectancy
2. Happiness score

Vous devez comparer pour les deux années 2016 et 2020 ces deux paramètres. Pour le premier paramètre, vous utiliserez [sns.displot](https://seaborn.pydata.org/generated/seaborn.distplot.html) et pour le second paramètre, vous ferez usage des fonctionnalités de pandas pour le traçage avec [boxplot](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.boxplot.html). Voici un exemple d'affichage:
![](attachment:./Capture3.PNG)

In [7]:
def PlotDistributions(df_1, df_2):    
    pass
    #TODO Utiliser sns.displot et df.boxplot pour visualiser les deux paramètres demandés
PlotDistributions(df_2016, df)

NameError: NameError: name 'df_2016' is not defined

## Question 4
En se concentrant maintenant à nouveau sur les données de **2020**, nous allons essayer de trouver le paramètre le plus corrélé avec le score de bonheur 'Happiness score'. Nous allons prendre des paramètres spécifiques à analyser:
1. Happiness score
2. Logged GDP per capita
3. Social support
4. Healthy life expectancy
5. Freedom to make life choices
6. Generosity
7. Perceptions of corruption

Utilisez un [sns.heatmap](https://seaborn.pydata.org/generated/seaborn.heatmap.html) afin de visualiser ces [corrélations](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html). Votre heatmap de corrélation devrait ressembler à ce qui est présenté ci-dessous. Attention, ce qui est affiché n'est pas exactement ce que vous allez obtenir puisque ce ne sont pas les même données utilisées. L'exemple n'est qu'indicatif pour la ressemblance visuelle à obtenir.
![](attachment:./Capture5.PNG)

Pour ce faire, vous allez écrire la fonction FindCorrelations(). En plus d'afficher le heatmap, cette fonction retourne la valeur maximale de corrélation avec le score de bonheur en considérant un paramètre différent de lui-même. En effet, comme vous pouvez le voir à la figure ci-haut le paramètre 'Happiness score' est toujours corrélé à 100% avec lui-même. Nous nous intéresserons donc plutôt à la deuxième valeur de corrélation la plus élevée et le paramètre qui lui est associé. L'affichage final ressemble à ceci et le coefficient de corrélation doit être arrondi au centième près:
![](attachment:./Capture7.PNG)

In [0]:
# Réajuste le fond d'affichage à blanc
matplotlib.rcParams['figure.facecolor'] = 'w'
def FindCorrelations(df):
    #TODO Sélectionner les 7 paramètres à étudier
    #TODO Faire et afficher un heatmap des facteurs de corrélation
    
    plt.show()
    return chosen_max_cor, param
    
chosen_max_cor, param = FindCorrelations(df)
#TODO Afficher la phrase indiquant le coefficient de corrélation le plus élevé avec le paramètre 'Happiness score'
affichage = ''
print(affichage)

## Tests à rouler
La cellule ci-dessous vous permet de tester certaines questions lorsqu'il s'agissait de retourner un print ou bien des dictionnaires en valeurs de retour. Les affichage de graphiques ainsi que les Dataframes retournés ne seront pas testés.

In [0]:
import unittest
import os
import sys
class TestQ1(unittest.TestCase):
    result = {'Finland': 7.808700085, 'New Zealand': 7.2996001239999995, 'Israel': 7.128600121, 'Costa Rica': 7.121399879, 'Czech Republic': 6.9109001160000005, 'Taiwan': 6.45539999, 'Singapore': 6.377099991000001, 'Uzbekistan': 6.257599831, 'Mauritius': 6.101299762999999, 'Pakistan': 5.69329977}

    def test1_real_value(self):
        for key in self.result: 
            self.assertAlmostEqual(ClassMaxScorePerRegion(df)[key], self.result[key], delta=0.1)


class TestQ2(unittest.TestCase):
    def test2_find_differences(self):
        sorted_val = {'Singapore': -0.3619000089999993, 'Israel': -0.1383998790000005, 'New Zealand': -0.03439987600000016, 'Costa Rica': 0.03439987899999952, 'Taiwan': 0.07639999000000053, 'Uzbekistan': 0.2705998310000002, 'Czech Republic': 0.31490011600000045, 'Finland': 0.39570008500000053, 'Mauritius': 0.4532997629999995, 'Pakistan': 0.5612997699999998}
        for key in sorted_val: 
            self.assertAlmostEqual(FindDifferences(df, df_2016)[key], sorted_val[key], delta=0.1)

class TestQ4(unittest.TestCase):
     def test41_find_correlations(self):
        wanted = 'Le paramètre avec un coefficient de corrélation le plus élévé avec Happiness score est Logged GDP per capita avec 0.78'
        self.assertEqual(affichage, wanted)
        
res = unittest.main(argv=[''], verbosity=3, exit=False)
# if we want our notebook to stop processing due to failures, we need a cell itself to fail
assert len(res.result.failures) == 0

## Suite...
Rendez-vous à la partie 3 que vous pouvez retrouver dans le fichier tests.py du github et dont les instructions sont dans le readme.