# Précisions
N'oubliez pas d'aller consulter les ressources sur les fonctions existentes de pandas, numpy et seaborn qui vous seront utiles lorsque vous réponderez aux questions qui suivent. Voici les sites web concernés à consulter pour les plus récentes versions de chacunes des librairies scientifiques:
* Pandas: [documentation](https://pandas.pydata.org/docs/)
* Numpy: [documentation](https://numpy.org/doc/1.21/)
* Matplotlib: [quelques fonctions plot() pertinentes](https://matplotlib.org/3.5.0/plot_types/index.html)
* Seaborn: [introduction à seaborn](https://seaborn.pydata.org/introduction.html)

Tout au long du TP, vous pouvez cliquer sur les liens bleus qui vous mèneront vers des ressources encore plus spécifiques pour réaliser chacune des questions.

# Partie 1: Exploration de la base de données

In [None]:
#Différents 'imports' nécessaires pour ce TP
import os
import numpy as np
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['figure.figsize'] = [12,6] 
plt.style.use('fivethirtyeight')

## 1.1 Visualisation des données

Nous allons travailler avec un fichier .csv (comma separated values), qui contient les 'Happiness score', soit les indicateurs de bonheur de l'année 2020 pour 153 pays du monde. Ces pays sont organisés sur les rangées du Dataframe 'df', une structure de données tabulaire de la librairie pandas. Des paramètres additionnels sont disponibles sur chaque colonnes, qui incluent notamment l'indicateur régional ('Region'), le support social ('Social Support'), le logarithme du produit intérieur brut par capita ('Logged GDP per capita') et plusieurs autres. Il faut en premier visualiser les données en notre possession. Pour ce faire, rouler le code qui suit. 

In [None]:
#Trouve le chemin relatif pour accéder aux données par la suite
path = os.getcwd()

df = pd.read_csv(os.path.join(path, '2020.csv'))

#Précision mise à 2 chiffres après la virgule
pd.set_option("display.precision", 2)

#df.head(x) permet d'afficher les x premières rangées de données, cette fonction vous sera utile pour la suite des choses
#lors de la visualisation de la banque de données modifiée, utilisez la fonction display() au lieu de print() dans le 
#jupyter notebook pour un meilleur affichage
display(df.head(15))
# df.describe()

#La commande ci-dessous vous donne de l'information sur la base de données (dataset), la quantité de valeurs et le type
#de variable utilisée (dtypes, à droite complètement ex:float64 et object est un string)
df.info()
print('\n')
#Pour retrouver un élément de la case 'Country name'
print(f"Le premier élément de la colonne Country name est : {df['Country name'][0]}")

#Nous pouvons aussi retrouver le nombre de régions en utilisant la ligne de code suivante:
df['Region'].value_counts()

## Question 1.
Pour cette question, vous devez retourner les valeurs maximales de 'Happiness score' pour chacune des 10 régions ('Region'). Ainsi la fonction ci-dessous doit retourner un dictionnaire avec ces scores maximaux en ordre décroissant et leurs pays associés en tant que clé. Par exemple: Australia:7.3, Israel:7.21, etc. N'oubliez pas que vous avez accès aux librairies de pandas et numpy qui possèdent plein d'outils pour automatiser un processus de ce genre!

### 1.1 
Vous devez en premier lieu créer une fonction simple qui retourne une base de données de la région voulue, soit celle donnée en paramètre à la fonction CreateSubsetPerRegion(). Un exemple de ce qui doit être retourné est présenté ci-dessous:
![](Capture1.PNG)

In [None]:
def CreateSubsetPerRegion(df, region):
    #TODO Extraire les sous-données par région à l'aide du dataframe pandas ('subset' de données)
    
    ...
    
    return 

display(CreateSubsetPerRegion(df,'South Asia'))

### 1.2
Il faut maintenant retourner le dictionnaire ordonné en ordre décroissant du pays associé à la valeur maximale par région tel qu'indiqué dans la question 1. À nouveau, n'oubliez pas que vous avez accès à des librairies qui automatisent ces processus plus facilement. 

In [None]:
def ClassMaxScorePerRegion(df):
    #TODO Trouver les régions pour en faire une liste (https://numpy.org/doc/stable/reference/generated/numpy.unique.html)
    ...
    #TODO Pour chacune des régions, trouves les valeurs maximales et le pays associé
    ...
    
    #TODO Création d'un dictionnaire en ordre décroissant des valeurs de 'Happiness score'   
    ...

    return sorted_dict

print(ClassMaxScorePerRegion(df))


## Question 2
Nous allons maintenant rajouter les données de 2016 afin de les comparer à celles de 2020. Tout d'abord, utilisez ImportNewData() pour importer cette nouvelle base de données nommée 2016.csv. Avec les pays ayant obtenu les scores maximaux de 'Happiness score' par région, le but est de tracer leur évolution entre 2016 à 2020. L'évolution doit être représentée de la plus petite différence à la plus grande. Pour ce faire, vous allez en premier lieu trouver les différences avec la fonction FindDifferences() qui retourne un dictionnaire en ordre croissant de ces différences. Par la suite, vous tracerez ces différences par pays. Voici un exemple de graphique à barre voulu à réaliser avec la fonction PlotComparison(), ce ne sont pas nécessairement les pays voulus. Vous pouvez vous renseigner sur la fonction [plt.bar](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html) de matplotlib.
![](Capture2.PNG)

In [None]:
def ImportNewData():
    #TODO Import de la base de données pour 2016
    #TODO Afficher les 10 premières rangées de la base de données de 2016
    path = os.getcwd()

    
    return df_2016
    
df_2016 = ImportNewData()

In [None]:
def FindDifferences(df_1,df_2):
    #TODO Reprendre les valeurs obtenues précédemment du pays avec le score maximal par région
    #TODO Retourner un dictionnaire des différences en ordre croissant
   
    return sorted_dict
def PlotComparison(sorted_dict):
    #TODO Faire un bar plot de ces différences
    
    
    plt.show()
    
sorted_dict = FindDifferences(df, df_2016)
PlotComparison(sorted_dict)


## Question 3
Seaborn est une librairie qui permet de plus facilement tracer des graphiques complexes. Souvent, des [subplot](https://matplotlib.org/stable/gallery/subplots_axes_and_figures/subplots_demo.html) via matplotlib sont utilisés afin d'afficher plusieurs graphiques dans la même figure à des fins de comparaisons. Nous nous intéresserons maintenant à deux paramètres particuliers:
1. Healthy life expectancy
2. Happiness score

Vous devez comparer pour les deux années 2016 et 2020 ces deux paramètres pour un pays et une région donnés en paramètre de la fonction PlotDistributions() ci-dessous. Pour le premier paramètre, vous utiliserez [sns.displot](https://seaborn.pydata.org/generated/seaborn.distplot.html) et pour le second paramètre, vous ferez usage des fonctionnalités de pandas pour le traçage avec [boxplot](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.boxplot.html). Assurez vous également que le pays donné en paramètre de la fonction à écrire correspond à la région associée avant de tracer les graphiques voulus. Voici un exemple d'affichage:
![](Capture3.PNG)


En cas de région et de pays qui ne correspondent pas, vous devez afficher:
![](Capture4.PNG)

In [None]:
def PlotDistributions(df_1, df_2, region, country):
    #TODO  Vérifier si le pays fait partie de la région donnée sinon afficher le message indiqué plus haut
        
    #TODO Utiliser sns.displot et df.boxplot pour visualiser les deux paramètres demandés
        

PlotDistributions(df_2016, df, 'North America and ANZ', 'Canada')
PlotDistributions(df_2016, df, 'Western Europe', 'Taiwan')

## Question 4
En se concentrant maintenant à nouveau sur les données de **2020**, nous allons essayer de trouver le paramètre le plus corrélé avec le score de bonheur 'Happiness score'. Nous allons prendre des paramètres spécifiques à analyser:
1. Happiness score
2. Logged GDP per capita
3. Social support
4. Healthy life expectancy
5. Freedom to make life choices
6. Generosity
7. Perceptions of corruption

Utilisez un [sns.heatmap](https://seaborn.pydata.org/generated/seaborn.heatmap.html) afin de visualiser ces [corrélations](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html). Votre heatmap de corrélation devrait ressembler à ce qui est présenté ci-dessous. Attention, ce qui est affiché n'est pas exactement ce que vous allez obtenir puisque ce ne sont pas les même données utilisées. L'exemple n'est qu'indicatif pour la ressemblance visuelle à obtenir.
![](Capture5.PNG)

Pour ce faire, vous allez écrire la fonction FindCorrelations(). En plus d'afficher le heatmap, cette fonction retourne la valeur maximale de corrélation avec le score de bonheur en considérant un paramètre différent de lui-même. En effet, comme vous pouvez le voir à la figure ci-haut le paramètre 'Happiness score' est toujours corrélé à 100% avec lui-même. Nous nous intéresserons donc plutôt à la deuxième valeur de corrélation la plus élevée et le paramètre qui lui est associé. L'affichage final ressemble à ceci et le coefficient de corrélation doit être arrondi au centième près:
![](Capture7.PNG)

In [None]:
# Réajuste le fond d'affichage à blanc
matplotlib.rcParams['figure.facecolor'] = 'w'
def FindCorrelations(df):
    #TODO Sélectionner les 7 paramètres à étudier
    #TODO Faire et afficher un heatmap des facteurs de corrélation
    
    plt.show()
    return chosen_max_cor, param
    
chosen_max_cor, param = FindCorrelations(df)
#TODO Afficher la phrase indiquant le coefficient de corrélation le plus élevé avec le paramètre 'Happiness score'
print(...)

## Suite...
Rendez-vous à la partie 3 que vous pouvez retrouver dans le fichier tests.py du github et dont les instructions sont dans le readme.