>Ouvrir le notebook dans Colab en modifiant le début de son adresse dans le navigateur :<br>
il faut remplacer **github.com** par **githubtocolab.com**.<br>
Une fois vos réponses apportées, le notebook devra être sauvegardé dans GitHub, dans le repository du TP :<br>
*Fichier > Enregistrer une copie dans Github*<br>
*Info-TSI-Vieljeux/tpx-votre_nom*<br>

---

# Utilisation de modules, de bibliothèques

L'idée de ce TP est de constater combien des modules/bibliothèques adaptés peuvent fournir des outils puissants et permettre un gain de temps gigantesque.<br>
On va se placer dans un des champs les plus porteurs de la science informatique actuelle, l'analyse de données, pour constater comment l'utilisation de modules adaptés peut simplifier le travail.

## Exploration d'un jeu de données

### Statistiques simples

Commençons par importer les bibliothèques qui nous seront nécessaires :

In [None]:
import pandas as pd # bibliothèques dédiée au traitement de jeux de données
import matplotlib.pyplot as plt # bibliothèque graphique
import seaborn as sns # bibliothèque graphique reposant sur matplotlib et dédiée plus particulièrement à la représentation de jeux de données
import numpy as np # bibliothèque puissante permettant de gérer des tableaux multidimensionnels
import plotly.express as px # libraire permettant des graphes interactifs

Pour pouvoir être importé, un module doit avoir été préalablement installé. Les plus importants sont installés par défaut dans certaines distributions (comme Anaconda).<br>
Les gros modules sont généralement importés sous la forme `import module as x` où `x` est un raccourci pour le nom du module (`np` pour `numpy` ou `plt` pour `matplotlib.pyplot`). Se référer au cours Python pour les autres formes d'importation.<br>
Pour obtenir de l'aide sur un module, on peut demander à Python (`help(pd)` par exemple pour avoir de l'aide sur pandas ou `help(pd.read_csv)` pour avoir de l'aide sur la fonction spécifique `read_csv`), mais il y a généralement beaucoup moins indigeste : l'aide en ligne des modules ([https://pandas.pydata.org/docs/user_guide/index.html](https://pandas.pydata.org/docs/user_guide/index.html) pour Pandas par exemple).

In [None]:
# paramètres par défaut pour les graphes
plt.rcParams['figure.figsize'] = (15, 6)
plt.rcParams['font.family'] = "serif"
plt.rcParams['font.size'] = 13
sns.set_style("white")

Le premier jeu de données qu'on va utiliser est issu du [World Happiness report](https://worldhappiness.report) (une publication annuelle de l'ONU mesurant le degrés de bonheur de la population mondiale par pays à partir de sondages).

In [None]:
url = "https://raw.githubusercontent.com/Info-TSI-Vieljeux/s1-tp3/main/2020.csv"
data_monde = pd.read_csv(url,sep=";",index_col=0) # data_monde est une dataframe Pandas
# Une dataframe est une sorte de dictionnaire dont les clés sont les en-têtes des colonnes et dont les lignes sont indexées.

In [None]:
data_monde

Précisions sur ces données :
- le score de bonheur est un score sur 10 correspondant à la moyenne des réponses des sondés (0 correspond à la pire vie possible et 10 à la meilleure)
- ce n'est pas le PIB par habitant mais son logarithme qui est utilisé pour ne pas avoir des valeurs sur des ordres de grandeur trop différents d'une colonne à l'autre
- entraide sociale : moyenne des réponses à la question binaire "en cas de difficultés, pouvez-vous compter sur de la famille ou des amis pour vous aider ?" (0 : non, 1 : oui)
- liberté des choix de vie : moyenne des réponses à la question binaire "êtes-vous satisfait ou non de votre liberté à choisir ce que vous voulez faire de votre vie ?" (0 : non, 1 : oui)
- générosité : moyenne des réponses à "Avez-vous donné à une association caritative le mois dernier ?" ajustée par rapport au PIB par habitant (valeur résiduelle)
- corruption perçue : moyenne des réponses à la question binaire "la corruption est-elle répandue dans le gouvernement ?" (0 : non, 1 : oui)

On simplifie un peu le jeu de données en retirant la colonne 'Déviation standard' et 'Score de bonheur en distopie' (score minimal obtenu).

In [None]:
data_monde.drop(columns=['déviation standard','Score de bonheur en Distopie'], inplace=True)
data_monde.head(3)

In [None]:
data_monde.tail(3)

Traçons un histogramme brut du jeu de données complet pour y voir plus clair (la librairie Seaborn rend cela très simple).

In [None]:
sns.histplot(data=data_monde)

La méthode `describe` s'appliquant à des dataframe pandas retourne un résumé statistique très pratique des données de chaque colonne :

In [None]:
data_monde.describe()

Pour confirmer certaines des valeurs, vous allez construire différentes fonctions : 
- une fonction `decompte` qui retourne le nombre d'éléments d'une liste,
- une fonction `moyenne` qui retourne la moyenne des éléments d'une liste,
- une fonction `mediane` qui retourne la médiane des éléments d'une liste triée en ordre croissant.

L'utilisation de fonctions statistiques déjà existantes est bien sûr prohibée.

In [None]:
def decompte(L) :
    """
    decompte(L:liste)->entier
    """
    # VOTRE CODE
    
def moyenne(L) :
    """
    decompte(L:liste)->flottant
    """
    # VOTRE CODE
    
def mediane(L) :
    """
    decompte(L:liste)->floattant ou entier (suivant les valeurs de L)
    """
    # VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# Cellule de vérification (ne pas modifier)

Vous pouvez tester vos fonctions sur la liste `Liste_score` ci-dessous et comparer aux résultats du tableau résumé :

In [None]:
# cellule de travail
Liste_scores = list(data_monde['Score de bonheur'])


Calculez dans les cellules suivantes, pour les 3 formes d'importation du module, la déviation standard des éléments de la liste `Liste_scores` en utilisant la fonction `stdev` du module `statistics`.<br>
Il s'agit d'évaluer directement l'expresion (le nombre dois s'afficher sous la cellule sans utiliser de `print`).

In [None]:
# première forme d'importation
import statistics
# VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# deuxième forme d'importation
from statistics import *
# Rq : on évite le plus souvent ce type d'importation qui peut générer des conflits de définition.
# VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# troisième forme d'importation
import statistics as st
# C'est la forme la plus pratique si le module est souvent utilisé
# VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

Tracons maintenant un diagramme en batons des scores de bonheur des 60 premiers pays.

In [None]:
fig,ax = plt.subplots(figsize=(20,4))
sns.barplot(ax = ax,x = data_monde.index[:60], y = data_monde['Score de bonheur'].head(60))
plt.xticks(rotation=90)
ax.set_xlabel('')

On remarque que les pays sont classés par score de bonheur décroissant dans le jeu de données d'origine.<br>
Mais on peut évidemment choisir un autre critère de classement si on le désire :

In [None]:
data_monde.sort_values(by="PIB par habitant (log)",ascending=True).head(10)

In [None]:
data_monde.sort_values(by="Corruption perçue",ascending=False).head()

In [None]:
data_monde.sort_values(by="Générosité",ascending=False).iloc[[45]]

D'après la cellule précédente, le 46<sup>e</sup> (le 1<sup>er</sup> est à l'indice 0) meilleur score de générosité appartient au Danemark.

Quel pays correspond à la 59<sup>e</sup> plus courte espérance de vie en bonne santé ?

In [None]:
# Cellule de travail


In [None]:
# Remplacer 'France' par la bonne réponse (garder l'orthographe anglaise identique au jeu de données)
nom_pays = 'France'

In [None]:
# Cellule de vérification (ne pas modifier)

On peut aussi aisément filtrer le jeu de données en fonction de n'importe quel critère :

In [None]:
data_monde[(data_monde["Espérance de vie en bonne santé"]>60) & (data_monde["Espérance de vie en bonne santé"]<61)]
# Rq : pandas nécessite les opérateurs logiques bit à bit '&' (et) et '|' (ou) 
# plutôt que les opérateurs élément par élément 'and' et 'or' qui lèveraient une erreur.

Quel pays possède un score de bonheur inférieur à 5 malgré une valeur de corruption perçue inférieure à 0.5 ?

In [None]:
# Remplacer 'France' par la bonne réponse (garder l'orthographe anglaise identique au jeu de données)
nom_pays = 'France'

In [None]:
# Cellule de vérification (ne pas modifier)

Pour récupérer l'ensemble des données d'un pays en particulier, on utilise :

In [None]:
data_monde.loc['France']

Pour chaque variable mesurée (chaque colonne), on peut facilement tracer des histogrammes illustrant la répartition des valeurs.

In [None]:
sns.displot(data_monde, x="Score de bonheur", bins=20,  kde=True, height=4, aspect=3)
# bins contrôle le nombre de classes

On peut aussi tirer profit de l'interactivité pour obtenir les informations voulues directement en survolant le graphe.

On utilise pour cela la bibliothèque `Plotly express` qui sait (comme seaborn) parler à une dataframe pandas.<br>
On peut zoomer sur ces graphiques interactifs et obtenir des informations en survolant avec le curseur.

In [None]:
px.histogram(data_monde,'Corruption perçue',nbins=40,title="Corruption perçue")
# Cette fois-ci, le nombre de classes est désigné par nbins.

Modifez le graphe précedent pour répondre à cette question : combien la classe la plus peuplée de l'histogramme de l'espérence de vie en bonne santé compte-elle de valeurs si l'histogramme comporte 30 classes ?

In [None]:
# notez votre réponse (sous la forme d'un entier)
nb_valeurs =

In [None]:
# Cellule de vérification (ne pas modifier)

### Regroupement des données

On remarque que le jeu de données contient une colonne catégorielle : "Région du monde".<br> Cela va nous permettre d'explorer de possibles dynamiques régionales : est-ce que les pays d'une même zone ont des indicateurs semblables ?

In [None]:
pd.unique(data_monde["Région du monde"]) # permet d'afficher une seule fois chacune des valeurs différentes de la colonne

Traçons des diagrammes en boîte à moustaches représentant les scores de bonheur pour chacune des régions.<br>
À nouveau Seaborn rend cela très simple...

In [None]:
sns.set_style("white")
fig, ax = plt.subplots(figsize=(12,8))
sns.boxplot(ax = ax, x="Score de bonheur", y="Région du monde", palette="husl", data=data_monde)
sns.despine(offset=10, trim=True)
ax.set_ylabel('')

Traçons maintenant un graphe plus général représentant toutes les relations possibles entre deux axes du jeu de données pour voir si certaines combinaisons discriminent plus nettement les différentes régions.

In [None]:
# Un peu long à s'exécuter (environ 30 s)
g = sns.pairplot(data_monde, hue="Région du monde", corner=True)
g._legend.set_bbox_to_anchor((0.6, 0.8))

On constate que les groupes régionaux sont relativement homogènes pour la plupart des critères.

Zoomons sur un de ces graphes :

In [None]:
sns.set_style("whitegrid")
sns.jointplot(data=data_monde,x="PIB par habitant (log)", y="Score de bonheur", hue="Région du monde", kind='scatter', height=8, legend=False)

Une version interactive du même graphique permet de consulter les informations pour chaque point :

In [None]:
px.scatter(data_monde,x='PIB par habitant (log)', y='Score de bonheur', hover_name=data_monde.index, color='Région du monde')

Trouvez la région du monde représentée sur le graphe suivant (le graphe interactif permet de trouver la réponse facilement).
<img src="http://cordier-phychi.toile-libre.org/Info/images/graphemystere.png" width="600"/>

In [None]:
# notez votre réponse ci-dessous sous la forme d'une chaîne de caractères identique à celles du jeu de données
région = '...'

In [None]:
# Cellule de vérification (ne pas modifier)

Allons maintenant au-delà de la proximité géographique pour regrouper les pays en 3 grands blocs socioéconomiques : "Nord", "Sud", "Intermédiaire".

In [None]:
conditions = [(data_monde['Région du monde'] == 'Western Europe') | (data_monde['Région du monde'] == 'North America and ANZ'),(data_monde['Région du monde'] == 'South Asia') | (data_monde['Région du monde'] == 'Sub-Saharan Africa')]
choix = ['"Nord"', '"Sud"']
data_monde['Groupe'] = np.select(conditions, choix, default='Autres')
deux_gpes = data_monde[data_monde["Groupe"].isin(['"Nord"','"Sud"'])]

In [None]:
# Un peu long à s'exécuter (environ 30 s)
sns.set_style("white")
g = sns.PairGrid(data_monde, diag_sharey=False, hue="Groupe")
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot,common_norm=False)
g.map_diag(sns.histplot,bins=20,kde=True)
g.add_legend(title="Grands groupes",adjust_subtitles=True)

L'homogénéité de ces 3 groupes saute aux yeux.

### Corrélations

Les graphiques précédents mettent en évidence des corrélations assez fortes entre certaines grandeurs.<br>
Creusons un peu.

In [None]:
g = sns.PairGrid(data_monde, y_vars=["Score de bonheur"], x_vars=["PIB par habitant (log)", "Corruption perçue"], height=7, aspect=1.5)
g.map(sns.regplot)

On constate sur cet exemple que le score de bonheur est corrélé positivement avec le PIB par habitant et négativement avec le degré de corruption perçue.

Pour avoir un panorama complet, traçons la matrice de corrélation donnant, pour chaque couple de variable, la valeur du coefficient de corrélation $r$ (valeur entre -1 et 1 traduisant le degré de dépendance linéaire entre deux variables) :

In [None]:
fig, ax = plt.subplots(figsize=(12,10))   
cmap = sns.diverging_palette(0, 230, 90, 60, as_cmap=True).reversed() # choix de la palette de couleurs
sns.heatmap(data_monde.iloc[:,1:].corr(), cmap=cmap, center=0, annot=True, fmt=".2f", linewidth = 0.5, ax=ax)

Citez les deux variables les moins corrélées entre elles (donner les noms exacts tels qu'ils apparaissent dans les données, attention à la casse). L'ordre des variables n'est pas important.

In [None]:
variable1 = "nom de la première variable"
variable2 = "nom de la deuxième variable"

In [None]:
# Cellule de vérification (ne pas modifier)