>Ouvrir le notebook dans Colab en modifiant le début de son adresse dans le navigateur :<br>
il faut remplacer **github.com** par **githubtocolab.com**.<br>
Une fois vos réponses apportées, le notebook devra être sauvegardé dans GitHub, dans le repository du TP :<br>
*Fichier > Sauvegarder une copie dans Github*<br>

---

# Utilisation de modules, de bibliothèques

## Exploration d'un jeu de données

### Statistiques simples

Commençons par importer les bibliothèques qui nous seront nécessaires :

In [None]:
import pandas as pd # bibliothèques dédiée au traitement de jeux de données
import matplotlib.pyplot as plt # bibliothèque graphique
import seaborn as sns # bibliothèque graphique reposant sur matplotlib et dédiée plus particulièrement à la représentation de jeux de données
import numpy as np # bibliothèque puissante permettant de gérer des tableaux multidimensionnels
import plotly.express as px # libraire permettant des graphes interactifs
import plotly.graph_objects as go # complémentaire à la première

In [None]:
# paramètres par défaut pour le graphes
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (15, 6)
plt.rcParams['font.family'] = "serif"
plt.rcParams['font.size'] = 13
sns.set_style("white")

Le jeu de données est issu du [World Happiness report](https://worldhappiness.report) (une publication annuelle de l'ONU mesurant le degrés de bonheur de la population mondiale par pays à partir de sondages).

In [None]:
url = "http://cordier-phychi.toile-libre.org/Info/github/2020.csv"
data_monde = pd.read_csv(url,sep=";",index_col=0) # data_monde est une dataframe Pandas

Une dataframe est une sorte de dictionnaire dont les clés sont les en-têtes des colonnes et dont les lignes sont indexées.

In [None]:
data_monde

Précisions sur ces données :
- le score de bonheur est un score sur 10 correspondant à la moyenne des réponses des sondés (0 correspond à la pire vie possible et 10 à la meilleure)
- ce n'est pas le PIB par habitant mais son logarithme qui est utilisé pour ne pas avoir des valeurs sur des ordres de grandeur trop différents d'une colonne à l'autre
- entraide sociale : moyenne des réponses à la question binaire "en cas de difficultés, pouvez-vous compter sur de la famille ou des amis pour vous aider ?" (0 : non, 1 : oui)
- liberté des choix de vie : moyenne des réponses à la question binaire "êtes-vous satisfait ou non de votre liberté à choisir ce que vous voulez faire de votre vie ?" (0 : non, 1 : oui)
- générosité : moyenne des réponses à "Avez-vous donné à une association caritative le mois dernier ?" ajustée par rapport au PIB par habitant (valeur résiduelle)
- corruption perçue : moyenne des réponses à la question binaire "la corruption est-elle répandue dans le gouvernement ?" (0 : non, 1 : oui)

On simplifie un peu le jeu de données en retirant la colonne 'Déviation standard' et 'Score de bonheur en distopie' (score minimal obtenu).

In [None]:
data_monde.drop(columns=['déviation standard','Score de bonheur en Distopie'], inplace=True)
data_monde.head(3)

In [None]:
data_monde.tail(3)

Traçons un histogramme brut du jeu de données complet pour y voir plus clair (la librairie Seaborn rend cela très simple).

In [None]:
sns.histplot(data=data_monde)

La méthode `describe` s'appliquant à des dataframe pandas retourne un résumé statistique très pratique des données de chaque colonne :

In [None]:
data_monde.describe()

Pour confirmer certaines des valeurs, vous allez construire différentes fonctions : 
- une fonction `decompte` qui retourne le nombre d'éléments d'une liste,
- une fonction `moyenne` qui retourne la moyenne des éléments d'une liste,
- une fonction `mediane` qui retourne la médiane des éléments d'une liste triée en ordre croissant.

L'utilisation de fonctions statistiques déjà existantes est bien sûr prohibée.

In [None]:
def decompte(L) :
    """
    decompte(L:liste)->entier
    """
    # VOTRE CODE
    
def moyenne(L) :
    """
    decompte(L:liste)->flottant
    """
    # VOTRE CODE
    
def mediane(L) :
    """
    decompte(L:liste)->floattant ou entier (suivant les valeurs de L)
    """
    # VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# Cellule de vérification (ne pas modifier)

Vous pouvez tester vos fonctions sur la liste `Liste_score` ci-dessous et comparer aux résultats du tableau résumé :

In [None]:
# cellule de travail
Liste_scores = list(data_monde['Score de bonheur'])


Calculez dans les cellules suivantes, pour les 3 formes d'importation du module, la déviation standard des éléments de la liste `Liste_scores` en utilisant la fonction `stdev` du module `statistics`.<br>
Il s'agit d'évaluer directement l'expresion (le nombre dois s'afficher sous la cellule sans utiliser de `print`).

In [None]:
# première forme d'importation
import statistics
# VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# deuxième forme d'importation
from statistics import *
# Rq : on évite le plus souvent ce type d'importation qui peut générer des conflits de définition.
# VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
# troisième forme d'importation
import statistics as st
# C'est la forme la plus pratique si le module est souvent utilisé
# VOTRE CODE

In [None]:
# Cellule de vérification (ne pas modifier)

Tracons maintenant un diagramme en batons des scores de bonheur des 60 premiers pays.

In [None]:
fig,ax = plt.subplots(figsize=(20,4))
sns.barplot(ax = ax,x = data_monde.index[:60], y = data_monde['Score de bonheur'].head(60))
plt.xticks(rotation=90)
ax.set_xlabel('')

On remarque que les pays sont classés par score de bonheur décroissant dans le jeu de données d'origine.<br>
Mais on peut évidemment choisir un autre critère de classement si on le désire :

In [None]:
data_monde.sort_values(by="PIB par habitant (log)",ascending=True).head(10)

In [None]:
data_monde.sort_values(by="Corruption perçue",ascending=False).head()

In [None]:
data_monde.sort_values(by="Générosité",ascending=False).iloc[[45]]

D'après la cellule précédente, le 46<sup>e</sup> (le 1<sup>er</sup> est à l'indice 0) meilleur score de générosité appartient au Danemark.

Quel pays correspond à la 59<sup>e</sup> plus courte espérance de vie en bonne santé ?

In [None]:
# Cellule de travail


In [None]:
# Remplacer 'France' par la bonne réponse (garder l'orthographe anglaise identique au jeu de données)
nom_pays = 'France'

In [None]:
# Cellule de vérification (ne pas modifier)

On peut aussi aisément filtrer le jeu de données en fonction de n'importe quel critère :

In [None]:
data_monde[(data_monde["Espérance de vie en bonne santé"]>60) & (data_monde["Espérance de vie en bonne santé"]<62)]
# Rq : pandas nécessite les opérateurs logiques bit à bit '&' (et) et '|' (ou) 
# plutôt que les opérateurs élément par élément 'and' et 'or' qui lèveraient une erreur.

Quel pays possède un score de bonheur inférieur à 5 malgré une valeur de corruption perçue inférieure à 0.5 ?

In [None]:
# Remplacer 'France' par la bonne réponse (garder l'orthographe anglaise identique au jeu de données)
nom_pays = 'France'

In [None]:
# Cellule de vérification (ne pas modifier)

Pour chaque variable mesurée (chaque colonne), on peut facilement tracer des histogrammes illustrant la répartition des valeurs.

In [None]:
sns.displot(data_monde, x="Score de bonheur", bins=20,  kde=True, height=4, aspect=3)
# bins contrôle le nombre de classes

On peut aussi tirer profit de l'interactivité pour obtenir les informations voulues directement en survolant le graphe.

On utilise pour cela la bibliothèque `Plotly express` qui sait (comme seaborn) parler à une dataframe pandas.<br>
On peut zoomer sur ces graphiques interactifs et obtenir des informations en survolant avec le curseur.

In [None]:
px.histogram(data_monde,'Corruption perçue',nbins=40,title="Corruption perçue")
# Cette fois-ci, le nombre de classes est désigné par nbins.

Modifez le graphe précedent pour répondre à cette question : combien la classe la plus peuplée de l'histogramme de l'espérence de vie en bonne santé compte-elle de valeurs si l'histogramme comporte 30 classes ?

In [None]:
# notez votre réponse (sous la forme d'un entier)
nb_valeurs =

In [None]:
# Cellule de vérification (ne pas modifier)

On peut aussi récupérer les données d'un pays en particulier :

In [None]:
data_monde.loc['France']

### Regroupement des données

On remarque que le jeu de données contient une colonne catégorielle : "Région du monde".<br> Cela va nous permettre d'explorer de possibles dynamiques régionales : est-ce que les pays d'une même zone ont des indicateurs semblables ?

In [None]:
pd.unique(data_monde["Région du monde"]) # permet d'afficher une seule fois chacune des valeurs différentes de la colonne

Traçons des diagrammes en boîte à moustaches représentant les scores de bonheur pour chacune des régions.<br>
À nouveau Seaborn rend cela très simple...

In [None]:
sns.set_style("white")
fig, ax = plt.subplots(figsize=(12,8))
sns.boxplot(ax = ax, x="Score de bonheur", y="Région du monde", palette="husl", data=data_monde)
sns.despine(offset=10, trim=True)
ax.set_ylabel('')

Traçons maintenant un graphe plus général représentant toutes les relations possibles entre deux axes du jeu de données pour voir si certaines combinaisons discriminent plus nettement les différentes régions.

In [None]:
# Un peu long à s'exécuter (environ 30 s)
g = sns.pairplot(data_monde, hue="Région du monde", corner=True)
g._legend.set_bbox_to_anchor((0.6, 0.8))

On constate que les groupes régionaux sont relativement homogènes pour la plupart des critères.

Zoomons sur un de ces graphes :

In [None]:
sns.set_style("whitegrid")
sns.jointplot(data=data_monde,x="PIB par habitant (log)", y="Score de bonheur", hue="Région du monde", kind='scatter', height=8, legend=False)

Une version interactive du même graphique permet de consulter les informations pour chaque point :

In [None]:
px.scatter(data_monde,x='PIB par habitant (log)', y='Score de bonheur', hover_name=data_monde.index, color='Région du monde')

Trouver la région du monde représentée sur le graphe suivant.
<img src="http://cordier-phychi.toile-libre.org/Info/images/graphemystere.png" width="600"/>

In [None]:
# notez votre réponse ci-dessous sous la forme d'une chaîne de caractères identique à celles du jeu de données
région = '...'

In [None]:
# Cellule de vérification (ne pas modifier)

Allons maintenant au-delà de la proximité géographique pour regrouper les pays en 3 grands blocs socioéconomiques : "Nord", "Sud", "Intermédiaire".

In [None]:
conditions = [(data_monde['Région du monde'] == 'Western Europe') | (data_monde['Région du monde'] == 'North America and ANZ'),(data_monde['Région du monde'] == 'South Asia') | (data_monde['Région du monde'] == 'Sub-Saharan Africa')]
choices = ['"Nord"', '"Sud"']
data_monde['Groupe'] = np.select(conditions, choices, default='Autres')
deux_gpes = data_monde[data_monde["Groupe"].isin(['"Nord"','"Sud"'])]

In [None]:
# Un peu long à s'exécuter (environ 30 s)
sns.set_style("white")
g = sns.PairGrid(data_monde, diag_sharey=False, hue="Groupe")
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot,common_norm=False)
g.map_diag(sns.histplot,bins=20,kde=True)
g.add_legend(title="Grands groupes",adjust_subtitles=True)

### Corrélations

Les graphiques précédents mettent en évidence des corrélations assez fortes entre certaines grandeurs.<br>
Creusons un peu.

In [None]:
g = sns.PairGrid(data_monde, y_vars=["Score de bonheur"], x_vars=["PIB par habitant (log)", "Corruption perçue"], height=7, aspect=1.5)
g.map(sns.regplot)

On constate sur cet exemple que le score de bonheur est corrélé positivement avec le PIB par habitant et négativement avec le degré de corruption perçue.

Pour avoir un panorama complet, traçons la matrice de corrélation donnant, pour chaque couple de variable, la valeur du coefficient de corrélation $r$ (valeur entre -1 et 1 traduisant le degré de dépendance linéaire entre deux variables) :

In [None]:
fig, ax = plt.subplots(figsize=(12,10))   
cmap = sns.diverging_palette(0, 230, 90, 60, as_cmap=True).reversed() # choix de la palette de couleurs
sns.heatmap(data_monde.iloc[:,1:].corr(), cmap=cmap, center=0, annot=True, fmt=".2f", linewidth = 0.5, ax=ax)

In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

In [None]:
variables = data_monde.columns.values[1:-1]
scaler = StandardScaler()
X = scaler.fit_transform(data_monde[variables])

In [None]:
pca = PCA()
components = pca.fit_transform(X)

In [None]:
exp_var_cumul = np.cumsum(pca.explained_variance_ratio_)
fig = px.bar(x=range(1, exp_var_cumul.shape[0] + 1),y=pca.explained_variance_ratio_,labels={"x": "composante", "y": "% variance expliquée"},template="none")
fig.add_scatter(x=list(range(1, exp_var_cumul.shape[0] + 1)), y=exp_var_cumul, name="", showlegend=False)

In [None]:
pca = PCA(n_components = 3)
pca.fit(X)
score_pca = pca.transform(X)

In [None]:
wcss = []
for i in range(1,21) :
    kmeans_pca = KMeans(n_clusters = i, init = 'k-means++', random_state=42)
    kmeans_pca.fit(score_pca)
    wcss.append(kmeans_pca.inertia_)
px.line(x=range(1,21),y=wcss)

Partition en K classes.

In [None]:
kmeans_pca = KMeans(n_clusters=3,init='k-means++',random_state=42)
kmeans_pca.fit(score_pca)
data_monde[["composante 1","composante 2","composante 3"]] = pd.DataFrame(score_pca, index=data_monde.index)
data_monde["Classes"]=kmeans_pca.labels_.astype(str)
data_monde.head()

In [None]:
data_monde["Classes"].dtypes

In [None]:
fig = px.scatter(data_monde,x='composante 1',y='composante 2',color='Classes',text=data_monde.index)
fig.update_traces(textposition='top right',textfont_size=8)
fig.update_layout(uniformtext_minsize=5, uniformtext_mode='hide')
labels = {str(i): f"PC {i+1} ({var:.1f}%)" for i, var in enumerate(pca.explained_variance_ratio_ * 100)}

In [None]:
fig = px.scatter_matrix(components,labels=labels,dimensions=range(3),color=data_monde["Classes"])
fig.update_traces(diagonal_visible=False)

In [None]:
pca = PCA(n_components=2)
components = pca.fit_transform(data_monde[variables])
loadings = pca.components_.T * np.sqrt(pca.explained_variance_)
fig = px.scatter(components, x=0, y=1, color=data_monde['Groupe'])
for i, variable in enumerate(variables): 
    fig.add_shape(type='line',x0=0, y0=0,x1=loadings[i, 0],y1=loadings[i, 1])
    fig.add_annotation(x=loadings[i, 0],y=loadings[i, 1],ax=0, ay=0,xanchor="center",yanchor="bottom",text=variable)
fig

### Représentation géographique

In [None]:
# Installations utiles à Geopandas
!apt install gdal-bin python-gdal python3-gdal 
!apt install python3-rtree 
# Geopandas (permet de traiter les données géographiques dans une dataframe pandas)
!pip install -q git+git://github.com/geopandas/geopandas.git
# Autres packages nécessaires à Geopandas
!pip install -q contextily
!pip install -q mapclassify

In [None]:
import contextily as cx
import mapclassify
import geopandas as gpd

In [None]:
# peut être nécessaire si exécution du notebook en local (pas Colab)
import ssl 

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

On récupère un jeu de données géométrico-géographique comprenant la forme de chaque pays (ensemble de points dessinant un polygone) pour pouvoir construire une carte.

In [None]:
url = "http://opendata.arcgis.com/datasets/a21fdb46d23e4ef896f31475217cbb08_1.geojson"
localisation = gpd.read_file(url)

In [None]:
localisation.head()

On joint les formes géométriques à notre jeu de données originel.

In [None]:
data_geoloc = localisation.set_index('CNTRY_NAME').join(data_monde)
data_geoloc.head()

On retire l'Antartique et on choisit une formule de projection pour représenter la carte (le WGS 84 des GPS ici).

In [None]:
monde = data_geoloc.to_crs("+proj=robin")
monde = monde[monde.index != "Antarctica"]

In [None]:
ax = monde.plot(figsize = (30,10), alpha=0.8, column = "Score de bonheur", cmap = "viridis", legend=True, legend_kwds={"label":"Score de bonheur"},missing_kwds={'color': 'lightgrey'})
ax.axis('off')

In [None]:
data_monde["Classes"]=data_monde["Classes"].astype(int)
ax = monde.plot(figsize = (30,10), alpha=0.8, column = "Classes", cmap = "viridis", legend=True, missing_kwds={'color': 'lightgrey'})
ax.axis('off')

Fabriquons une carte régionale en ne sélectionnant que les régions du monde qui nous intéressent.

In [None]:
region = data_geoloc[data_geoloc["Région du monde"].isin(["Western Europe","Central and Eastern Europe","Middle East and North Africa"])]
region = region.to_crs(epsg=3857) # utilise des mètres à la place des degrés
palette = sns.diverging_palette(150, 275, n=20, as_cmap=True) # dégradé pour remplacer 'viridis'

In [None]:
ax = region.plot(figsize = (20,20),alpha=0.8,column = "Score de bonheur", cmap=palette, edgecolor='w', legend=True, legend_kwds={"label":"Score de bonheur",'shrink': 0.6})
cx.add_basemap(ax, url=cx.providers.Stamen.Watercolor) # parcequ'on peut...
ax.axis('off')

Modifier les cellules qui précèdent pour que le graphique ci-dessus affiche la carte du PIB par habitant des pays d'Asie du sud.

In [None]:
# Cellule de vérification (ne pas modifier)

De quelle couleur est le Vietnam sur cette carte ?

In [None]:
# Effacer les deux réponses fausses
couleur = "vert"
couleur = "rose"
couleur = "violet"

In [None]:
# Cellule de vérification (ne pas modifier)

In [None]:
import folium

In [None]:
monde = data_geoloc.to_crs(epsg=4326)
mondo = monde.dissolve(by='CNTRY_NAME').reset_index() 

In [None]:
tuile = 'https://server.arcgisonline.com/ArcGIS/rest/services/Ocean_Basemap/MapServer/tile/{z}/{y}/{x}'

In [None]:
mondo["Classes"].astype(pd.Int32Dtype())

In [None]:
carte = folium.Map(location=[46, -1],
               tiles=tuile,
               attr='Tiles &copy; Esri &mdash; Sources: GEBCO, NOAA, CHS, OSU, UNH, CSUMB, National Geographic, DeLorme, NAVTEQ, and Esri',
               min_zoom=2, 
               max_zoom=6, 
               zoom_start=4)

folium.Choropleth(mondo,                                
                  data=mondo,                           
                  key_on='feature.properties.CNTRY_NAME', 
                  columns=['CNTRY_NAME', 'Score de bonheur'],  
                  fill_color='PiYG_r',
                  bins=11,
                  nan_fill_color='white',
                  line_weight=0.1,                       
                  line_opacity=0.5,                     
                  legend_name='Score de bonheur').add_to(carte) 

carte

## Série temporelle

Utilisons un nouveau jeu de données comprenant des relvés de conommation électrique allemands entre 2006 et 2018 :

In [None]:
url = "http://cordier-phychi.toile-libre.org/Info/github/elec_allemagne.csv"
serie_temp = pd.read_csv(url,sep=",")
serie_temp.drop(columns="Wind+Solar",inplace=True)
serie_temp

In [None]:
serie_temp.dtypes

Petit toilettage des données : on transforme les valeurs de la colonne des dates en un type date reconnu par pandas et on les utilise comme index.

In [None]:
serie_temp['Date'] = pd.to_datetime(serie_temp['Date'])
serie_temp = serie_temp.set_index('Date')
serie_temp.head()

On francise ensuite les noms de colonne...

In [None]:
serie_temp.columns = ["Consommation","Vent","Solaire"]
serie_temp.head()

Et enfin, on ajoute des colonnes "jour", "mois" et "année".

In [None]:
serie_temp['jour'] = serie_temp.index.day_name()
serie_temp['mois'] = serie_temp.index.month
serie_temp['année'] = serie_temp.index.year
serie_temp["date"] = serie_temp.index
serie_temp["date"]=serie_temp["date"].dt.date # pour aider Colab qui a des soucis avec les dates
serie_temp.head()

In [None]:
fig = px.line(serie_temp,x='date',y='Consommation')
fig.add_scatter(x=serie_temp['date'], y=serie_temp['Vent'], mode='lines',name='Vent')
fig.add_scatter(x=serie_temp['date'], y=serie_temp['Solaire'], mode='lines',name='Solaire')
# px.line(serie_temp[["Consommation","Vent","Solaire"]]) devrait normalement suffire mais Colab fait des siennes

On constate d'importantes variations saisonnières.

In [None]:
zoom = serie_temp[serie_temp['année']==2016]
fig1 = px.line(zoom,'date','Consommation')
fig2 = px.scatter(zoom,'date','Consommation',color='jour')
fig = go.Figure()
fig.add_traces([fig1.data[0],*[fig2.data[i] for i in range(7)]])

Une variabilité hebdomadaire se superpose à la tendance saisonnière.

Traçons une boîte à moustaches de la répartition des 3 variables mois par mois :

In [None]:
fig, axes = plt.subplots(3, 1, figsize=(15, 10), sharex=True)
for var, ax in zip(['Consommation', 'Solaire', 'Vent'], axes):
    sns.boxplot(data=serie_temp, x='mois', y=var, ax=ax)  
    ax.set_ylabel('GWh')
    ax.set_title(var)  
    if ax != axes[-1]:
        ax.set_xlabel('')

On observe que :
- les trois graphes présentent bien une variabilité saisonnière ; la consommation électrique est plus forte en hiver ainsi que la production éolienne (même si l'écart est moins marqué) et la production solaire est beaucoup plus importante en été.
- beaucoup de valeurs se retrouvent à l'extérieur des moustaches supérieures pour la production éolienne, ce qui est probablement dû à des périodes de fort vent.

Regardons maintenant jour par jour :

In [None]:
serie_temp["date"]=(serie_temp.index.strftime('%d %B'))
px.box(serie_temp,x='jour', y='Consommation',hover_data={"date"})

Pourquoi y a-t-il autant de points au-delà des moustaches les jours de semaine ?

In [None]:
# Écrire votre explication dans la chaîne de caractères ci-dessous
explication = """
bla
bla
bla
"""

In [None]:
# Cellule de Vérification (ne pas modifier)