# Introduction à la Science des données


## Travail pratique 02 – Outils pour le calcul scientifique II 


### Table des matières

[Analyse des données socio-économiques](#Analyse-des-données-socio-économiques)

[- Bases](#Bases)

[- Histogrammes](#Histogrammes)

[- Manipulations des données](#Manipulations-des-données)

[- Manipulations et graphiques](#Manipulations-et-graphiques)






**Professeurs**: Carlos Peña et Stephan Robert

**Assistant(s)**: Thibault Schowing

**Contact**: prenom.nom@heig-vd.ch ou de préférence via Teams pout l'assistant

**Rendu**:
- Date: 07.11.2022, 23h55

- Modalité: Travail individuel. Une fois complété, rendez directement le notebook nommé correctement comme suit "**TP2_ISD_SA2022_Nom_Prenom.ipynb**" en remplaçant Nom et Prenom par les votres, y compris ci-dessous, puis uploader votre fichier sur Cyberlearn.

- Les questions sont généralement indiquées en **gras** ou par une liste d'instructrions et les endroits où répondre sont indiqués par un "*Réponse:*" pour les réponses textuelles. 
- Pour les réponses nécessitant d'écrire du code, les cellules ont déjà été crées et un commentaire indique où/quoi répondre.

- Note: Ce TP est noté sur 6, pour un poids de 5%

**Étudiant**:
- Prénom Nom

<div class="alert alert-block alert-success">
<b>Objectifs </b>
</div>

- Se familiariser avec la bibliothèque Pandas de gestion et traitement des dataframes.
- Mise en pratique de l'analyse et la caractérisation simple des attributs d’une base de données.



<div class="alert alert-block alert-info">
<b>Aide - Différentes Cheatsheets recommandées pour accompagner le TP.  </b>
</div>

N'oubliez pas que vous pouvez retourner vers le TP1 si vous avez des questions sur Python, Numpy, Pandas ou Matplotlib. 

- [Data wrangling with Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Matplotlib cheatscheets](https://matplotlib.org/cheatsheets/)



<div class="alert alert-block alert-info">
<b>Corrections: </b> Ce notebook vous sera renvoyé via Cyberlearn ou  un autre canal. Les informations principales concernant les corrections seront indiquées après chaque section (banière bleue) avec le nombre de points. Il est possible que des remarques concernant le code soient directement ajoutées dans celui-ci.
</div>


### 1.	Analyse des données socio-économiques

La fondation gapminder fondée par Hans Rosling et famille, fournit une base de données sur les pays, des outils d’analyse et des études d’analyse socio-économique très intéressantes. Les petits sets de données que nous allons utiliser peuvent sembler insignifiants mais une analyse objective et factuelle des données, comme le promeut la [fondation Gapminder](https://www.projectrosling.ch/fr/concept/), peut rapidement changer votre perception du monde !

Nous allons utiliser une petite base de données contenant la population, l’espérance de vie et le PIB par habitant pour différents pays du monde de 1952 à 2007, pour faire quelques analyses.

**N'hésitez pas à ouvrir votre TP1 pour avoir les quelques bases à portée de vue pour vous aider dans ce labo et les suivants !**


- Dans l'environnement Anaconda utilisé par Jupyter (l'environnement que vous avez inscrit comme kernel), commencez par importer le module gapminder avec pip: *pip install gapminder*. Une fois installé ce module, vous aurez accès à un dataframe appelé gapminder. 

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from gapminder import gapminder


# Pour plus de clareté et pour la tradition, on appelle notre DataFrame "df" 
df = gapminder

___
**1.1) Utilisez les méthodes head(), describe() et info() pour vous familiariser avec le DataFrame.**

In [None]:
# Utilisez la méthode head()


In [None]:
# Utilisez la méthode describe()


In [None]:
# Utilisez la méthode info()


**1.2) Décrivez brièvement le contenu du dataset. Quelles sont les données présentes ? Que signifient-elles ?**

(2 points)


*Réponse:*

**1.3) Décrivez le contenu des résultats renvoyés par les trois méthodes ci-dessus:**

(3 points)

*Description head():*


*Description describe():*


*Description info():*

<div class="alert alert-block alert-info">
<b>Corrections: </b> Points obtenus: /5
</div>

Remarques: 

___
### Histogrammes

**2.1) Utilisez la commande *pandas.DataFrame.hist(df)* ci-dessous pour vous faire une idée plus précise des valeurs dans la base de données.** 

In [None]:
# Observez bien la notation utilisée et comment s'utilise la fonction "pandas.DataFrame.hist(df)"
# On ajoute la taille de figure en paramètres pour plus de clareté.

df.hist(figsize=(16, 10));

**2.2) Décrivez rapidement les quatre histogrammes ci-dessus. Que remarquez-vous avec l'histogramme représentant la variable "year" ?** 

(3 points)

*Réponse:*




**2.3) Exécutez le code ci-dessous puis répondez aux questions suivantes:**

(2 points)

- Que représente le paramètre "bins" ? Aidez-vous de [la doc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html) si nécessaire.

*Réponse:*

- Quelle conclusion pouvez vous tirer concernant la représentation de la variable "year" dans le dataset ?

*Réponse:*


In [None]:
# Code question 2.3
df["year"].hist(figsize=(7, 7), bins = 55);

<div class="alert alert-block alert-info">
<b>Corrections: </b> Points obtenus: /5
</div>

Remarques: 

___

### Manipulations des données

**3.1) Trouvez combien d’observations il y a par pays et par année (c.a.d., combien de données par pays et par année) et vérifiez s’il y a des données manquantes.** 

(3 points)

Pour vérifier s'il y a des données manquantes, vérifiez simplement qu'aucun pays/année n'a moins de données que les autres. Ecrivez vos conclusions dans la cellule ci-après. 

Pour cela, utilisez les fonctions: *groupby()* avec comme paramètres "year" et "country" puis *size()* pour avoir la taille. Observez en premier à quoi ressemble le résultat de ces deux fonctions puis enchaînez avec *describe()* afin d'en tirer des conclusions. 

Regardez les exemples de [la doc pour la fonction groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) afin de voir comment **chaîner les méthodes**.

In [None]:
# Écrivez votre code ici. Note: une seule ligne suffit. 



**3.2) Combien de mesures ont été faites par année ? (pas besoin d'utiliser *describe()*)**

(2 points)

In [None]:
# Écrivez votre code ici. Note: une seule ligne suffit. 



**3.3) Que pouvez-vous conclure concernant les donneés manquantes:**

(1 point)

*Réponse:*

___
**3.4) Listez les valeurs uniques présentes dans les colonnes ‘continent’, ‘country’, et ‘year’. Utilisez la méthode *unique()*.** 

(3 points)

Aide: vous pouvez utiliser *df['Nom Colonne']* ou *df.loc[:,'Nom colonne']* pour retourner directement le contenu d'une colonne. 

In [None]:
# Écrivez votre code ici. Note: une seule ligne suffit par colonne. Affichez vos résultats dans des cellules différentes.  

# Continent


In [None]:
# Country


In [None]:
# Year


<div class="alert alert-block alert-info">
<b>Corrections: </b> Points obtenus: /9
</div>

Remarques: 

___

### Manipulations et graphiques

**4.1) Calculez la moyenne de l’espérance de vie de tous les pays en 1952 et en 2007. Générez un bar chart permettant la comparaison de ces moyennes.**

(5 points)

Pour sélectionner les données des bonnes années, regardez les [exemples de la doc ("Getting values")](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) pour vous aider à comprendre comment faire à l'aide de conditions. 


Une fois que vous avez un nouveau DataFrame avec uniquement les données de 1952 et 2007, gardez uniquement les colonnes d'intérêt (year et lifeExp), groupez les données par année et calculez la moyenne de l'espérence de vie. Une fois ceci fait, utilisez la fonction ```df.plot.bar()``` 

Aide: vous pouvez utiliser plusieur .loc[] d'affilée, une fois pour choisir les années, et une fois pour choisir les colonnes d'intérêt. **Regardez l'exemple ci-dessous pour vous aider**.

Notes: toutes ces opérations peuvent être effectuées à la chaîne, en une seule ligne. Si vous souhaitez faire cela petit à petit, n'oubliez pas d'enregistrer vos résultats intermédiaires dans une variable: ``` tmp_df = df.loc["exemple"]```. **Vous pouvez créer des cellules supplémentaires si vous l'estimez nécessaire.**




In [None]:
# Écrivez votre code ici




Ci-dessous, un petit **exemple** qui utilise le "method chaining". Cette notation, qui profite du fait que chaque methode Pandas retourne un DataFrame auquel on peut appliquer une nouvelle méthode, augmente grandement la lisibiltié du code. Vous trouvez une section avec un exemple sur [La cheat sheet "Data wrangling with Pandas"](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). 

>Most pandas methods return a DataFrame so that another pandas method can be applied to the result. This improves readability of code.


En plus de chaîner les méthodes, le graphique est rendu beaucoup plus lisible en y ajoutant des axes bien nommés, un titre et des labels inclinés. Libre à vous de vous inspirer de cet exemple pour l'exercice 5. 

In [None]:
# Exemple

ax = (df
      .loc[:, ['continent', 'lifeExp']]
      .groupby('continent')
      .mean('lifeExp')
      .plot.bar(rot=45, figsize=(16, 8))
      )
ax.set_title('Overall mean of life expectancy per continent', fontsize=14)
ax.set_xlabel('Continent', fontsize=12)
ax.set_ylabel('Life expectancy', fontsize=12);


___


**4.2) Calculez la moyenne de l’espérance de vie des pays par continent en 1952 et en 2007. Générez un bar chart permettant la comparaison de ces moyennes.**

(5 points)

Comme pour l'exercice précédent, vous devez transformer vos données avant de les afficher. Ici vous devez grouper sur deux niveaux: par année puis par continent. Le graphique final aura un aspect similaire à celui ci-dessus, avec deux barres par continent: une pour 1952 et une pour 2007.

Pour avoir le format de données attendu pour générer l'histogramme ( Continent | 1952 | 2007 ) voous devrez utiliser la fonction [unstack()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html). Lisez rapidement la documentation pour en comprendre le sens puis transformez vos données ci-dessous. On vous conseille de lire [cet article de la documentation](https://pandas.pydata.org/docs/user_guide/reshaping.html) pour bien comprendre les différentes manipulations appliquées aux données. Des exemples avec images permettent une bonne compréhension, spécialement pour la fonction *unstack()* qui peut être un peu abstraite au début. 


**Note:** dans la cellule à compléter ci-dessous, le résultat n'est pas affecté à une variable mais uniquement affiché en sortie pour tester le code. Pour affecter le résultat remplissez la cellule d'après comme indiqué, avec le résultat de vos essais. 



In [None]:
# Testez votre code ici (qui ne fait qu'afficher le dataFrame transformé). Profitez de "jouer" avec les différentes fonctions.

(df
 #.loc[]
 #.query()                           # Vous pouvez utiliser query() ou loc[] selon vos préférences
 #.groupby()
 #.mean()
 #.unstack()                         # Testez la fonction unstack() 
 )

In [None]:
# Ajoutez votre code ici pour créer le dataFrame df_life_exp. Sans modification il sera égal à df

df_life_exp = (df
 #.loc[]
 #.query() / loc[]
 #.groupby()
 #.mean()
 #.unstack()
 )

df_life_exp 

In [None]:
# Exécutez cette cellule pour afficher le graphique une fois df_life_exp formaté correctement.

# Barplot des deux années, par continent
ax = (df_life_exp
      .plot.bar(rot=45, figsize=(16, 6))
      )
ax.set_xlabel('Continent', fontsize=12)
ax.set_ylabel('Life Expectancy', fontsize=12)
ax.set_title('Life Expectancy by continent in 1952 and 2007', fontsize=14)
# Rename legend to remove the None and the `LifeExp`.
ax.legend(labels=['1952', '2007'])


**4.3) Question** 

Quel pays affiche la plus grande progression de l'espérance de vie ?

(1 point)

Pour en être sûr, regardez la différence entre les moyennes des deux années en exécutant le code ci-dessous. Jettez un oeil à la fonction [pandas.diff()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.diff.html). Donnez votre réponse en plus d'une courte explication de la fonction *diff()*. 

*Réponse:* 

In [None]:
# On peut voir la progression en faisant la différence entre les deux colonnes (1952 et 2007).

df_life_exp.diff(axis=1) # Note: axis=0 -> par "rows", axis=1 -> par "columns"

<div class="alert alert-block alert-info">
<b>Corrections 4.1 - 4.3: </b> Points obtenus: /11
</div>

Remarques: 

___
**Afin de visualiser la population par continent au fil du temps, nous créons le graphique ci-dessous.**

In [None]:
# Evolution of the population by continent from 1952 to 2007.
ax = (df
      .loc[:, ['year', 'continent', 'pop']]
      .groupby(['year', 'continent'])
      .mean('pop')
      .unstack('continent')
      .plot(rot=45, figsize=(16, 8))
      )
ax.set_xlabel('Year', fontsize=12)
ax.set_ylabel('Population', fontsize=12)
ax.set_title('Population by continent from 1952 to 2007', fontsize=14)
ax.legend(sorted(df['continent'].unique()))


**4.4) Que pouvez vous conclure à partir de ce graphique ?**

(1 points)

*Réponse:*

**4.5) Décrivez chaque étape de transformation des données.**

(5 points)

Par exemple:

*.loc[:, 'X'] : extrait la colonne "X" du DataFrame*

*.method : fait quelque chose*

...


*Réponse:*

**4.6) Affichez les données transformées qui sont passées à la fonction *plot()***. (recopiez simplement le bout de code concerné)

(2 points)

In [None]:
# Écrivez votre code ici:



In [None]:
#SOLUTION

(df
      .loc[:, ['year', 'continent', 'pop']]
      .groupby(['year', 'continent'])
      .mean('pop')
      .unstack('continent'))

<div class="alert alert-block alert-info">
<b>Corrections 4.4 - 4.6: </b> Points obtenus: /8
</div>

Remarques: 

**4.7) Lisez attentivement le code du graphique suivant et ses commentaires. Ajoutez _une seule ligne_ pour définir comme taille de points du scatterplot, la population de chaque pays en million.**

(2 points)

Vous pouvez trouver le paramètre à ajouter dans [la doc](https://pandas.pydata.org/pandas-docs/version/0.25.0/reference/api/pandas.DataFrame.plot.scatter.html). 

In [None]:
import matplotlib.cm as cm
NCOLORS = 5

fig, axs = plt.subplots(1, 2, sharey=True, sharex=True, figsize=(20, 8))

# Colormap for the continents.
cmap = list(cm.get_cmap("rainbow")(np.linspace(0, 1, NCOLORS)))

# Vous pouvez aussi définir les couleurs manuellement
# cmap = ["black","red","yellow","blue","green"]


for i, year in enumerate((1952, 2007)):
    data = df.query('year == @year')
    
    # Plot each continent as a different color in order to have a legend. 
    
    # Observez bien: 
    # - la fonction ennumerate et ce qu'elle retourne
    #     La fonction ennumerate() renvoie un index en plus des éléments d'une liste. 
    #     Ici elle retourne c, l'index, ainsi qu'un tuple avec le groupe et le dataframe correspondant.
    #     Pour accéder à la population de chaque pays on peut par exemple utiliser df_continent['pop']
    
    for c, (continent, df_continent) in enumerate(data.groupby('continent')):
        
        # Scatterplot
        df_continent.plot.scatter(ax=axs[i], 
                                  x='gdpPercap', 
                                  y='lifeExp', 
                                  color=[cmap[c]], 
                                  label=continent, 
                                  alpha=0.8)
    
    # Plot style
    
    axs[i].set_title(year, fontsize=14)
    axs[i].set_xlabel('GDP per capita', fontsize=12)
    axs[i].grid(axis='y', linestyle='--', alpha=0.4, lw=0.5)
    
    
    # Remove border on the top and right.
    axs[i].spines['top'].set_visible(False)
    axs[i].spines['right'].set_visible(False)
    # Set alpha on remaining borders.
    axs[i].spines['left'].set_alpha(0.4)
    axs[i].spines['bottom'].set_alpha(0.4)

    # Only show ticks on the left and bottom spines.
    axs[i].xaxis.set_ticks_position('bottom')
    axs[i].yaxis.set_ticks_position('left')
    # Style of ticks.
    plt.xticks(fontsize=10, alpha=0.7)
    plt.yticks(fontsize=10, alpha=0.7)
    
axs[0].set_ylabel('Life Expectancy', fontsize=12)
fig.suptitle('Scatter plot with life expectancy by dgpPercap by country for 1951 and 2007', fontsize=16)


**4.8) Analyse: Décrivez cette figure et répondez aux questions suivantes:**

(5 points)

- Quel est le principal message transmi ? 
- Quelles informations peut-on y trouver ? 
- Est-ce un bon graphique ? Que pourrait-on ajouter / supprimer pour le rendre plus riche en information ou plus pertinent ?


*Réponses:*

<div class="alert alert-block alert-info">
<b>Corrections 4.7 - 4.8: </b> Points obtenus: /7
</div>

Remarques: 