# Formation Pratique 2 : Librairies Python

**Cette formation pratique est optionnelle : si vous maitrisez déjà les outils numpy matplotlib et pandas, vous pouvez en ignorer le contenu**

Le but de cette formation pratique est d'introduire des outils indispensables pour la manipulation et la visualisation de données, qui seront utilisés tout au long de ce cours. En particulier, nous allons voir quatre outils : numpy pour le calcul matriciel et diverses fonctions mathématiques, matplotlib pour la visualisation de données, pandas pour l'analyse et la manipulation de données, et seaborn pour faire des représentations plus élaborées.

<hr>

# 1. NumPy

```NumPy``` est une librairie indispensable en Python. Elle nous permettra de définir un nouveau type de données, les "arrays" (tableaux) qui nous permettra de réaliser efficacement des calcules matriciels et autres opérations mathématiques. 

Pour approfondir, se référer à [la documentation](https://numpy.org/doc/stable/reference/).

Commençons par importer NumPy ...

In [None]:
import numpy as np

## 1.1. Tableaux (arrays)

Nous pouvons à présent définir des tableaux, par exemple en convertissant une liste en tableau :

In [None]:
a = np.array([1,2,3])
print(a)

In [None]:
b = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(b)

On remarquera que dans ce cas, la variable ```b``` est définie à partir d'une liste de liste, et sera donc interprété comme une matrice de deux dimensions (3x3) dans ce cas. On peut regarder la forme d'un tableau en utilisant ```shape```

In [None]:
print(a.shape)

In [None]:
print(b.shape)

La fonction ```shape``` retourne un tuple contenant la taille de chaque dimension. La variable ```a``` est vue comme étant un tableau à une seule dimension dont la taille est 3, alors que ```b``` est une matrice de deux dimensions dont chaque dimension est égale à 3.

Comme avec les listes, nous pouvons réassigner les éléments d'un array et y accéder. Si un tableau est en plusieurs dimensions, on y accède en lui donnant la liste des index :

In [None]:
# Ne pas oublier que la colonne 2, en python, correspond a la troisième colonne ! la première colonne est indiquée comme étant la colonne 0

print(b[1,2]) # imprime l'élément de la ligne 1, colonne 2 de b

In [None]:
print(b[2,0]) # imprime l'élément de la ligne 2, colonne 0 de b

On peut aussi créer des tableaux remplis de 1 ou de 0, en indiquant uniquement la forme voulue :

In [None]:
a = np.ones((4,3,2)) # (4x3x2) avec des 1
print(a)

In [None]:
b = np.zeros((2,)) # (2,) avec des 0
print(b)
print(b.shape)

Dans cet exemple, a est une matrice de dimension 3 (taille 4x3x2) remplie de '1', alors que b est une matrice de dimension 1 (taille 2) remplie de '0'.

La librairie numpy dispose d'un grand nombre d'implémentations d'opérations mathématiques utiles:

In [None]:
a = np.ones((2,3))

print(np.mean(a)) # calcule la valeur moyenne des éléments de a
print(np.var(a)) # calcule la variance des éléments de a

print(np.mean(a, axis=0)) # calcule la moyenne des éléments de 'a' pour chaque ligne, et les renvoie dans un nouveau tableau

In [None]:
a = np.ones((2,3))
b = np.ones((3,4))

print("a*b ...\n",np.dot(a,b)) # calcule le produit matriciel de a par b
print("a+a ...\n",a + a) # additionne a avec lui-même

Numpy permet d'implémenter très simplement des opérations qui nécessiteraient normalement un certain nombre de boucles :

In [None]:
a = np.array([[0,1,2,3],[4,5,6,7]])
print(a)
print(a > 2) # a>2 calcule pour chaque élément de a s'il est supérieur à deux, et renvoie True ou False. Le résultat est sous la forme d'un array de même taille
print(a[a > 2]) # renvoie la liste des éléments de a aux indices où a est plus grand que 2. Donc, la liste des éléments de a plus grand que 2.

On peut calculer simplement le déterminant et l'inverse d'une matrice carrée.

In [None]:
une_mat_int = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])

In [None]:
une_mat_int.shape

In [None]:
# Déterminant ...

np.linalg.det(une_mat_int)

In [None]:
np.linalg.inv(une_mat_int)

## 1.2. Géneration Aléatoire

Numpy est aussi utilisé pour générer des valeurs aléatoires. Pour cela, on se sert de ```numpy.random```. 


In [None]:
print("matrice aléatoire 3x2 ...\n",np.random.randn(3,2)) # génère un tableau de forme 3x2 dont les éléments sont tirés d'une loi normale de moyenne 0 et de variance 1
print("1 entier aléatoire entre 0 et 99 ...\n",np.random.randint(100)) # génère un entier aléatoire entre 0 et 99

On peut fixer le "seed" de numpy, ce qui permettra de reproduire les mêmes générations aléatoires à chaque exécution, et donc d'avoir des résultats reproduisibles:

In [None]:
np.random.seed(seed=1)
print(np.random.randint(10**9))

np.random.seed(seed=3)
print(np.random.randint(10**9))

np.random.seed(seed=1)
print(np.random.randint(10**9))

Le 1er et le 3e entier générés sont les mêmes, car ils ont été générés après avoir fixé le seed à la même valeur. Le second n'est pas le même, car le seed diffère. À chaque éxecution, on obtient les mêmes valeurs, car les seeds sont fixés.

<hr>

# 2. Matplotlib

```Matplotlib``` est une librairie permettant de tracer des courbes représentant des données en deux ou trois dimensions. Le nombre de méthodes disponibles et leurs paramètres sont extrêmement grands, c'est pourquoi nous n'en présenterons ici que les principaux. 

Pour approfondir, se référer à [la documentation](https://matplotlib.org/stable/contents.html).

Commençons par importer la librairie, ainsi que numpy

In [None]:
import matplotlib.pyplot as plt
import numpy as np

À présent, nous allons simplement chercher à tracer la courbe $y=cos(x)$ pour x compris entre $0$ et $5$. 

Pour cela, nous allons commencer par générer un ensemble de points x, régulièrement espacés par intervalle 0.1 entre 0 et 5 (soit 50 points au total):

In [None]:
x = np.arange(0, 5, 0.1)
print(x)
print(len(x))

On calcule à présent, grâce à numpy, le cosinus de chaque valeur de $x$, et on le stock dans une liste $y$.

In [None]:
y = np.cos(x)
print(y)

Nous pouvons maintenant directement tracer $y=cos(x)$ en se servant de ces valeurs, grace à ```matplotlib``` !

In [None]:
plt.plot(x, y)

C'est aussi simple que ça. Nous pouvons maintenant ajouter la courbe $y=sin(x)$ en plus de la courbe précédente : 

In [None]:
y2 = np.sin(x)
plt.plot(x,y)
plt.plot(x,y2)

Notez que notre courbe est dépourvue de légende. Matplotlib est pourvu d'un grand nombre d'outils pour personnaliser la figure produite :

In [None]:
plt.plot(x,y)
plt.plot(x,y2)
plt.xlabel('x')
plt.ylabel('cosinus et sinus')
plt.title('cosinus et sinus entre 0 et 5')
plt.legend(['cosinus', 'sinus'])

Si à la place de tracer une courbe en reliant chaque point au précédent, on souhaite simplement tracer les points individuellement, on peut utiliser la méthode ```scatter```:

In [None]:
plt.scatter(x,y)

Mettons maintenant qu'on veut représenter des courbes sur des figures différentes (par exemple parce que l'on s'intéresse à des abscisses différentes). La méthode subplot permets exactement de faire cela :

In [None]:
plt.subplot(2, 2, 1) # sépare la figure en 2 colonnes et deux lignes, et se concentre sur la sous-figure d'indice 1 en haut à gauche
plt.plot(x, y)
plt.subplot(2, 2, 2) # se concentre sur la sous-figure d'indice 2, en haut à droite
plt.plot(x, y, c='r') # trace la courbe en couleur 'r' = red
plt.subplot(2, 2, 3) # se concentre sur la sous-figure d'indice 3, en bas à gauche
plt.plot(x, y2)
plt.subplot(2, 2, 4) # se concentre sur la sous-figure d'indice 4, en bas à droite
plt.plot(x, y2, c='r') # trace la courbe en couleur 'r' = red


Notez comme on a changé la couleur avec l'argument optionnel ```c=```

Enfin, pour terminer ce bref tour des principaux outils de matplotlib, voyons la méthode ```hist```, qui permet de créer un histogramme:

In [None]:
y = [0, 5, 2, 4, 11, 3, 5, 4, 4, 4, 2, 4, 11]
plt.hist(y)

```hist``` va parcourir la liste y et compter le nombre de chaque élément, avant de représenter le compte sous forme d'un histogramme. Notez que la méthode renvoie aussi la liste des limites entre les intervalles sur lesquels les éléments sont groupés, ainsi que la liste d'éléments comptés par intervalles. La méthode dispose de nombreuses options pour personaliser les intervaux et l'apparence de l'histogramme. Pour en savoir plus, se référer à la documentation.

<hr>

# 3. Pandas

La librairie ```pandas``` (de "panel data") permet de manipuler des données sous forme de tableau (dataframe). Pandas offre plusieurs fonctionnalités semblables à celle du langage R. Il permet, entre autres, de remplacer des valeurs manquantes, de joindre des tables, de produire des statistiques descriptives, etc.

Pour approfondir, se référer à [la documentation](https://pandas.pydata.org/docs/user_guide/index.html).


Pour en illustrer les capacités, nous allons nous servir du jeu de données Adult, qui provient de http://mlr.cs.umass.edu/ml/datasets/Adult. Ce jeu est basé sur des données de recensement. Il faut prédire si un individu gagne plus de 50000$ ou non. En tout, il y a près de 32000 individus ayant 14 caractéristiques, dont l'âge, le sexe, le pays d'origine, etc. Donc, certaines variables sont continues (ex. l'âge) et d'autres sont discrètes et parfois non ordinales (ex. le pays d'origine). De plus, il y a certaines valeurs qui sont manquantes.

Importons la librairie pandas

In [None]:
import pandas as pd

À présent, téléchargeons le jeu de données Adult à partir du github du cours :

**Attention!** Si vous exécutez dans une instance locale de colab, assurez-vous d'avoir la commande ```wget``` sur votre machine.

In [None]:
!wget -nc https://raw.githubusercontent.com/Cours-EDUlib/DIRO-SD1FR/master/FP/FP2/adult.csv

La méthode read_csv lit pour nous le fichier csv et le met sous le format dataframe. Si jamais vous avez de la difficulté à ouvrir un fichier, regardez la documentation de ```read_csv``` ainsi que les autres méthodes permettant d'ouvrir des fichiers (ex. ```read_sql```, ```read_excel```). Il est entre autres possible de changer les caractères utilisés pour délimiter les champs (paramètre sep) et d'utiliser un fichier sans entête (header).

In [None]:
df = pd.read_csv("adult.csv")

Utilisons une méthode des dataframes qui est très utile: ```head()``` qui permet d'afficher l'entête et les 5 premières rangées du dataframe.

In [None]:
df.head()

Déjà, nous pouvons voir le format des données et constater que certaines cases sont marquées d'un point d'interrogation. Pour avoir une vision globale un peu plus précise, utilisons la méthode ```describe()``` qui donne quelques statistiques descriptives sur les variables continues.

In [None]:
df.describe()

La rangée mean (moyenne) est particulièrement intéressante. Notons également les rangées min et max qui peuvent permettre d'identifier rapidement la présence de données aberrantes. Maintenant, grâce à la méthode ```unique()```, regardons les différentes valeurs prises par des variables discrètes.

In [None]:
print(df['race'].unique())
print(df['workclass'].unique())
print(df['education'].unique())

Pandas nous permet également de sélectionner des données en donnant une condition. Par exemple, si nous voulons comparer le nombre moyen d'années d'éducation des hommes par rapport à celui des femmes, il suffit de faire:

In [None]:
print(df[df['gender'] == 'Male']['educational-num'].mean())
print(df[df['gender'] == 'Female']['educational-num'].mean())

En fait, il existe une manière plus pratique de regarder des statistiques de groupes. La méthode ```groupby()``` permet d'obtenir des statistiques simples (moyenne, écart-type, minimum, maximum, etc) en groupant les données selon une certaine colonne. Donc, pour reprendre l'exemple précédent, nous aurions:

In [None]:
print(df.groupby(['gender'])['educational-num'].mean())

La fonction ```group_by``` est surtout pratique lorsqu'il y a un grand groupe présent:

In [None]:
print(df.groupby(['workclass'])['hours-per-week'].mean())

In [None]:
print(df.groupby(['workclass'])['hours-per-week'].count())

In [None]:
print(df.groupby(['workclass'])['hours-per-week'].min())

In [None]:
print(df.groupby(['workclass'])['hours-per-week'].max())

Il est possible de grouper les données selon plusieurs colonnes. Par exemple, si nous voulons avoir la répartition des hommes et des femmes par rapport à la catégorie >50K et <=50K, il suffit de passer les deux colonnes en argument à ```groupby```:

In [None]:
df.groupby(['gender', 'income'])['gender'].count()

Pour regarder s'il y a une corrélation entre deux variables, il suffit d'utiliser la méthode ```corr()```.

In [None]:
df['educational-num'].corr(df['age'])

In [None]:
df['educational-num'].corr(df['hours-per-week'])

Il est également possible d'afficher la distribution de variables en utilisant matplotlib. Ici, par exemple, on utilise hist afin d'afficher un histogramme du nombre d'heures de travail par semaine.

In [None]:
plt.hist(df['hours-per-week'])

De la même manière que nous avons sélectionné les hommes et les femmes, nous pouvons modifier ou supprimer des rangées ayant certaines valeurs. Par exemple, nous pourrions décider d'enlever les rangées dont l'occupation est ?.

In [None]:
df_modified = df[df['occupation'] != '?']
df_modified.head()

Pour terminer, il est possible de sauvegarder le dataframe en utilisant la méthode ```to_csv()``` (en général, ```to_``` suivi du format de fichier souhaité).

In [None]:
df_modified.to_csv('adult_modified.csv')

Nous ne pouvons malheureusement pas couvrir toutes les fonctionnalités de pandas... Mais pour en nommer seulement deux autres importantes: ```apply()``` et ```merge()```. La méthode ```apply()``` permet d'appliquer une fonction qu'on lui donne en argument sur l'ensemble des rangées. La très utile fonction ```merge()``` permet de joindre des tables à la manière du ```JOIN``` de ```SQL```.

<hr>

# 4. Seaborn

La librairie ```seaborn``` offre des fonctionnalités de haut niveau. Il permet des représentations plus élaborées. Il est basé sur matplotlib. Il s'interface aisément avec pandas.

Pour approfondir, se référer à [la documentation](https://seaborn.pydata.org/tutorial.html).


Importons la librairie seaborn.

In [None]:
import seaborn as sns
sns.set()

In [None]:
sns.histplot(data=df['hours-per-week'],binwidth=10)

Les données sont les mêmes. La visualisation est légèrement différente dans ```seaborn```. On note la présence de la grille.

La fonction **displot** permet de dessiner en plus de l'histogramme, une distribution de probabilité des observations.

In [None]:
sns.displot(data=df['hours-per-week'],kde=True,binwidth=10)

Juste la densité ...

In [None]:
sns.displot(data=df['hours-per-week'],kind='kde')

## pairplot

<br>On définit un nouveau DataFrame qui comprend uniquement les variables quantitatives.

In [None]:
df_reduit = df[['age', 'fnlwgt', 'educational-num', 'hours-per-week']]

On vérifie l'entête du DataFrame

In [None]:
df_reduit.head()

La fonction ```pairplot``` permet de dessiner les relations qui existent entre les différentes variables.
C'est une sorte de matrice. Les éléments sur la diagonale sont les 'distplot' mentionnés précédemment.
Les autres éléments sont des nuages de points qui représentent un croisement de variables.
<br>Pour cet exemple, il s'agit de la corrélation entre **age**, **fnlwgt**, **educational-num** et **hours-per-week**.

In [None]:
sns.pairplot(df_reduit)
plt.legend([],[],frameon=False)

Le paramètre **hue** permet d'ajouter une sorte de "3e dimension" au dessin. Cette dimension n'est autre que la couleur.
<br>Le paramètre permet de définir le nom de la colonne du DataFrame à utiliser.

In [None]:
sns.pairplot(df, hue='income', vars=['age', 'fnlwgt', 'educational-num', 'hours-per-week'])

## scatterplot

<br>**scatter** permet de dessiner un nuage de point. Mais comment le fait-on à la sauce seaborn?

In [None]:
sns.scatterplot(x='age', y='educational-num', data=df)

## jointplot

<br>**jointplot** en plus de dessiner le nuage de points pour les deux variables, elle y ajoute aussi l'histogramme de chaque variable.

In [None]:
sns.jointplot(x='age', y='educational-num', data=df)

## boxplot

<br>On affiche les boîtes à moustaches pour la variable **income** en fonction de la variable **age**.

In [None]:
sns.set(rc={'figure.figsize':(8,8)})
ax = sns.boxplot(x='income',y='age',data=df)
ax.set_xticklabels(ax.get_xticklabels(),rotation=45)
plt.show()

## heatmap

<br>On peut créer un tableau croisé dynamique à la sauce Excel.
- L'axe 'x': est représenté par la variable 'income'.
- L'axe 'y': est représenté par la variable 'native-country'.
- La variable 'hours-per-week' sert à déterminer l'intensité de la couleur.
- On utilise la moyenne comme fonction d'agrégation.

In [None]:
df2 = df.pivot_table(index='native-country', columns='income', values='hours-per-week', aggfunc='mean')
sns.heatmap(df2, cbar_kws={'label': 'hours-per-week'})