# Visualisation

Comprendre les données enregistrées dans un *dataset* ne passe pas uniquement par la description de ses variables, mais aussi par la projection de graphiques. Si un schéma vaut parfois mieux qu’un long discours, un diagramme permet de mettre rapidement en évidence une tendance, de révéler une structure ou encore de fournir une idée de l’évolution d’un trait.

La librairie *Seaborn* répond à tous les besoins en analyse multivariée.

## Aperçu de la librairie *Seaborn*

*Seaborn* est une librairie de visualisation de données qui simplifie les commandes de la célèbre *Matplolib* tout assurant avec elle une compatibilité maximale afin de profiter de ses performances de personnalisation. Elle s’intègre par ailleurs parfaitement bien avec *Pandas*.

Pour juger rapidement des performances des trois technologies, affichons un diagramme issu d’un jeu de données sur les manchots de l’Antarctique.

Tout d’abord, il faut charger les différents modules :

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

Grâce à *Pandas*, importer le jeu de données :

In [None]:
df = pd.read_csv("./files/penguin-census.csv")

*Matplotlib* permet de modifier la taille par défaut du diagramme et *Seaborn* de projeter le diagramme. Ici, pour comprendre la relation entre la longueur du bec des manchots sur l’axe des abscisses et son épaisseur sur l’axe des ordonnées :

In [None]:
# figure size, title and axe labels thanks to matplolib
plt.figure(figsize=(10,5))
plt.title("Relation between culmen length and depth")
plt.xlabel("Culmen length (mm)")
plt.ylabel("Culmen depth (mm)")

# draw the plot with seaborn
sns.scatterplot(data=df, x="bill_length_mm", y="bill_depth_mm",
                palette="deep", hue="species", style="sex")

# remove the spines (top and right by default)
sns.despine()

# print
plt.show()

Les méthodes de *Seaborn* pour tracer des diagrammes suivent le même souci de cohérence. Elles acceptent un paramètre essentiel `data` dans lequel il faut passer les données puis, éventuellement, des paramètres `x` et `y` pour pointer quelles variables placer sur quel axe. Un quatrième paramètre `hue` détermine quelle colonne utiliser pour mettre en évidence les points de la représentation.

Il est également possible de sélectionner une couleur précise avec le parmètre `color` ou encore indiquer à *Seaborn* une palette sur laquelle se fonder avec `palette`.

Syntaxe générique d’une méthode pour afficher un diagramme :

```python
_ = sns.method(data=data_frame, x="column_x-axe", y="column_y-axe",
               hue="column_to_distinguish_data")
```

**Rappel :** la variable `_` est dite jetable (*throw away variable*).

## Définir le contexte esthétique

L’espace de nommage `sns` contient des méthodes pour fixer certains paramètres réglant l’esthétique générale des graphiques :
- `.set_style()`, pour définir le thème (sombre, blanc, avec ou sans grille…) ;
- `.set_context()`, pour définir le contexte d’affichage parmi `paper`, `notebook`, `poster` ou `talk` ;
- `.set_palette()`, pour définir la palette de couleurs par défaut.

La librairie *Seaborn* est non seulement livrée avec des palettes natives (`deep`, `muted`, `bright`, `pastel`, `dark`, `colorblind`) mais elle est également compatible avec celles de *Color Brewer*. Le graphique ci-dessous liste les palettes de *Color Brewer*, séparées en trois groupes :
- Les palettes pour les variables séquentielles (`OrRd`, `Oranges`, `Purples`…) ;
- les palettes pour les variables catégorielles (`Accent`, `Paired`…) ;
- les palettes divergentes (`RdBu`, `Spectral`…).

![*Color Brewer* keywords](./images/color-brewer.png)

Et si les configurations prédéfinies ne suffisent pas, la méthode `.color_palette()` permet de définir une palette personnalisée en fournissant une liste de codes de couleurs.

In [None]:
sns.set_style('darkgrid')
sns.set_context('notebook')
sns.set_palette('Paired')

_ = sns.scatterplot(data=df, x="bill_length_mm", y="bill_depth_mm", hue="species")

## Choisir une représentation graphique

Tous les diagrammes ne conviennent pas à tous les types de variables. Certains sont à réserver aux qualitatives, d’autres aux quantitatives continues, certains répondent mieux à une analyse univariée… bref, nul n’est à l’abri de choisir une mauvaise représentation qui aura pour incidence de mener à des erreurs d’interprétation.

À noter que toutes les méthodes pour afficher des graphiques disposent de paramètres pour modifier la couleur (`color`) ou la palette (`palette`) par défaut.

### Les diagrammes en barres

Sans doute les plus utilisés pour représenter la répartition des effectifs d’une variable. Ils s’emploient sur des variables qualitatives ou sur des quantitatives discrètes.

La méthode `.countplot()` permet d’afficher le dénombrement des effectifs d’une variable :

In [None]:
_ = sns.countplot(data=df, x="sex", palette="Oranges")

Pour afficher la répartition des manchots mâles et femelles relativement à une autre variable dont les valeurs sont agrégées, par exemple leur masse corporelle, avec en prime un intervalle de confiance, la méthode `.barplot()` est toute indiquée :

In [None]:
_ = sns.barplot(data=df, x="sex", y="body_mass_g", palette="autumn")

Avec le paramètre facultatif `hue`, il est possible d’affiner l’analyse en ajoutant une troisième variable, qualitative :

In [None]:
_ = sns.barplot(data=df, x="sex", y="flipper_length_mm", hue="species", palette="Blues")

### Les histogrammes

L’histogramme se distingue du diagramme en barres en ce que les barres sont contiguës. Il est donc à réserver aux variables aléatoires quantitatives continues et est généré par la méthode `.histplot()` :

In [None]:
_ = sns.histplot(data=df, x="bill_length_mm", color="grey")

Une estimation de la densité de probabilité de la variable peut être obtenue avec le paramètre `kde` à `True` :

In [None]:
_ = sns.histplot(data=df, x="bill_length_mm", stat='density', color="grey", kde=True)

### Les diagrammes linéaires

Ce type de graphique permet de représenter des points positionnés sur un plan à deux axes. Ils sont employés avec toute variable quantitative. Utiliser la méthode `.lineplot()` pour les afficher :

In [None]:
_ = sns.lineplot(data=df, x="bill_length_mm", y="flipper_length_mm")

Un paramètre optionnel `ci` permet de masquer l’intervalle de confiance à 95 % :

In [None]:
_ = sns.lineplot(data=df, x="bill_length_mm", y="flipper_length_mm", color="orange", ci=None)

### Les droites de régression

La méthode `.regplot()` permet de tracer une droite de régression linéaire avec intervalle de confiance à 95 % dans un nuage de points :

In [None]:
_ = sns.regplot(data=df, x="bill_length_mm", y="bill_depth_mm", color="green")

La méthode `.lmplot()`, quant à elle, trace une droite de régression pour chaque modalité :

In [None]:
_ = sns.lmplot(data=df, x="bill_length_mm", y="bill_depth_mm", hue="sex")

Pour dissocier chaque modalité dans des graphiques différents, il suffit de spécifier la variable dans un paramètre `col` pour un affichage en colonnes ou `row` pour un affichage en ligne :

In [None]:
_ = sns.lmplot(data=df, x="bill_length_mm", y="bill_depth_mm", col="species")

### Les diagrammes de dispersion

Autrement appelés nuages de points, ils permettent d’afficher individuellement chaque observation, et s’obtiennent avec la méthode `.scatterplot()` :

In [None]:
_ = sns.scatterplot(data=df, x="bill_length_mm", y="bill_depth_mm", hue="sex")

### Les boîtes à moustache

La boîte à moustaches, ou boîte de Tukey du nom de son inventeur John Tukey, est une manière synthétique de représenter la distribution des observations d’une variable quantitative. En effet, elle présente pour une variable donnée la répartition de ses observations entre les trois quartiles. Le corps de la boîte sera alors constitué de 50 % des données, séparées équitablement par la médiane, tandis que les moustaches inférieure et supérieure représenteront chacune à peu près 25 %.

Ces deux dernières mesures sont approximatives, car l’une des forces de la boîte à moustaches est de représenter, au-delà des bornes inférieure et supérieure, les *outliers*, ou données aberrantes.

Et les boîtes à moustaches montrent encore plus leur utilité quand il s’agit de comparer la distribution d’une variable dans des sous-groupes, comme ci-dessous pour la distribution de la longueur des nageoires entre les manchots mâles et femelles, pour chaque espèce répertoriée.

In [None]:
_ = sns.boxplot(data=df, x="species", y="flipper_length_mm", hue="sex")

### Les cartes thermiques

Autrement nommées *heatmap*, les cartes thermiques sont souvent utilisées comme matrices de confusion ou pour représenter les corrélations linéaires entre variables quantitatives selon un coefficient de corrélation (le *r* de Pearson). Le paramètre `annot` fixé à `True` révèle ce score, situé entre -1 pour une corrélation négative forte et 1 pour une corrélation positive forte :

In [None]:
correlation_matrix = df.corr()
_ = sns.heatmap(correlation_matrix, annot=True)

## Un cas concret

Considérons un nouveau jeu de données, issu package R carData (*Companion to Applied Regression Data Sets*), qui recense les personnes arrêtées à Toronto en possession d’une petite quantité de marijuana :

In [None]:
arrests = pd.read_csv("./files/arrests.csv", index_col=[0])

L’objectif serait de prédire si une personne arrêtée est plus susceptible d’être relâchée qu’amenée directement au commissariat. La cible est alors la variable `target` et les variables explicatives que nous sélectionnons sont le sexe (`sex`), la qualification de citoyen de Toronto (`citizen`) et le nombre de citations dans les bases de données de la police (`checks`).

Le premier réflexe est de séparer les données en deux :

In [None]:
target = "released"
features = ["sex", "citizen", "checks"]

data = arrests[features + [target]]
y = arrests[target]
X = arrests[features]

Et le second d’afficher le type des variables du jeu de données afin de se rendre compte qu’il existe une seule variable numérique :

In [None]:
data.dtypes

Regardons la répartition des effectifs de la variable cible :

In [None]:
_ = sns.countplot(data=y, x=y, palette="coolwarm")

Comme nous disposons de trois variables et qu’une seule d’entre elle est de type numérique, une boîte à moustaches permet de visualiser l’ensemble des variables explicatives :

In [None]:
_ = sns.boxplot(data=X, x="citizen", y="checks", hue="sex", palette="coolwarm")

Plusieurs conclusions, toutes choses étant égales par ailleurs :
- les Torontois sont moins cités dans les bases de données (médiane à 1) ;
- les femmes sont moins citées que les hommes ;
- parmi les femmes ne résidant pas à Toronto, on trouve quelques *outliers* avec trois ou quatre citations.

## D’autres représentations

### Comparer les relations entre des variables numériques

Parmi les autres méthodes utiles, retenons `.pairplot()` pour afficher un ensemble de représentations des variables numériques d’un *data frame* :

In [None]:
target = "species"
features = ["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]
data = df[features + [target]]

_ = sns.pairplot(data=data, hue=target)

### Analyser la relation entre deux variables quantitatives

La méthode `.jointplot()` permet d’afficher, dans un même graphique, la représentation entre deux variables quantitatives dans un nuage de points et leur distribution dans un histogramme :

In [None]:
_ = sns.jointplot(data=df, x="body_mass_g", y="flipper_length_mm")

### Représenter des séries temporelles

La méthode `.pointplot()` est quant à elle favorisée pour représenter des variables quantitatives qui évoluent avec le temps :

In [None]:
data = arrests.groupby(["year", "citizen"]).size().reset_index(name="Count")

_ = sns.pointplot(data=data, x="year", y="Count", hue="citizen")

## Afficher plusieurs représentations dans un même graphique

La méthode `.subplots()` nous aide à réunir plusieurs représentations dans un même graphique, comme dans l’exemple ci-dessous :

In [None]:
figure, ax = plt.subplots(figsize=(12,5))

sns.lineplot(data=df, x="bill_length_mm", y="bill_depth_mm", ax=ax)
sns.histplot(data=df, x="bill_length_mm", color="grey", ax=ax)

ax.set(
    title="Distribution des manchots en fonction de la longueur de leur bec",
    xlabel="Longueur du bec (en mm)",
    ylabel="Nombre d’individus"
)
plt.legend(["Relation entre la longueur et l’épaisseur du bec"])

plt.show()

## Analyser la relation de variables en fonction de modalités

Une dernière fonction utile de *Seaborn* pour séparer des représentations de variables quantitatives en fonction de plusieurs modalités recourt à la classe `FacetGrid` :

In [None]:
figure = sns.FacetGrid(data=df, col="species", row="sex", hue="island")
figure.map(sns.scatterplot, "body_mass_g", "bill_depth_mm")
figure.add_legend()

plt.show()

## Personnalisation des graphiques

Dans la pratique, dès qu’il est question de personnaliser les éléments des graphiques, il est de coutume de recourir à la librairie *Matplotlib* sur laquelle repose *Seaborn*. L’exemple qui suit reprend quelques-unes des options les plus souvent utilisées :

In [None]:
# dimensions
plt.figure(figsize=(10,8))

# figure
sns.scatterplot(data=df, x="body_mass_g", y="bill_length_mm", hue="sex")

# Customization
plt.title(
    label="Répartition des manchots selon leur masse et la longueur de leurs nageoires",
    fontsize="14",
    fontweight="bold",
    # vertical spacing
    y=1.05
)
plt.xlabel("Masse (en g)")
plt.ylabel("Longueur des nageoires (en mm)")
plt.legend(["Mâles", "Femelles"], loc="upper right", title="Sexe")

# plot
plt.show()