In [None]:
!pip install polars==0.18.2

# Graphiques

Créer des graphiques est une tâche essentielle dans un flux de travail en science. Un graphique bien conçu est dense en information. La visualisation des données permet d'explorer des tableaux jusqu'à créer des éléments visuels voués à la publication, dont l'information serait autrement difficile, voire impossible à transmettre.


## Pourquoi explorer graphiquement ?

La plupart des graphiques que vous générerez ne seront pas destinés à être publiés. Ils viseront probablement d'abord à explorer des données. Cela vous permettra de mettre en évidence de nouvelles perspectives.

Prenons par exemple deux variables, `x` et `y`. Vous calculez leur moyenne et leur écart-type.


In [None]:
import polars as pl
datasaurus = pl.read_csv('data/datasaurus.csv')
(
    datasaurus
    .groupby('dataset')
    .agg([
        pl.col('x').mean().alias('moyenne_x'),
        pl.col('x').std().alias('std_x'),
        pl.col('y').mean().alias('moyenne_y'),
        pl.col('y').std().alias('std_y'),
    ])
)

Les moyennes et écarts-type sont semblables pour tous les jeux de données. Si l'on effectuait des tests statistiques, ils ne seraint pas significatifs. On pourrait alors conclure que ces données proviennent de distributions statistiques identiques à un niveau de confiance très sévère.

Pour démontrer que ces statistiques ne vous apprendront pas grand-chose sur la structure des données, [Matejka et Fitzmaurice (2017)](https://www.autodeskresearch.com/publications/samestats) ont généré ces 12 jeux de données, ayant chacun pratiquement les mêmes statistiques... mais avec des structures bien différentes:

![](https://app.noteable.io/api/image/d0f65326-0702-4a7a-9be2-d621648bf123)

## Choisir le type de graphique le plus approprié

De nombreuses manières de présenter les données sont couramment utilisées, comme les nuages de point, les lignes, les histogrammes, les diagrammes en barre et en pointe de tarte. Noteable vous en propose une belle collection. Il existe de même de nombreux guides pour sélectionner le type de graphique approprié selon la situation. Je vous conseille le guide [*From data to viz*](https://www.data-to-viz.com/). En ce qui a trait aux couleurs, le choix n'est pas anodin, ne serait-ce que de sélectionner des couleurs robustes aux handicaps visuels : préférez donc les couleurs de [*Color brewer 2*](colorbrewer2.org).

## Les graphiques avec Noteable

Les données `datasaurus` vous permettront d'explorer [*Semiotic*](https://semiotic.nteract.io/), l'outil graphique de Noteable. Affichez le tableau `datasaurus` dans une cellule de code, cliquer sur *Visualize*, et lancez-vous. Remarquez que les attributs graphiques sont liés à des colonnes. Nous y reviendrons.

In [None]:
datasaurus

## Les graphiques avec *Lets-Plot*

Le module [*Lets-Plot*](lets-plot.org) est une adaptation pour Python du module graphique *ggplot2*, immensément populaire en langage R. Il fonctionne sur un mode déclaratif, tout comme l'outil de Noteable, c'est-à-dire que les attributs graphiques sont liés aux colonnes d'un tableau.


In [None]:
!pip install lets-plot==3.2


Suivant la grammaire graphique de *Lest-plot*, on pourra créer ce graphique de points comprenant les attributs suivants.

1. `data = datasaurus`, le fichier de données.
1. `mapping = aes(...)`, spécifié comme attribut de la fonction `ggplot()`, cet encodage (ou `aes`*thetic*) reste l'encodage par défaut pour tous les marqueurs du graphique. Toutefois, l'encodage `mapping = aes()` peut aussi être spécifié dans la fonction du marqueur (par exemple `geom_point()`). Dans l'encodage global du graphique, on place en x la longueur de la coquille (`x = 'x'`) et on place en y le poids de la coquille (`y = 'y'`).
1. Pour ajouter une fonction à `ggplot`, comme une nouvelle couche de marqueur ou des éléments de thème, on utilise le `+`. Généralement, on change aussi de ligne.
1. Le marqueur ajouté est un point, `geom_point()`, dans lequel on spécifie un encodage de couleur sur la variable Type (`colour = 'dataset'`). L'argument `alpha = 0.75` se situe hors du mapping et de la fonction `aes()`: c'est un attribut identique pour tous les points.


In [None]:
from lets_plot import *
LetsPlot.setup_html() # permet l'affichage dans un notebook

(
    ggplot(data=datasaurus, mapping=aes(x='x', y='y'))
    + geom_point(mapping=aes(color='dataset'), alpha=0.75)
)

Il existe plusieurs marqueurs et plusieurs types d'encodage présentés dans [l'API de *Lets-Plot*](https://lets-plot.org/pages/api.html). Le *facet* est marqueur qui permet de segmenter le graphique en plusieurs facettes, ou panneau. Le marqueur `facet_wrap()` permet de créer une collection de facettes selon une variable catégorielle, alors que `facet_grid()` créera une grille de facettes, selon deux variables catégorielles. Peut-être avez-vous trouvé ce marqueur dans l'outil de visualisation de Noteable. Voyons ce que l'on peut tirer de facettes selon la variable `dataset`.

In [None]:
(
    ggplot(data=datasaurus, mapping=aes(x='x', y='y'))
    + facet_wrap(facets='dataset', ncol=7)
    + geom_point(colour='#ce2d40')
    + coord_fixed()
    + ggsize(900, 400)
)

Les facettes vous permettent, dans ce cas, d'identifier d'un coup d'oeil la présence de structures pourtant invisibles avec les tests statistiques.

Exercez-vous maintenant avec les données sur les manchots !

In [None]:
penguins = pl.read_csv('data/penguins.csv')
penguins