# Visualisation de données en Python
## Introduction à Altair

Question
* Comment faire des graphiques modernes et interactifs?

Objectif
* Comprendre les éléments de base d'une grammaire des graphiques.
* Créer un premier objet `alt.Chart`.
* Sauvegarder une figure en image ou en version interactive.

In [None]:
import pandas as pd

# Charger les données nettoyées
surveys_complet = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complet

## Grammaire des graphiques
* Introduite par Leland Wilkinson au début de la décennie 1990.
* Langage commun et structuré pour décrire et
  comprendre les aspects variés de toute visualisation.

Vidéo explicative intéressante :

[![YouTube - A Grammar of Graphics](https://img.youtube.com/vi/RCaFBJWXfZc/default.jpg)](https://www.youtube.com/watch?v=RCaFBJWXfZc)

### Sept éléments centraux
1. Données
   * Qu’est-ce qu’on représente.
2. Esthétique
   * Comment on le représente.
3. Système de coordonnées
   * Comment on positionne nos données.
4. Échelle
   * Comment on passe de la donnée à la représentation esthétique.
5. Objets géométriques
   * Quel type d’objet géométrique on utilise.
6. Statistiques
   * Comment on calcule/modifie les données.
      * Par exemple, un comptage, des quartiles,
        des droites de régression, etc.
7. Facettes
   * Comment on divise nos données en plusieurs jeux ou graphiques.

![Facets by year and sex](../images/facet-year-sex.png)

Dans la figure ci-dessus, on a :
1. Données
   * Variables `weight`, `hindfoot_length`, `species_id`
   * Répartition des données par `year` et par `sex`
2. Esthétique
   * Position selon `hindfoot_length` et `weight`
   * Couleur selon `species_id`
3. Système de coordonnées
   * Système cartésien
      * Deux axes : X et Y
4. Échelle
   * X (`hindfoot_length`) : de 0 à 65
   * Y (`weight`) : de 4 à 512
      * Échelle logarithmique en base 2
   * Couleurs (`species_id`) : bleu, orange, rouge, etc.
5. Objets géométriques
   * Cercles semi-transparents
6. Statistiques
   * Données représentées telles quelles, sans transformation
7. Facettes
   * Facettes par `year` et par `sex`

### Grammaire des graphiques interactifs
Ajout d’éléments d’interaction par-dessus la grammaire des graphiques
* Événements
  * Clic sur un élément ou à proximité
  * Survol d'un élément
  * Déplacement
  * Zoom
* Sélection 
  * Qu’est-ce qui est sélectionné: point, région, sous-ensemble
* Actions
  * Qu’est-ce qui se produit

Voici une vidéo à ce sujet :

[![YouTube - Vega-Lite - A grammar of Interactive Graphics](https://img.youtube.com/vi/rydth27fB3Q/default.jpg)](https://www.youtube.com/watch?v=rydth27fB3Q)

## Bibliothèques de visualisation
Plusieurs bibliothèques de visualisation se basent explicitement
sur la grammaire des graphiques dans leur design :
* **R** : ggplot
* **JavaScript** : Vega-Lite, nd3
* **En Python** : Altair, Bokeh, Plotly, Plotnine, Seaborn (>0.12)

Quelle bibliothèque Python choisir?
* Selon le type de bibliothèque dont vous avez besoin.
* Selon ce qui est populaire dans votre domaine de recherche.

|                 Type                 |    Nom    | Forks | Étoiles |
| ------------------------------------ | ------------ | ---: | ----: |
| Traditionnel                         | `matplotlib` | 7900 | 21.2k |
| Traditionnel                         | `seaborn`    | 2000 | 13.1k |
| Grammaire des graphiques             | `plotnine`   |  233 |  4.2k |
| Grammaire des graphiques interactifs | `altair`     |  805 |  9.8k |
| Grammaire des graphiques interactifs | `bokeh`      | 4200 | 19.8k |
| Grammaire des graphiques interactifs | `plotly`     | 2600 | 17.1k |
| Spécialisé                           | `folium`     | 2200 |  7.1k |
| Spécialisé                           | `geoplotlib` |  175 |  1.0k |

### Pourquoi `altair`? Pourquoi pas `matplotlib`?

Bien que `matplotlib` soit une bibliothèque de visualisation
largement répandue et relativement flexible, la programmation
des graphiques n'est pas aussi intuitive qu'avec `altair`.
De plus, [la bibliothèque](https://altair-viz.github.io/index.html)
`altair` permet de créer facilement des 
[graphiques interactifs](https://vega.github.io/vega-lite/) et
hautement informatifs tout en s'intégrant bien avec Pandas.

Nous verrons différents concepts de visualisation qui peuvent être
reproduits plus ou moins facilement avec d'autres bibliothèques
telles que `matplotlib`, `plotnine`, `plotly` et `seaborn`.

In [None]:
import altair as alt

Étant donné que les graphiques générés par Altair ne sont pas que des
images statiques, l'information générée est parfois très lourde et
elle s'accumule dans le notebook s'il y a plusieurs graphiques.
Néanmoins, pour contourner la limite de 5000 lignes dans le DataFrame
de données, on peut désactiver cette limite, à nos risques.

In [None]:
alt.data_transformers.disable_max_rows()

## Générer des graphiques avec `altair`
Les graphiques `altair` sont construits étape par étape à partir
d'un objet de type `Chart`:
* **Création du graphique** - La première méthode obligatoire débute
  par `mark_`. Par exemple, `mark_point()`.
  À ce stade, c'est normal que tout soit concentré en un point.

In [None]:
# Création de l'objet Chart et choix du type de graphique
alt.Chart(surveys_complet).mark_point()

* **Encodage des canaux** - La prochaine étape consiste à
  [encoder](https://altair-viz.github.io/user_guide/encodings/)
  des canaux liant certaines variables du DataFrame à divers éléments
  du graphiques. Les principaux paramètres de `encode()` sont :
  `x`, `y`, `color`, `shape` et `size`.

In [None]:
# Définition des axes ; les points prennent leur position
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
)

* **Navigation interactive** - On peut ensuite rendre le graphique
  interactif, ce qui permet de naviguer dans le graphique à l'aide
  de la souris.

In [None]:
# Permettre les interactions avec la souris
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
).interactive()

* **Colonnes temporaires** - Pour ajouter du bruit,
  on peut se créer des colonnes temporaires avec
  [`transform_calculate()`](https://altair-viz.github.io/user_guide/transform/calculate.html).
  Cependant, il faut spécifier explicitement
  [le type donnée](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-data-types).

In [None]:
# Colonnes temporaires avec du bruit
alt.Chart(surveys_complet).transform_calculate(
    longueur_bruitee='datum.hindfoot_length + random() - 0.5',
    poids_bruite='datum.weight + random() - 0.5',
).mark_point().encode(
    x=alt.X('longueur_bruitee').type('quantitative'),
    y=alt.Y('poids_bruite').type('quantitative'),
).interactive()

* **Affichage interactif des valeurs** - Encoder le canal `tooltip`
  avec une liste de variables à afficher au passage de la souris.

In [None]:
# Permettre de voir les valeurs associées aux points
graphique = alt.Chart(surveys_complet).transform_calculate(
    longueur_bruitee='datum.hindfoot_length + random() - 0.5',
    poids_bruite='datum.weight + random() - 0.5',
).mark_point().encode(
    x=alt.X('longueur_bruitee').type('quantitative'),
    y=alt.Y('poids_bruite').type('quantitative'),
    tooltip=['plot_id', 'species_id', 'hindfoot_length', 'weight'],
).interactive()
graphique

* **Sauvegarde du graphique** - C'est possible de le sauvegarder dans
  le [format de notre choix](https://altair-viz.github.io/user_guide/saving_charts.html).

In [None]:
graphique.save('poids_longueur.html')

In [None]:
# Autres formats : PDF (plus lourd), PNG, SVG
try:
    graphique.save('poids_longueur.png')
    graphique.save('poids_longueur.svg')
except BaseException as err:
    print('Erreur:', err)
    print('-> Il vaut mieux utiliser le bouton (•••)')

### Exercice - Créer un graphique à barres
À partir du DataFrame `surveys_complet`, faites afficher le
décompte du nombre d'enregistrements pour chaque `plot_id`. Instructions :
* Utilisez
  [`mark_bar()`](https://altair-viz.github.io/gallery/simple_bar_chart.html)
  pour générer
  [le graphique](https://altair-viz.github.io/gallery/simple_histogram.html)
* Sur l'axe horizontal, spécifiez la variable `'plot_id'` et le
  [type `'ordinal'`](https://altair-viz.github.io/user_guide/encodings/#encoding-data-types)
* Sur l'axe vertical, spécifiez `'count()'` comme variable pour que
  Altair fasse automatiquement le décompte, ce qui évite de passer
  par la méthode `groupby()` du DataFrame
* Activez le canal `tooltip` avec `'count()'` pour avoir le décompte

(7 min.)

In [None]:
alt.Chart(surveys_complet).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    tooltip=['count()'],
)

## Résumé technique
* **Module Altair**
  * `import altair as alt`
  * Désactiver limite : `alt.data_transformers.disable_max_rows()`
* **Création d'un graphique vierge**
  * `graphique = alt.Chart(df)`
* **Colonnes temporaires**
  * `graphique.transform_calculate(col2='datum.col1 + random()-0.5')`
* **Choix du type de marqueurs** à afficher
  * `graphique.mark_point()`
  * `graphique.mark_bar()`
* **Assigner des variables** à des canaux du graphique
  * `graphique.encode(...)`
  * Différents canaux :
    * `x=alt.X('varX')` et `y=alt.Y('varY')`
      * `.type('type')`, avec les
        [différents types](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-data-types) :
        * Quantités continues : `'quantitative'`, `'var:Q'`
        * Quantités discrètes triées : `'ordinal'`, `'var:O'`
        * Catégories discrètes : `'nominal'`, `'var:N'`
        * Dates et heures : `'temporal'`, `'var:T'`
    * `tooltip=['varX', 'varY', ...]`
* **Autres propriétés du graphique**
  * `graphique.interactive()`
* **Sauvegarde**
  * `graphique.save("graphique.html")`
  * `graphique.save("graphique.png")`
  * `graphique.save("graphique.svg")`