# Visualisation de données en Python
## Introduction à Altair

Question
* Comment faire des graphiques modernes et interactifs?

Objectif
* Comprendre les éléments de base d'une grammaire des graphiques.
* Créer un premier objet `alt.Chart`.
* Sauvegarder une figure en image ou en version interactive.

# Data Visualization in Python
## Introduction to Altair

Question
* How to create modern and interactive plots?

Objective
* Understanding the basics of a grammar of graphics.
* Create a first `alt.Chart` object.
* Save a figure as an image or as an interactive version.

In [None]:
import pandas as pd

# Charger les données nettoyées
surveys_complet = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complet

In [None]:
import pandas as pd

# Load the cleaned data
surveys_complete = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complete

## Grammaire des graphiques
* Introduite par Leland Wilkinson au début de la décennie 1990.
* Langage commun et structuré pour décrire et
  comprendre les aspects variés de toute visualisation.

Vidéo explicative intéressante :

[![YouTube - A Grammar of Graphics](https://img.youtube.com/vi/RCaFBJWXfZc/default.jpg)](https://www.youtube.com/watch?v=RCaFBJWXfZc)

## Grammar of graphics
* Introduced by Leland Wilkinson at the beginning of the 1990s.
* A common, structured language for describing and
  understanding the various aspects of any visualization.

Interesting explanatory video:

[![YouTube - A Grammar of Graphics](https://img.youtube.com/vi/RCaFBJWXfZc/default.jpg)](https://www.youtube.com/watch?v=RCaFBJWXfZc)

### Sept éléments centraux
1. Données
   * Qu’est-ce qu’on représente.
2. Esthétique
   * Comment on le représente.
3. Système de coordonnées
   * Comment on positionne nos données.
4. Échelle
   * Comment on passe de la donnée à la représentation esthétique.
5. Objets géométriques
   * Quel type d’objet géométrique on utilise.
6. Statistiques
   * Comment on calcule/modifie les données.
      * Par exemple, un comptage, des quartiles,
        des droites de régression, etc.
7. Facettes
   * Comment on divise nos données en plusieurs jeux ou graphiques.

### Seven central elements
1. Data
   * What do we represent.
2. Aesthetic
   * How we represent it.
3. Coordinate system
   * How we position our data.
4. Scale
   * How we move from data to aesthetic representation.
5. Geometric objects
   * What type of geometric object is used?
6. Statistics
   * How data is calculated/modified.
      * For example, the count, quartiles, regression lines, etc.
7. Facets
   * How we divide our data into multiple sets or graphs.

![Facets by year and sex](../images/facet-year-sex.png)

Dans la figure ci-dessus, on a :
1. Données
   * Variables `weight`, `hindfoot_length`, `species_id`
   * Répartition des données par `year` et par `sex`
2. Esthétique
   * Position selon `hindfoot_length` et `weight`
   * Couleur selon `species_id`
3. Système de coordonnées
   * Système cartésien
      * Deux axes : X et Y
4. Échelle
   * X (`hindfoot_length`) : de 0 à 65
   * Y (`weight`) : de 4 à 512
      * Échelle logarithmique en base 2
   * Couleurs (`species_id`) : bleu, orange, rouge, etc.
5. Objets géométriques
   * Cercles semi-transparents
6. Statistiques
   * Données représentées telles quelles, sans transformation
7. Facettes
   * Facettes par `year` et par `sex`

In the above figure, we have:
1. Data
   * Fields: `weight`, `hindfoot_length`, `species_id`
   * Data distribution by `year` and by `sex`
2. Aesthetic
   * Position according to `hindfoot_length` and `weight`
   * Color according to `species_id`
3. Coordinate system
   * Cartesian coordinate system
      * Two axes: X and Y
4. Scale
   * X (`hindfoot_length`): from 0 to 65
   * Y (`weight`): from 4 to 512
      * Logarithmic scale to base 2
   * Colors (`species_id`): blue, orange, red, etc.
5. Geometric objects
   * Semi-transparent circles
6. Statistics
   * Data represented as is, without transformation
7. Facets
   * Facets by `year` and by `sex`

### Grammaire des graphiques interactifs
Ajout d’éléments d’interaction par-dessus la grammaire des graphiques
* Événements
  * Clic sur un élément ou à proximité
  * Survol d'un élément
  * Déplacement
  * Zoom
* Sélection 
  * Qu’est-ce qui est sélectionné: point, région, sous-ensemble
* Actions
  * Qu’est-ce qui se produit

Voici une vidéo à ce sujet :

[![YouTube - Vega-Lite - A grammar of Interactive Graphics](https://img.youtube.com/vi/rydth27fB3Q/default.jpg)](https://www.youtube.com/watch?v=rydth27fB3Q)

### Grammar of interactive graphics
Adding interaction elements on top of the grammar of graphics
* Events
  * Click on or near an item
  * Hovering over an item
  * Shift
  * Zoom
* Selection 
  * What is selected: point, region, subset
* Actions
  * What happens to the chart

Here is a video about it:

[![YouTube - Vega-Lite - A grammar of Interactive Graphics](https://img.youtube.com/vi/rydth27fB3Q/default.jpg)](https://www.youtube.com/watch?v=rydth27fB3Q)

## Bibliothèques de visualisation
Plusieurs bibliothèques de visualisation se basent explicitement
sur la grammaire des graphiques dans leur design :
* **R** : ggplot
* **JavaScript** : Vega-Lite, nd3
* **En Python** : Altair, Bokeh, Plotly, Plotnine, Seaborn (>0.12)

Quelle bibliothèque Python choisir?
* Selon le type de bibliothèque dont vous avez besoin.
* Selon ce qui est populaire dans votre domaine de recherche.

## Visualization Libraries
Several visualization libraries explicitly rely
on the grammar of graphics in their design:
* **R** : ggplot
* **JavaScript** : Vega-Lite, nd3
* **Python** : Altair, Bokeh, Plotly, Plotnine, Seaborn (>0.12)

Which Python library to choose?
* Depending on the type of library you need.
* Depending on what is popular in your research area.

|                 Type                 |    Nom    | Forks | Étoiles |
| ------------------------------------ | ------------ | ---: | ----: |
| Traditionnel                         | `matplotlib` | 7900 | 21.2k |
| Traditionnel                         | `seaborn`    | 2000 | 13.1k |
| Grammaire des graphiques             | `plotnine`   |  233 |  4.2k |
| Grammaire des graphiques interactifs | `altair`     |  805 |  9.8k |
| Grammaire des graphiques interactifs | `bokeh`      | 4200 | 19.8k |
| Grammaire des graphiques interactifs | `plotly`     | 2600 | 17.1k |
| Spécialisé                           | `folium`     | 2200 |  7.1k |
| Spécialisé                           | `geoplotlib` |  175 |  1.0k |

|              Type               |     Name     | Forks | Stars |
| ------------------------------- | ------------ | ----: | ----: |
| Traditional                     | `matplotlib` |  7900 | 21.2k |
| Traditional                     | `seaborn`    |  2000 | 13.1k |
| Grammar of graphics             | `plotnine`   |   233 |  4.2k |
| Grammar of interactive graphics | `altair`     |   805 |  9.8k |
| Grammar of interactive graphics | `bokeh`      |  4200 | 19.8k |
| Grammar of interactive graphics | `plotly`     |  2600 | 17.1k |
| Specialized                     | `folium`     |  2200 |  7.1k |
| Specialized                     | `geoplotlib` |   175 |  1.0k |

### Pourquoi `altair`? Pourquoi pas `matplotlib`?

Bien que `matplotlib` soit une bibliothèque de visualisation
largement répandue et relativement flexible, la programmation
des graphiques n'est pas aussi intuitive qu'avec `altair`.
De plus, [la bibliothèque](https://altair-viz.github.io/index.html)
`altair` permet de créer facilement des 
[graphiques interactifs](https://vega.github.io/vega-lite/) et
hautement informatifs tout en s'intégrant bien avec Pandas.

Nous verrons différents concepts de visualisation qui peuvent être
reproduits plus ou moins facilement avec d'autres bibliothèques
telles que `matplotlib`, `plotnine`, `plotly` et `seaborn`.

### Why `altair`? Why not `matplotlib`?

While `matplotlib` is a widely used and quite flexible
visualization library, the plots programming is not
as intuitive as with `altair`. Moreover, the `altair`
[library](https://altair-viz.github.io/index.html)
facilitates the creation of highly informative
[interactive graphics](https://vega.github.io/vega-lite/)
from data stored in Pandas objects.

We will see different visualization concepts that can
be reproduced more or less easily with other libraries
such as `matplotlib`, `plotnine`, `plotly` and `seaborn`.

In [None]:
import altair as alt

Étant donné que les graphiques générés par Altair ne sont pas que des
images statiques, l'information générée est parfois très lourde et
elle s'accumule dans le notebook s'il y a plusieurs graphiques.
Néanmoins, pour contourner la limite de 5000 lignes dans le DataFrame
de données, on peut désactiver cette limite, à nos risques.

Because the charts generated by Altair are not just static
images, the generated information can be quite heavy and
it accumulates if there are multiple plots in a notebook.
By default, Altair processes DataFrames of up to 5000 records,
but we can disable that limit to our own risks.

In [None]:
alt.data_transformers.disable_max_rows()

## Générer des graphiques avec `altair`
Les graphiques `altair` sont construits étape par étape à partir
d'un objet de type `Chart`:
* **Création du graphique** - La première méthode obligatoire débute
  par `mark_`. Par exemple, `mark_point()`.
  À ce stade, c'est normal que tout soit concentré en un point.

## Plotting with `altair`
`altair` charts are built step by step from
a `Chart` object constructed with a DataFrame:
* **Choosing the type of chart** -
  The first mandatory method starts with `mark_`.
  For example, `mark_point()`.
  By default, all points are overlapping and this is normal.

In [None]:
# Création de l'objet Chart et choix du type de graphique
alt.Chart(surveys_complet).mark_point()

In [None]:
# New Chart object and choice of type of chart
alt.Chart(surveys_complete).mark_point()

* **Encodage des canaux** - La prochaine étape consiste à
  [encoder](https://altair-viz.github.io/user_guide/encodings/)
  des canaux liant certaines variables du DataFrame à divers éléments
  du graphiques. Les principaux paramètres de `encode()` sont :
  `x`, `y`, `color`, `shape` et `size`.

* **Encoding channels** - Then we need to
  [encode](https://altair-viz.github.io/user_guide/encodings/)
  channels that are linking some fields of the DataFrame to
  elements of the chart. The main parameters of `encode()` are:
  `x`, `y`, `color`, `shape` and `size`.

In [None]:
# Définition des axes ; les points prennent leur position
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
)

In [None]:
# Once the axises are defined, the points take their position
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
)

* **Navigation interactive** - On peut ensuite rendre le graphique
  interactif, ce qui permet de naviguer dans le graphique à l'aide
  de la souris.

* **Interactive navigation** - When a chart is made _interactive_,
  it allows to zoom in & out, and to drag the chart with the mouse.

In [None]:
# Permettre les interactions avec la souris
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
).interactive()

In [None]:
# Enable interactions with the mouse
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
).interactive()

* **Colonnes temporaires** - Pour ajouter du bruit,
  on peut se créer des colonnes temporaires avec
  [`transform_calculate()`](https://altair-viz.github.io/user_guide/transform/calculate.html).
  Cependant, il faut spécifier explicitement
  [le type donnée](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-data-types).

* **Temporary columns** - To add some noise,
  we can create temporary columns with
  [`transform_calculate()`](https://altair-viz.github.io/user_guide/transform/calculate.html).
  Once done, we have to specify
  [the data type](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-data-types).

In [None]:
# Colonnes temporaires avec du bruit
alt.Chart(surveys_complet).transform_calculate(
    longueur_bruitee='datum.hindfoot_length + random() - 0.5',
    poids_bruite='datum.weight + random() - 0.5',
).mark_point().encode(
    x=alt.X('longueur_bruitee').type('quantitative'),
    y=alt.Y('poids_bruite').type('quantitative'),
).interactive()

In [None]:
# Temporary columns with noise
alt.Chart(surveys_complete).transform_calculate(
    noisy_length='datum.hindfoot_length + random() - 0.5',
    noisy_weight='datum.weight + random() - 0.5',
).mark_point().encode(
    x=alt.X('noisy_length').type('quantitative'),
    y=alt.Y('noisy_weight').type('quantitative'),
).interactive()

* **Affichage interactif des valeurs** - Encoder le canal `tooltip`
  avec une liste de variables à afficher au passage de la souris.

* **Having values displayed interactively** -
  Encode the `tooltip` channel with a list of
  fields to display when moving the mouse pointer.

In [None]:
# Permettre de voir les valeurs associées aux points
graphique = alt.Chart(surveys_complet).transform_calculate(
    longueur_bruitee='datum.hindfoot_length + random() - 0.5',
    poids_bruite='datum.weight + random() - 0.5',
).mark_point().encode(
    x=alt.X('longueur_bruitee').type('quantitative'),
    y=alt.Y('poids_bruite').type('quantitative'),
    tooltip=['plot_id', 'species_id', 'hindfoot_length', 'weight'],
).interactive()
graphique

In [None]:
# Display values of selected fields when moving the mouse
chart = alt.Chart(surveys_complete).transform_calculate(
    noisy_length='datum.hindfoot_length + random() - 0.5',
    noisy_weight='datum.weight + random() - 0.5',
).mark_point().encode(
    x=alt.X('noisy_length').type('quantitative'),
    y=alt.Y('noisy_weight').type('quantitative'),
    tooltip=['plot_id', 'species_id', 'hindfoot_length', 'weight'],
).interactive()
chart

* **Sauvegarde du graphique** - C'est possible de le sauvegarder dans
  le [format de notre choix](https://altair-viz.github.io/user_guide/saving_charts.html).

* **Saving the figure** - It is possible to save the chart in the
  [format of our choice](https://altair-viz.github.io/user_guide/saving_charts.html).

In [None]:
graphique.save('poids_longueur.html')

In [None]:
chart.save('weight_length.html')

In [None]:
# Autres formats : PDF (plus lourd), PNG, SVG
try:
    graphique.save('poids_longueur.png')
    graphique.save('poids_longueur.svg')
except BaseException as err:
    print('Erreur:', err)
    print('-> Il vaut mieux utiliser le bouton (•••)')

In [None]:
# Other formats: PDF (heavier), PNG, SVG
try:
    chart.save('weight_length.png')
    chart.save('weight_length.svg')
except BaseException as err:
    print('Error:', err)
    print('-> We better use the (•••) button')

### Exercice - Créer un graphique à barres
À partir du DataFrame `surveys_complet`, faites afficher le
décompte du nombre d'enregistrements pour chaque `plot_id`. Instructions :
* Utilisez
  [`mark_bar()`](https://altair-viz.github.io/gallery/simple_bar_chart.html)
  pour générer
  [le graphique](https://altair-viz.github.io/gallery/simple_histogram.html)
* Sur l'axe horizontal, spécifiez la variable `'plot_id'` et le
  [type `'ordinal'`](https://altair-viz.github.io/user_guide/encodings/#encoding-data-types)
* Sur l'axe vertical, spécifiez `'count()'` comme variable pour que
  Altair fasse automatiquement le décompte, ce qui évite de passer
  par la méthode `groupby()` du DataFrame
* Activez le canal `tooltip` avec `'count()'` pour avoir le décompte

(7 min.)

### Exercise - Create a bar chart
From the `surveys_complete` DataFrame, create an histogram that
shows the count of records for each `plot_id`. Instructions:
* Use
  [`mark_bar()`](https://altair-viz.github.io/gallery/simple_bar_chart.html)
  to generate the
  [chart](https://altair-viz.github.io/gallery/simple_histogram.html)
* For the X axis, specify the `'plot_id'` field and the
  [`'ordinal'` type](https://altair-viz.github.io/user_guide/encodings/#encoding-data-types)
* For the Y axis, specify `'count()'` as a temporary field computed
  automatically by Altair, which saves us from using `groupby()`
* Activate the `tooltip` channel with `'count()'`

(7 min.)

In [None]:
alt.Chart(surveys_complet).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    tooltip=['count()'],
)

In [None]:
###(surveys_complet)###
    ###('plot_id').type('ordinal'),
    ###('count()'),
    ###['count()'],
)

In [None]:
alt.Chart(surveys_complete).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    tooltip=['count()'],
)

In [None]:
###(surveys_complete)###
    ###('plot_id').type('ordinal'),
    ###('count()'),
    ###['count()'],
)