# Analyse et visualisation de données avec Python
## Créer des graphiques avec Altair
Questions
* Comment faire davantage de visualisation en Python?
* Comment faire des graphiques modernes et interactifs?
* Qu'est-ce que la "grammaire des graphiques"?

Objectifs
* Créer un objet `alt.Chart`.
* Créer différents types de graphiques.
* Modifier l'apparence du graphique:
  * Configurer les couleurs.
  * Éditer le titre et le nom des axes.
* Diviser une figure en facettes.
* Sauvegarder une figure en image et en version interactive.

# Data Analysis and Visualization in Python
## Making Plots With Altair
Questions
* How can I visualize data in Python?
* How to create modern and interactive plots?
* What is ‘grammar of graphics’?

Objectives
* Create an `alt.Chart` object.
* Build complex plots using a step-by-step approach.
  * Change the aesthetics of a plot such as color.
  * Edit the title and the axis labels.
* Create scatter plots, time series plots and box plots.
* Create a collection of plots splitting the data by a "factor" variable.
* Save a figure as an image or as an interactive version.

In [None]:
import numpy as np
import pandas as pd

# Charger et nettoyer les données
surveys_complet = pd.read_csv('../data/surveys.csv')
surveys_complet = surveys_complet.dropna()
surveys_complet

In [None]:
import numpy as np
import pandas as pd

# Load and clean the data
surveys_complete = pd.read_csv('../data/surveys.csv')
surveys_complete = surveys_complete.dropna()
surveys_complete

## Pourquoi `altair`? Pourquoi pas `matplotlib`?

Bien que `matplotlib` soit une bibliothèque de visualisation
largement répandue et relativement flexible, la programmation
des graphiques ne suit pas une *grammaire* spécifique.

Ainsi, pour ce chapitre, nous avons fait le choix
de vous présenter la bibliothèque `altair` qui
[facilite la création de graphiques hautement informatifs](https://altair-viz.github.io/index.html)
tout en s'intégrant bien avec Pandas. Le fonctionnement de
`altair` se base sur la grammaire des graphiques interactifs
de [Vega-Lite](https://vega.github.io/vega-lite/),
ce qui rend la programmation à la fois élégante et puissante.

Nous verrons différents concepts de visualisation qui peuvent être
reproduits plus ou moins facilement avec d'autres bibliothèques
telles que `matplotlib`, `plotnine`, `plotly` et `seaborn`.

## Why `altair`? Why not `matplotlib`?

While `matplotlib` is a widely used and
quite flexible visualization library, the plots
programming does not follow a specific *grammar*.

In this chapter, we have decided to present the `altair` library which
[facilitates the creation of highly informative charts](https://altair-viz.github.io/index.html)
from data stored in Pandas objects.
It is based on the grammar of interactive graphics of
[Vega-Lite](https://vega.github.io/vega-lite/),
which makes the programming both elegant and powerful.

We will see different visualization concepts that can
be reproduced more or less easily with other libraries
such as `matplotlib`, `plotnine`, `plotly` and `seaborn`.

In [None]:
import altair as alt

Étant donné que les graphiques générés par Altair ne sont pas que des
images statiques, l'information générée est parfois très lourde et
elle s'accumule dans le notebook s'il y a plusieurs graphiques.
Néanmoins, pour contourner la limite de 5000 rangées dans le DataFrame
de données, on peut désactiver cette limite, à nos risques.

Because the graphics generated by Altair are not just static
images, the generated information can be quite heavy and
it accumulates if there are multiple plots in a notebook.
By default, Altair processes DataFrames of up to 5000 records,
but we can disable that limit to our own risks.

In [None]:
alt.data_transformers.disable_max_rows()

## Générer des graphiques avec `altair`
Les graphiques `altair` sont construits étape par étape à partir
d'un objet de type `Chart`:
* **Création du graphique** - La première méthode obligatoire débute
  par `mark_`. Par exemple, `mark_point()`.
  À ce stade, c'est normal que tout soit concentré en un point.

## Plotting with `altair`
`altair` graphics are built step by step from
a `Chart` object constructed with a DataFrame:
* **Choosing the type of graphic** -
  The first mandatory method starts with `mark_`.
  For example, `mark_point()`.
  By default, all points are overlapping and this is normal.

In [None]:
# Création de l'objet Chart et choix du type de graphique
alt.Chart(surveys_complet).mark_point()

In [None]:
# New Chart object and choice of type of graphic
alt.Chart(surveys_complete).mark_point()

* **Encodage des canaux** - La prochaine étape consiste à
  [encoder](https://altair-viz.github.io/user_guide/encodings/)
  des canaux liant certaines variables du DataFrame à divers éléments
  du graphiques. Les principaux paramètres de `encode()` sont :
  `x`, `y`, `color`, `shape` et `size`.

* **Encoding channels** - Then we need to
  [encode channels](https://altair-viz.github.io/user_guide/encodings/)
  that are linking some fields of the DataFrame to elements
  of the graphic. The main parameters of `encode()` are:
  `x`, `y`, `color`, `shape` and `size`.

In [None]:
# Définition des axes ; les points prennent leur position
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
)

In [None]:
# Once the axises are defined, the points take their position
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
)

* **Navigation interactive** - On peut ensuite rendre le graphique
  interactif, ce qui permet de naviguer dans le graphique à l'aide
  de la souris.

* **Interactive navigation** - When a chart is made _interactive_,
  it allows to zoom in & out, and to drag the graphic with the mouse.

In [None]:
# Permettre les interactions avec la souris
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
).interactive()

In [None]:
# Enable interactions with the mouse
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
).interactive()

In [None]:
# Ajouter du bruit aux longueurs et aux poids
N = len(surveys_complet)
surveys_complet['longueur_bruitee'] = (
    surveys_complet['hindfoot_length'] + np.random.uniform(-0.5, 0.5, N)
)
surveys_complet['poids_bruite'] = (
    surveys_complet['weight'] + np.random.uniform(-0.5, 0.5, N)
)
surveys_complet.columns

In [None]:
# Let's add some noise to the points' coordinates
N = len(surveys_complete)
surveys_complete['noisy_length'] = (
    surveys_complete['hindfoot_length'] + np.random.uniform(-0.5, 0.5, N)
)
surveys_complete['noisy_weight'] = (
    surveys_complete['weight'] + np.random.uniform(-0.5, 0.5, N)
)
surveys_complete.columns

* **Affichage interactif des valeurs** - Encoder le canal `tooltip`
  avec une liste de variables à afficher au passage de la souris.

* **Having values displayed interactively** -
  Encode the `tooltip` channel with a list of
  fields to display when moving the mouse pointer.

In [None]:
# Permettre de voir les valeurs associées aux points
graphique = alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite'),
    tooltip=['plot_id', 'species_id', 'hindfoot_length', 'weight'],
)
graphique

In [None]:
# Display values of selected fields when moving the mouse
graphique = alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight'),
    tooltip=['plot_id', 'species_id', 'hindfoot_length', 'weight'],
)
graphique

* **Sauvegarde du graphique** - C'est possible de le sauvegarder dans le format de notre choix.

* **Saving the figure** -
  It is possible to save the chart in the format of our choice.

In [None]:
graphique.save('poids_longueur.html')

In [None]:
graphique.save('weight_length.html')

In [None]:
try:
    graphique.save('poids_longueur.png')
except BaseException as err:
    print('Erreur:', err)
    print('-> Il vaut mieux utiliser le bouton (•••)')

In [None]:
try:
    graphique.save('weight_length.png')
except BaseException as err:
    print('Error:', err)
    print('-> We better use the (•••) button')

### Exercice - Créer un histogramme
À partir du DataFrame `surveys_complet`, faites afficher le
décompte du nombre d'enregistrements pour chaque `plot_id`. Instructions :
* Utilisez
  [`mark_bar()`](https://altair-viz.github.io/gallery/simple_bar_chart.html)
  pour générer
  [l'histogramme](https://altair-viz.github.io/gallery/simple_histogram.html)
* Sur l'axe horizontal, spécifiez la variable `'plot_id'` et le
  [type `'ordinal'`](https://altair-viz.github.io/user_guide/encodings/#encoding-data-types)
* Sur l'axe vertical, spécifiez `'count()'` comme variable pour que
  Altair fasse automatiquement le décompte, ce qui évite de passer
  par la méthode `groupby()` du DataFrame

### Exercise - Create an histogram
From the `surveys_complete` DataFrame, create an histogram that
shows the count of records for each `plot_id`. Instructions:
* Use
  [`mark_bar()`](https://altair-viz.github.io/gallery/simple_bar_chart.html)
  to generate the
  [histogram](https://altair-viz.github.io/gallery/simple_histogram.html)
* For the X axis, specify the `'plot_id'` field and the
  [`'ordinal'` type](https://altair-viz.github.io/user_guide/encodings/#encoding-data-types)
* For the Y axis, specify `'count()'` as a temporary field computed
  automatically by Altair, which saves us from using `groupby()`

In [None]:
alt.Chart(surveys_complet).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
)

In [None]:
###(surveys_complet)###
    ###('plot_id').type('ordinal'),
    ###('count()'),
)

In [None]:
alt.Chart(surveys_complete).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
)

In [None]:
###(surveys_complete)###
    ###('plot_id').type('ordinal'),
    ###('count()'),
)

## Construire un graphique par étapes
Rappel : les éléments de base de tout graphique Altair sont
le `Chart()` avec le DataFrame, un type de graphique `mark_*()`
et des variables utilisées dans `encode()`.

* Ensuite, on commence à modifier le graphique pour en extraire
  davantage d'information. Par exemple, avec de la transparence :

## Building your plots iteratively
Reminder: every Altair graphics are `Chart()`
objects constructed with a DataFrame.
Then, a `mark_*()` method is called to specify the
type of graphic, and some data fields are assigned
to encoding channels via the `encode()` method.

* We can then modify the graphic in order to display more information.
  For example, with transparency:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite'),
).configure_mark(
    opacity=0.05,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight'),
).configure_mark(
    opacity=0.05,
)

* Pour avoir une couleur différente pour chaque type d'espèce,
  il faut lier la variable `species_id` au canal `color` :

* To get a unique color per species, we need to encode
  the `species_id` field to the `color` channel:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite'),
    color=alt.Color('species_id'),
).configure_mark(
    opacity=0.05,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight'),
    color=alt.Color('species_id'),
).configure_mark(
    opacity=0.05,
)

* Étant donné la similarité de certaines couleurs, on peut ensuite
  activer les `tooltip` avec les identifiants de `species_id` :

* Because the colors are reused for multiple species, we
  better activate the `tooltip` channel with `species_id`:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
)

* Utiliser une échelle verticale semi-log :

* The Y axis can be configured with a logarithmic scale:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite').scale(type='log', base=2),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
)

* Modifier le nom des axes :

* The title and axis labels can be set:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee').title('Longueur de patte (mm)'),
    y=alt.Y('poids_bruite').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
    title='Poids selon la longueur de patte',
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length').title('Hindfoot length (mm)'),
    y=alt.Y('noisy_weight').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
    title='Weight by the hindfoot length',
)

### Exercice - Enrichir l'histogramme
Adaptez l'histogramme de l'exercice précédent en associant la variable
`sex` à une échelle de couleurs spécifique :
* L'encodage du canal `color` doit donc se faire avec la variable
  `'sex'`. La méthode `.scale()` permet ensuite d'associer les valeurs
  de domaine `'F'` et `'M'` aux couleurs `'orange'` et `'green'`.
  Voir [un exemple ici](https://altair-viz.github.io/user_guide/customization.html#color-domain-and-range)
* Activez le canal `tooltip` avec `'count()'` pour avoir le décompte
  par sexe

### Exercise - Enrich the histogram
Modify the histogram from the previous exercise by
encoding the `sex` field to a specific color scale:
* The `'sex'` field must be encoded to the `color` channel.
  The `.scale()` method can then associate domain values `'F'`
  and `'M'` to colors `'orange'` and `'green'`, respectively.
  See [an example here](https://altair-viz.github.io/user_guide/customization.html#color-domain-and-range)
* Activate the `tooltip` channel with
  `'count()'` in order to get the count by sex

In [None]:
alt.Chart(surveys_complet).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.Color('sex').scale(
        domain=['F', 'M'],
        range=['orange', 'green'],
    ),
    tooltip=['count()'],
)

In [None]:
alt.Chart(surveys_complet).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.###(###).scale(
        ###=['F', 'M'],
        ###=['orange', 'green'],
    ),
    ###['count()'],
)

In [None]:
alt.Chart(surveys_complete).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.Color('sex').scale(
        domain=['F', 'M'],
        range=['orange', 'green'],
    ),
    tooltip=['count()'],
)

In [None]:
alt.Chart(surveys_complete).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.###(###).scale(
        ###=['F', 'M'],
        ###=['orange', 'green'],
    ),
    ###['count()'],
)

## Visualiser des données selon le temps
* Nombre d'enregistrements par type d'espèce pour chaque année :

## Plotting time series data
* Let’s visualize the number of records per year for each species

In [None]:
alt.Chart(surveys_complet).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('count()').scale(type='log', base=2),
    color=alt.Color('species_id'),
)

In [None]:
alt.Chart(surveys_complete).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('count()').scale(type='log', base=2),
    color=alt.Color('species_id'),
)

* Poids médian par type d'espèce pour chaque mois :

* And now, the median weight per month for each species

In [None]:
alt.Chart(surveys_complet).mark_line().encode(
    x=alt.X('month').type('ordinal'),
    y=alt.Y('weight').aggregate('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
)

In [None]:
alt.Chart(surveys_complete).mark_line().encode(
    x=alt.X('month').type('ordinal'),
    y=alt.Y('weight').aggregate('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
)

### Exercice - Visualisation selon le temps
`1`. Utilisez la fonction `pd.to_datetime()` pour générer une colonne
     de dates à partir des colonnes `year`, `month` et `day`.

### Exercise - Plotting time series data
`1`. Use the `pd.to_datetime()` function to generate a new
`date` column from the columns `year`, `month` and `day`.

In [None]:
# Décennie 1990 - pour éviter avril et septembre 2000
dec_1990 = surveys_complet[
    surveys_complet['year'] // 10 == 199].copy()

dec_1990['date'] = pd.to_datetime(dec_1990[['year', 'month', 'day']])
dec_1990['date']

In [None]:
# Décennie 1990 - pour éviter avril et septembre 2000
dec_1990 = surveys_complet[
    surveys_complet['year'] // 10 == 199].copy()

dec_1990['date'] = ###['year', 'month', 'day']###
dec_1990['date']

In [None]:
# Decade 1990 - to avoid April and September 2000
dec_1990 = surveys_complete[
    surveys_complete['year'] // 10 == 199].copy()

dec_1990['date'] = pd.to_datetime(dec_1990[['year', 'month', 'day']])
dec_1990['date']

In [None]:
# Decade 1990 - to avoid April and September 2000
dec_1990 = surveys_complete[
    surveys_complete['year'] // 10 == 199].copy()

dec_1990['date'] = ###['year', 'month', 'day']###
dec_1990['date']

`2`. Affichez le poids médian de chaque espèce selon la `date`.

`2`. Visualize the median weight of each species by the `date`.

In [None]:
alt.Chart(dec_1990).mark_line().encode(
    x=alt.X('date'),
    y=alt.Y('weight').aggregate('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id', 'date'],
)

In [None]:
alt.Chart(###).mark_line().encode(
    x=alt.X(###),
    y=alt.Y('weight').###('median'),
    color=alt.Color('species_id'),
    tooltip=['species_id', 'date'],
)

## Création de facettes
`altair` a une technique spéciale appelée *création de facettes*
permettant de diviser un graphique en plusieurs sous-graphiques
selon les valeurs d'une variable.

* Avec les différentes valeurs de `sex` :

## Faceting
`altair` has a special technique called *faceting*
that allows to split one plot into multiple plots
based on a factor variable included in the dataset.

* With the different values of `sex`:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite').scale(type='log', base=2),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=240,
    height=384,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=240,
    height=384,
)

* Avec les nombreuses valeurs de `plot_id` :

* With the numerous values of `plot_id`:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite').scale(type='log', base=2),
    color=alt.Color('species_id'),
    facet=alt.Facet('plot_id').columns(5),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=90,
    height=60,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    facet=alt.Facet('plot_id').columns(5),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=90,
    height=60,
)

* Pour créer une grille de facettes telle qu'une variable change de
  valeur d'une rangée à l'autre et qu'une seconde variable change
  d'une colonne à l'autre, on utilisera les canaux `row` et `column` :

* To create a grid of facets such that each row of facets
  corresponds to one value of a variable, and each column
  of facets corresponds to one value of a second variable,
  we use the encoding channels `row` and `column`:

In [None]:
# Garder uniquement quelques années
surveys2000 = surveys_complet[surveys_complet['year'].isin([2000, 2001, 2002])]

alt.Chart(surveys2000).mark_point().encode(
    x=alt.X('longueur_bruitee'),
    y=alt.Y('poids_bruite').scale(type='log', base=2),
    color=alt.Color('species_id'),
    row=alt.Row('sex'),
    column=alt.Column('year'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=128,
    height=128,
)

In [None]:
# Only keep three years
surveys2000 = surveys_complete[surveys_complete['year'].isin([2000, 2001, 2002])]

alt.Chart(surveys2000).mark_point().encode(
    x=alt.X('noisy_length'),
    y=alt.Y('noisy_weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    row=alt.Row('sex'),
    column=alt.Column('year'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=128,
    height=128,
)

### Exercice - Facettes
* Créez deux facettes selon le `sex`
* Chaque facette aura :
  * Les années en axe des x
  * Le poids moyen en axe des y
  * Une courbe de couleur par espèce

### Exercise - Faceting
* Create two facets by the `sex`
* Each facet will have:
  * Years on the X axis
  * The average weight on the Y axis
  * One colored line per species

In [None]:
alt.Chart(surveys_complet).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('weight').aggregate('mean'),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
).properties(
    width=256,
)

In [None]:
alt.Chart(surveys_complet).###().encode(
    x=alt.X('year').type###,
    y=alt.Y('weight').aggregate###,
    color=###,
    ###('sex'),
).properties(
    width=256,
)

In [None]:
alt.Chart(surveys_complete).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('weight').aggregate('mean'),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
).properties(
    width=256,
)

In [None]:
alt.Chart(surveys_complete).###().encode(
    x=alt.X('year').type###,
    y=alt.Y('weight').aggregate###,
    color=###,
    ###('sex'),
).properties(
    width=256,
)

## Visualiser des distributions
* Tout d'abord, un box-plot peut être utilisé :

## Plotting distributions
* A boxplot can be used:

In [None]:
alt.Chart(surveys_complet).mark_boxplot().encode(
    x=alt.X('species_id').title("Identifiant d'espèce"),
    y=alt.Y('poids_bruite').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
)

In [None]:
alt.Chart(surveys_complete).mark_boxplot().encode(
    x=alt.X('species_id').title('Species identifier'),
    y=alt.Y('noisy_weight').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id').legend(None),
)

* Des facettes étroites peuvent être utilisées pour afficher
  plusieurs nuages de points :

* Narrow facets can be used to display multiple point clouds:

In [None]:
alt.Chart(surveys_complet).transform_calculate(
    bruit='random()-0.5'  # Position horizontale dans la facette
).mark_circle(size=4).encode(
    x=alt.X('bruit').type('quantitative').axis(None).title(None),
    y=alt.Y('poids_bruite').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
    column=alt.Column('species_id').title('Poids selon les espèces'),
).configure_mark(
    opacity=0.25,  # Transparence des mark_circle()
).configure_facet(
    spacing=0,     # Supprimer la marge entre les facettes
).configure_view(
    stroke=None,   # Enlever la boîte autour des facettes
).properties(
    width=18,      # Largeur des facettes
)

In [None]:
alt.Chart(surveys_complete).transform_calculate(
    noise='random()-0.5'  # Horizontal position in the facet
).mark_circle(size=4).encode(
    x=alt.X('noise').type('quantitative').axis(None).title(None),
    y=alt.Y('noisy_weight').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id').legend(None),
    column=alt.Column('species_id').title('Weights by species'),
).configure_mark(
    opacity=0.25,  # Opacity factor of mark_circle()
).configure_facet(
    spacing=0,     # Delete the margin between each facet
).configure_view(
    stroke=None,   # Remove the box around each facet
).properties(
    width=18,      # Each facet width
)

### Exercice - Distributions
Pour cet exercice, on cherche à avoir les vrais noms d'espèce sur
l'axe horizontal d'un box-plot.

`1`. Recalculez la jonction de gauche entre `surveys_complet` et
     le détail des espèces dans `species.csv`.

### Exercise - Distributions
For this exercise, we want to display the
full species names on the X axis of a boxplot.

`1`. Compute the left-join of `surveys_complete`
and all the species details in `species.csv`.

In [None]:
species_df = pd.read_csv('../data/species.csv')

jonc_gauche = pd.merge(
    left=surveys_complet, right=species_df,
    on='species_id', how='left')

jonc_gauche.columns

In [None]:
species_df = pd.read_csv('../data/species.csv')

jonc_gauche = pd.###(
    left=###, right=###,
    on=###, how=###)

jonc_gauche.columns

In [None]:
species_df = pd.read_csv('../data/species.csv')

left_join = pd.merge(
    left=surveys_complete, right=species_df,
    on='species_id', how='left')

left_join.columns

In [None]:
species_df = pd.read_csv('../data/species.csv')

left_join = pd.###(
    left=###, right=###,
    on=###, how=###)

left_join.columns

`2`. Créez le box-plot:
* Le nom des espèces sur l'axe horizontal, avec l'étiquette "Espèce"
* Le poids bruité dans l'axe vertical, selon une échelle logarithmique
  en base 2 et avec l'étiquette "Poids (g)"
* Une couleur selon l'identifiant d'espèce
* Un titre pour le graphique

`2`. Create the boxplot:
* The full species names on the X axis, with the label "Species"
* The noisy weights on the Y axis, with a logarithmic
  scale in base 2 and with the label "Weight (g)"
* One color for each species identifier
* A title for the graphic

In [None]:
alt.Chart(jonc_gauche).mark_boxplot().encode(
    x=alt.X('species').title('Espèce'),
    y=alt.Y('poids_bruite').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
).properties(
    title='Distribution des poids par espèce',
)

In [None]:
alt.Chart(###)###.encode(
    x=alt.X(###).title('Espèce'),
    y=alt.Y('poids_bruite').scale(type='log', base=2).###('Poids (g)'),
    color=alt.Color(###).legend(None),
).properties(
    ###='Distribution des poids par espèce',
)

In [None]:
alt.Chart(left_join).mark_boxplot().encode(
    x=alt.X('species').title('Species'),
    y=alt.Y('noisy_weight').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id').legend(None),
).properties(
    title='Distribution of weights by species',
)

In [None]:
alt.Chart(###)###.encode(
    x=alt.X(###).title('Species'),
    y=alt.Y('noisy_weight').scale(type='log', base=2).###('Weight (g)'),
    color=alt.Color(###).legend(None),
).properties(
    ###='Distribution of weights by species',
)

## Résumé technique
* **Module Altair**
  * `import altair as alt`
  * Désactiver limite : `alt.data_transformers.disable_max_rows()`
* **Création d'un graphique vierge**
  * `graphique = alt.Chart(df)`
* **Choix du type de marqueurs** à afficher
  * `graphique.mark_point()`
  * `graphique.mark_bar()`
  * `graphique.mark_line()`
  * `graphique.mark_boxplot()`
  * `graphique.mark_circle(size=N)`
  * `graphique.mark_area(orient='horizontal')`
* **Assigner des variables** à des canaux du graphique
  * `graphique.encode(...)`
  * Différents canaux :
    * `x=alt.X('varX')` et `y=alt.Y('varY')`
      * `.type('type')`, avec les
        [différents types](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-data-types) :
        * Quantités continues : `'quantitative'`, `'var:Q'`
        * Quantités discrètes triées : `'ordinal'`, `'var:O'`
        * Catégories discrètes : `'nominal'`, `'var:N'`
        * Dates et heures : `'temporal'`, `'var:T'`
      * `.aggregate('stat')`,
        avec les statistiques `'mean'`, `'median'`, etc.
      * `.scale(type='log', base=2)`
      * `.title('Nom axe X ou Y')`
    * `color=alt.Color('varCouleur')`
      * `.legend(None)`
      * `.scale(domain=[...], range=['#114499', ...])`
    * `facet=alt.Facet('varFacet')`
      * `.columns(N)`
    * `row=alt.Row('varRangées')`
    * `column=alt.Column('varColonne')`
    * `tooltip=['varX', 'varY', 'varCouleur', ...]`
* **Autres propriétés du graphique**
  * `graphique.interactive()`
  * `graphique.configure_mark(opacity=0.05)`
  * `graphique.properties(...)`
    * `width=400`
    * `height=300`
    * `title='Titre'`
  * `graphique.configure_facet(spacing=0)`
  * `graphique.configure_view(stroke=None, width=20)`
* **Sauvegarde**
  * `graphique.save("graphique.html")`
  * `graphique.save("graphique.png")`

## Key points
* **Altair module**
  * `import altair as alt`
  * Deactivate the limit: `alt.data_transformers.disable_max_rows()`
* **Creating a new empty graphic**
  * `graphic = alt.Chart(df)`
* **Choosing a type of graphic**
  * `graphic.mark_point()`
  * `graphic.mark_bar()`
  * `graphic.mark_line()`
  * `graphic.mark_boxplot()`
  * `graphic.mark_circle(size=N)`
* **Assigning data fields to encoding channels**:
  * `graphic.encode(...)`
  * Encoding channels:
    * `x=alt.X('varX')` and `y=alt.Y('varY')`
      * `.type('type')`, with the
        [different types](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-data-types) :
        * Continuous quantity: `'quantitative'`, `'var:Q'`
        * Discrete ordered quantity: `'ordinal'`, `'var:O'`
        * Discrete unordered category: `'nominal'`, `'var:N'`
        * Time or date value: `'temporal'`, `'var:T'`
      * `.aggregate(...)`,
        with either `'mean'`, `'median'`, etc.
      * `.scale(type='log', base=2)`
      * `.title('Name for the X or Y axis')`
    * `color=alt.Color('field_name_for_colors')`
      * `.legend(None)`
      * `.scale(domain=[...], range=['#114499', ...])`
    * `facet=alt.Facet('field_name_for_facets')`
      * `.columns(N)`
    * `row=alt.Row('field_name_for_facet_rows')`
    * `column=alt.Column('field_name_for_facet_columns')`
    * `tooltip=['field_name1', 'field_name2', 'field_name3', ...]`
* **Other properties of the graphic**
  * `graphic.interactive()`
  * `graphic.configure_mark(opacity=0.05)`
  * `graphic.properties(...)`
    * `width=400`
    * `height=300`
    * `title='Whole figure title'`
  * `graphic.configure_facet(spacing=0)`
  * `graphic.configure_view(stroke=None, width=20)`
* **Saving the figure**
  * `graphic.save("graphic.html")`
  * `graphic.save("graphic.png")`