# Visualisation de données en Python
## Création de facettes

Question
* Comment comparer visuellement des données dans une même figure?

Objectif
* Diviser une figure en facettes.

# Data Visualization in Python
## Faceting

Question
* How to visually compare data in the same figure?

Objective
* Create a collection of plots splitting the data by a "factor" variable.

In [None]:
import pandas as pd

# Charger les données nettoyées
surveys_complet = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complet

In [None]:
import pandas as pd

# Load the cleaned data
surveys_complete = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complete

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

## Création de facettes
`altair` a une technique spéciale appelée *création de facettes*
permettant de diviser un graphique en plusieurs sous-graphiques
selon les valeurs d'une variable.

* Avec les différentes valeurs de `sex` :

## Faceting
`altair` has a special technique called *faceting*
that allows to split one plot into multiple plots
based on a factor variable included in the dataset.

* With the different values of `sex`:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=240,
    height=384,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=240,
    height=384,
)

* Avec les nombreuses valeurs de `species_id` :

* With the numerous values of `species_id`:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('sex'),
    facet=alt.Facet('species_id').columns(5),
    tooltip=['sex'],
).configure_mark(
    opacity=0.05,
).properties(
    width=90,
    height=60,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('sex'),
    facet=alt.Facet('species_id').columns(5),
    tooltip=['sex'],
).configure_mark(
    opacity=0.05,
).properties(
    width=90,
    height=60,
)

* Pour créer une grille de facettes telle qu'une variable change de
  valeur d'une rangée à l'autre et qu'une seconde variable change
  d'une colonne à l'autre, on utilisera les canaux `row` et `column` :

* To create a grid of facets such that each row of facets
  corresponds to one value of a variable, and each column
  of facets corresponds to one value of a second variable,
  we use the encoding channels `row` and `column`:

In [None]:
# Garder uniquement quelques années
surveys2000 = surveys_complet[surveys_complet['year'].isin([2000, 2001, 2002])]

alt.Chart(surveys2000).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    row=alt.Row('sex'),
    column=alt.Column('year'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=128,
    height=128,
)

In [None]:
# Only keep three years
surveys2000 = surveys_complete[surveys_complete['year'].isin([2000, 2001, 2002])]

alt.Chart(surveys2000).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    row=alt.Row('sex'),
    column=alt.Column('year'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    width=128,
    height=128,
)

### Exercice - Facettes
* Créez deux facettes selon le `sex`
* Chaque facette aura :
  * Les années en axe des x
  * Le poids moyen en axe des y
  * Une courbe de couleur par espèce

(5 min.)

### Exercise - Faceting
* Create two facets by the `sex`
* Each facet will have:
  * Years on the X axis
  * The average weight on the Y axis
  * One colored line per species

(5 min.)

In [None]:
alt.Chart(surveys_complet).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('weight').aggregate('mean'),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
).properties(
    width=256,
)

In [None]:
alt.Chart(surveys_complet).###().encode(
    x=alt.X('year').type###,
    y=alt.Y('weight').aggregate###,
    color=###,
    ###('sex'),
).properties(
    width=256,
)

In [None]:
alt.Chart(surveys_complete).mark_line().encode(
    x=alt.X('year').type('ordinal'),
    y=alt.Y('weight').aggregate('mean'),
    color=alt.Color('species_id'),
    facet=alt.Facet('sex'),
).properties(
    width=256,
)

In [None]:
alt.Chart(surveys_complete).###().encode(
    x=alt.X('year').type###,
    y=alt.Y('weight').aggregate###,
    color=###,
    ###('sex'),
).properties(
    width=256,
)

## Résumé technique
* **Assigner des variables** à des canaux du graphique
  * `graphique.encode(...)`
  * Différents canaux :
    * `facet=alt.Facet('varFacet')`
      * `.columns(N)`
    * `row=alt.Row('varRangées')`
    * `column=alt.Column('varColonne')`

## Key points
* **Assigning data fields to encoding channels**:
  * `chart.encode(...)`
  * Encoding channels:
    * `facet=alt.Facet('field_name_for_facets')`
      * `.columns(N)`
    * `row=alt.Row('field_name_for_facet_rows')`
    * `column=alt.Column('field_name_for_facet_columns')`