# Visualisation de données en Python
## Construire un graphique par étapes

Question
* Comment personnaliser un graphique selon la
  *grammaire des graphiques* d'Altair?

Objectifs
* Configurer les couleurs des éléments d'un graphique.
* Modifier l'échelle des axes.
* Éditer le titre du graphique et le nom des axes.

# Data Visualization in Python
## Building your plots iteratively

Question
* How to customize a chart by the
  *grammar of graphics* of Altair?

Objectives
* Change the aesthetics of a plot such as color.
* Change the scale of the axes.
* Edit the plot title and the axis labels.

In [None]:
import pandas as pd

# Charger les données nettoyées
surveys_complet = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complet

In [None]:
import pandas as pd

# Load the cleaned data
surveys_complete = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complete

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

## Construire un graphique par étapes
Rappel : les éléments de base de tout graphique Altair sont
le `Chart()` avec le DataFrame, un type de graphique `mark_*()`
et des variables utilisées dans `encode()`.

* Ensuite, on commence à modifier le graphique pour en extraire
  davantage d'information. Par exemple, avec de la transparence :

## Building your plots iteratively
Reminder: every Altair charts are `Chart()`
objects constructed with a DataFrame.
Then, a `mark_*()` method is called to specify the
type of chart, and some data fields are assigned
to encoding channels via the `encode()` method.

* We can then modify the chart in order to display more information.
  For example, with transparency:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
).configure_mark(
    opacity=0.05,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
).configure_mark(
    opacity=0.05,
)

* Pour avoir une couleur différente pour chaque type d'espèce,
  il faut lier la variable `species_id` au canal `color` :

* To get a unique color per species, we need to encode
  the `species_id` field to the `color` channel:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
    color=alt.Color('species_id'),
).configure_mark(
    opacity=0.05,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
    color=alt.Color('species_id'),
).configure_mark(
    opacity=0.05,
)

* Étant donné la similarité de certaines couleurs, on peut ensuite
  activer les `tooltip` avec les identifiants de `species_id` :

* Because the colors are reused for multiple species, we
  better activate the `tooltip` channel with `species_id`:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight'),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
)

* Utiliser une échelle verticale semi-log :

* The Y axis can be configured with a logarithmic scale:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length'),
    y=alt.Y('weight').scale(type='log', base=2),
    color=alt.Color('species_id'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
)

* Définir les titres et le nom des axes :

* The titles and the axis labels can be set:

In [None]:
alt.Chart(surveys_complet).mark_point().encode(
    x=alt.X('hindfoot_length').title('Longueur arrière-pied (mm)'),
    y=alt.Y('weight').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').title("Code d'espèce"),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
    title="Poids selon la longueur de l'arrière-pied",
)

In [None]:
alt.Chart(surveys_complete).mark_point().encode(
    x=alt.X('hindfoot_length').title('Hindfoot length (mm)'),
    y=alt.Y('weight').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id').title('Species ID'),
    tooltip=['species_id'],
).configure_mark(
    opacity=0.05,
).properties(
    height=384,
    title='Weight by the hindfoot length',
)

### Exercice - Enrichir le graphique à barres
Adaptez le graphique de l'exercice précédent en associant la variable
`sex` à une échelle de couleurs spécifique :
* L'encodage du canal `color` doit donc se faire avec la variable
  `'sex'`. La méthode `.scale()` permet ensuite d'associer les valeurs
  de domaine `'F'` et `'M'` aux couleurs `'orange'` et `'green'`.
  Voir [un exemple ici](https://altair-viz.github.io/user_guide/customization.html#color-domain-and-range)
* Dans le canal `tooltip`, ajoutez `'sex'` au début de la liste
* Expérimentez l'activation du canal `xOffset`

(4 min.)

### Exercise - Enrich the bar chart
Modify the chart from the previous exercise by
encoding the `sex` field to a specific color scale:
* The `'sex'` field must be encoded to the `color` channel.
  The `.scale()` method can then associate domain values `'F'`
  and `'M'` to colors `'orange'` and `'green'`, respectively.
  See [an example here](https://altair-viz.github.io/user_guide/customization.html#color-domain-and-range)
* In the `tooltip` channel, add `'sex'` at the beginning of the list
* Activate the `xOffset` channel and see what it does to the bar-plot

(4 min.)

In [None]:
alt.Chart(surveys_complet).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.Color('sex').scale(
        domain=['F', 'M'],
        range=['orange', 'green'],
    ),
    xOffset='sex',
    tooltip=['sex', 'count()'],
).properties(
    width=480,  # Fixer la largeur du graphique (pixels)
)

In [None]:
alt.Chart(surveys_complet).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.###(###).scale(
        ###=['F', 'M'],
        ###=['orange', 'green'],
    ),
    #xOffset='sex',
    tooltip=[###, 'count()'],
).properties(
    width=480,  # Fixer la largeur du graphique (pixels)
)

In [None]:
alt.Chart(surveys_complete).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.Color('sex').scale(
        domain=['F', 'M'],
        range=['orange', 'green'],
    ),
    xOffset='sex',
    tooltip=['sex', 'count()'],
).properties(
    width=480,  # Fix the chart width (pixels)
)

In [None]:
alt.Chart(surveys_complete).mark_bar().encode(
    x=alt.X('plot_id').type('ordinal'),
    y=alt.Y('count()'),
    color=alt.###(###).scale(
        ###=['F', 'M'],
        ###=['orange', 'green'],
    ),
    #xOffset='sex',
    tooltip=[###, 'count()'],
).properties(
    width=480,  # Fix the chart width (pixels)
)