# Visualisation de données en Python
## Visualiser des distributions

Question
* Comment visualiser la distribution des données selon un certain facteur?

Objectif
* Créer différents types de graphiques.

# Data Visualization in Python
## Plotting distributions

Question
* How to visualize data distributions by some factor?

Objective
* Create different types of plots.

In [None]:
import pandas as pd

# Charger les données nettoyées
surveys_complet = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complet

In [None]:
import pandas as pd

# Load the cleaned data
surveys_complete = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complete

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

## Visualiser des distributions
* Tout d'abord, un box-plot peut être utilisé :

## Plotting distributions
* A boxplot can be used:

In [None]:
alt.Chart(surveys_complet).mark_boxplot().encode(
    x=alt.X('species_id').title("Identifiant d'espèce"),
    y=alt.Y('weight').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
)

In [None]:
alt.Chart(surveys_complete).mark_boxplot().encode(
    x=alt.X('species_id').title('Species identifier'),
    y=alt.Y('weight').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id').legend(None),
)

* Des facettes étroites peuvent être utilisées pour afficher
  plusieurs nuages de points :

* Narrow facets can be used to display multiple point clouds:

In [None]:
alt.Chart(surveys_complet).transform_calculate(
    bruit='random() - 0.5',  # Position horizontale dans la facette
    poids_b='datum.weight + random() - 0.5',
).mark_circle(size=4).encode(
    x=alt.X('bruit').type('quantitative').axis(None).title(None),
    y=alt.Y('poids_b:Q').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
    column=alt.Column('species_id').title('Poids selon les espèces'),
).configure_mark(
    opacity=0.25,  # Transparence des mark_circle()
).configure_facet(
    spacing=0,     # Supprimer la marge entre les facettes
).configure_view(
    stroke=None,   # Enlever la boîte autour des facettes
).properties(
    width=18,      # Largeur des facettes
)

In [None]:
alt.Chart(surveys_complete).transform_calculate(
    noise='random() - 0.5',  # Horizontal position in the facet
    noisy_w='datum.weight + random() - 0.5',
).mark_circle(size=4).encode(
    x=alt.X('noise').type('quantitative').axis(None).title(None),
    y=alt.Y('noisy_w:Q').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id').legend(None),
    column=alt.Column('species_id').title('Weights by species'),
).configure_mark(
    opacity=0.25,  # Opacity factor of mark_circle()
).configure_facet(
    spacing=0,     # Delete the margin between each facet
).configure_view(
    stroke=None,   # Remove the box around each facet
).properties(
    width=18,      # Each facet width
)

### Exercice - Distributions
Pour cet exercice, on cherche à avoir les vrais noms d'espèce sur
l'axe horizontal d'un box-plot.

(Préparation) Calculez la jonction de gauche entre `surveys_complet`
et le détail des espèces dans `species.csv`. (3 min.)

### Exercise - Distributions
For this exercise, we want to display the
full species names on the X axis of a boxplot.

(Preparation) Compute the left-join of `surveys_complete`
and all the species details in `species.csv`. (3 min.)

In [None]:
species_df = pd.read_csv('../data/species.csv')

jonc_gauche = pd.merge(
    left=surveys_complet,
    right=species_df,
    on='species_id',
    how='left'
)

jonc_gauche.columns

In [None]:
species_df = pd.read_csv('../data/species.csv')

left_join = pd.merge(
    left=surveys_complete,
    right=species_df,
    on='species_id',
    how='left'
)

left_join.columns

Créez le box-plot :
* Le nom des espèces sur l'axe horizontal, avec l'étiquette "Espèce"
* Le poids dans l'axe vertical, selon une échelle logarithmique
  en base 2 et avec l'étiquette "Poids (g)"
* Une couleur selon l'identifiant d'espèce
* Un titre pour le graphique

(6 min.)

Create the boxplot:
* The full species names on the X axis, with the label "Species"
* The weights on the Y axis, with a logarithmic
  scale in base 2 and with the label "Weight (g)"
* One color for each species identifier
* A title for the chart

(6 min.)

In [None]:
alt.Chart(jonc_gauche).mark_boxplot().encode(
    x=alt.X('species').title('Espèce'),
    y=alt.Y('weight').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
).properties(
    title='Distribution des poids par espèce',
)

In [None]:
alt.Chart(###)###.encode(
    x=alt.X(###).title('Espèce'),
    y=alt.Y('weight').scale(type='log', base=2).###('Poids (g)'),
    color=alt.Color(###).legend(None),
).properties(
    ###='Distribution des poids par espèce',
)

In [None]:
alt.Chart(left_join).mark_boxplot().encode(
    x=alt.X('species').title('Species'),
    y=alt.Y('weight').scale(type='log', base=2).title('Weight (g)'),
    color=alt.Color('species_id').legend(None),
).properties(
    title='Distribution of weights by species',
)

In [None]:
alt.Chart(###)###.encode(
    x=alt.X(###).title('Species'),
    y=alt.Y('weight').scale(type='log', base=2).###('Weight (g)'),
    color=alt.Color(###).legend(None),
).properties(
    ###='Distribution of weights by species',
)

## Résumé technique
* **Colonnes temporaires**
  * `graphique.transform_calculate(col2='datum.col1 + random()-0.5')`
* **Choix du type de marqueurs** à afficher
  * `graphique.mark_boxplot()`
  * `graphique.mark_circle(size=N)`
* **Assigner des variables** à des canaux du graphique
  * `graphique.encode(...)`
  * Différents canaux :
    * `color=alt.Color('varCouleur')`
      * `.legend(None)`
    * `column=alt.Column('varColonne')`
* **Autres propriétés du graphique**
  * `graphique.configure_facet(spacing=0)`
  * `graphique.configure_view(stroke=None)`
  * `graphique.properties(width=20)`

## Key points
* **Temporary columns**
  * `chart.transform_calculate(col2='datum.col1 + random()-0.5')`
* **Choosing a type of chart**
  * `chart.mark_boxplot()`
  * `chart.mark_circle(size=N)`
* **Assigning data fields to encoding channels**:
  * `chart.encode(...)`
  * Encoding channels:
    * `color=alt.Color('field_name_for_colors')`
      * `.legend(None)`
    * `column=alt.Column('field_name_for_facet_columns')`
* **Other properties of the chart**
  * `chart.configure_facet(spacing=0)`
  * `chart.configure_view(stroke=None)`
  * `chart.properties(width=20)`