# Visualisation de données en Python
## Visualiser des distributions

Question
* Comment visualiser la distribution des données selon un certain facteur?

Objectif
* Créer différents types de graphiques.

In [None]:
import pandas as pd

# Charger les données nettoyées
surveys_complet = pd.read_csv('../data/surveys_0_NA.csv')
surveys_complet

In [None]:
import altair as alt
alt.data_transformers.disable_max_rows()

## Visualiser des distributions
* Tout d'abord, un box-plot peut être utilisé :

In [None]:
alt.Chart(surveys_complet).mark_boxplot().encode(
    x=alt.X('species_id').title("Identifiant d'espèce"),
    y=alt.Y('weight').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
)

* Des facettes étroites peuvent être utilisées pour afficher
  plusieurs nuages de points :

In [None]:
alt.Chart(surveys_complet).transform_calculate(
    bruit='random() - 0.5',  # Position horizontale dans la facette
    poids_b='datum.weight + random() - 0.5',
).mark_circle(size=4).encode(
    x=alt.X('bruit').type('quantitative').axis(None).title(None),
    y=alt.Y('poids_b:Q').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
    column=alt.Column('species_id').title('Poids selon les espèces'),
).configure_mark(
    opacity=0.25,  # Transparence des mark_circle()
).configure_facet(
    spacing=0,     # Supprimer la marge entre les facettes
).configure_view(
    stroke=None,   # Enlever la boîte autour des facettes
).properties(
    width=18,      # Largeur des facettes
)

### Exercice - Distributions
Pour cet exercice, on cherche à avoir les vrais noms d'espèce sur
l'axe horizontal d'un box-plot.

(Préparation) Calculez la jonction de gauche entre `surveys_complet`
et le détail des espèces dans `species.csv`. (3 min.)

In [None]:
species_df = pd.read_csv('../data/species.csv')

jonc_gauche = pd.merge(
    left=surveys_complet,
    right=species_df,
    on='species_id',
    how='left'
)

jonc_gauche.columns

Créez le box-plot :
* Le nom des espèces sur l'axe horizontal, avec l'étiquette "Espèce"
* Le poids dans l'axe vertical, selon une échelle logarithmique
  en base 2 et avec l'étiquette "Poids (g)"
* Une couleur selon l'identifiant d'espèce
* Un titre pour le graphique

(6 min.)

In [None]:
alt.Chart(jonc_gauche).mark_boxplot().encode(
    x=alt.X('species').title('Espèce'),
    y=alt.Y('weight').scale(type='log', base=2).title('Poids (g)'),
    color=alt.Color('species_id').legend(None),
).properties(
    title='Distribution des poids par espèce',
)

## Résumé technique
* **Colonnes temporaires**
  * `graphique.transform_calculate(col2='datum.col1 + random()-0.5')`
* **Choix du type de marqueurs** à afficher
  * `graphique.mark_boxplot()`
  * `graphique.mark_circle(size=N)`
* **Assigner des variables** à des canaux du graphique
  * `graphique.encode(...)`
  * Différents canaux :
    * `color=alt.Color('varCouleur')`
      * `.legend(None)`
    * `column=alt.Column('varColonne')`
* **Autres propriétés du graphique**
  * `graphique.configure_facet(spacing=0)`
  * `graphique.configure_view(stroke=None)`
  * `graphique.properties(width=20)`