# Analyse et visualisation de données avec Python
## Créer des graphiques avec Plotnine
Questions
* Comment faire davantage de visualisation en Python?
* Qu'est-ce que la "grammaire des graphiques"?

Objectifs
* Créer un objet `plotnine`.
* Configurer certains options globales.
* Modifier l'apparence du graphique, comme les couleurs.
* Éditer le nom des axes.
* Créer des graphiques plus élaborés, étape par étape.
* Créer différents types de graphiques.
* Utiliser `facet_wrap` et `facet_grid` pour créer des graphiques selon des variables de type "factor".

In [None]:
import pandas as pd

# Charger et nettoyer les données
surveys_complete = pd.read_csv('../data/surveys.csv')
surveys_complete = surveys_complete.dropna()

## Pourquoi `plotnine`? Pourquoi pas `matplotlib`?
Bien que `matplotlib` soit un module de visualisation largement répandu, très flexible et puissant, son utilisation est parfois compliquée. Pour ce chapitre, nous allons utiliser le module `plotnine` qui facilite la création de graphiques hautement informatifs tout en s'intégrant bien avec Pandas. Le fonctionnement de `plotnine` se base sur le module R `ggplot2` et [The Grammar of Graphics](https://link.springer.com/book/10.1007%2F0-387-28695-0) par Leland Wilkinson.

In [None]:
# Désactiver quelques avertissements bénins
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

In [None]:
# Si plotnine n'est pas installé:
#   conda install -c conda-forge plotnine  # OU...
#   pip install plotnine
import ### as ###

## Générer des graphiques avec `plotnine`

Les graphiques `plotnine` sont construits étape par étape en ajoutant différents éléments aux autres en utilisant l'opérateur `+`. La somme de ces étapes doit être dans des parenthèses pour une meilleure compatibilité avec la syntaxe Python.

In [None]:
# Pas de panique! C'est normal que le graphique soit vide
(###(###=surveys_complete))

* Définir les "aesthetics" (ou `aes`) du graphique en sélectionant les variables du DataFrame qui seront "mappées" (via `mapping`) à divers éléments du graphiques. Les plus importants paramètres de `aes` sont : `x`, `y`, `alpha`, `color`, `colour`, `fill`, `linetype`, `shape`, `size` et `stroke`.

In [None]:
# Ajout des axes. Patience, les données s'en viennent!
(p9.ggplot(data=surveys_complete,
           mapping=###(###='weight', ###='hindfoot_length')))

* Les données s'affichent à l'aide d'objets `geom_*` que l'on peut ajouter à l'aide de l'opérateur `+`.

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight', y='hindfoot_length'))
    ### p9.###()
)

* Vous pouvez facilement créer des gabarits et les réutiliser avec différentes représentations des données.

In [None]:
# Créer un gabarit
### = p9.ggplot(data=surveys_complete,
                   mapping=p9.aes(x='weight', y='hindfoot_length'))

# Afficher les points
axesWL ### p9.geom_point()

* Après la création du graphiques, c'est possible de le sauvegarder dans le formation de notre choix.

In [None]:
scatterWL ### axesWL + p9.geom_point()

scatterWL.###("scatterplot.png", width=10, height=10, ###)

### Exercice - Créer un `bar`-plot
Avec le dataframe `surveys_complete`, utilisez la colonne `plot_id` pour créer un "`bar`-plot" montrant le décompte du nombre d'enregistrements par site. Indice: la fonction `geom_bar()` effectue le décompte implicitement.

In [None]:
(p9.ggplot(###=surveys_complete,
           mapping=p9.###(x='###'))
    + p9.###()
)

## Construire un graphique par itérations
* Habituellement, `data`, `aes` et `geom-*` sont les éléments de base de tout graphique :

In [None]:
(p9.ggplot(###=surveys_complete,
           mapping=p9.###(x='weight', y='hindfoot_length'))
    + p9.###()
)

* Ensuite, on commence à modifier le graphique pour en extraire davantage d'information. Par exemple, avec de la transparence (alpha) :

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight', y='hindfoot_length'))
    + p9.geom_point(###)
)

* Une couleur pour chaque type de d'espèce; il faut "mapper" la variable `species_id` à l'`aes` `color` :

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight', y='hindfoot_length', ###))
    + p9.geom_point(alpha=0.1)
)

* Modifier le nom des axes :

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight', y='hindfoot_length', color='species_id'))
    + p9.geom_point(alpha=0.1)
    + ###("Poids (g)") ### ###("Longueur de patte (mm)")
)

* Utiliser un axe semi-log :

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight', y='hindfoot_length', color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.xlab("Poids (g)") + p9.ylab("Longueur de patte (mm)")
    ###
)

* Changer le thème (`theme_*`) ou des éléments spécifiques du thème :
 * pour avoir un arrière-plan en noir et blanc, on utiliserait le thème prédéfini `theme_bw()`;
 * pour modifier la taille du texte, on peut créer un thème et modifier sa propriété `text`.

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight', y='hindfoot_length', color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.xlab("Poids (g)") + p9.ylab("Longueur de patte (mm)")
    + p9.scale_x_log10()
    + p9.###
    # + p9.###(###=p9.element_###(size=12))
)

### Exercice - Modifier le `bar`-plot
Adaptez le `bar`-plot de l'exercice précédent pour associer la variable `sex` au paramètre de couleur `fill`. Spécifiez ensuite une liste de couleurs (`"blue"` et `"orange"`) via la fonction `scale_fill_manual()` (voir la [référence de l'API](https://plotnine.readthedocs.io/en/stable/api.html#color-and-fill-scales) pour plus d'information) :

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='plot_id',
                          ###='sex'))
    + p9.geom_bar()
    + p9.###(["blue", "orange"])
)

## Visualiser des distributions
* Un box-plot peut être utilisé :

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='###',
                          y='###'))
    + p9.geom_###()
    + p9.scale_###_log10()
)

* On peut ajouter un nuage de points verts derrière le box-plot :

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='species_id',
                          y='weight'))
    + p9.###(###)
    + p9.geom_boxplot(###)
    + p9.scale_y_log10()
)

### Exercice - Distributions
* Faites en sorte que la couleur des points soit en fonction du site. Indice: en utilisant `factor(plot_id)`, Plotnine considérera les valeurs numériques des sites comme des catégories.
* Affichez un box-plot transparent par-dessus les points et forcez la couleur `"grey"`.

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='species_id',
                          y='weight',
                          color='###'))
    + p9.geom_jitter(alpha=0.3)
    + p9.###(alpha=###, color="###")
    + p9.scale_y_log10()
)

## Visualiser des données selon le temps
* Calculez le nombre d'enregistrements par type d'espèces pour chaque année.
* Réinitialisez l'index - `year` et `species_id` deviendront des colonnes.

In [None]:
yearly_counts = surveys_complete.###(['###', 'species_id'])['species_id'].###()
# yearly_counts = yearly_counts.###(name='counts')
yearly_counts

* La visualisation peut ensuite se faire avec un "line-plot" (ou `geom_line`) avec les années en `x` et les décomptes en `y`.
* Afin d'avoir une ligne par espèce, il faut spécifier l'option couleur selon l'identifiant d'espèce.

In [None]:
(p9.ggplot(data=yearly_counts,
           mapping=p9.aes(###='year',
                          ###='counts',
                          ###='species_id'))
    + p9.###()
)

## Création de facettes
* `plotnine` a une technique spéciale appelée *création de facettes* permettant de diviser un graphique en plusieurs sous-graphiques selon une variable de type catégorie (ou `factor`).

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight',
                          y='hindfoot_length',
                          color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.###(###)
)

* Avec `facet_wrap()`, nul besoin de convertir en `factor`:

In [None]:
(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='weight',
                          y='hindfoot_length',
                          color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.facet_wrap("###")
)

* La fonction `facet_grid()` permet de spécifier l'arrangement d'une grille de graphiques avec la notation `rangées ~ colonnes` de graphiques.

In [None]:
# Garder uniquement quelques années
survey_2000 = surveys_complete[surveys_complete["year"].###([2000, 2001, 2002])]

(p9.ggplot(data=survey_2000,
           mapping=p9.aes(x='weight',
                          y='hindfoot_length',
                          color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.###("sex ### year")
)

### Exercice - Facettes
* Créez deux facettes selon le `sex`
* Chaque facette aura :
 * Les années en axe des x
 * Le poids moyen en axe des y
 * Une courbe par espèce

In [None]:
yearly_weight = surveys_complete.groupby(['year',
                                          'species_id',
                                          '###'])['###'].###().reset_index()
(p9.ggplot(data=yearly_weight,
           mapping=p9.aes(x='###',
                          y='###',
                          ###='species_id'))
    + p9.geom_line()
    + p9.###(###)
)

## Ajustements supplémentaires
* La fonction `theme()` retourne un objet permettant d'orienter verticalement le texte sur l'axe des `x` :

In [None]:
mon_theme = p9.###(axis_text_x = p9.element_###(###))

(p9.ggplot(data=surveys_complete,
           mapping=p9.aes(x='factor(year)'))
    + p9.geom_bar()
    + p9.xlab("Year")
    + p9.theme_bw()
    + ###
)