# Analyse et visualisation de données avec Python
## Créer des graphiques avec Plotly
Questions
* Comment faire davantage de visualisation en Python?
* Comment rendre les graphiques interactifs?

Objectifs
* Créer un objet `plotly`.
* Configurer certains options globales.
* Modifier l'apparence du graphique, comme les couleurs.
* Éditer le nom des axes.
* Créer des graphiques plus élaborés, étape par étape.
* Créer différents types de graphiques.
* Générer plusieurs sous-graphiques par figure.

In [None]:
import pandas as pd

# Charger et nettoyer les données
surveys_complet = pd.read_csv('../data/surveys.csv')
surveys_complet = surveys_complet.dropna()
surveys_complet

## Pourquoi `plotly`? Pourquoi pas `matplotlib`?
Bien que [`matplotlib`](https://matplotlib.org/stable/gallery/index)
soit un module de visualisation largement répandu, très flexible et
puissant, son utilisation est parfois compliquée, en particulier
pour des graphiques plus avancés ou _modernes_.

Dans ce chapitre, nous allons utiliser le module `express` de la
bibliothèque `plotly`, ce qui permet de créer des graphiques de type
`plotly.graph_objects.Figure`. Ces graphiques sont **interactifs**,
hautement informatifs et s'intègrenet bien avec Pandas. Il est même
possible de sauvegarder une figure sous la forme d'une page HTML autonome.

In [None]:
import plotly.express as px

## Générer des graphiques avec `plotly`

* La première étape consiste à appeler la fonction qui correspond au
  type de graphique que nous voulons créer. Par exemple :
  * [`px.scatter()`](https://plotly.com/python/line-and-scatter/)
  * [`px.line()`](https://plotly.com/python/line-charts/)
  * [`px.bar()`](https://plotly.com/python/bar-charts/)
  * [`px.pie()`](https://plotly.com/python/pie-charts/)
  * Voir aussi [*Plotly Express in Python*](https://plotly.com/python/plotly-express/) pour d'autres fonctions

In [None]:
help(px.scatter)

* À l'appel de la fonction, on fournit tout d'abord le DataFrame en argument
* On assigne ensuite des noms de variable (ou de colonne) du DataFrame
  à divers éléments du graphique. Les principaux paramètres sont :
  * `x`, `y`, `color`, `symbol`, `size`

In [None]:
px.scatter(surveys_complet, x='hindfoot_length', y='weight')

* Après la création du graphiques, c'est possible de le sauvegarder
  dans le format de notre choix : `png`, `jpg` ou `jpeg`, `webp`, `svg` et `pdf`

In [None]:
figure = px.scatter(surveys_complet, x='hindfoot_length', y='weight')
figure.write_image("scatterplot.png")

In [None]:
figure.write_html("scatterplot.html")

### Exercice - Des barres ou un histogramme?
`1`. Créez un ["bar chart"](https://plotly.com/python/bar-charts/)
montrant le décompte du nombre d'enregistrements par `plot_id` (site).
Indices: `groupby()`, `count()` et `reset_index()`

In [None]:
decompte = surveys_complet.groupby(['plot_id', 'sex'])['record_id'].count().reset_index()
decompte.tail()

In [None]:
px.bar(decompte, x='plot_id', y='record_id', color='sex')

`2`. À partir de `surveys_complet`, créez un
[histogramme](https://plotly.com/python/histograms/) pour reproduire
le résultat ci-dessus.
Note : les barres seront collées et le nom de l'axe Y sera `count`.
Ça peut se modifier, au besoin.

In [None]:
# S'assurer que le DataFrame aura une femelle en premier
tri_selon_sex = surveys_complet.sort_values('sex')

px.histogram(tri_selon_sex, x='plot_id', color='sex')

## Construire un graphique par itérations
* Habituellement, `data`, `aes` et `geom-*` sont les éléments de base de tout graphique.
* Ensuite, on commence à modifier le graphique pour en extraire davantage d'information. Par exemple, avec de la transparence (`alpha`) :

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='hindfoot_length', y='weight'))
    + p9.geom_point(alpha=0.05)
)

* Une couleur pour chaque type de d'espèce; il faut "mapper" la variable `species_id` à l'`aes` `color` :

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='hindfoot_length', y='weight', color='species_id'))
    + p9.geom_point(alpha=0.05)
    + p9.guides(colour=p9.guide_legend(override_aes={"alpha": 1.0}))
)

* Modifier le nom des axes :

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='hindfoot_length', y='weight', color='species_id'))
    + p9.geom_point(alpha=0.05)
    + p9.guides(colour=p9.guide_legend(override_aes={"alpha": 1.0}))
    + p9.xlab("Longueur de patte (mm)")
    + p9.ylab("Poids (g)")
    + p9.ggtitle("Poids selon la longueur de patte")
)

* Utiliser un axe semi-log :

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='hindfoot_length', y='weight', color='species_id'))
    + p9.geom_point(alpha=0.05)
    + p9.guides(colour=p9.guide_legend(override_aes={"alpha": 1.0}))
    + p9.xlab("Longueur de patte (mm)")
    + p9.ylab("Poids (g)")
    + p9.ggtitle("Poids selon la longueur de patte")
    + p9.scale_y_log10()
)

* Changer le thème (`theme_*`) ou des éléments spécifiques du thème :
  * pour avoir un arrière-plan en noir et blanc, on utiliserait le
    thème prédéfini `theme_bw()`;
  * pour modifier la taille du texte, on peut créer un thème `theme()`
    et modifier une de ses propriétés.

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='hindfoot_length', y='weight', color='species_id'))
    + p9.geom_point(alpha=0.05)
    + p9.guides(colour=p9.guide_legend(override_aes={"alpha": 1.0}))
    + p9.xlab("Longueur de patte (mm)")
    + p9.ylab("Poids (g)")
    + p9.ggtitle("Poids selon la longueur de patte")
    + p9.scale_y_log10()
    + p9.theme_bw()
    + p9.theme(legend_position="top")  # bottom, left, right
)

### Exercice - Modifier le `bar`-plot
Adaptez le `bar`-plot de l'exercice précédent pour associer la variable `sex` au paramètre de couleur `fill`. Spécifiez ensuite une liste de couleurs (`"blue"` et `"orange"`) via la fonction `scale_fill_manual()` (voir la [référence de l'API](https://plotnine.readthedocs.io/en/stable/api.html#color-and-fill-scales) pour plus d'information) :

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='plot_id', fill='sex'))
    + p9.geom_bar()
    + p9.scale_fill_manual(["blue", "orange"])
)

## Visualiser des distributions
* Un box-plot peut être utilisé :

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='species_id',
                          y='weight'))
    + p9.geom_boxplot()
    + p9.scale_y_log10()
)

* On peut ajouter un nuage de points verts derrière le box-plot :

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='species_id',
                          y='weight'))
    + p9.geom_jitter(alpha=0.1, color="green")
    + p9.geom_boxplot(alpha=0)
    + p9.scale_y_log10()
)

### Exercice - Distributions
* Affichez un **violin-plot** transparent par-dessus les points et forcez la couleur de ligne `"grey"`.
* Pour l'axe des `x`, on veut que les différentes valeurs numériques de `plot_id` soient considérées comme des catégories. Pour ce faire, on utilisera `'factor(plot_id)'`.
* Faites en sorte que la couleur des points soit en fonction de l'identifiant d'espèce `'species_id'`.

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='factor(plot_id)',
                          y='weight',
                          color='species_id'))
    + p9.geom_jitter(alpha=0.3)
    + p9.geom_violin(alpha=0, color="grey")
    + p9.scale_y_log10()
)

## Visualiser des données selon le temps
* Calculez le nombre d'enregistrements par type d'espèces pour chaque année.
* Réinitialisez l'index ; `year` et `species_id` deviendront des colonnes.

In [None]:
yearly_counts = surveys_complet.groupby(['year', 'species_id'])['species_id'].count()
yearly_counts = yearly_counts.reset_index(name='counts')
yearly_counts

* La visualisation peut ensuite se faire avec un "line-plot" (ou `geom_line`) avec les années en `x` et les décomptes en `y`.
* Afin d'avoir une ligne par espèce, il faut spécifier l'option couleur selon l'identifiant d'espèce.

In [None]:
(p9.ggplot(data=yearly_counts,
           mapping=p9.aes(x='year',
                          y='counts',
                          color='species_id'))
    + p9.geom_line()
)

## Création de facettes
* `plotnine` a une technique spéciale appelée *création de facettes* permettant de diviser un graphique en plusieurs sous-graphiques selon une variable de type catégorie.

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='hindfoot_length',
                          y='weight',
                          color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.facet_wrap('sex')
)

* Avec `facet_wrap()`, nul besoin de convertir en `factor`:

In [None]:
(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='hindfoot_length',
                          y='weight',
                          color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.facet_wrap('plot_id')
)

* La fonction `facet_grid()` permet de spécifier l'arrangement d'une grille de graphiques avec la notation `rangées ~ colonnes` de graphiques.

In [None]:
# Garder uniquement quelques années
survey_2000 = surveys_complet[surveys_complet["year"].isin([2000, 2001, 2002])]

(p9.ggplot(data=survey_2000,
           mapping=p9.aes(x='hindfoot_length',
                          y='weight',
                          color='species_id'))
    + p9.geom_point(alpha=0.1)
    + p9.facet_grid('sex ~ year')
)

### Exercice - Facettes
* Créez deux facettes selon le `sex`
* Chaque facette aura :
  * Les années en axe des x
  * Le poids moyen en axe des y
  * Une courbe par espèce

In [None]:
yearly_weight = surveys_complet.groupby(['year',
                                          'species_id',
                                          'sex'])['weight'].mean().reset_index()
(p9.ggplot(data=yearly_weight,
           mapping=p9.aes(x='year',
                          y='weight',
                          color='species_id'))
    + p9.geom_line()
    + p9.facet_wrap('sex')
)

## Ajustements supplémentaires
* La fonction `theme()` retourne un objet permettant d'orienter verticalement le texte sur l'axe des `x` :

In [None]:
mon_theme = p9.theme(
    axis_text_x=p9.element_text(angle=90),
    text=p9.element_text(size=10))

(p9.ggplot(data=surveys_complet,
           mapping=p9.aes(x='factor(year)'))
    + p9.geom_bar()
    + p9.xlab("Year")
    + mon_theme
)

## Résumé technique
* **Module Plotnine**
  * `import plotnine as p9`
* **Création d'un graphique vierge** avec Plotnine
  * `p9.ggplot(data=df)`
* **Assigner des variables** à des éléments du graphique
  * `p9.ggplot(data=df, mapping=p9.aes(...))`
    * Exemple : `p9.aes(x='var1', y='var2', color='var3')`
  * Différentes variables :
    * Axes : `x`, `y`, `='factor(var)'`
    * Couleurs : `alpha`, `color`, `colour`, `fill`
    * Formes : `linetype`, `shape`, `size`
* **Ajout d'éléments géométriques** à afficher
  * `p9.geom_point(alpha=0.1, color="green")`
  * `p9.geom_line()`
  * `p9.geom_bar()`, `p9.geom_jitter()`
  * `p9.geom_boxplot()`, `p9.geom_violin()`
* **Configuration des axes, des étiquettes et du thème**
  * `p9.scale_x_log10()` et `p9.scale_y_log10()`
  * `p9.xlab("Axe en X")` et `p9.ylab("Axe en Y")`
  * `p9.ggtitle("Longueur de patte selon le poids")`
  * `p9.theme_bw()`
  * `p9.theme()`
    * `legend_position=` : `top`, `bottom`, `left`, `right`
    * `axis_text_x=p9.element_text(angle=90)`
    * `text=p9.element_text(size=10)`
* **Graphiques multiples**
  * `p9.facet_wrap('varN')`
  * `p9.facet_grid('rangées ~ colonnes')`