# Analyse et visualisation de données avec Python
## Créer des graphiques avec Plotnine
Questions
* Comment faire davantage de visualisation en Python?
* Qu'est-ce que la "grammaire des graphiques"?

Objectifs
* Créer un objet `plotnine`.
* Configurer certains options globales.
* Modifier l'apparence du graphique, comme les couleurs.
* Éditer le nom des axes.
* Créer des graphiques plus élaborés, étape par étape.
* Créer différents types de graphiques.
* Utiliser `facet_wrap` et `facet_grid` pour créer des graphiques selon des variables de type "factor".

In [None]:
# Désactiver quelques avertissements bénins
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

## Pourquoi `plotnine`? Pourquoi pas `matplotlib`?
Bien que `matplotlib` soit un module de visualisation largement répandu, très flexible et puissant, son utilisation est parfois compliquée. Pour ce chapitre, nous allons utiliser le module `plotnine` qui facilite la création de graphiques hautement informatifs tout en s'intégrant bien avec Pandas. Le fonctionnement de `plotnine` se base sur le module R `ggplot2` et [The Grammar of Graphics](https://link.springer.com/book/10.1007%2F0-387-28695-0) par Leland Wilkinson.

In [None]:
# Si plotnine n'est pas installé:
#   conda install -c conda-forge plotnine  # OU...
#   pip install plotnine
import ###

In [None]:
import pandas as pd

# Charger et nettoyer les données
valeurs = pd.read_csv('../data/valeurs.csv').dropna()
valeurs = valeurs[(valeurs['Assets_to_Equity'] ###) ###
                  (valeurs['Assets_to_Equity'] ###)]

## Créer des graphiques avec `plotnine`

Les graphiques `plotnine` sont construits étape par étape en ajoutant différents éléments aux autres en utilisant l'opérateur `+`. La somme de ces étapes doit être dans des parenthèses pour une meilleure compatibilité avec la syntaxe Python.

In [None]:
# Pas de panique! C'est normal que le graphique soit vide
(###)

* Définir les "aesthetics" (ou `aes`) du graphique en sélectionant les variables du DataFrame qui seront "mappées" (via `mapping`) à divers éléments du graphiques. Les plus importants paramètres de `aes` sont : `x`, `y`, `alpha`, `color`, `colour`, `fill`, `linetype`, `shape`, `size` et `stroke`.

In [None]:
# Ajout des axes. Patience, les données s'en viennent!
(p9.ggplot(data=valeurs,
           ###(###'Market_Cap_USD', ###'Assets_to_Equity')))

* Les données s'affichent à l'aide d'objets `geom_*` que l'on peut ajouter à l'aide de l'opérateur `+`.

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity'))
    ###
)

* Vous pouvez facilement créer des gabarits et les réutiliser avec différentes représentations des données.

In [None]:
# Créer
### = p9.ggplot(data=valeurs,
                         mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity'))

# Afficher les points
### + p9.geom_point()

* Après la création du graphiques, c'est possible de le sauvegarder dans le formation de notre choix.

In [None]:
graphique = valeurs_plot + p9.geom_point()

graphique.###("scatterplot.###", width=###, height=###, dpi=###)

### Exercises - bar chart
En utilisant les enregistrements pour lesquels `Total_Return_USD` est supérieur à 0.1, utilisez la colonne `month` pour générer un `bar` plot montrant le nombre d'enregistrements pour chaque mois.

In [None]:
(p9.ggplot(data=valeurs[###['Total_Return_USD'] ###],
           mapping=p9.###(###))
    + p9.geom_###()
)

## Construire un graphique par itérations
* Habituellement, `data`, `aes` et `geom-*` sont les éléments de base de tout graphique:

In [None]:
(p9.ggplot(###=valeurs,
           mapping=p9.###(x='Market_Cap_USD', y='Assets_to_Equity'))
    + p9.###_point()
)

* Ensuite, on commence à modifier le graphique pour en extraire davantage d'information. Par exemple, avec de la transparence (alpha) :

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity'))
    + p9.geom_point(###)
)

* Une couleur différente :

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity'))
    + p9.geom_point(alpha=0.1, ###)
)

* Une couleur pour chaque type de "leverage"; il faut "mapper" la variable `leverage_category` à l'`aes` `color` :

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity',
                          ###'leverage_category'))
    + p9.geom_point(alpha=0.1)
)

* Modifier le nom des axes :

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity',
                          color='leverage_category'))
    + p9.geom_point(alpha=0.1)
    + p9.###("Capitalisation du marché (USD)") + p9.###("Actif à l'équité")
)

* Utiliser des axes semi-log :

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity',
                          color='leverage_category'))
    + p9.geom_point(alpha=0.1)
    + p9.xlab("Capitalisation du marché (USD)") + p9.ylab("Actif à l'équité")
    + p9.###()
)

* Changer le thème (`theme_*`) ou des éléments spécifiques du thème. Par exemple, pour avoir un arrière-plan en noir et blans, on utiliserait `theme_bw()` :

In [None]:
mon_theme = p9.###() + p9.###(text=p9.element_text(###=12))

(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity',
                          color='leverage_category'))
    + p9.geom_point(alpha=0.1)
    + p9.xlab("Capitalisation du marché (USD)") + p9.ylab("Actif à l'équité")
    + p9.scale_y_log10()
    ###
)

### Exercice - Modifier le bar-plot
Adaptez le bar-plot de l'exercice précédent pour "mapper" la variable `leverage_category` au paramètre de couleur `fill`. Spécifiez ensuite une liste de couleurs (`"red"` et `"green"`) via la fonction `scale_fill_manual()` (voir la [référence de l'API](https://plotnine.readthedocs.io/en/stable/api.html#color-and-fill-scales) pour plus d'information) :

In [None]:
(p9.ggplot(data=valeurs[valeurs['Total_Return_USD'] > 0.1],
           mapping=p9.aes(x='month', ###))
    + p9.geom_bar()
    + p9.###(["orange", "green"###)
)

## Visualiser des distributions
* Un box-plot peut être utilisé :

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='leverage_category', y='Assets_to_Equity'))
    + p9.geom_###()
    + p9.scale_y_log10()
)

* On peut ajouter un nuage de points rouges derrière le box-plot :

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='leverage_category', y='Assets_to_Equity'))
    + p9.geom_###(alpha=###, color=###)
    + p9.geom_boxplot(###)
    + p9.scale_y_log10()
)

### Exercice - Distributions
Une version plus "élégante" du box-plot est le "violin-plot" où la forme de la distribution est dessinée.

* Replacez le box-plot par un violin-plot, c'est-à-dire `geom_violin()`, et forcer la couleur `"grey"`.
* Faites en sorte que la couleur des points soit en fonction de l'année.

Indice: en utilisant `factor(year)`, Plotnine considérera les valeurs numériques des années comme des catégories.

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='leverage_category', y='Assets_to_Equity',
                          ###='###'))
    + p9.geom_jitter(alpha=0.3)
    + p9.###(alpha=0.0, color=###)
    + p9.scale_y_log10()
)

## Visualiser des données selon le temps
* Calculer la moyenne des `Market_Cap_USD` pour chaque mois.
* Réinitialiser l'index - `year` et `month` deviendront des colonnes.
* Changer le type de `year` en `str` pour que ce soit une catégorie.

In [None]:
moyennesMC = valeurs.groupby(['year', 'month'])['Market_Cap_USD'].mean()
#moyennesMC = moyennesMC.reset_index(###)
#moyennesMC['year'] = moyennesMC['year'].###('str')
moyennesMC

* La visualisation peut ensuite se faire avec un "line-plot" (ou `geom_line`) avec les mois en `x` et les moyennes en `y`.
* Afin d'avoir une ligne par année, il faut spécifier l'option couleur selon l'année.

In [None]:
(p9.ggplot(data=###,
           mapping=p9.aes(x='###',
                          y='###',
                          color='year'))
    + p9.###()
)

## Création de facettes
* `plotnine` a une technique spéciale appelée *création de facettes* permettant de diviser un graphique en plusieurs sous-graphiques selon une variable de type catégorie (ou `factor`).

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity'))
    + p9.geom_point(alpha=0.1)
    + p9.scale_y_log10()
    + p9.###('leverage_category')
)

* Avec `facet_wrap()`, nul besoin de convertir en `factor`:

In [None]:
(p9.ggplot(data=valeurs,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity'))
    + p9.geom_point(alpha=0.1)
    + p9.scale_y_log10()
    + p9.facet_wrap('###')
)

* La fonction `facet_grid()` permet de spécifier l'arrangement d'une grille de graphiques avec la notation `rows ~ columns`.

In [None]:
# Garder uniquement les années 2016 et 2017
valeurs16_17 = valeurs[valeurs['year'].isin([2016, 2017])]

(p9.ggplot(data=###,
           mapping=p9.aes(x='Market_Cap_USD', y='Assets_to_Equity',
                          color='###'))
    + p9.geom_point(alpha=0.1)
    + p9.scale_y_log10()
    + p9.###("leverage_category ###")
)

### Exercice - Facettes
Dans cet exercice, on cherche à visualiser la moyenne des `Market_Cap_USD` en fonction du mois, de l'année et du *leverage*.
* Créez deux facettes selon le `leverage_category`
* Chaque facette aura :
 * Les mois en axe des x (note: le mois doit rester une valeur numérique)
 * Les moyennes en axe des y
 * Une courbe par année (note: la colonne doit être convertie en catégorie)

In [None]:
groupe_yml = valeurs.groupby(['year', 'month', 'leverage_category'])
moyennes_yml = groupe_yml['Market_Cap_USD'].mean().reset_index()

(p9.ggplot(data=###,
           mapping=p9.aes(###'month',
                          ###'Market_Cap_USD',
                          ###'factor(year)'))
    + p9.geom_line()
    + p9.###('leverage_category')
)