# Introduction

## Objectifs de la leçon

Cette leçon *donne à voir* comment créer des représentations interactives de données avec la librairie graphique *open-source* **Plotly**. En particulier, vous apprendrez :
- La différence entre **Plotly Express**, **Plotly's Graph Object** et **Plotly Dash**
- Comment créer et exporter des graphes à l'aide de `plotly.express` et `plotly.graph_objects`
- Comment ajouter personnaliser vos graphes

J'utilise le terme _open source_, emprunté de l'anglais et qui signifie **libre de droit**, soit qui peut être utilisé par quiconque et ce sans payer de license, car ce terme est un concept majeur en programmation. Utiliser **libre de droit** serait correct sémantiquement, serait réducteur.

## Les prérequis

Afin de pouvoir suivre la leçon, il est nécessaire :
- d'avoir installé python 3 et l'installateur de paquet (package) `pip`
- d'avoir un niveau de comprehension intermédiaire du language de programmation Python.
- d'avoir une connaissance grossière des objets et fonctions `pandas` et `numpy` (ces deux librairies doivent être installées).
- Avoir connaissances de quelques techniques de base de représentation de données (*data visualisation*) (en particulier les histogrammes et autres diagrammes à base de barres et les représentations en point (*scatterplots*))
- Avoir des notions de traitement de données (nous utiliserons `pandas` pour les réaliser)

## Qu'est ce que Plotly

**Plotly** est une entreprise qui fournit un certain nombre de librairies *open source* afin de construire des représentations graphiques interactives. Les graphes réalisés avec Plotly se démarquent des images statiques de par leur capacité à répondre aux utilisateur.ice.s grâce à des boutons, des outils pour se déplacer et zoomer dans les données, *faceted data displays* et bien plus encore. Nous nous concentrons aujourd'hui sur la version Python des librairies Plotly mais elles existent dans plusieurs autres languages comme R et Julia. Les librairies de Plotly nous réserve une large variétés de graphes pouvant être utilisés **finish sentence**. Ces graphes peuvent être affichés de plusieurs manières : à travers les *notebooks Jupyter*, une page web (HTML) ou bien grâce à des applications web développées avec l'environnement Dash de Plotly. Finalement il est possible d'exporter les graphes sous formes d'images conventionnelles (jpg) ou vectoriel (???) si l'on fait fi de son aspect interactif.

> Tout le long de cette leçon, les graphes générés à l'aide de Plotly seront affichés comme des images statiques. Pour utiliser les fonctionnalités intéractives, il faudra cliquer sur l'image ou bien sur le lien dans la description de l'image.

## Plotly, une Librairie Graphique de Python : Plotly Express vs Plotly Graph Objects vs Plotly Dash

Afin de comprendre comment fonctionne Plotly, il est vital de comprendre les différences entre Plotly Express, Plotly's Graph Objects et Plotly Dash.

Il s'agit essentiellement de 3 outils distincts - même si souvent utilisés ensemble - utilisés à différentes occasions :
- **Plotly Express** (`plotly.express` souvent importé sous le diminutif `px`) est une interface de représentation graphique de haut niveau, facile à prendre en main, et qui permet de créer près de 30 différents types de graphes. Le module fournit des fonctions permettant de créer des graphes avec une seule ligne de code (bien que plusieurs lignes de code sont nécessaires à la personnalisation de certains éléments), rendant les graphes rapides et faciles à créer. Puisque `plotly.px` est une interface 'de haut niveau`, cela signifie que l'utilisateur.ice n'a pas besoin de s'attarder à interargir avec la structure sous-jacente des graphes. Plotly recommenda aux débutant.e.s de commencer avec Express avant de travailler avec Plotly's Graph Objects
- Les objets graphiques de Plotly - associés aux module Plotly Graph Objects (`plotly.graph_objects` souvent importé sous le diminutif `go`) sont les véritables objets que Plotly créé lorsque l'on fait appel à Plotly Express. Plotly génère des *'Graph Objects'* pour garder en mémoire les données du graphe. Ces données incluent les informations à visualiser avec de nombreux autres attributs telles que les couleurs, formes et tailles des objets. Il est alors possible de créer une visualisation plus finement en avec Plotly Graph Objects. Il est d'ailleurs possible de recréer n'importe quelle figure créée par Plotly Express à l'aide de Plotly Graph Objects. Il est, en général, recommendé d'utiliser Plotly Express là ou c'est possible pour réduire le nombre de lignes de code. En revanche, comme nous le verrons par la suite, Plotly Graphic Objects est parfois nécessaire **ouais bof, à re-ecrire**.
- Le module Plotly Dash (importé sous le diminutif `dash`) est un environnement pour créer des applications web interactives (typiquement des dashboard) qui peuvent être incrustées dans des sites web et autres plateformes. On utilise ajoute souvent des figures créées avec `plotly.px` `plotly.go` dans les applications Dash, faisant des modules de Plotly la boîte à outils parfaite pour créer, manipuler et publier des représentations graphiques interactives de nos données. Plotly Dash est construit sur `React.js` et `Plotly.js` afin de rendre possible l'intégration sur internet, cela signifie que les utilisateur.ice.s n'ont pas besoin de connaissances en Javascript, CSS ou HTML (seulement en Python).

Plotly fournit une documentation complète pour travailler avec Express et Graph Objects ainsi que pour utiliser Dash.

## Pourquoi Plotly ? 

Il existe actuellement une pléthore de librairies graphique disponibles sous python comme **Matplotlib**, **Seaborn**, **Bokeh** ou **Pygal**. Avec autant de possibilités, il est nécessaire de choisir une librairie plutôt qu'une autre. Des critères de choix peuvent être utiles pour décider tels que le cas d'utilisation, les goûts esthétiques ou la facilité d'utilisation.

> with each library having its own merits

Les avantages principaux de Plotly sont :
- Plotly est l'un des seul package qui est spécifiquement tourné vers les représentations interactive. **Matplotlib** et **Pygal** ne fournissent que très peu de fonctionnalités interactives. **Bokeh** est aussi prévu pour l'interactivité et se place comme une alternatives viable.
- Plotly est la seule suite graphique de python qui assure à la fois une création de graphe et une intégration dans des pages web simple.
- Plotly intègre très les objets de pandas (par exemple, on peut directement passer des `pandas.Dataframe` aux objets graphiques de Plotly)
- Des graphes 3D interactifs sont disponibles (ce qui n'est pas le cas des autres librairies)
- Plotly est simple d'utilisation, les animations et les menus déroulants sont relativement simples à utiliser

# Données utilisées comme exemple

> Étienne et Émilien savoir comment on le présente

# Construire des graphes avec Plotly Express

## Configurer Plotly Express

1. Avant de commencer, vous aurez besoin d'installe 3 modules à votre environnement
logseq.order-list-type:: number
	- Plotly : dans votre terminal, entrez `pip install plotly`
	- pandas : dans votre terminal entrez `pip install pandas`
	- Kaleido : dans votre terminal entre `pip install kaleido`
2. Maintenant que ces packages sont installés, créez un nouveau Jupyter notebook (ou un nouveau fichier python dans votre IDE). Idéalement, placez votre jeu de donnée et votre fichier python / notebook dans le même dossier.
logseq.order-list-type:: number
3. Importez les modules à l'aide de la commande `import` au début de votre fichier : 

In [38]:
import numpy as numpy
import pandas as pd
import plotly.express as px

## Importer et nettoyer les données

La prochaine étape est d'importer le jeu de donnée et de le nettoyer à l'aide des fonctions de `pandas`. Les étapes à réaliser sont :
- Importer uniquement les colonnes utiles de notre jeu de donnée qui nous seront utiles
- Remplacer les données numériques qui pourraient manquer par des `np.nan` (objet Numpy *Not a number*)
- Renommer et retirer certaines données pour

> Clarity and accuracy

In [39]:
colonnes : list[str] = [
    "annee_publication", "revue", "pourcentage_femme", "race", 
    "inclusif", "genre", "classe", "discipline"
]

df : pd.DataFrame = pd.read_csv("data_article.csv", usecols = colonnes)

# Remplace le code de discipline par son nom
num_discipline : dict = {
    -1 : '<UNK>',           # La discipline est inconnue
    0  : 'Anthropologie',
    1  : 'Aréale',
    2  : 'Autre interdisciplinaire',
    3  : 'Démographie',
    4  : 'Genre',
    5  : 'Géographie',
    6  : 'Histoire',
    7  : 'SIC',
    8  : 'Science politique',
    9  : 'Sociologie',
    10 : 'Économie'
}
df["discipline"] = df["discipline"].replace(num_discipline)

# Retirer les lignes où la discipline est inconnue
df = df.drop(df[df["discipline"] == "<UNK>"].index)

# Création d'une colonne "A majorité féminine" qui indique s'il y avait plus 
# d'autrices que d'auteurs
df["maj_feminine"] = df["pourcentage_femme"] >= 0.5

## Histogrammes et diagrammes bâton

Maintenant que nous avons créé un dataframe pandas de notre jeu de donnée, nous pouvons commencer à créer quelques graphes simples en utilisant Plotly Express. Commençons par créer un histogramme pour représenter le nombre d'articles publiés à majorité féminine. Puisque notre jeu de données ne contient pas le nombre d'article (pour le moment, chaque ligne correspond à un article) nous allons d'abord créer un deuxième `dataframe` qui regroupera les articles écrits par une majorité féminine d'une part et majorité masculine d'autre part.

In [40]:
# Création d'un nouveau dataframe
articles_par_maj_femmes : pd.Series = df.\
                                groupby(["maj_feminine"], as_index = False).\
                                size()
articles_par_maj_femmes

Unnamed: 0,maj_feminine,size
0,False,28142
1,True,20539


il suffit alors de créer un histogramme en utilisant ce nouveau `DataFrame`. remarquons que ce graphe est sauvegardé sous la variable `fig`, qui est une convention lorsqu'on travaille avec plotly :

In [41]:
# Créé l'histogramme (bar chart) en utilisant la fonction .bar()
fig = px.bar(articles_par_maj_femmes, x = "maj_feminine", y = "size")

# Affiche la figure en utilisant la fonction .show()
fig.show()

Vous venez de créer votre premier graphe! Remarquons que ce graphe est déjà en partie interactif : en passant la souris sur chaque barre, la figure nous spécifie le type xxx, ainsi que le nombre de xxx. Une autre fonctionnalité notable est que l'utilisateur.ice peu sauvegarder le graphe comme un `.png` (comme image statique) cliquant sur l'icône *appareil photo* qui apparaît lorsque notre souris se trouve dans le coin haut droit de l'image. Au même endroit on peut trouver des fonctions de zoom, defilement, changement d'échelle et réinitialiser la vue du graphe. Toutes ces fonctions seront disponible pour toutes les visualisations qui suivent.

En revanche, le graphe n'est pas des plus sympathiques, il manque de couleurs, d'un titre, de titres d'axes plus visibles. Il est possible de préciser ces informations dès le début, en donnant plus d'arguments à la fonction `.bar()`. Par exemple, grâce à l'argument `labels` nous pouvons changer le nom des axes et grâce à l'argument `color` on peut changer la couleur des barres selon une variable de notre jeu de donnée (ici nous utiliserons xxx comme pour l'axe x). Pour ajouter un titre, il suffit d'utiliser l'argument `title`.

In [42]:
# Créé un bar chart en utilisant la fonction .bar()
fig = px.bar(
    articles_par_maj_femmes,
    x="maj_feminine",
    y="size",
    title="Titre de votre choix",
    labels={"size": "Nombres d'articles"},

    # Notez que l'argument "color" prend une chaine de caractères se referant à 
    # la colonne "xxx" du jeu de donnée
    color="maj_feminine"
)

fig.show()

Comme montré ci dessus, Plotly ajoute automatiquement une légende au graphe si vous distinguez les objets par des couleurs (à savoir que la légende peut être retirée). La légende est elle aussi interactive : en cliquant une fois sur un élément, la barre correspondante disparait du graphe; en double-cliquant sur un élément, cette fois ci tous les autres objets disparaissent excepté celui que vous avez sélectrionné.

## Courbes

Tâchons maintenant de créer un graph de ligne (line chart). De manière générale, la syntaxe pour créer un graphe avec Plotly Express est toujours `px.type_de_graphe()`  où `type_de_graphe` représente le type de graphe que l'on souhaite créer. Comme on a utilisé `px.bar()` pour créer un histogramme (bar chart), ici nous utiliserons `px.line()` pour créer un line chart. Tous les types de graphes disponibles et les fonctions associées peuvent être trouvées dans la [documentation Plotly](https://perma.cc/U4N7-2VM5).

Notre graphe de ligne représentera .... à travers les années. Comme précédemment, nous créons un nouveau `DataFrame` qui regroupera les xxx par année et par xxx :

In [46]:
# Créé un nouveau DataFrame contenant le nombre de xxxx par année et par xxx
evolution_genre_par_annee = df.\
    groupby(["maj_feminine", "annee_publication"], as_index=False).\
    size()

Ensuite, nous créons plusieurs courbes en utilisant la fonction `.line()` et utilisons les mêmes paramètres que précédement à savoir : `label` et `color`. Ici encore il est possible d'ajouter un titre à notre figure, il suffit de retirer le `#` devait l'argument `title` dans l'exemple suivant (et tous ceux qui suivent) :

In [50]:
# Créé des courbes avec la fonction px.line() et ajoute quelques customisations
fig = px.line(
    evolution_genre_par_annee,
    x = "annee_publication",
    y = "size",
    # title = "Ajouter le titre de votre choix",
    labels = {"size" : "Nombre d'articles publiés"},
    color = "maj_feminine"
)

fig.show()

Nous avons appris à créer de nouveaux graphes et de les personnaliser - mais comment faire pour personnaliser notre figure après l'avoir créer ? À la place nous pouvons utiliser la fonction `.update_layout()` sur notre `fig` pour éditer *le graphe plus tard*/ Cette fonction peut être appliquée à n'importe quel graphe généré avec Plotly Express afin de modifier un large panel de paramètres. Prenons comme exemple la fonction générée précédemment et modifions la police, la couleur et la taille de notre titre : 

In [51]:
fig.update_layout(
    font_family = "Courrier New",   # Modification de la police
    font_color = "blue",            # Modification de la couleur du texte
    legend_title_font_color = "red",# Modification de la couleur du titre de la légende
    title = "Un titre formatté"
)

fig.show()

## Graphes à point

Les _graphes à point_ [beurk] (_scatterplots_), généralement utilisés pour visualiser des relations entre 2 variables continues, peuvent être générés à l'aide de Plotly Express en utilisant la fonction `scatter()`. Pour notre jeu de donnée, il peut être intéressant d'utiliser un _graphe à point_ pour montrer la relation entre le nombre d'articles qui parlent de genre et de classe par discipline. 

Il nous faut créer un nouveau `DataFrame` : 

In [72]:
proportion_genre_classe = []
for (annee, discipline), sub_df in df.\
                                    groupby(["annee_publication","discipline"]): 
    proportion_genre_classe.append(
        {
            "discipline" : discipline,
            "annee_publication" : annee,
            "proportion_genre" : 100 * sub_df["genre"].mean(),
            "proportion_classe" : 100 * sub_df["classe"].mean()
        }
    )

proportion_genre_classe = pd.DataFrame(proportion_genre_classe)

In [73]:
fig = px.scatter(
    proportion_genre_classe,
    x="proportion_classe",
    y="proportion_genre",
    color="discipline", 
    # title="Titre de votre choix",
)
fig.show()

Comme vous pouvez le voir, les _graphes à point_ contiennent aussi certaines intéractions par défaut : passer la souris sur les points permet d'afficher les données spécifique de proportions d'articles mentionnant le genre ou la classe. Cliquer ou double cliquer sur le nom des disciplines dans la légende permet d'isoler certains éléments.

# Créer plusieurs sous-graphes

Pour créer des graphes composés de sous-graphes qui partagent certains axes et permettent de montrer des sous ensembles de notre jeu de donnée(_facet plots_)
> this is fucking weird
Plotly rend la création de tels graphe aisée très simple. En reprenant les exemples précédents, il suffit de spécifier le type de graphe que vous souhaitez dans les sous-graphe. En deuxième instance il suffit d'utiliser le paramètre `facet_col` qui permet de préciser quel variable utiliser pour distinguer les sous-graphes. Dans l'exemple ci dessous, on créé une grille de 2x1 pour montrer la part d'articles qui spécifie le genre en fonction de la discipline en fonction  

In [79]:
proportion_par_discipline_maj_feminine = []

for (maj_fem, discipline), sub_df in df.groupby(["maj_feminine", "discipline"]):
    proportion_par_discipline_maj_feminine.append({
        "maj_feminine" : maj_fem,
        "discipline" : discipline,
        "proportion_genre" : 100 * sub_df["genre"].mean()
    })

proportion_par_discipline_maj_feminine = pd.DataFrame(
    proportion_par_discipline_maj_feminine)

# Use px.bar() to indicate that we want to create bar charts
fig = px.bar(
    proportion_par_discipline_maj_feminine,
    x="discipline",
    y="proportion_genre",
    facet_col="maj_feminine",  # Use facet_col parameter to specify which field to split graph by
    color="discipline",
    # title="Add a title here",
)
fig.show()

Notez que cette méthode ne nécessite pas de spécifier les dimensions de la grille puisque Plotly Express divise automatiquement la figure par le nombre de catégories disponibles (ici 2 puisque les 2 catégories disponibles sont majorité masculine / féminine). Cependant cette méthode ne peut fonctionner uniquement pour des figures ne représentant qu'un seul type de graphe (ici graphes bâton). Nous discutons plus bas de la manière des figures contenant des sous figures de dimensions particlulières en utilisant Graph Objects.

## Ajouter des animations : _Animation Frames_

Comme nous l'avons vu, Plotly Express contient des fonctionnalités intéractives native. Et pourtant, il y a encore de nombreuses fonctionnalités qui peuvent être implémentées pour augmenter l'intéractivité comme les animations à travers les _animation frames_.

Une _animation frame_ représente la manière dont les données changent en fonction d'un certain axe. Dans les recherches historiques, la mesure la plus utile est l'axe temporel bien que d'autres variables numérique avec une relation d'ordre (ex : _ordinal or interval data_) peut fonctionner. Une figure Plotly Express avec une animation contient une _toolbar_ intéractive permettant de jouer/arrêter l'animation mais aussi de se déplacer manuellement dans les données.

Pour créer une figure avec une animation, il faut commencer par sélectionner la méthode que nous voulons utiliser comme dans les exemples précédents afin de sélectionner le type de graphe désiré. Puis, à l'intérieur de la fonction on utilise le paramètre `animation_frame` pour spécifier quel variable doit petre utilisée pour visualiser l'évolution. Dans notre exemple nous reprennons les données utilisées dans le _graphe à point_ permettant de montrer l'évolution de la mention de genre à travers les années.

In [82]:
proportion_genre_classe = []
for (annee, discipline), sub_df in df.\
                                    groupby(["annee_publication","discipline"]): 
    proportion_genre_classe.append(
        {
            "discipline" : discipline,
            "annee_publication" : annee,
            "proportion_genre" : 100 * sub_df["genre"].mean()
        }
    )

proportion_genre_classe = pd.DataFrame(proportion_genre_classe)

# Use px.bar() to create a bar chart
fig = px.bar(
    proportion_genre_classe,
    x="discipline",
    y="proportion_genre",
    labels={"proportion_genre": "Proportion des articles mentionnant le genre"},
    range_y=[
        0,
        200,
    ],  # The range_y parameter allows customization of the y-axis range (optional)
    color="discipline",
    # title="Add a title here",
    animation_frame="annee_publication", # Use animation_frame to specify which variable to measure for change
)
fig.show()

## Ajouter des animations : Menus déroulants