# Visualisation - les bases

Nous allons pratiquer la visualisation avec Python et la librairie Plotly. C'est la librairie référence aujourd'hui avec Seaborn.

Elle permet de réaliser des graphiques intéractifs facilement et s'intègre parfaitement à un jupyter notebook.

Le TP d'aujourd'hui se déroulera en trois temps :
- Etudiez les différents graphiques possibles en analyse de données
- Créez des visualisations simples avec la librairie Plotly pour se familiariser avec la syntaxe

## 1) Quel graphique choisir ?

Explorez ce [site internet](https://www.data-to-viz.com/#area), il donne un très bon aperçu des différents types de graphiques qui sont possibles de réaliser lors d'une analyse de données. Il donne des explications détaillées de chaque représentation avec les erreurs d'interprétation à ne pas commettre.

En fonction de la situation, proposez un type de graphique qui serait pertinent à réaliser :



a) On souhaite observer la distribution d'une variable numérique pour en connaître ses valeurs extrêmes.

On a deux possibilités : réaliser un histogramme ou un violin plot.

- Un histogramme est simple à lire et il donnera tout de suite une bonne idée de comment se répartisse les données. On peut ajouter une représentation en densité pour obtenir la fonction de densité plutôt qu'une représentation en bar. Attention au nombre de bar chart que l'on utilise pour la représentation, il peut conduire à de mauvaises interprétations (https://www.data-to-viz.com/#histogram)

- Un violin plot permet de visualiser la distribution des données en représentatant directement la fonction de densité. Sa représentation en mode boîte à moustache n'est pas facile à lire quand on est pas habitué. Néanmoins, cette représentation est plus adaptée quand on a plusieurs distributions à comparer (https://www.data-to-viz.com/#violin)

b) On souhaite représenter l'évolution de la composition d'un portefeuille financier au cours du temps. Le portefeuille est la somme de plusieurs actifs.

On est face à plusieurs variables numériques, autant que d'actifs qui composent le portefeuille. De plus, on souhaite observer dans la proportion de ces actifs dans le portefeuille au cours du temps. Une représentation sous forme de Stacked Bar Chart est la bonne représentation à adopter ici.

Si on veut lire en pourcentage la composition du portefeuille dans le temps, on parlera alors d'un Stacked Bar Chart à 100% (https://www.data-to-viz.com/graph/stackedarea.html)

c) On souhaite observer la relation entre deux variables numériques.
L'idée est de pouvoir statuer s'il y a un lien de corrélation ou non.

Est-ce le même graphique si on souhaite observer les liens de correlation entre plusieurs variables numériques ?

Le bon graphique à privilégier ici est le scatter plot (https://www.data-to-viz.com/graph/scatter.html). Il permet d'étudier la relation entre deux variables et de tout de suite pouvoir lire leur degré de correlation.

Lorsqu'on a plusieurs variables, on préférera réaliser une matrice de correlation (c'est-à-dire calculer la corrélation deux à deux) et représenter cette matrice sous forme de heatmap (https://www.python-graph-gallery.com/heatmap/). Un dégradé de couleur pourra permettre d'identifier en un clein d'oeil les variables les plus corrélées.

## 2) Pratiquez la visualisation avec Plotly

Avant de pratiquer Plotly Express, manipulons dans un premier temps les graphical objects. Ils sont à la base de tout et permettent de customiser des graphiques simples en ajoutant des représentations.

a) Importez les librairies suivantes.

In [None]:
import plotly.express as px
import plotly.graph_objects as go

b) A l'aide de l'alias go, créez une nouvelle figure qu'on appelera `fig`.

In [None]:
fig = go.Figure()

b) Créez un premier graphical object de type Scatter qui sera une simple ligne entre les points A(2, 7) et B(3, 8). Stockez cet objet dans une variable `first_line_object`.

In [None]:
first_line_object = go.Scatter(x=[2, 3], y=[7, 8], mode="lines")

c) Ajoutez cette variable à votre figure en utilisant la méthode add_trace() puis visualisez le résultat avec la méthode show().

In [None]:
fig.add_trace(first_line_object)
fig.show()

Vous pourriez aussi, de manière plus concise, utiliser directement cette syntaxe :
```python
go.Figure(go.Scatter(x=[2, 3], y=[7, 8], mode="lines")).show()
```

d) Les graphical objects permettent de réaliser des graphiques très complexes en venant ajouter de multiples graphical objects, mais l'écriture est un peu lourde.

C'est pourquoi la librairie Plotly Express a été développée pour gagner du temps et de la flexibilité lorsqu'on manipule des DataFrame. Il est toujours préférable d'utiliser Plotly Express d'abord et si cela n'est pas suffisant pour réaliser ce que vous souhaitiez alors utiliser les graphical objects.

Faîtes le même graphique que précédemment mais avec la fonction `line` de Plotly Express.

In [None]:
# px.scatter_3d(x=[2, 3], y=[7, 8], z=[5, 6]).show()

In [None]:
px.line(x=[2, 3], y=[7, 8]).show()

e) Attention la documentation n'est pas la même entre Plotly et Plotly express.
Par exemple, il n'existe pas `go.Line`, mais seulement `go.Scatter`.

Etudiez la documentation de la fonction line de Plotly Express, et plus précisément l'argument 'markers', et modifiez votre graphique en réalisant une dot line (en plus de la ligne des ronds sur les points).

In [None]:
fig = px.line(x=[2, 3, 4], y=[7, 8, 3], markers=True)
fig.show()

f) Voyons Plotly Express en action maintenant.

Considérons l'exemple donné dans la documentation Plotly Express.

Exécutez le code suivant et regardez les données. Que représentent-elles ?


In [None]:
df = px.data.gapminder()
df

g) En utilisant la fonction `bar`, représentez sous forme de bar chart l'évolution de l'espérance de vie française à travers le temps.

In [None]:
fig = px.bar(df[df.country == "France"],
             x="year",
             y="lifeExp",
             title="LifeExpectancy over time in France")
fig.show()

h) On souhaite faire le même graphique pour les pays France, Germany et Poland.

Regardez la documentation pour réaliser 3 bar charts par année. On utilisera des couleurs différentes entre les pays.

In [None]:
fig = px.bar(df[df.country.isin(["France", "Germany", "Poland"])],
             x="year",
             y="lifeExp",
             color="country",
             barmode='group',  # 'stack', 'group', 'overlay', 'relative'
             title="LifeExpectancy over time in France, Germany and Poland")
fig.show()

i) On décide de changer la représentation en utilisant des line plots plutôt que des bar plots.

Modifiez le code pour y parvenir. Pratique non ?

In [None]:
fig = px.line(df[df.country.isin(["France", "Germany", "Poland"])],
             x="year",
             y="lifeExp",
             color="country",
             title="LifeExpectancy over time in France, Germany and Poland")
fig.show()

j) Les tailles, les couleurs sont des dimensions qui peuvent être utilisées pour ajouter plus d'information à un graphique.

Représentez pour l'année 2007 seulement, la **relation** (trouver le bon graphique pour visualiser les liens de correlations) entre les variables `gfpPercap` (PIP par habitant) et `lifeExp` avec des couleurs différenciées par continent et une taille de points proportionnelle à la taille de la population du pays concerné.

On pourra fixer l'argument `size_max` à 60 pour grossir les points en gardant les mêmes proportions.

In [None]:
fig = px.scatter(df[df.year==2007],
                 x="gdpPercap",
                 y="lifeExp",
                 color="continent",
                 size="pop",
                 size_max=60,
                 title="lifeExp vs gdpPercap")
fig.show()

k) Pas mal d'information représentée, mais il n'y a pas l'information du pays...

En regardant la documentation, ajoutez les informations du pays quand on passe au-dessus d'un rond avec la souris.

In [None]:
fig = px.scatter(df[df.year==2007],
                 x="gdpPercap",
                 y="lifeExp",
                 color="continent",
                 size="pop",
                 size_max=60,
                 hover_name="country",
                 title="lifeExpectancy vs gdpPercap")
fig.show()

l) Le graphique précédent ne représente que l'année 2007, comment représenter toutes les années ?

Une des solutions est d'utiliser encore une nouvelle dimension : la dimension temporeller en créant une animation.
Regardez la documentation et ajoutez l'année en tant qu'animation (n'oubliez pas de passer tout le dataframe et pas seulement les années de 2007 ...).

Par défaut les limites sur chaque axe sont calculées pour la première année, vous pouvez fixer une fenêtre donnée en utilisant les arguments `range_x` et `range_y` ...

In [None]:
df.sort_values('gdpPercap')

In [None]:
fig = px.scatter(df,
                 x="gdpPercap",
                 y="lifeExp",
                 color="continent",
                 size="pop",
                 size_max=60,
                 range_y=[25, 90],
                 hover_name="country",
                 animation_frame="year",
                 title="lifeExp vs gdpPercap",
                 height=600)
fig.show()