# Plotly

#### Librairie pour graphiques interactifs

![image alt <](Images/numgrade-bigger.jpg)
![image alt >](Images/Plotly-logo.png)

![image alt >](Images/numgrade.png)

## Introduction

Plotly, c'est :

 - une librairie pour créer des graphiques et des cartes interactifs (+ de 40 types de graphiques),
 
 - une librairie développée pour plusieurs langages de programmation : Python, R, Julia, Javascript, matlab, etc.
 
 - open-source (licence MIT),
 
 - gratuit,
 
 - une librairie qui a été créé par l'entreprise plotly (possibilité de mettre en ligne les plots sur leurs serveurs),
 
 - une utilisation non connectée aux serveurs plotly,
 
 - la possibilté de mettre les plots dans des Dashboards avec Dash (qu'il faudra installer :  https://dash.plot.ly/installation). Dash est également gratuit et open-source.

"plotly.py" s'appuie sur "plotly.js" pour permettre la création de plots web interactifs.

Pour profiter de l'interactivité, on pourra ouvrir les plots dans les Jupyter notebooks. Il y a également la possibilité de sauvegarder les plots dans des fichiers HTML, ou de construire des applications web / dashboard avec Dash.

Pour les applications "non-web" (Spyder, PyCharm...), plotly propose une integration via la bibliothèque [Kaleido](https://medium.com/plotly/introducing-kaleido-b03c4b7b1d81). Il permet également l'export d'images statiques (png, jpeg, svg, pdf - https://plotly.com/python/static-image-export/) ou interactives (html - https://plotly.com/python/interactive-html-export/) 

Il existe un forum pour la communauté plotly : https://community.plotly.com/

![image alt >](Images/numgrade.png)

## Installation

Plotly ne fait pas partie de la bibliothèque standard, il est donc nécessaire de l'installer avec par exemple conda ou pip.

$ conda install -c conda-forge plotly

$ pip install plotly

Après l'installation, vous n'avez plus qu'à l'importer dans vos scripts :

In [None]:
import plotly

In [None]:
plotly.__version__

![image alt >](Images/numgrade.png)

## Export d'image statique 

plotly supporte l'exportation d'images statiques, en utilisant  :

- le paquetage kaleido (recommandé, supporté à partir de la version 4.9 de plotly), 

- l'utilitaire de ligne de commande orca (cette méthode n'est plus recommandée).

### Kaleido

Kaleido est maintenant l'approche d'exportation d'images recommandée parce qu'elle est plus facile à installer et plus largement compatible.

Le paquet kaleido n'a aucune dépendance et peut être installé à l'aide de conda ou pip :

$ conda install -c conda-forge python-kaleido 

$ pip install -U kaleido 

https://github.com/plotly/Kaleido


Pour les utilisateurs de windows, si l'installation précédente ne fonctionne pas, essayez :

$ conda install -c conda-forge python-kaleido==0.1.0

$ pip install kaleido==0.1.*


Une fois l'installation réalisée vous pouvez tracer votre figure puis l'enregistrer avec par exemple la commande suivante :

fig.write_image("data/fig1.png")

Vous pouvez enregistrer votre figure dans de nombreux formats : png, jpeg, webp, svg, pdf, eps.


Nous ferons la démonstration dès que nous aurons créé notre première figure.

![image alt >](Images/numgrade.png)

## Les sous modules de plotly

plotly est constitué de plusieurs sous modules :

- [plotly.express](https://plotly.com/python-api-reference/plotly.express.html#px) : interface de haut niveau pour la visualisation de données

- [plotly.graph_objects](https://plotly.com/python-api-reference/plotly.graph_objects.html#graph-objects) : interface de bas niveau pour les figures, les tracés et la mise en page

- [plotly.subplots](https://plotly.com/python-api-reference/plotly.subplots.html#subplots) : fonction d'aide pour la mise en page de figures multiplots

- [plotly.figure_factory](https://plotly.com/python-api-reference/plotly.figure_factory.html#ff): méthodes d'aide pour la construction de graphiques complexes spécifiques

- [plotly.io](https://plotly.com/python-api-reference/plotly.io.html#io) : interface de bas niveau pour l'affichage, la lecture et l'écriture de figures

- [plotly.colors](https://plotly.com/python-api-reference/generated/plotly.colors.html#module-plotly.colors) : échelles de couleurs et fonctions utilitaires

- [plotly.data](https://plotly.com/python-api-reference/generated/plotly.data.html#module-plotly.data) : ensembles de données intégrés à des fins de démonstration, d'éducation et de test

Liste des fonctions : https://plotly.com/python-api-reference/

![image alt >](Images/numgrade.png)

## Plotly Express

Depuis la version 4 (07/2019), Plotly Express a été introduit : une API haut niveau pour créer des figures de manière simple et rapide avec un nombre de lignes de code très réduit (par rapport au mode "normal"). C'est cette API que nous présentons ici.

Plotly Express donne accès à une [trentaine de fonctions](https://plotly.com/python-api-reference/plotly.express.html) pour créer différents types de figures.

L'import standard de Plotly Express :

In [None]:
import plotly.express as px

Liste des fonctions disponibles :

In [None]:
print([plot_method for plot_method in dir(px) if not plot_method.startswith('__')])

Plotly Express possède deux sous-modules intéressants :

- plotly.express.colors : pour les couleurs,

- plotly.express.data : ensembles de données intégrées à des fins de démonstration, d'éducation et de test. Cela donne accès à de nombreux jeux de données pour réaliser des graphiques. 

In [None]:
dir(plotly.express.data)

![image alt >](Images/numgrade.png)

### Line plot

Récupérons des données proposées par plotly :

In [None]:
df = px.data.gapminder()
df.head()

Ces données sont sous la forme de DataFrames pandas.

In [None]:
type(df)

Nous pouvons donc appliquer les opérations vues avec pandas.

In [None]:
df_france = df[df['country'] == 'France']
print(df_france.shape)
df_france.head(2)

![image alt >](Images/numgrade.png)

Pour tracer un graphique linéaire on utilisera la fonction line qui prend comme paramètre le DataFrame, les noms de colonnes pour les paramètres x et y.

In [None]:
fig = px.line(df_france, x='year', y='pop', title='Population in France')
fig.show() # pour afficher la figure

Et nativement, nous avons la possibilité de passer la souris au dessus de la courbe et les données seront indiquées.

![image alt >](Images/numgrade.png)

Pour sauvegarder notre figure (si Kaleido est bien installé), il suffit d'appeler la méthode save à partir de l'objet figure et de passer le nom de fichier avec l'extension souhaitée : 

In [None]:
fig.write_image("data/fig3.pdf")

Pour sauvegarder une image interactive, vous pouvez faire :

In [None]:
fig.write_html("data/fig3.html")

px.line a de nombreux paramètres optionnels, vous pouvez par exemple :

- définir la taille de votre figure en pixel avec les paramètres width et height,

- ajouter les marqueurs de points en passant marker=True,

- modifier le nom des axes avec le paramètre labels. Il prend comme valeur un dictionnaire avec comme clé le nom de la colonne et comme valeur le nom à afficher.

Nous verrons des exemples plus loin.

![image alt >](Images/numgrade.png)

#### Tracer plusieurs courbes avec le paramètre color

In [None]:
df_couple = df[(df['country'] == 'France') | (df['country'] == 'Germany')]
#df_couple = px.data.gapminder().query("country in ['France', 'Germany']")
df_couple['country'].value_counts()

In [None]:
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country', 
    title='Population in France and Germany', 
    labels={'pop':'population'},  # rename the label pop with population (hover data)
)
fig.show()


D'autres paramètres possibles :

- line_group : permet aussi d'avoir 2 courbes mais d'une même couleur,

- line_dash : comme color mais c'est le style du tracé qui change et non la couleur,

- symbol : ce sont les marqueurs de lignes qui diffèrent.

![image alt >](Images/numgrade.png)

#### Modifications des couleurs et symboles par défaut

Vous pouvez modifier les couleurs, styles de tracés et les symboles avec les paramètres : 
- color_discrete_sequence : vous passez une liste de couleurs dans l'ordre souhaité

- color_discrete_map : permet de spécifier une couleur selon une valeur. Vous passez un dictionnaire avec comme clé la valeur dans une colonne (du DataFrame) et comme valeur la couleur voulue.

- line_dash_sequence : une liste contenant une des valeurs suivantes : 'solid', 'dot', 'dash', 'longdash', 'dashdot', 'longdashdot'.

- line_dash_map : fonctionne avec le paramètre *line_dash* pour lequel on spécifie une colonne et on donnera au paramètre line_dash_map un dictionnaire dans lequel on donnera en clés des valeurs de la colonne spécifiée pour line_dash. On associera à chaque clé une des valeurs suivantes : 'solid', 'dot', 'dash', 'longdash', 'dashdot', 'longdashdot'.

- symbol_sequence / symbol et symbol_map : même principe que line_dash_sequence et line_dash_map. Le choix des symboles est très important :  [0, '0', 'circle', 100, '100', 'circle-open', 200, '200', 'circle-dot', 300, '300', 'circle-open-dot', 1, '1', 'square', 101, '101', 'square-open', 201, '201', 'square-dot', 301, '301', 'square-open-dot', 2, '2', ...]

Note : vous pouvez retrouver la liste complète des symboles en exécutant le code suivant :

In [None]:
from plotly.validators.scatter.marker import SymbolValidator


raw_symbols = SymbolValidator().values
print(raw_symbols)

Un exemple avec le paramètre color_discrete_sequence :

In [None]:
fig = px.line(
    df_couple, 
    x='year',
    y='pop', 
    color='country', 
    title='Population in France and Germany',
    color_discrete_sequence=['orange', 'purple'],
)
fig.show()

Un exemple avec les paramètres line_dash et line_dash_map :

In [None]:
fig = px.line(
    df_couple, 
    x='year',
    y='pop', 
    color='country', 
    title='Population in France and Germany',
    line_dash='country',
    line_dash_map={'Germany': 'dash', 'France': 'dot'},
)
fig.show()

![image alt >](Images/numgrade.png)

#### Modification de l'ordre dans la légende
category_orders : ce paramètre permet de modifier l'ordre d'apparition des noms dans la légende. 

Il prend comme valeur un dictionnaire avec pour clé le nom de la colonne et comme valeur la liste des valeurs de la colonne dans l'odre souhaité

In [None]:
df_bis = df.copy()
df_couple = df_bis[(df_bis['country'] == 'France') | (df_bis['country'] == 'Germany')]
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country',
    title='Population in France and Germany',
    category_orders={'country': ['Germany', 'France']},
)
fig.show()

![image alt >](Images/numgrade.png)

#### Ajout d'informations à "hover"

Paramètres :
- hover_data : liste avec les noms de colonne dont on veut afficher la valeur.
- hover_name : pour mettre en gras tout en haut de la fenêtre hover la valeur d'une colonne


In [None]:
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country', 
    title='Population in France and Germany',
    hover_data=['continent'],  # adding information for hover, 
    hover_name='year',
)  
fig.show()

![image alt >](Images/numgrade.png)

#### Ajout d'informations sur les courbes

Paramètre text : prend le nom d'une colonne

In [None]:
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country', 
    title='Population in France and Germany',
    hover_data=['continent'],  # adding information for hover, 
    text="lifeExp"
)  
fig.show()

![image alt >](Images/numgrade.png)

### Plusieurs plots

facet_row : permet de créer des plots sur plusieurs lignes

facet_col : permet de créer des plots sur plusieurs colonnes

Les tracés seront regroupés dans chaque sous-graphique en fonction des données de la colonne passées à facet_row / facet_col
    
facet_row_spacing : espace entre les lignes entre 0 et 1 (0.03 par défaut)

facet_col_spacing : espace entre les colonnes entre 0 et 1 (0.02 par défaut)

In [None]:
df_couple = df[
    (df['country'] == 'France') 
    | (df['country'] == 'Germany') 
    | (df['country'] == 'Australia')
]
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country',
    title='Population in Australia, France and Germany',
    facet_row='continent'
)
fig.show()

In [None]:
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country',
    title='Population in Australia, France and Germany',
    facet_col='continent'
)
fig.show()

NOTE :
    
Vous pouvez utilisez à la fois les options facet_col et facet_row pour créer un grille de graphiques sur plusieurs colonnes et plusieurs lignes.

![image alt >](Images/numgrade.png)

### Ajouter des barres d'erreurs 

error_x : barre d'erreur le long de l'axe x, nom d'une colonne 

error_y : barre d'erreur le long de l'axe x, nom d'une colonne 

In [None]:
import numpy as  np

df_bis = df.copy()
#ajout d'une colonne avec les erreurs
df_bis['error_pop'] = np.random.randint(1_000_000, 4_000_000, size=len(df_bis))
df_bis.head()

In [None]:
df_couple = df_bis[(df_bis['country'] == 'France') | (df_bis['country'] == 'Australia')]
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country',
    title='Population in Australia and France',
    facet_row='continent', 
    error_y='error_pop'
)
fig.show()

![image alt >](Images/numgrade.png)

Vous pouvez tracer les barres d'erreur dans l'autre direction avec le paramètre error_x :

In [None]:
df_couple = df_bis[(df_bis['country'] == 'France') | (df_bis['country'] == 'Australia')]
fig = px.line(
    df_couple, 
    x='pop', 
    y='year', 
    color='country',
    title='Population in Australia and France',
    facet_row='continent', 
    error_x='error_pop'
)
fig.show()

Remarque :

Si vos valeurs d'erreurs ne sont pas symétriques, vous pouvez stocker les valeurs positives et négatives dans deux  colonnes différentes et utiliser les paramètres : error_x_minus / error_y_minus pour les valeurs négatives et error_x / error_y pour les valeurs positives.

![image alt >](Images/numgrade.png)

### Modifier le style de la figure avec template

In [None]:
df_couple = df_bis[(df_bis['country'] == 'France') | (df_bis['country'] == 'Australia')]
fig = px.line(
    df_couple, 
    x='pop', 
    y='year', 
    color='country',
    title='Population in Australia and France',
    facet_row='continent', 
    error_x='error_pop', 
    template="plotly_dark"
)
fig.show()

Vous pouvez trouver les différents styles possibles dans plotly.io :

In [None]:
import plotly.io as pio


pio.templates

Notez que vous pouvez définir un style par défaut pour vos futurs tracés via l'attribut pio.templates.default :

In [None]:
pio.templates.default = "plotly_white"

df_couple = df_bis[(df_bis['country'] == 'France') | (df_bis['country'] == 'Australia')]
fig = px.line(
    df_couple, 
    x='pop', 
    y='year', 
    color='country',
    title='Population in Australia and France',
    facet_row='continent', 
    error_x='error_pop'
)
fig.show()

![image alt >](Images/numgrade.png)

### Graphique linéaire 3D

Vous avez également la possibilité de tracer des graphiques linéaires en 3D avec la fonction line_3D.

In [None]:
pio.templates.default = "plotly"

df = px.data.gapminder().query("continent == 'Europe' and country.str.startswith('S')")
fig = px.line_3d(df, x="gdpPercap", y="pop", z="year", color='country')
fig.show()

![image alt >](Images/numgrade.png)

### Graphique en aires

Pour que l'aire sous la courbe soit visible vous pouvez remplacer px.line() par px.area().

Dans le cas où il y a plusieurs tracés sur un même graphique, les aires se superposent (augmentation des valeurs en y). Cela peut permettre par exemple de voir la somme de deux populations.

Comparer la version avec les lignes et avec les aires (les échelles sont différentes) :

In [None]:
df = px.data.gapminder()
df_couple = df[
    (df['country'] == 'France') 
    | (df['country'] == 'Germany') 
    | (df['country'] == 'Australia')
]
fig = px.line(
    df_couple, 
    x='year', 
    y='pop', 
    color='country',
    title='Population in Australia, France and Germany',
    facet_row='continent'
)
fig.show()

In [None]:
df = px.data.gapminder()
df_couple = df[
    (df['country'] == 'France') 
    | (df['country'] == 'Germany') 
    | (df['country'] == 'Australia')
]
fig = px.area(
    df_couple, 
    x='year', 
    y='pop', 
    color='country',
    title='Population in Australia, France and Germany',
    facet_row='continent'
)
fig.show()

![image alt >](Images/numgrade.png)

Le paramètre pattern_shape permet d'ajouter un motif, et vous pouvez ajouter des marqueurs selon une colonne avec le paramètre symbol.

In [None]:
fig = px.area(
    df_couple, 
    x='year', 
    y='pop', 
    color='country',
    title='Population in Australia, France and Germany',
    facet_row='continent', 
    pattern_shape='country',
    symbol='continent'
)
fig.show()

![image alt >](Images/numgrade.png)
#### Exercices

**Objectifs pédagogiques**

- Sélectionner et trier des données
- Tracer des graphiques linéaires avec plotly
- Utiliser des options pour améliorer le rendu

##### Exercice 1 (difficulté : ⭐)

1. A partir des données experiment (px.data.experiment()), tracer l'expérience 1 en fonction de l'index en séparant les courbes de contrôles des autres et en séparant dans 2 sous-graphiques séparés les espèces mâles et les espèces femelles. 
2. Ajouter un titre, des noms pour les axes x et y.
3. Modifier le titre de la légende en remplaçant groupe par genre. 
4. Définir manuellement les couleurs. 

##### Exercice 2  (difficulté : ⭐⭐)
                
1. A partir du jeu de px.data.tips(), classer par ordre croissant le dataframe en fonction des additions. 
2. Tracer les pourboires en fonction de l'addition pour les samedis et les dimanches selon que la personne soit fumeuse ou non. Les courbes doivent se différencier par leur style, leur couleur et leur marqueur. 
3. Définir manuellement les marqueurs et le style du tracé. 

![image alt >](Images/numgrade.png)

### Scatter plot

Vous pouvez tracer des graphiques composés de nuages de point avec la fonction :

- scatter pour des plot en 2D

- scatter_3d pour des plots en 3D

Beaucoup des paramètres optionnels vus précédemment fonctionnent.

En plus de ces paramètres, le paramètre size permet que la taille des points dépendent de la valeur d'une colonne.

size_max est le paramètre qui vous permet de définir la taille maximale. Par défaut, il vaut 20.

In [None]:
df = px.data.iris()
print(df.columns)

figure = px.scatter_3d(
    df, 
    x='sepal_length', 
    y='sepal_width', 
    z='petal_length',
    color='species', 
    size='petal_width', 
    size_max=30 # by default size_max=20
) 
figure.show()

![image alt >](Images/numgrade.png)

Un autre paramètre utile est le paramètre opacity qui permet de gérer la transparence (entre 0 : transparent et 1 : opaque)

In [None]:
df = px.data.iris()
print(df.columns)
figure = px.scatter(
    df, 
    x='sepal_length', 
    y='sepal_width',
    color='petal_width', 
    symbol='species', 
    size='petal_length',
    size_max = 10, 
    opacity=0.7, 
    symbol_sequence=['circle', 'square', 'x'] 
)
figure.show()

Lorsque color fait appel à une échelle continue de couleurs vous pouvez modifier l'échelle de couleur avec le paramètre color_continuous_scale.

Pour afficher la liste des colorbar possible :
- print(dir(px.colors.sequential))
- print(dir(px.colors.diverging))
- print(dir(px.colors.cyclical))

Astuce : si vous ajouter \_r à la fin du nom de la séquence de couleur choisie, elle sera dans l'ordre inverse. 

In [None]:
print(dir(px.colors.sequential))
print(dir(px.colors.diverging))
print(dir(px.colors.cyclical))

In [None]:
df = px.data.iris()
print(df.columns)
figure = px.scatter(
    df, 
    x='sepal_length', 
    y='sepal_width',
    color='petal_width', 
    symbol='species', 
    size='petal_length',
    size_max = 10, 
    opacity=0.7, 
    symbol_sequence=['circle', 'square', 'x'], 
    color_continuous_scale='Aggrnyl'
)
figure.show()
#probleme de légende

On note sur les deux figures précédentes un problème de légende. La légende liée aux symboles et celle liée aux couleurs se superposent.

Pour régler ce problème, il faut mettre à jour la mise en page. Vous avez de nombreuses options disponibles que vous pouvez trouver sur ces pages :

https://plotly.com/python/reference/layout/

https://plotly.com/python/reference/layout/coloraxis/

![image alt >](Images/numgrade.png)

Intéressons-nous donc à la position de la légende et de la barre de couleur :

In [None]:
# Move the legend on the left
df = px.data.iris()
figure = px.scatter(
    df, 
    x='sepal_length', 
    y='sepal_width',
    color='petal_width', 
    symbol='species', 
    size='petal_length',
    size_max=10, 
    opacity=0.7, 
    symbol_sequence=['circle', 'square', 'x'], 
    color_continuous_scale='Aggrnyl'
)
figure.update_layout(legend=dict(x=-0.4))
figure.show()

In [None]:
# Move the legend and the color bar on the left
df = px.data.iris()
figure = px.scatter(
    df, 
    x='sepal_length', 
    y='sepal_width',
    color='petal_width', 
    symbol='species', 
    size='petal_length',
    size_max=10, 
    opacity=0.7, 
    symbol_sequence=['circle', 'square', 'x'], 
    color_continuous_scale='Aggrnyl'
)
figure.update_layout(legend=dict(x=-0.4, y=1.2))
figure.update_coloraxes(colorbar_x=-0.4, colorbar_y=0.4)
figure.show()

NOTE sur la légende :

Il existe de nombreuses autres options pour customiser la légende. Voir https://plotly.com/python/legend/

![image alt >](Images/numgrade.png)

#### Exercices (difficulté : &#11088;)

**Objectifs pédagogiques**

- Tracer des nuages de points dans un graphique 2D avec plotly
- Supprimer les valeurs nulles dans un DataFrame
- Utiliser des options pour améliorer le rendu
- Tracer des nuages de points dans un graphique 3D avec plotly

**Enoncés** 
                
1. Depuis la librairie seaborn, charger le jeu de donnée "penguins" : sns.load_dataset("penguins").

2. Tracer un graphique en nuage de points avec bill_depth_mm en abscisse et bill_length_mm en ordonnée.

3. Améliorer le visuel en modifiant le style du tracé, ajouter un titre, modifier le nom des axes.

4. Différencier sur le graphique les espèces et les îles auxquelles appartiennent chaque specimen et ajouter de la transparence.

5. Supprimer les lignes contenant des NaN.

6. Séparer sur deux graphiques distincts les mâles et les femelles.

7. Ajouter les informations de la colonne body_mass_g en jouant sur la taille des points.

8. Afin d'avoir encore plus d'informations, tracer dans un graphique en 3 dimensions les colonnes bill_depth_mm, bill_length_mm et flipper_length_mm.

9. Bonus (difficulté : &#11088;&#11088;) : explorer la fonction px.scatter_matrix() afin de tracer chaque colonne en fonction d'une autre colonne.

![image alt >](Images/numgrade.png)

### Bar Plot

La fonction vous px.bar permet de tracer des graphiques sous forme de barres.

In [None]:
df = px.data.election()
df.head()

In [None]:
figure = px.bar(df, x='winner')
figure.show()

Dans l'exemple précédent : dans la colonne winner trois valeurs sont possibles : Joly, Coderre, Bergeron. Count correspond au nombre de lignes pour chaque valeur.

In [None]:
df['winner'].value_counts()

![image alt >](Images/numgrade.png)

Vous pouvez aussi tracer une colonne selon une autre colonne. Prenons des autres données :

In [None]:
df = px.data.medals_wide()
df

In [None]:
df['total'] = df.gold + df.silver + df.bronze
df

In [None]:
figure = px.bar(df, x='nation', y='total')
figure.show()

Vous pouvez utiliser le paramètre color pour ajouter de l'information

In [None]:
df_long = px.data.medals_long()
df_long


In [None]:
figure = px.bar(df_long, x='medal', y='count', color='nation')
figure.show()

![image alt >](Images/numgrade.png)

Beaucoup de paramètres vus précédemment peuvent également être appliqués. 

In [None]:
figure = px.bar(
    df, 
    x='nation', 
    y='total', 
    color='nation', 
    text="total",
    hover_data=['gold', 'silver', 'bronze'], 
    title='medals'
)
figure.show()

#### D'autres exemples de l'utilisation du paramètre color


In [None]:
df = px.data.tips()
df.head()

In [None]:
figure = px.bar(df, x='day', y='total_bill', color='time')
figure.show()

In [None]:
df = px.data.gapminder().query('country == "France"')
df.tail()

In [None]:
figure = px.bar(df, x='year', y='pop', color='lifeExp')
figure.show()

#### Quelques paramètres supplémentaires

- orientation : vous permet de définir l'orientaiton des barre : 'v' ou 'h'

- text_auto : Si vous passez la valeur True, les valeurs x ou y seront affichées sous forme de texte, en fonction de l'orientation. Vous pouvez également passer une chaîne de caractères qui définira le nombre de chiffre après la virgule, par exemple f'.2f'

- color_continuous_scale : comme vu précedemment permet de modifier le choix de la séquence de couleur

In [None]:
figure = px.bar(
    df, 
    x='pop', 
    y='year', 
    color='lifeExp', 
    orientation='h', 
    text_auto=True,
    color_continuous_scale='Aggrnyl_r'
)
figure.show()

In [None]:
df.head()

- pattern_shape : à la place d'attribuer des couleurs, vous appliquez un motif selon la colonne choisie :

In [None]:
# pattern_shape
figure = px.bar(
    df, 
    x='pop', 
    y='lifeExp',
    orientation='h',  
    pattern_shape='year'
)
figure.show()

# Attention, s'il y a trop de valeurs différentes, les motifs se répètent. 

![image alt >](Images/numgrade.png)

color_continuous_midpoint : la valeur est la valeur médiane de la colorbar souhaité. Il est recommandé de définir cette valeur lorsque l'on utilise des échelles de couleurs divergentes.

Comparez les 2 exemples :

In [None]:
 # Without color_continuous_midpoint.
figure = px.bar(
    df, 
    x='lifeExp', 
    y='year', 
    color='pop',
    orientation='h',
    color_continuous_scale='BrBG'
)
figure.show()

In [None]:
# With color_continuous_midpoint.
figure = px.bar(
    df, 
    x='lifeExp', 
    y='year', 
    color='pop',
    orientation='h', 
    color_continuous_midpoint=df['pop'].mean(),
    color_continuous_scale='BrBG'
)
figure.show()

![image alt >](Images/numgrade.png)

barmode : 'group', 'overlay' ou 'relative', par défaut relative. En mode 'relative', les barres sont empilées au-dessus de zéro pour les valeurs positives et au-dessous de zéro pour les valeurs négatives. En mode "superposition", les barres sont dessinées les unes sur les autres. En mode "groupe", les barres sont placées les unes à côté des autres.

Voici un exemple précédent sans le mode "group" :

In [None]:
df = px.data.tips()
figure = px.bar(df, x='day', y='total_bill', color='time')
figure.show()

Le même exemple avec le mode "group" :

In [None]:
df = px.data.tips()
df.head()
figure = px.bar(df, x='day', y='total_bill', color='time', barmode='group')
figure.show()

![image alt >](Images/numgrade.png)

### Histogram

In [None]:
df = px.data.tips()
fig = px.histogram(df, x="total_bill")
fig.show()

![image alt >](Images/numgrade.png)

Beaucoup de paramètres optionnels vus précédemment fonctionnent. 

In [None]:
df = px.data.tips()
fig = px.histogram(
    df, 
    x="total_bill", 
    color="sex",
    title='Distribution des additions',
    labels={'total_bill': "Montant de l'addition"},
    template='plotly_dark', 
    pattern_shape='smoker',
    color_discrete_sequence=['purple', 'orange']
)
fig.show()

Vous pouvez préciser une colonne pour les données en ordonnées :

In [None]:
df = px.data.tips()
fig = px.histogram(
    df, 
    x="total_bill", 
    y='tip',
    color="sex",
    title='Distribution des additions'
)
fig.show()

![image alt >](Images/numgrade.png)

#### Quelques paramètres spécifiques

Voici quelques paramètres supplémentaires : 

- nbins : Entier positif pour définir le nombre maximal de bins.

- cumulative : Si True, les valeurs de l'histogramme sont cumulées.

- barnorm : L'une des options suivantes : "fraction" ou "pourcentage". Si 'fraction', la valeur de chaque barre est divisée par la somme de toutes les valeurs. Le "pourcentage" est identique, mais il est multiplié par 100 pour afficher les pourcentages. 

In [None]:
df = px.data.tips()
fig = px.histogram(
    df, 
    x="total_bill", 
    color="sex",
    title='Distribution des additions',
    labels={'total_bill': "Montant de l'addition"},
    template='plotly_dark', 
    pattern_shape='smoker',
    color_discrete_sequence=['purple', 'orange'],
    cumulative=True,
    nbins=20
)
fig.show()

In [None]:
df = px.data.tips()
fig = px.histogram(
    df, 
    x="total_bill", 
    color="sex",
    title='Distribution des additions',
    labels={'total_bill': "Montant de l'addition"},
    template='plotly_dark', 
    pattern_shape='smoker',
    color_discrete_sequence=['purple', 'orange'],
    barnorm='percent'
)
fig.show()

![image alt >](Images/numgrade.png)

### Autres graphiques

De nombreux autres types de graphiques sont accessibles dans plotly, n'hésitez pas à consulter la documentation : https://plotly.com/python-api-reference/index.html
- Diagrammes circulaires : px.pie()
- Boites à moustache et dérivées : px.box(), px.violin(), px.strip()
- Time line : px.timeline()
- Des diagrammes en boîtes : px.treemap(), px.sunburst(), px.icicle()
- Des diagrammes de lignes/boîtes parallèles : px.parallel_coordinates(), px.parallel_categories().
-  Graphique de Fonction de distribution cumulative empirique : empirical Cumulative Distribution Function (ECDF) : px.ecdf()
- Des diagrammes en entonnoir : px.funnel(), px.funnel_area().

![image alt >](Images/numgrade.png)

#### Exercices

**Objectifs pédagogiques**

- Choisir le bon type de graphique
- Trier les données d'un DataFrame
- Utiliser des options pour améliorer le graphique

##### Exercice 1 (difficulté : ⭐)
                    
On souhaite représenter le nombre de passager du Titanic selon la classe dans laquelle ils voyagent et différencier les voyageurs ayant survécus de ceux qui ont péris.

**Enoncé détaillé** :
                
1. Depuis la librairie seaborn, charger le jeu de donnée "titanic" : sns.load_dataset("titanic").

2. Représenter le nombre de passager selon la classe. 

3. Bonus : faire en sorte que les classes soient représentées dans l'ordre de la première à la troisième.

4. Ajouter l'information de la colonne alive.

5. Améliorer le rendu : ajouter un titre, modifier le noms des axes, modifier le style du tracé, etc. 

##### Exercice 2 (difficulté : ⭐⭐)

A partir du jeu de donnée taxis provenant de seaborn (import seaborn as sns puis  sns.load_dataset("taxis")), tracez le graphique suivant :

![](Images/exo_hist.png)

**Enoncé détaillé** :

1. Depuis la librairie seaborn, charger le jeux de donnée taxis avec la commande : df = sns.load_dataset("taxis").

2. Tracer un histogramme des pourboires (tip) selon l'addition totale (total).

3. Par défaut, la somme des pourboires est calculée. Modifier ce comportement grâce à l'option histfunc. Tracer la moyenne (average) et non plus la somme des pourboires.

4. Ajouter les informations concernant les colonnes pickup_borough et color ainsi qu'un titre.

##### Exercice 3 (optionnel - difficulté : ⭐⭐⭐)

1. A partir du jeu de données px.data.tips(), tracer un diagramme circulaire représentant le % de tips selon les jours de la semaine. 
2. Transformer le diagramme circulaire en donut.
3. Faire deux diagrammes afin de séparer les données des fumeurs et des non-fumeurs.
4. Faire apparaître les statistiques des pourboires sous forme de boîte à moustache en séparant les fumeurs des non-fumeurs et en séparant les jours de la semaine. 

![image alt >](Images/numgrade.png)

### Les cartes avec plotly

Pour tracer vos graphiques linéaires et nuages de points sur une carte, vous pouvez utiliser l'une des fonctions suivantes :

- px.line_map() / px.scatter_map()

- px.line_geo() / px.scatter_geo()

- px.line_mapbox() / px.scatter_mapbox() : fonctions que nous ne présenterons pas car elles vont être supprimés dans une prochaine version.

Les fonctions en *\_map combinent plotly et les cartes openstreetmap. 

In [None]:
import pandas as pd

# Import data from USGS
data = pd.read_csv('https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/all_month.csv')


# Drop rows with missing or invalid values in the 'mag' column
data = data.dropna(subset=['mag'])
data = data[data.mag >= 0]


data.head()

Pour utiliser les fonctions *_map et *_geo : les paramètres obligatoires sont le DataFrame, la latitude et la longitude. 

In [None]:
# Create scatter map
fig = px.scatter_map(
    data, 
    lat='latitude', 
    lon='longitude', 
    color='mag',
    hover_name='place', #size='mag',
    title='Earthquakes Around the World'
)
fig.show()

Beaucoup de paramètres déjà évoqués fonctionnent. A ceux là s'ajoutent :
- zoom : qui doit être un entier entre 0 et 20 (8 par défaut)
- center : permet de définir le centre de la carte, il prend un dictionnaire avec comme clé 'lat' et 'lon' et comme valeurs les  coordonnées souhaitées.

In [None]:
# Create scatter map
fig = px.scatter_map(
    data, 
    lat='latitude', 
    lon='longitude', 
    color='mag',
    hover_name='place', 
    zoom=2,
    center={'lat':30, 'lon':110},
    title='Earthquakes Around the World'
)
fig.show()

![image alt >](Images/numgrade.png)

Les fonctions px.line_geo() / px.scatter_geo() fonctionnent de manière assez similaire à px.line_map et px.scatter_map mais ne comportent pas l'option zoom. En revanche, l'option scope permet de spécifier la zone à afficher. Les valeurs possibles sont 'world', 'usa', 'europe', 'asia', 'africa', 'north america', or 'south america'.

In [None]:
# Create scatter map
fig = px.scatter_geo(
    data, 
    lat='latitude', 
    lon='longitude', 
    color='mag',
    hover_name='place',
    title='Earthquakes Around the World')
fig.show()

In [None]:
# Create scatter map
fig = px.scatter_geo(
    data, 
    lat='latitude', 
    lon='longitude', 
    color='mag',
    hover_name='place',
    title='Earthquakes Around the World', 
    scope='asia'
)
fig.show()

Vous pouvez modifier la projection avec le paramètre projection.  Les valeurs possibles sont : 'equirectangular', 'mercator', 'orthographic', 'natural earth', 'kavrayskiy7', 'miller', 'robinson', 'eckert4', 'azimuthal equal area', 'azimuthal equidistant', 'conic equal area', 'conic conformal', 'conic equidistant', 'gnomonic', 'stereographic', 'mollweide', 'hammer', 'transverse mercator', 'albers usa', 'winkel tripel', 'aitoff', ou 'sinusoidal'.

In [None]:
# Create scatter map
fig = px.scatter_geo(
    data, 
    lat='latitude', 
    lon='longitude', 
    color='mag',
    hover_name='place',
    title='Earthquakes Around the World', 
    projection='orthographic'
)
fig.show()

![image alt >](Images/numgrade.png)

Si vous n'avez pas la latitude et la longitude d'autres paramètres peuvent être utilisés pour pouvoir tracer une carte.

Si l'une de vos colonnes correspond aux noms des pays vous pouvez utiliser les deux paramètres suivants :

- locations : avec le nom de la colonne qui contient les pays

- location_mode : avec comme valeur 'country names'

Si vous n'avez pas les noms des pays, mais les codes iso les valeurs à passer au paramètres seront :

- le nom de la colonne pour locations

- 'ISO-3' pour le paramètre location_mode

Une dernière possibilité correspond aux noms des états américains. Dans ce cas, vous passez le nom de la colonne qui les contient et vous passez "USA-states" au paramètre locationmode.

In [None]:
df = px.data.gapminder().query("year == 2007")
df.head()

In [None]:
fig = px.line_geo(
    df, 
    locations="country",
    locationmode="country names",
    color="continent"
)
fig.show()

In [None]:
fig = px.line_geo(
    df, 
    locations="iso_alpha",
    locationmode="ISO-3",
    color="continent"
)
fig.show()

Le paramètre fitbounds permet de mettre des limites à la cartes, les valeurs possibles sont False (par défaut), locations ou geojson.

In [None]:
fig = px.line_geo(
    df, 
    locations="iso_alpha",
    locationmode="ISO-3",
    color="continent", 
    fitbounds="locations"
)
fig.show()

 ![image alt >](Images/numgrade.png)
 
 ## Choropleth map
 
 Deux fonctions permettent de faire ce type de cartes :
 - px.choropleth()
 - px.choropleth_map()

#### Quelles sont les différences entre ces deux fonctions ?

Pour la fonction choropleth() vous pouvez tracer votre carte avec au choix la latitude et la longitude ou avec un geojson ou bien encore avec une colonne comportant des nom de pays, des états américains ou des codes ISO, tandis que pour la fonction choropleth_map(), seule l'utilisation des geojson est possible. 

Les paramètres facet_row et facet_col, qui permettent de faire des subplots, ne sont disponibles qu'avec la fonction choropleth(). De même, le paramètre projection n'est disponible qu'avec la fonction chloropleth().

Pour sélectionner une région précise à afficher, choropleth() aura le paramètre scope, tandis que  choropleth_map() pourra être sur une région plus précise grâce au paramètre zoom.

choropleth_map() possède les paramètres opacity et map_style que n'a pas choropleth().

In [None]:
df = px.data.gapminder().query("year==2007")
fig = px.choropleth(
    df, 
    locations="iso_alpha",
    color="lifeExp", 
    color_continuous_scale=px.colors.sequential.Plasma)
fig.show()

#### Exercices sur les cartes

**Objectifs pédagogiques**

- Ouvrir un fichier csv avec pandas
- Tracer une carte avec plotly
- Utiliser des options pour améliorer la carte

##### Exercice 1 (difficulté : &#11088;&#11088;)
                    
A partir du fichier csv station_meteo.csv, tracez sur une carte avec un fond de carte open street map, la localisation des stations météorologiques françaises en métropole, en faisant ressortir leur altitude. Votre carte doit posséder un titre, être centrée et zoomée sur la France et l'information ID doit apparaître lorsque votre souris passe sur un des points. La barre de couleur doit être "turbid" et le titre de la légende "Altitude (m)".

**Enoncé détaillé** :
                
1. Ouvrir avec pandas le fichier csv station_meteo.csv. Attention au séparateur de colonnes.

2. Utiliser la fonction scatter_map pour représenter sous forme de points les stations météorologiques.

3. La couleur des points doit dépendre de l'altitude de chaque station.

4. Centrer la carte et zoomer sur la France.

5. Modifier la couleur des points en utilisant le jeu de couleur "turbid".

6. Améliorer le rendu : ajouter un titre et changer le nom de la légende (Altitude -> Altitude(m)).

7. Faire apparaître l'information ID lorsque la souris passe sur un des points.

##### Exercice 2 (optionnel - difficulté : &#11088;&#11088;)

1. Faire la même chose que pour l'exercice précédent mais en utilisant la fonction scatter_geo. 

2. Centrer la carte sur l'Europe.

3. Jouer sur le type de projection.