# Visualisation des données avec Plotly

A présent que vous savez manipuler les données avec pandas, vous allez apprendre à représenter les données sous forme de jolis graphiques à l'aide de la bibliothèque **Plotly Express**.  
On utilisera le fichier **clean_travel_data.csv** comme base.

Pour vous aider, voici la documentation officielle de Plotly :  
https://plotly.com/python/plotly-express/

N'hésitez pas à rechercher les fonctions, paramètres et exemples nécessaires pour réaliser les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également aux quelques petites questions des TODO s'il y en a.

In [59]:
# Il faut installer la bibliothèque plotly. On verra comment faire ça proprement plus tard.
!pip install plotly



# 1. Nombre total de photos par ville

**TODO**

- Importer plotly.express sous le nom px
- Créer un graphique en barres représentant le total de photos par ville
- Trier les villes selon le nombre de photos de manière décroissante
- Afficher le graphique

In [82]:
# Write your code here

import pandas as pd
import plotly.express as px

# Importation des données
df_clean_travel = pd.read_csv('clean_travel_data.csv')

# Regroupement des données
df_clean_travel_grouped = df_clean_travel.groupby('city', as_index=False)['photos'].sum()

# Tri des villes selon le nombre de photos par taille décroissante
df_clean_travel_grouped = df_clean_travel_grouped.sort_values(by='photos', ascending=False)

# Création du graphique
fig_bar = px.bar(
    df_clean_travel_grouped, 
    x='city', 
    y='photos', 
    title='Total des photos par villes'
)
fig_bar.show()

# 2. Répartition des humeurs (mood) en camembert

**TODO**

- Créer un graphique en camembert basé sur la répartition des humeurs (colonne mood)
- Afficher les pourcentages sur chaque tranche
- Afficher le graphique

In [None]:
# Write your code here

# Compter le nombre de voyages par humeur
mood_counts = df_clean_travel['mood'].value_counts().reset_index()
mood_counts.columns = ['mood', 'count']

# Création du graphique
fig_pie = px.pie(
    mood_counts, 
    names='mood', 
    values='count', 
    title='Répartition des humeurs'
)
fig_pie.show()

# 3. Évolution du nombre de photos dans le temps

**TODO**

- Créer un graphique en ligne avec la date sur l'axe des x et le nombre de photos sur l'axe des y
- Colorer les lignes ou points selon la météo (weather)
- Afficher le graphique
- Que remarquez vous ? Qu'auriez du vous faire ?

In [None]:
# Write your code here

# Créatin du graphique.
fig_line = px.line(
    df_clean_travel, 
    x='date', 
    y='photos', 
    color='weather', 
    markers=True, 
    title='Evolution du nombre de photos dans le temps'
)
fig_line.show()

# Réponse à la question
""" 
    On à une valeur négative dans la colonne 'photos' (-15). Ce qui n'est normalement pas possible.
    Comme nous ne savons pas d'où vient l'erreur, il est préférable d'exclure cette valeur pour ne pas fausser les résultats.
    L'option de la correction est envisageable mais dangereuse, car si on commence à manipuler les données pour corriger les erreurs, cela va dénaturer l'ensemble des données.
"""

# Proposition de correction
df_clean_travel_exclusion = df_clean_travel[df_clean_travel['photos'] >= 0]

# Création du graphique après exclusion
fig_line = px.line(
    df_clean_travel_exclusion, 
    x='date', 
    y='photos', 
    color='weather', 
    markers=True, 
    title='Evolution du nombre de photos dans le temps après exclusion'
)
fig_line.show()



# 4. Distribution du nombre de photos selon la météo

**TODO**

- Créer un diagramme en boîte (box plot) pour visualiser la répartition du nombre de photos selon la météo
- Afficher le graphique
- Quelles conclusions tirez-vous de ce graphe ?

In [None]:
# Write your code here

# Création du graphique.
fig_box = px.box(
    df_clean_travel_exclusion, 
    x='weather', 
    y='photos', 
    color='weather', 
    title='Répartition du nombre de photos selon la météo'
)
fig_box.show()

""" 
    On remarque une corélation entre le temps qu'il fait et le nombre de photos prises : plus le temps est ensoleillé et plus on a de photos.
    L'inverse est également vrai, moins le temps est ensoleillé et moins on a de photos.
    On remarque aussi une valeur 'unknown' sur l'axe x qui pourrait être exclue pour nettoyer le graphique et avoir que des données complètes à traiter.

"""

# Proposition de correction pour la valeur 'unknown'.
df_clean_travel_exclusion_unknown = df_clean_travel[df_clean_travel['weather'] != 'unknown']

# Création du graphique avec correction
fig_box = px.box(
    df_clean_travel_exclusion_unknown, 
    x='weather', 
    y='photos', 
    color='weather' , 
    title='Répartition du nombre de photos selon la météo (sans unknown)'
)
fig_box.show()



# 5. Nuage de points photos vs humeur

**TODO**

- Créer un graphique de type scatter plot avec mood en abscisse et photos en ordonnée
- Ajouter une info-bulle avec les noms de ville
- Afficher le graphique

In [79]:
# Write your code here

# Création du graphique
fig_scatter = px.scatter(
    df_clean_travel_exclusion,
    x='mood',
    y='photos',
    hover_name='city', 
    title='Nombre de photos prises selon l\'humeur',
    labels={
        'mood': 'Humeur',
        'photos': 'Nombre de photos'
    },
    color='mood', 
)

fig_scatter.show()
