# Visualisation des données avec Plotly

A présent que vous savez manipuler les données avec pandas, vous allez apprendre à représenter les données sous forme de jolis graphiques à l'aide de la bibliothèque **Plotly Express**.  
On utilisera le fichier **clean_travel_data.csv** comme base.

Pour vous aider, voici la documentation officielle de Plotly :  
https://plotly.com/python/plotly-express/

N'hésitez pas à rechercher les fonctions, paramètres et exemples nécessaires pour réaliser les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également aux quelques petites questions des TODO s'il y en a.

In [1]:
# Il faut installer la bibliothèque plotly. On verra comment faire ça proprement plus tard.
!pip install plotly


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


# 1. Nombre total de photos par ville

**TODO**

- Importer plotly.express sous le nom px
- Créer un graphique en barres représentant le total de photos par ville
- Trier les villes selon le nombre de photos de manière décroissante
- Afficher le graphique

In [2]:
# Write your code here
import plotly.express as px
import pandas as pd

df = pd.read_csv('clean_travel_data.csv')
photoByCities = df.groupby('city')['photos'].sum().reset_index()
photoByCities = photoByCities.sort_values(by='photos', ascending=False)

fig = px.bar(photoByCities, x='city', y='photos')
fig.show(renderer='browser')

# 2. Répartition des humeurs (mood) en camembert

**TODO**

- Créer un graphique en camembert basé sur la répartition des humeurs (colonne mood)
- Afficher les pourcentages sur chaque tranche
- Afficher le graphique

In [3]:
# Write your code here
moodFig = px.pie(df, names='mood')
moodFig.show(renderer='browser')

# 3. Évolution du nombre de photos dans le temps

**TODO**

- Créer un graphique en ligne avec la date sur l'axe des x et le nombre de photos sur l'axe des y
- Colorer les lignes ou points selon la météo (weather)
- Afficher le graphique
- Que remarquez vous ? Qu'auriez du vous faire ?

In [4]:
# Write your code here
df_known_weather_only = df[df['weather'] != 'unknown'] # Je choisis d'exclure du diagramme les valeurs 'unknown' avec une opération de boolean indexing

photosFig = px.line(df_known_weather_only, x='date', y='photos', color='weather')
photosFig.show(renderer='browser')

# On retrouve un graphique dans une forme qui ne semble pas être la plus pertinente pour la donnée présentée. Je pense qu'un graphique linéaire serait plus approprié dans un cas où l'on cherche à communiquer l'évolution continue d'une donnée précise.

# On aurait pu partir sur un nuage de points avec les mêmes axes et systène de coloration.

photosFig2 = px.scatter(df_known_weather_only, x='date', y='photos', color='weather')
photosFig2.show(renderer='browser')

# 4. Distribution du nombre de photos selon la météo

**TODO**

- Créer un diagramme en boîte (box plot) pour visualiser la répartition du nombre de photos selon la météo
- Afficher le graphique
- Quelles conclusions tirez-vous de ce graphe ?

In [5]:
# Write your code here
weatherPhotosFig = px.box(df_known_weather_only, x='weather', y='photos')
weatherPhotosFig.show(renderer='browser')

# On remarque une corrélation entre la météo et la fréquence de prise de photos. Les jours ensoleillés dominent là où les jours de neige beaucoup moins de photos sont prises.

# 5. Nuage de points photos vs humeur

**TODO**

- Créer un graphique de type scatter plot avec mood en abscisse et photos en ordonnée
- Ajouter une info-bulle avec les noms de ville
- Afficher le graphique

In [6]:
# Write your code here
photosMoodFig = px.scatter(df_known_weather_only, x='mood', y='photos', hover_name='city')
photosMoodFig.show(renderer='browser')