# Visualisation des données avec Plotly

A présent que vous savez manipuler les données avec pandas, vous allez apprendre à représenter les données sous forme de jolis graphiques à l'aide de la bibliothèque **Plotly Express**.  
On utilisera le fichier **clean_travel_data.csv** comme base.

Pour vous aider, voici la documentation officielle de Plotly :  
https://plotly.com/python/plotly-express/

N'hésitez pas à rechercher les fonctions, paramètres et exemples nécessaires pour réaliser les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également aux quelques petites questions des TODO s'il y en a.

In [3]:
# Il faut installer la bibliothèque plotly. On verra comment faire ça proprement plus tard.
!pip install plotly




# 1. Nombre total de photos par ville

**TODO**

- Importer plotly.express sous le nom px
- Créer un graphique en barres représentant le total de photos par ville
- Trier les villes selon le nombre de photos de manière décroissante
- Afficher le graphique

In [4]:
# Installation de la bibliothèque nbformat manquante pour afficher dans un environement Jupyter qui permet de rendre des graphiques interactifs dans une cellule
!pip install nbformat




In [5]:
# Write your code here
# Importer plotly.express sous le nom px
import plotly.express as px
import pandas as pd

# - Créer un graphique en barres représentant le total de photos par ville
df = pd.read_csv('clean_travel_data.csv')

# Calculer le total des photos prises par ville (transformation en Series indéxé par city et non DataFrame)
sum_picture_by_city = df.groupby('city')['photos'].sum()

# Transforme type Series en type DataFrame
df_sum = sum_picture_by_city.reset_index()  # Crée un DataFrame avec colonnes 'city' et 'photos' )

fig = px.bar(df_sum, x='city', y='photos', title='Nombre total de photos par ville')

# - Afficher le graphique
fig.show()

# - Trier les villes selon le nombre de photos de manière décroissante
df_sorted = df_sum.sort_values(by='photos', ascending=True)
fig = px.bar(df_sorted, x='city', y='photos', title='Nombre total de photos par ville (triées)')
fig.show()

# 2. Répartition des humeurs (mood) en camembert

**TODO**

- Créer un graphique en camembert basé sur la répartition des humeurs (colonne mood)
- Afficher les pourcentages sur chaque tranche
- Afficher le graphique

In [6]:
# Write your code here
# - Créer un graphique en camembert basé sur la répartition des humeurs (colonne mood)
# - Afficher les pourcentages sur chaque tranche
# sum_mood_by_city = df.groupby('city')['mood'].sum()
# df_mood = sum_mood_by_city.reset_index()
# fig = px.pie(df_mood, values='mood' , names='city' ) 
# fig.show ()   
# Créer le graphique en camembert
fig = px.pie(
    df,
    names='mood',
    title='Répartition des humeurs',
    hole=0,  # camembert classique (sans "donut")
)
# Données brutes ligne par ligne(mood n'as pas de valeur, elle est enregistré ligne par ligne on a donc pas besoin de value=)

# .update_traces() : méthode utilisée pour modifier les éléments graphiques (traces), textinfo='percent+label' : détermine le texte affiché sur chaque part du camembert.
fig.update_traces(textinfo='percent+label')

# - Afficher le graphique
fig.show()


# 3. Évolution du nombre de photos dans le temps

**TODO**

- Créer un graphique en ligne avec la date sur l'axe des x et le nombre de photos sur l'axe des y
- Colorer les lignes ou points selon la météo (weather)
- Afficher le graphique
- Que remarquez vous ? Qu'auriez du vous faire ?

In [7]:
# Write your code here
# - Créer un graphique en ligne avec la date sur l'axe des x et le nombre de photos sur l'axe des y
# - Colorer les lignes ou points selon la météo (weather)

fig = px.line(
    df,
    x='date',        
    y='photos',      
    color='weather',     
    markers=True,     # Pour afficher des points sur la ligne
    title="Évolution du nombre de photos dans le temps"
)


# - Afficher le graphique
fig.show()


# - Que remarquez vous ? Qu'auriez du vous faire ?
Il y'a des valeurs négatifs pour la prise de photo. J'aurais du les filtrés ou supprimés car ce n'est pas quelque chose de possible

# 4. Distribution du nombre de photos selon la météo

**TODO**

- Créer un diagramme en boîte (box plot) pour visualiser la répartition du nombre de photos selon la météo
- Afficher le graphique
- Quelles conclusions tirez-vous de ce graphe ?

In [10]:
# Write your code here

# - Créer un diagramme en boîte (box plot) pour visualiser la répartition du nombre de photos selon la météo
# Affiche les photos inférieures à O
print(df[df['photos'] < 0])
#  localise la ligne correspondant à Grenoble le 10 décembre 2024, cible la colonne photos et on réassigne la valeur à 0
df.loc[(df['city'] == 'Grenoble') & (df['date'] == '2024-12-10'), 'photos'] = 0

fig = px.box(
    df,
    x='weather',
    y='photos',
    color='weather',
    title='Répartition du nombre de photos selon la météo',
    points='all'  # Affiche aussi tous les points (jitter)
)

# Afficher le graphique
fig.show()



Empty DataFrame
Columns: [city, date, weather, mood, photos]
Index: []


# - Quelles conclusions tirez-vous de ce graphe ?
Le nombre de photos prisent en été ('sunny') est plus important et il est le plus bas lorsque la météo est enneigé('snowny'). Il y'a une corélation entre les prises de photos et la météo

# 5. Nuage de points photos vs humeur

**TODO**

- Créer un graphique de type scatter plot avec mood en abscisse et photos en ordonnée
- Ajouter une info-bulle avec les noms de ville
- Afficher le graphique

In [9]:
# Write your code here

# - Créer un graphique de type scatter plot avec mood en abscisse et photos en ordonnée
# - Ajouter une info-bulle avec les noms de ville
fig = px.scatter(
    df,
    x='mood',           # Axe des abscisses : les humeurs
    y='photos',         # Axe des ordonnées : le nombre de photos
    color='weather',
    hover_name='city',  # Info-bulle : affiche la ville
    title='Nuage de points photos vs humeur'
)

# - Afficher le graphique
fig.show()