- Créer un graphique montrant le nombre moyen de photos prises par condition météo  
- Fonction `plot_mood_distribution(df: pd.DataFrame) -> None`  

In [1]:
import pandas as pd
import plotly.express as px

In [2]:
def plot_photos_by_weather(df):
    # Lecture du fichier
    df= pd.read_csv(df)

    # Calcul du nombre moyen de photos par météo
    moyenne_photos = df.groupby('weather')['photos'].mean().reset_index()

    # Création du graphique en barres
    fig = px.bar(
        moyenne_photos,
        x='weather',
        y='photos',
        color='weather',
        title='Nombre moyen de photos prises selon la météo',
        labels={'weather': 'Météo', 'photos': 'Nombre moyen de photos'},
        text_auto='.2s'  # Affiche la valeur moyenne au-dessus des barres
    )

    fig.show()

plot_photos_by_weather("sorted_travel_data.csv")

In [3]:
def plot_mood_distribution(df):

    # Lecture du fichier
    df= pd.read_csv(df)
    fig = px.pie(
        df,
        names='mood',
        title='Répartition des humeurs dans les données',
        hole=0.2,  # Trou du donut
    )
    fig.update_traces(textinfo='percent+label')  # Affiche % et le nom de l’humeur
    fig.show()

plot_mood_distribution("travel_data.csv")

- Fonction pour visualiser l’évolution des photos prises au fil du temps

In [4]:
def plot_photos_by_date(df):

    # Lecture du fichier
    df= pd.read_csv(df)

    # on trie par date
    df_sorted = df.sort_values(by='date')  
    fig = px.line(
        df_sorted,
        x='date',
        y='photos',
        color='city',
        markers=True, #cela affiche des points visibles
        title='Évolution du nombre de photos prises au fil du temps',
        labels={'date': 'Date', 'photos': 'Nombre de photos'}
    )
    fig.show()

plot_photos_by_date("sorted_travel_data.csv")

In [5]:
"""
 Charge un fichier CSV, nettoie les données et sauvegarde un nouveau fichier propre.

    Paramètres :
    - filename (str) : chemin du fichier d'entrée (CSV brut)
    - new_filename (str) : nom du fichier de sortie (CSV nettoyé)

    Étapes :
    1. Chargement du fichier original
    2. Gestion des valeurs manquantes
    3. Détection et correction des valeurs aberrantes
    4. Sauvegarde du nouveau fichier nettoyé

"""

# Import des librairies
import pandas as pd

def load_and_clean_data(filename, new_filename):
    # - Charger le fichier CSV  
    df_original = pd.read_csv(filename)

    # Je fais une copie de mon fichier afin de garder l'original pour comoparaison
    df = df_original.copy()
    # print(df)

    # - Traitement des valeurs manquantes, remplacement des valeurs NaN par 'unknown' et modification du fichier avec 'Inplace = True'
    df.fillna(value = 'unknown', inplace=True)
    # print(df1)
    # J'ai choisi fillna afin de modifier seulement les valeurs manquantes ici la météo, sachant que les ces valeurs peuvent être n'étant pas très importantes parce qu'on pas de données sur la météo déja et supprimer la ligne ferait qu'on passerrai à côté de données plus importatntes

    # - Détecter et traiter les valeurs aberrantes, justifier les choix faits
    print(df[df['photos'] < 0] )
    # Sur les données du fichier je vois qu'il des photos prises à -15, je mets la valeur à 0

    # df.loc[(df['city'] == 'Grenoble') & (df['date'] == '2024-12-10'), 'photos'] = 0 #cette fonction permet de localiser la ligne et la mettre à zéro
    df['photos'] = df['photos'].clip(lower=0) #Met à 0 les photos avec des valeurs inférieures à 0
    print(df)
    # Mon data frame (copy) est propre et prêt à l'analyse
    df.to_csv(new_filename, index=False)
    return df

In [6]:
import pandas as pd

def print_statistics(df) : 

    # - Afficher la distribution des valeurs météo et humeur
    print(f"Affichage des valeurs 'weather' et 'mood' \n {df[['weather', 'mood']]}")

    # - Afficher des statistiques descriptives sur la colonne `photos` (moyenne, médiane, min, max) 
    print_average_photos = df['photos'].mean()
    print(f"La moyenne de photos prise est de {print_average_photos}")
    print_min_photos = df['photos'].min()
    print(f"Le minimum de photos pris est de {print_min_photos}")
    print_max_photos = df['photos'].max()
    print(f"Le maximum de photos pris est de {print_max_photos}")

    # - Afficher le nombre de valeurs manquantes et aberrantes détectées
    print_valeurs_manquantes=df.isnull().sum()
    print(f"Affichage des valeurs manquantes: \n {print_valeurs_manquantes}")

    # - Afficher les valeurs aberrantes détectées
    valeurs_aberrantes = df[(df['photos'] < 0)]
    print(f"Affichage valeurs aberrantes : \n {valeurs_aberrantes}")



In [7]:
import plotly.express as px
import pandas as pd
import plotly.io as pio

# Forcer l'ouverture du navigatreur
pio.renderers.default = 'browser'

def plot_photos_by_weather(df):

    # Calcul du nombre moyen de photos par météo
    moyenne_photos = df.groupby('weather')['photos'].mean().reset_index()

    # Création du graphique en barres
    fig = px.bar(
        moyenne_photos,
        x='weather',
        y='photos',
        color='weather',
        title='Nombre moyen de photos prises selon la météo',
        labels={'weather': 'Météo', 'photos': 'Nombre moyen de photos'},
        text_auto='.2s'  # Affiche la valeur moyenne au-dessus des barres
    )

    fig.show()


def plot_mood_distribution(df):

    fig = px.pie(
        df,
        names='mood',
        title='Répartition des humeurs dans les données',
        hole=0.2,  # Trou du donut
    )
    fig.update_traces(textinfo='percent+label')  # Affiche % et le nom de l’humeur
    fig.show()


def plot_photos_by_date(df):

    # on trie par date
    df_sorted = df.sort_values(by='date')  
    fig = px.line(
        df_sorted,
        x='date',
        y='photos',
        color='city',
        markers=True, #cela affiche des points visibles
        title='Évolution du nombre de photos prises au fil du temps',
        labels={'date': 'Date', 'photos': 'Nombre de photos'}
    )
    fig.show()

In [None]:
#   - Importe et utilise les fonctions des modules précédents  
from clean_data import load_and_clean_data
from print_stat import print_statistics
from plot_data import (
    plot_photos_by_weather,
    plot_mood_distribution,
    plot_photos_by_date,
)

"""
main.py

 Script principal qui :  
  - Importe et utilise les fonctions des modules précédents  
  - Charge et nettoie les données  
  - Affiche les statistiques  
  - Produit les graphiques  
  - Permet une exécution simple et claire du projet
"""


def main() -> None:

    # Charger, nettoyer les données et exporter un nouveau fichier 
    df_clean = load_and_clean_data("travel_data.csv","cleaned_data")

    # Afficher statistiques dans la console
    print_statistics(df_clean)

    # Générer et afficher les graphiques interactifs
    plot_mood_distribution(df_clean)
    plot_photos_by_weather(df_clean)
    plot_photos_by_date(df_clean)


if __name__ == "__main__":
    main()


       city        date weather  mood  photos
9  Grenoble  2024-12-10   snowy  cold     -15
           city        date  weather        mood  photos
0         Paris  2024-03-15    sunny       happy     150
1          Lyon  2024-04-10   cloudy     curious      80
2     Marseille  2024-05-05  unknown         sad      25
3      Bordeaux  2024-06-20    sunny     excited     200
4          Nice  2024-07-12    sunny     relaxed     180
5    Strasbourg  2024-08-30    rainy  thoughtful      20
6      Toulouse  2024-09-15   cloudy       happy      90
7        Nantes  2024-10-05  unknown        calm      70
8   Montpellier  2024-11-25    sunny      joyful     110
9      Grenoble  2024-12-10    snowy        cold       0
10        Paris  2024-03-20   cloudy     excited     130
11         Lyon  2024-04-15    sunny      joyful      95
12    Marseille  2024-05-10    sunny     relaxed      75
13     Bordeaux  2024-06-25    rainy  thoughtful      30
14         Nice  2024-07-20    rainy         sad     

gio: http://127.0.0.1:44723: Operation not supported
