# En voyage avec (des) pandas

Suite à la première étape où vous avez découvert (ou révisé) des bases de Python, vous allez découvrir (ou réviser) l'utilisation de la bibliothèque **pandas** pour traiter un fichier csv travel_data.csv qui contient un carnet de voyage.

Pour réaliser les exercices, utilisez la documentation officielle de pandas :  
https://pandas.pydata.org/pandas-docs/stable/

N'hésitez pas à rechercher les fonctions, méthodes et exemples nécessaires pour compléter les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également dans le notebook aux petites questions proposées.

In [None]:
# Il faut installer la bibliothèque pandas. On verra comment faire ça proprement plus tard.
!pip install pandas

# 1. Charger et afficher les données

**TODO**

- Importer la bibliothèque pandas sous l’alias `pd`  
- Charger le fichier `travel_journal.csv` dans un DataFrame `df_trips`  
- Afficher les 5 premières lignes du DataFrame  
- Afficher les types de données des colonnes

In [None]:
# Write your code here

# Importation de pandas
import pandas as pd

# Chargement du fichier csv
df_trips = pd.read_csv('travel_data.csv')

print(df_trips.head(5))

print("--------------------------------")

print(df_trips.dtypes)






        city        date weather     mood  photos
0      Paris  2024-03-15   sunny    happy     150
1       Lyon  2024-04-10  cloudy  curious      80
2  Marseille  2024-05-05     NaN      sad      25
3   Bordeaux  2024-06-20   sunny  excited     200
4       Nice  2024-07-12   sunny  relaxed     180
--------------------------------
city       object
date       object
weather    object
mood       object
photos      int64
dtype: object


# 2. Nettoyer les données manquantes

**TODO**

- Identifier les lignes avec des valeurs manquantes dans le DataFrame  
- Remplacer les valeurs manquantes dans la colonne `weather` par `"unknown"`  
- Convertir la colonne `date` en format datetime  
- Trier le DataFrame par date croissante
- Exporter les données dans un fichier clean_travel_data.csv
- A votre avis quel autre type de vérifications pourrait-on faire afin de nettoyer les données ?

In [89]:
# Write your code here
print(df_trips.isna())

print("--------------------------------")

# Copie du DataFrame original
df_trips_filled = df_trips.copy()

# Remplace les NaN uniquement dans la colonne 'weather'.
df_trips_filled['weather'] = df_trips_filled['weather'].fillna("unknown")

print(df_trips_filled)

print("--------------------------------")

#Transforme le format de la colonne 'date' en datetime.
df_trips_filled['date'] = pd.to_datetime(df_trips_filled['date'])

print(f"Le type de la colonne 'date' est bien en :", df_trips_filled['date'].dtype)

print("--------------------------------")

# Tri du DataFrame par date croissante.
df_trips_filled = df_trips_filled.sort_values(by='date')

print(df_trips_filled)

print("--------------------------------")

# Exportation des données vers clean_travel_data.csv.

df_trips_filled.to_csv("clean_travel_data.csv")

print("Exportation réussie !")

# Réponse à la question : A votre avis quel autre type de vérifications pourrait-on faire afin de nettoyer les données ?

""" 
Il y'a plusieurs vérifications complémentaires à faire pour améliorer la qualité des données :

- Identifier et supprimer les doublons.

- Repérer et gérer les valeurs incohérentes (nombre de photos négatif).

- Vérifier et uniformiser les formats et la cohérence des données textuelles (bon type de donnée selon que c'est un nombre, une chaîne de caractères, etc).

- Contrôler la validité des dates et gérer les dates invalides (dates cohérentes par rapport aux voyages passés).

- Traiter les valeurs manquantes restantes (on a contrôlé la colonne 'weather', mais peut-être que d'autres données sont manquantes).

"""


     city   date  weather   mood  photos
0   False  False    False  False   False
1   False  False    False  False   False
2   False  False     True  False   False
3   False  False    False  False   False
4   False  False    False  False   False
5   False  False    False  False   False
6   False  False    False  False   False
7   False  False     True  False   False
8   False  False    False  False   False
9   False  False    False  False   False
10  False  False    False  False   False
11  False  False    False  False   False
12  False  False    False  False   False
13  False  False    False  False   False
14  False  False    False  False   False
15  False  False    False  False   False
16  False  False    False  False   False
17  False  False    False  False   False
18  False  False    False  False   False
19  False  False    False  False   False
--------------------------------
           city        date  weather        mood  photos
0         Paris  2024-03-15    sunny       happy 

" \nIl y'a plusieurs vérifications complémentaires à faire pour améliorer la qualité des données :\n\n- Identifier et supprimer les doublons.\n\n- Repérer et gérer les valeurs incohérentes (nombre de photos négatif).\n\n- Vérifier et uniformiser les formats et la cohérence des données textuelles (bon type de donnée selon que c'est un nombre, une chaîne de caractères, etc).\n\n- Contrôler la validité des dates et gérer les dates invalides (dates cohérentes par rapport aux voyages passés).\n\n- Traiter les valeurs manquantes restantes (on a contrôlé la colonne 'weather', mais peut-être que d'autres données sont manquantes).\n\n"

# 3. Filtrer et trier les voyages

**TODO**

- Extraire les voyages où la météo est `"sunny"` et le nombre de photos est supérieur à 100  
- Trier ces voyages par nombre de photos décroissant  
- Afficher les colonnes `city`, `date`, `photos` du résultat filtré

In [None]:
# Write your code here

# Extraction des voyages où la météo est "sunny" et avec photos < 100.
df_filtered = df_trips_filled.query('weather == "sunny" and photos > 100')

print(df_filtered)

print("--------------------------------------")

# Tri des voyages extraits par nombre de photos décroissant.

df_filtered = df_filtered.sort_values('photos', ascending=False)

print(df_filtered)

print("--------------------------------------")

# Affichage des colonnes 'city, 'date' et 'photos' de l'extraction précédente.

df_filtered = df_filtered[['city', 'date', 'photos']]

print(df_filtered)

print("--------------------------------------")


          city       date weather     mood  photos
0        Paris 2024-03-15   sunny    happy     150
3     Bordeaux 2024-06-20   sunny  excited     200
4         Nice 2024-07-12   sunny  relaxed     180
8  Montpellier 2024-11-25   sunny   joyful     110
--------------------------------------
          city       date weather     mood  photos
3     Bordeaux 2024-06-20   sunny  excited     200
4         Nice 2024-07-12   sunny  relaxed     180
0        Paris 2024-03-15   sunny    happy     150
8  Montpellier 2024-11-25   sunny   joyful     110
--------------------------------------
          city       date  photos
3     Bordeaux 2024-06-20     200
4         Nice 2024-07-12     180
0        Paris 2024-03-15     150
8  Montpellier 2024-11-25     110
--------------------------------------


# 4. Groupements et agrégations

**TODO**

- Calculer le total des photos prises par ville  
- Calculer la moyenne des photos selon la météo  
- Compter le nombre de voyages par humeur (mood)

In [98]:
# Write your code here

# Calcul du total de photos prises par ville.

photos_per_city = df_trips_filled.groupby('city').agg (photos_per_city = pd.NamedAgg('photos', 'sum'))

print(photos_per_city)

print("--------------------------------------")

# Calcul de la moyenne de photos selon la météo.

photos_per_weather = df_trips_filled.groupby('weather')['photos'].mean()

print(photos_per_weather)

print("--------------------------------------")

# Compter le nombre de voyage selon l'humeur.

number_trip_per_mood = df_trips_filled.groupby('mood')['city'].count()
print(number_trip_per_mood)

             photos_per_city
city                        
Bordeaux                 230
Grenoble                   5
Lyon                     175
Marseille                100
Montpellier              145
Nantes                   135
Nice                     220
Paris                    280
Strasbourg                75
Toulouse                 175
--------------------------------------
weather
cloudy      88.75
rainy       31.25
snowy        2.50
sunny      120.00
unknown     47.50
Name: photos, dtype: float64
--------------------------------------
mood
bored         1
calm          2
cold          1
curious       2
excited       3
happy         3
joyful        2
relaxed       2
sad           2
thoughtful    2
Name: city, dtype: int64
