# En voyage avec (des) pandas

Suite à la première étape où vous avez découvert (ou révisé) des bases de Python, vous allez découvrir (ou réviser) l'utilisation de la bibliothèque **pandas** pour traiter un fichier csv travel_data.csv qui contient un carnet de voyage.

Pour réaliser les exercices, utilisez la documentation officielle de pandas :  
https://pandas.pydata.org/pandas-docs/stable/

N'hésitez pas à rechercher les fonctions, méthodes et exemples nécessaires pour compléter les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également dans le notebook aux petites questions proposées.

In [1]:
# Il faut installer la bibliothèque pandas. On verra comment faire ça proprement plus tard.
!pip install pandas




[notice] A new release of pip is available: 23.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip





# 1. Charger et afficher les données

**TODO**

- Importer la bibliothèque pandas sous l’alias `pd`  
- Charger le fichier `travel_journal.csv` dans un DataFrame `df_trips`  
- Afficher les 5 premières lignes du DataFrame  
- Afficher les types de données des colonnes

In [2]:
# Importer pandas
import pandas as pd

# Charger le fichier CSV dans un DataFrame
df_trips = pd.read_csv("travel_data.csv")

# Afficher les 5 premières lignes
print(df_trips.head())

# Afficher les types de données des colonnes
print(df_trips.dtypes)

        city        date weather     mood  photos
0      Paris  2024-03-15   sunny    happy     150
1       Lyon  2024-04-10  cloudy  curious      80
2  Marseille  2024-05-05     NaN      sad      25
3   Bordeaux  2024-06-20   sunny  excited     200
4       Nice  2024-07-12   sunny  relaxed     180
city       object
date       object
weather    object
mood       object
photos      int64
dtype: object


# 2. Nettoyer les données manquantes

**TODO**

- Identifier les lignes avec des valeurs manquantes dans le DataFrame  
- Remplacer les valeurs manquantes dans la colonne `weather` par `"unknown"`  
- Convertir la colonne `date` en format datetime  
- Trier le DataFrame par date croissante
- Exporter les données dans un fichier clean_travel_data.csv
- A votre avis quel autre type de vérifications pourrait-on faire afin de nettoyer les données ?

In [3]:
# Identifier les lignes avec des valeurs manquantes
print(df_trips.isnull().sum())

# Remplacer les valeurs manquantes dans la colonne 'weather' par "unknown"
df_trips["weather"].fillna("unknown", inplace=True)

# Convertir la colonne 'date' en format datetime
df_trips["date"] = pd.to_datetime(df_trips["date"])

# Trier le DataFrame par date croissante
df_trips = df_trips.sort_values("date")

# Exporter les données nettoyées
df_trips.to_csv("clean_travel_data.csv", index=False)

# Autres vérifications possibles : doublons, valeurs aberrantes, types de données incohérents, etc.

city       0
date       0
weather    2
mood       0
photos     0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_trips["weather"].fillna("unknown", inplace=True)


# 3. Filtrer et trier les voyages

**TODO**

- Extraire les voyages où la météo est `"sunny"` et le nombre de photos est supérieur à 100  
- Trier ces voyages par nombre de photos décroissant  
- Afficher les colonnes `city`, `date`, `photos` du résultat filtré

In [4]:
# Extraire les voyages où la météo est "sunny" et le nombre de photos > 100
filtered = df_trips[(df_trips["weather"] == "sunny") & (df_trips["photos"] > 100)]

# Trier ces voyages par nombre de photos décroissant
filtered = filtered.sort_values("photos", ascending=False)

# Afficher les colonnes city, date, photos
print(filtered[["city", "date", "photos"]])

          city       date  photos
3     Bordeaux 2024-06-20     200
4         Nice 2024-07-12     180
0        Paris 2024-03-15     150
8  Montpellier 2024-11-25     110


# 4. Groupements et agrégations

**TODO**

- Calculer le total des photos prises par ville  
- Calculer la moyenne des photos selon la météo  
- Compter le nombre de voyages par humeur (mood)

In [5]:
# Total des photos prises par ville
print(df_trips.groupby("city")["photos"].sum())

# Moyenne des photos selon la météo
print(df_trips.groupby("weather")["photos"].mean())

# Nombre de voyages par humeur (mood)
print(df_trips["mood"].value_counts())

city
Bordeaux       230
Grenoble         5
Lyon           175
Marseille      100
Montpellier    145
Nantes         135
Nice           220
Paris          280
Strasbourg      75
Toulouse       175
Name: photos, dtype: int64
weather
cloudy      88.75
rainy       31.25
snowy        2.50
sunny      120.00
unknown     47.50
Name: photos, dtype: float64
mood
happy         3
excited       3
curious       2
joyful        2
sad           2
relaxed       2
thoughtful    2
calm          2
bored         1
cold          1
Name: count, dtype: int64
