# En voyage avec (des) pandas

Suite à la première étape où vous avez découvert (ou révisé) des bases de Python, vous allez découvrir (ou réviser) l'utilisation de la bibliothèque **pandas** pour traiter un fichier csv travel_data.csv qui contient un carnet de voyage.

Pour réaliser les exercices, utilisez la documentation officielle de pandas :  
https://pandas.pydata.org/pandas-docs/stable/

N'hésitez pas à rechercher les fonctions, méthodes et exemples nécessaires pour compléter les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également dans le notebook aux petites questions proposées.

In [10]:
# Il faut installer la bibliothèque pandas. On verra comment faire ça proprement plus tard.
!pip install pandas




# 1. Charger et afficher les données

**TODO**

- Importer la bibliothèque pandas sous l’alias `pd`  
- Charger le fichier `travel_journal.csv` dans un DataFrame `df_trips`  
- Afficher les 5 premières lignes du DataFrame  
- Afficher les types de données des colonnes

In [None]:
# Write your code here

import pandas as pd
df_trips = pd.read_csv('/home/emese/python_projet/travel-project/travel_data.csv')
print(df_trips.head())
print(df_trips.dtypes)

# 2. Nettoyer les données manquantes

**TODO**

- Identifier les lignes avec des valeurs manquantes dans le DataFrame  
- Remplacer les valeurs manquantes dans la colonne `weather` par `"unknown"`  
- Convertir la colonne `date` en format datetime  
- Trier le DataFrame par date croissante
- Exporter les données dans un fichier clean_travel_data.csv
- A votre avis quel autre type de vérifications pourrait-on faire afin de nettoyer les données ?

In [None]:
# Write your code here

import pandas as pd
df_trips = pd.read_csv('/home/emese/python_projet/travel-project/travel_data.csv')

null_values = df_trips.isnull()
df_trips['weather'] = df_trips['weather'].fillna('unknown')
df_trips['date'] = pd.to_datetime(df_trips['date'], format='mixed')
df_trips.sort_values(by='date')

df_trips.to_csv('clean_travel_data.csv', index=False, encoding='utf-8')


# 3. Filtrer et trier les voyages

**TODO**

- Extraire les voyages où la météo est `"sunny"` et le nombre de photos est supérieur à 100  
- Trier ces voyages par nombre de photos décroissant  
- Afficher les colonnes `city`, `date`, `photos` du résultat filtré

In [None]:
# Write your code here

import pandas as pd
df_trips = pd.read_csv('travel_data.csv')


filtered = df_trips[(df_trips["weather"] == "sunny") & (df_trips["photos"] > 100)]
sorted_df_trips = filtered.sort_values(by="photos", ascending=False)
result = sorted_df_trips[["city", "date", "photos"]]

print(sorted_df_trips[["city", "date", "photos"]])


          city        date  photos
3     Bordeaux  2024-06-20     200
4         Nice  2024-07-12     180
0        Paris  2024-03-15     150
8  Montpellier  2024-11-25     110


# 4. Groupements et agrégations

**TODO**

- Calculer le total des photos prises par ville  
- Calculer la moyenne des photos selon la météo  
- Compter le nombre de voyages par humeur (mood)

In [None]:
# Write your code here

import pandas as pd
df_trips = pd.read_csv('travel_data.csv')

total_photos_by_city = df_trips.groupby("city")["photos"].sum()
print(total_photos_by_city)
average_photos_by_weather = df_trips.groupby("weather")["photos"].mean()
print(average_photos_by_weather)
mood_counts = df_trips["mood"].value_counts()
print(mood_counts)


city
Bordeaux       230
Grenoble         5
Lyon           175
Marseille      100
Montpellier    145
Nantes         135
Nice           220
Paris          280
Strasbourg      75
Toulouse       175
Name: photos, dtype: int64
weather
cloudy     88.75
rainy      31.25
snowy       2.50
sunny     120.00
Name: photos, dtype: float64
mood
happy         3
excited       3
curious       2
sad           2
relaxed       2
thoughtful    2
calm          2
joyful        2
cold          1
bored         1
Name: count, dtype: int64
