# En voyage avec (des) pandas

Suite à la première étape où vous avez découvert (ou révisé) des bases de Python, vous allez découvrir (ou réviser) l'utilisation de la bibliothèque **pandas** pour traiter un fichier csv travel_data.csv qui contient un carnet de voyage.

Pour réaliser les exercices, utilisez la documentation officielle de pandas :  
https://pandas.pydata.org/pandas-docs/stable/

N'hésitez pas à rechercher les fonctions, méthodes et exemples nécessaires pour compléter les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également dans le notebook aux petites questions proposées.

In [38]:
# Il faut installer la bibliothèque pandas. On verra comment faire ça proprement plus tard.
!pip install pandas



# 1. Charger et afficher les données

**TODO**

- Importer la bibliothèque pandas sous l’alias `pd`  
- Charger le fichier `travel_journal.csv` dans un DataFrame `df_trips`  
- Afficher les 5 premières lignes du DataFrame  
- Afficher les types de données des colonnes

In [39]:
# Write your code here
!pip install pandas



In [40]:
import pandas as pd
df_trips = pd.read_csv("travel_data.csv")
print(df_trips.head())
print("--------------------------------------------------------")
print(df_trips.dtypes)


        city        date weather     mood  photos
0      Paris  2024-03-15   sunny    happy     150
1       Lyon  2024-04-10  cloudy  curious      80
2  Marseille  2024-05-05     NaN      sad      25
3   Bordeaux  2024-06-20   sunny  excited     200
4       Nice  2024-07-12   sunny  relaxed     180
--------------------------------------------------------
city       object
date       object
weather    object
mood       object
photos      int64
dtype: object


# 2. Nettoyer les données manquantes

**TODO**

- Identifier les lignes avec des valeurs manquantes dans le DataFrame  
- Remplacer les valeurs manquantes dans la colonne `weather` par `"unknown"`  
- Convertir la colonne `date` en format datetime  
- Trier le DataFrame par date croissante
- Exporter les données dans un fichier clean_travel_data.csv
- A votre avis quel autre type de vérifications pourrait-on faire afin de nettoyer les données ?

In [None]:
df_fillna = df_trips['weather'].fillna('unknown', inplace=True)# remplace les valeurs manquantes par 'unknown'
print(df_fillna.head(5))
print()

0       sunny
10     cloudy
1      cloudy
11      sunny
2     unknown
Name: weather, dtype: object



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_trips['weather'].fillna('unknown', inplace=True)# remplace les valeurs manquantes par 'unknown'


In [56]:
# Write your code here 
lignes_manquantes = df_trips[df_trips.isnull().any(axis=1)]
#print("Rows with missing data:") # Uncomment to see rows with missing data
print(lignes_manquantes)
df_fillna = df_trips['weather'].fillna('unknown')# remplace les valeurs manquantes par 'unknown'
df_trips['date'] = pd.to_datetime(df_trips['date']) # convertit la colonne 'date' en datetime
print(df_trips['date'].head()) # affiche les 5 premières dates pour vérifier la conversion
df_trips = df_trips.sort_values(by='date', ascending=True) # trie les données par date
df_trips.to_csv('clean_travel_data.csv', index=False) # sauvegarde les données nettoyées dans un nouveau fichier CSV

print('clean_travel_data.csv')

Empty DataFrame
Columns: [city, date, weather, mood, photos]
Index: []
0    2024-03-15
10   2024-03-20
1    2024-04-10
11   2024-04-15
2    2024-05-05
Name: date, dtype: datetime64[ns]
clean_travel_data.csv


In [58]:
df_check = pd.read_csv('clean_travel_data.csv')
print(df_check) 
# this will print the cleaned data to verify the changes


           city        date  weather        mood  photos
0         Paris  2024-03-15    sunny       happy     150
1         Paris  2024-03-20   cloudy     excited     130
2          Lyon  2024-04-10   cloudy     curious      80
3          Lyon  2024-04-15    sunny      joyful      95
4     Marseille  2024-05-05  unknown         sad      25
5     Marseille  2024-05-10    sunny     relaxed      75
6      Bordeaux  2024-06-20    sunny     excited     200
7      Bordeaux  2024-06-25    rainy  thoughtful      30
8          Nice  2024-07-12    sunny     relaxed     180
9          Nice  2024-07-20    rainy         sad      40
10   Strasbourg  2024-08-30    rainy  thoughtful      20
11   Strasbourg  2024-09-05   cloudy       happy      55
12     Toulouse  2024-09-15   cloudy       happy      90
13     Toulouse  2024-09-20    sunny     curious      85
14       Nantes  2024-10-05  unknown        calm      70
15       Nantes  2024-10-10    sunny     excited      65
16  Montpellier  2024-11-25    

# 3. Filtrer et trier les voyages

**TODO**

- Extraire les voyages où la météo est `"sunny"` et le nombre de photos est supérieur à 100  
- Trier ces voyages par nombre de photos décroissant  
- Afficher les colonnes `city`, `date`, `photos` du résultat filtré

In [68]:
# Write your code here
tiltered_trips = df_trips[(df_trips['weather'] == 'sunny') & (df_trips['photos'] > 100)] # Filter trips with sunny weather and more than 100 photos
tiltered_trips = df_trips.sort_values(by='photos', ascending=True) # Sort the filtered trips by the number of photos in ascending order
print(tiltered_trips[['city', 'date', 'photos']]) # Display the filtered trips with city, date, and photos columns

           city       date  photos
9      Grenoble 2024-12-10     -15
5    Strasbourg 2024-08-30      20
19     Grenoble 2024-12-15      20
2     Marseille 2024-05-05      25
13     Bordeaux 2024-06-25      30
18  Montpellier 2024-12-01      35
14         Nice 2024-07-20      40
15   Strasbourg 2024-09-05      55
17       Nantes 2024-10-10      65
7        Nantes 2024-10-05      70
12    Marseille 2024-05-10      75
1          Lyon 2024-04-10      80
16     Toulouse 2024-09-20      85
6      Toulouse 2024-09-15      90
11         Lyon 2024-04-15      95
8   Montpellier 2024-11-25     110
10        Paris 2024-03-20     130
0         Paris 2024-03-15     150
4          Nice 2024-07-12     180
3      Bordeaux 2024-06-20     200


# 4. Groupements et agrégations

**TODO**

- Calculer le total des photos prises par ville  
- Calculer la moyenne des photos selon la météo  
- Compter le nombre de voyages par humeur (mood)

In [72]:
# Write your code here
total_photos_by_city = tiltered_trips.groupby('city')['photos'].sum()# Group by city and sum the photos
print(total_photos_by_city)
print("--------------------------------------------------------")
avrage_photo_by_weather = tiltered_trips.groupby('weather')['photos'].mean()# Group by weather and calculate the average photos
print(avrage_photo_by_weather)
print("--------------------------------------------------------")
trips_by_mood = tiltered_trips.groupby('mood')['photos'].count()# Group by mood and count the number of trips
print(trips_by_mood)

city
Bordeaux       230
Grenoble         5
Lyon           175
Marseille      100
Montpellier    145
Nantes         135
Nice           220
Paris          280
Strasbourg      75
Toulouse       175
Name: photos, dtype: int64
--------------------------------------------------------
weather
cloudy      88.75
rainy       31.25
snowy        2.50
sunny      120.00
unknown     47.50
Name: photos, dtype: float64
--------------------------------------------------------
mood
bored         1
calm          2
cold          1
curious       2
excited       3
happy         3
joyful        2
relaxed       2
sad           2
thoughtful    2
Name: photos, dtype: int64
