# En voyage avec (des) pandas

Suite à la première étape où vous avez découvert (ou révisé) des bases de Python, vous allez découvrir (ou réviser) l'utilisation de la bibliothèque **pandas** pour traiter un fichier csv travel_data.csv qui contient un carnet de voyage.

Pour réaliser les exercices, utilisez la documentation officielle de pandas :  
https://pandas.pydata.org/pandas-docs/stable/

N'hésitez pas à rechercher les fonctions, méthodes et exemples nécessaires pour compléter les tâches demandées.  

Chaque cellule de code est précédée d'une cellule TODO indiquant la liste des objectifs à atteindre.

Répondez également dans le notebook aux petites questions proposées.

In [11]:
# Il faut installer la bibliothèque pandas. On verra comment faire ça proprement plus tard.
!pip install pandas



# 1. Charger et afficher les données

**TODO**

- Importer la bibliothèque pandas sous l’alias `pd`  
- Charger le fichier `travel_journal.csv` dans un DataFrame `df_trips`  
- Afficher les 5 premières lignes du DataFrame  
- Afficher les types de données des colonnes

In [12]:
import pandas as pd

data = pd.read_csv("travel_data.csv")
print(data.head(5))
print(data.dtypes)

        city        date weather     mood  photos
0      Paris  2024-03-15   sunny    happy     150
1       Lyon  2024-04-10  cloudy  curious      80
2  Marseille  2024-05-05     NaN      sad      25
3   Bordeaux  2024-06-20   sunny  excited     200
4       Nice  2024-07-12   sunny  relaxed     180
city       object
date       object
weather    object
mood       object
photos      int64
dtype: object


# 2. Nettoyer les données manquantes

**TODO**

- Identifier les lignes avec des valeurs manquantes dans le DataFrame  
- Remplacer les valeurs manquantes dans la colonne `weather` par `"unknown"`  
- Convertir la colonne `date` en format datetime  
- Trier le DataFrame par date croissante
- Exporter les données dans un fichier clean_travel_data.csv
- A votre avis quel autre type de vérifications pourrait-on faire afin de nettoyer les données ?

In [13]:




import pandas as pd

# 1. Charger les données
data = pd.read_csv("travel_data.csv")

# 2. Remplacer les valeurs manquantes dans la colonne 'weather' par 'unknown'
data = data.fillna({'weather': 'unknown'})

# 3. Convertir la colonne 'date' en format datetime
data["date"]=pd.to_datetime(data["date"])
print(data['date'].dtypes)

#Convertir la colonne `date` en format datetime  
data = data.sort_values(by='date', ascending=True)

# 6. Afficher la DataFrame triée
print(data)

data.to_csv("clean_travel_data.csv", index=False)



#On peut aussi vérifier :
#Les doublons, 
#colonnes vides 
#les types de données,

datetime64[ns]
           city       date  weather        mood  photos
0         Paris 2024-03-15    sunny       happy     150
10        Paris 2024-03-20   cloudy     excited     130
1          Lyon 2024-04-10   cloudy     curious      80
11         Lyon 2024-04-15    sunny      joyful      95
2     Marseille 2024-05-05  unknown         sad      25
12    Marseille 2024-05-10    sunny     relaxed      75
3      Bordeaux 2024-06-20    sunny     excited     200
13     Bordeaux 2024-06-25    rainy  thoughtful      30
4          Nice 2024-07-12    sunny     relaxed     180
14         Nice 2024-07-20    rainy         sad      40
5    Strasbourg 2024-08-30    rainy  thoughtful      20
15   Strasbourg 2024-09-05   cloudy       happy      55
6      Toulouse 2024-09-15   cloudy       happy      90
16     Toulouse 2024-09-20    sunny     curious      85
7        Nantes 2024-10-05  unknown        calm      70
17       Nantes 2024-10-10    sunny     excited      65
8   Montpellier 2024-11-25    sun

# 3. Filtrer et trier les voyages

**TODO**

- Extraire les voyages où la météo est `"sunny"` et le nombre de photos est supérieur à 100  
- Trier ces voyages par nombre de photos décroissant  
- Afficher les colonnes `city`, `date`, `photos` du résultat filtré

In [20]:
# Write your code here
                     
filtered_data = data[(data['weather'] == 'sunny') & (data['photos'] > 100)]
print(filtered_data)

filtered_data.sort_values(['photos'], ascending=True)
print(filtered_data)
print(filtered_data[['city', 'date', 'photos']])


          city       date weather     mood  photos
0        Paris 2024-03-15   sunny    happy     150
3     Bordeaux 2024-06-20   sunny  excited     200
4         Nice 2024-07-12   sunny  relaxed     180
8  Montpellier 2024-11-25   sunny   joyful     110
          city       date weather     mood  photos
0        Paris 2024-03-15   sunny    happy     150
3     Bordeaux 2024-06-20   sunny  excited     200
4         Nice 2024-07-12   sunny  relaxed     180
8  Montpellier 2024-11-25   sunny   joyful     110
          city       date  photos
0        Paris 2024-03-15     150
3     Bordeaux 2024-06-20     200
4         Nice 2024-07-12     180
8  Montpellier 2024-11-25     110


# 4. Groupements et agrégations

**TODO**

- Calculer le total des photos prises par ville  
- Calculer la moyenne des photos selon la météo  
- Compter le nombre de voyages par humeur (mood)

In [27]:
# Write your code here
total_photos_per_city = data.groupby('city')['photos'].sum()
print(total_photos_per_city)

total_moyenne_weather = data.groupby('weather')['photos'].min()
print(total_moyenne_weather)



voyages_par_humeur = data['mood'].value_counts()

print(voyages_par_humeur)

city
Bordeaux       230
Grenoble         5
Lyon           175
Marseille      100
Montpellier    145
Nantes         135
Nice           220
Paris          280
Strasbourg      75
Toulouse       175
Name: photos, dtype: int64
weather
cloudy     55
rainy      20
snowy     -15
sunny      65
unknown    25
Name: photos, dtype: int64
mood
happy         3
excited       3
curious       2
joyful        2
sad           2
relaxed       2
thoughtful    2
calm          2
bored         1
cold          1
Name: count, dtype: int64
