# Jour 1 - Exercice 2 : Manipulation de données avec Pandas

## Objectifs
- Approfondir la manipulation de données avec Pandas
- Apprendre à sélectionner, filtrer et transformer des données
- Traiter les valeurs manquantes
- Créer de nouvelles colonnes
- Réaliser une analyse exploratoire simple

## Introduction

Dans ce notebook, nous allons approfondir l'utilisation de Pandas pour manipuler des données. Nous utiliserons le jeu de données de satisfaction des passagers d'une compagnie aérienne pour mettre en pratique ces concepts.

## 1. Chargement et exploration initiale des données

Commençons par importer les bibliothèques nécessaires et charger notre jeu de données.

In [1]:
# Importation des bibliothèques
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

# Pour afficher plus de colonnes dans les DataFrames
pd.set_option('display.max_columns', 30)

In [None]:
# Chargement du jeu de données
df = pd.read_csv('../../data/passenger_satisfaction/train.csv')

# Affichage des premières lignes
df.head()

Examinons les informations générales sur notre jeu de données :

In [None]:
# Informations sur le DataFrame
df.info()

In [None]:
# Statistiques descriptives
df.describe()

Vérifions les valeurs uniques dans certaines colonnes catégorielles :

In [None]:
# Valeurs uniques pour la satisfaction
print("Valeurs uniques pour 'satisfaction' :")
print(df['Satisfaction'].value_counts())
print("\nValeurs uniques pour 'Customer Type' :")
print(df['Customer Type'].value_counts())
print("\nValeurs uniques pour 'Type of Travel' :")
print(df['Type of Travel'].value_counts())
print("\nValeurs uniques pour 'Class' :")
print(df['Class'].value_counts())

## 2. Sélection de données

Pandas offre plusieurs façons de sélectionner des données dans un DataFrame. Voyons les principales méthodes :

### 2.1 Sélection de colonnes

In [None]:
# Sélection d'une seule colonne (renvoie une Series)
age = df['Age']
print(type(age))
print(age.head())

# Sélection de plusieurs colonnes (renvoie un DataFrame)
demographics = df[['Age', 'Gender', 'Customer Type', 'Type of Travel']]
demographics.head()

### 2.2 Sélection de lignes par position

In [None]:
# Sélection des 5 premières lignes avec iloc
# iloc permet de sélectionner par position (index numérique)
df.iloc[0:5]

In [None]:
# Sélection de lignes et colonnes spécifiques avec iloc
# Syntaxe: df.iloc[lignes, colonnes]
# Sélectionnons les lignes 10 à 15 et les colonnes 2, 3 et 4
df.iloc[10:15, 2:5]

### 2.3 Sélection de lignes par label

In [None]:
# Vérifions d'abord l'index de notre DataFrame
print("Type d'index :", type(df.index))
print("Valeurs d'index :", df.index[:10])

In [None]:
# Utilisation de loc pour sélectionner par label
# Comme notre index est numérique, cela ressemble à iloc, mais le comportement est différent
df.loc[10:15, ['Age', 'Gender', 'Customer Type']]

## 3. Filtrage de données

Le filtrage permet de sélectionner des sous-ensembles de données qui répondent à certaines conditions.

### 3.1 Filtrage avec une condition simple

In [None]:
# Sélection des passagers satisfaits
satisfied = df[df['Satisfaction'] == 'satisfied']
print(f"Nombre de passagers satisfaits : {len(satisfied)}")
satisfied.head()

In [None]:
# Sélection des passagers de plus de 60 ans
seniors = df[df['Age'] > 60]
print(f"Nombre de passagers seniors : {len(seniors)}")
seniors.head()

### 3.2 Filtrage avec des conditions multiples

In [None]:
# Opérateurs logiques en Python pour combiner des conditions:
# & (ET), | (OU), ~ (NON)

# Sélection des femmes voyageant en classe affaires
business_women = df[(df['Gender'] == 'Female') & (df['Class'] == 'Business')]
print(f"Nombre de femmes en classe affaires : {len(business_women)}")
business_women.head()

In [None]:
# Sélection des passagers très jeunes ou très âgés
young_or_old = df[(df['Age'] < 18) | (df['Age'] > 70)]
print(f"Nombre de passagers très jeunes ou très âgés : {len(young_or_old)}")
young_or_old.head()

### 3.3 Filtrage avec des méthodes spéciales

In [None]:
# Utilisation de .isin() pour filtrer sur plusieurs valeurs possibles
eco_plus_business = df[df['Class'].isin(['Eco Plus', 'Business'])]
print(f"Nombre de passagers en Eco Plus ou Business : {len(eco_plus_business)}")
eco_plus_business.head()

In [None]:
# Utilisation de .between() pour filtrer sur un intervalle
middle_aged = df[df['Age'].between(30, 50)]
print(f"Nombre de passagers entre 30 et 50 ans : {len(middle_aged)}")
middle_aged.head()

## 4. Traitement des valeurs manquantes

Les valeurs manquantes sont courantes dans les jeux de données réels. Pandas les représente généralement par `NaN` (Not a Number).

In [None]:
# Vérification des valeurs manquantes dans chaque colonne
missing_values = df.isnull().sum()
print("Nombre de valeurs manquantes par colonne :")
print(missing_values[missing_values > 0])

### 4.1 Suppression des valeurs manquantes

In [None]:
# Suppression des lignes avec des valeurs manquantes
df_cleaned = df.dropna()
print(f"Taille originale du DataFrame : {len(df)}")
print(f"Taille après suppression des valeurs manquantes : {len(df_cleaned)}")

### 4.2 Remplacement des valeurs manquantes

In [None]:
# Création d'une copie du DataFrame pour ne pas modifier l'original
df_filled = df.copy()

# Remplacement des valeurs manquantes numériques par la moyenne
for col in ['Age', 'Flight Distance', 'Departure Delay in Minutes', 'Arrival Delay in Minutes']:
    if df_filled[col].isnull().sum() > 0:
        mean_value = df_filled[col].mean()
        df_filled[col] = df_filled[col].fillna(mean_value)

# Vérification
print("Valeurs manquantes après remplacement :")
print(df_filled.isnull().sum()[df_filled.isnull().sum() > 0])

## 5. Création de nouvelles colonnes

La création de nouvelles colonnes (feature engineering) est une étape importante dans l'analyse de données.

In [None]:
# Création d'une colonne pour la catégorie d'âge
df['Age_Category'] = pd.cut(df['Age'], 
                           bins=[0, 18, 35, 50, 65, 100], 
                           labels=['Enfant', 'Jeune adulte', 'Adulte', 'Senior', 'Aîné'])

# Affichage des résultats
df[['Age', 'Age_Category']].head(10)

In [None]:
# Création d'une colonne pour indiquer si le vol a été retardé
df['Flight_Delayed'] = df['Departure Delay in Minutes'] > 0

# Affichage des résultats
df[['Departure Delay in Minutes', 'Flight_Delayed']].head(10)

In [None]:
# Création d'une colonne pour le score moyen de satisfaction (sur les services évalués)
# Identifions d'abord les colonnes qui contiennent des évaluations
rating_columns = [
    'Inflight wifi service', 'Departure/Arrival time convenient',
    'Ease of Online booking', 'Gate location', 'Food and drink',
    'Online boarding', 'Seat comfort', 'Inflight entertainment',
    'On-board service', 'Leg room service', 'Baggage handling',
    'Checkin service', 'Inflight service', 'Cleanliness'
]

# Calcul du score moyen
df['Average_Rating'] = df[rating_columns].mean(axis=1)

# Affichage des résultats
df[['Satisfaction', 'Average_Rating']].head()

## 6. Mini-projet : Analyse exploratoire des données de satisfaction

Maintenant que nous avons appris les bases de la manipulation de données avec Pandas, réalisons une petite analyse exploratoire pour comprendre les facteurs qui influencent la satisfaction des passagers.

In [None]:
# Calculons le taux de satisfaction global
satisfaction_rate = df['Satisfaction'].value_counts(normalize=True) * 100
print("Taux de satisfaction global :")
print(satisfaction_rate)

# Visualisation avec Plotly
fig = px.pie(
    names=satisfaction_rate.index,
    values=satisfaction_rate.values,
    title='Répartition de la satisfaction des passagers',
    color=satisfaction_rate.index,
    color_discrete_map={'satisfied': '#2E86C1', 'neutral or dissatisfied': '#E74C3C'}
)
fig.update_traces(textinfo='percent+label')
fig.update_layout(height=500, width=700)
fig.show()

In [None]:
# Taux de satisfaction par classe
satisfaction_by_class = pd.crosstab(df['Class'], df['Satisfaction'], normalize='index') * 100
print("Taux de satisfaction par classe (%) :")
print(satisfaction_by_class)

# Visualisation avec Plotly
fig = px.bar(
    satisfaction_by_class.reset_index(), 
    x='Class', 
    y='satisfied',
    title='Taux de satisfaction par classe',
    labels={'satisfied': 'Pourcentage de passagers satisfaits (%)', 'Class': 'Classe'},
    color='Class',
    color_discrete_sequence=px.colors.qualitative.Plotly
)
fig.update_layout(height=500, width=700)
fig.show()

In [None]:
# Taux de satisfaction par type de client
satisfaction_by_customer = pd.crosstab(df['Customer Type'], df['Satisfaction'], normalize='index') * 100
print("Taux de satisfaction par type de client (%) :")
print(satisfaction_by_customer)

# Visualisation avec Plotly
fig = px.bar(
    satisfaction_by_customer.reset_index(), 
    x='Customer Type', 
    y='satisfied',
    title='Taux de satisfaction par type de client',
    labels={'satisfied': 'Pourcentage de passagers satisfaits (%)', 'Customer Type': 'Type de client'},
    color='Customer Type',
    color_discrete_sequence=px.colors.qualitative.Plotly
)
fig.update_layout(height=500, width=700)
fig.show()

In [None]:
# Analysons l'impact des retards sur la satisfaction
satisfaction_by_delay = pd.crosstab(df['Flight_Delayed'], df['Satisfaction'], normalize='index') * 100
print("Taux de satisfaction selon la présence de retard (%) :")
print(satisfaction_by_delay)

# Préparation des données pour Plotly
delay_df = satisfaction_by_delay.reset_index()
delay_df['Flight_Delayed'] = delay_df['Flight_Delayed'].map({False: 'Non retardé', True: 'Retardé'})

# Visualisation avec Plotly
fig = px.bar(
    delay_df, 
    x='Flight_Delayed', 
    y='satisfied',
    title='Taux de satisfaction selon la présence de retard',
    labels={'satisfied': 'Pourcentage de passagers satisfaits (%)', 'Flight_Delayed': 'Vol retardé'},
    color='Flight_Delayed',
    color_discrete_sequence=px.colors.qualitative.Plotly
)
fig.update_layout(height=500, width=700)
fig.show()

In [None]:
# Analysons les scores moyens par service pour les passagers satisfaits et insatisfaits
ratings_by_satisfaction = df.groupby('Satisfaction')[rating_columns].mean()
print("Scores moyens par service selon la satisfaction :")
print(ratings_by_satisfaction)

# Préparation des données pour Plotly
ratings_df = ratings_by_satisfaction.T.reset_index()
ratings_df = ratings_df.rename(columns={'index': 'Service'})
ratings_df_melted = pd.melt(
    ratings_df, 
    id_vars=['Service'], 
    value_vars=['satisfied', 'neutral or dissatisfied'],
    var_name='Satisfaction', 
    value_name='Score moyen'
)

# Visualisation avec Plotly
fig = px.bar(
    ratings_df_melted, 
    x='Service', 
    y='Score moyen',
    color='Satisfaction',
    barmode='group',
    title='Scores moyens par service selon la satisfaction',
    labels={'Score moyen': 'Score moyen (0-5)', 'Service': 'Service'},
    height=600,
    width=900
)
fig.update_layout(
    xaxis={'categoryorder':'total descending'},
    xaxis_tickangle=-45
)
fig.show()

## 7. Exercices pratiques

Maintenant, c'est à vous de jouer ! Voici quelques exercices pour pratiquer la manipulation de données avec Pandas.

### Exercice 1
Calculez l'âge moyen des passagers par classe et par genre. Affichez les résultats sous forme de tableau.

In [28]:
# Votre code ici


### Exercice 2
Créez une nouvelle colonne 'Long_Flight' qui vaut True si la distance de vol est supérieure à 1000 km, et False sinon. Puis calculez le taux de satisfaction pour les vols courts et les vols longs.

In [29]:
# Votre code ici


### Exercice 3
Identifiez les 3 services qui ont le plus grand écart de score entre les passagers satisfaits et insatisfaits. Ces services pourraient être les plus importants pour améliorer la satisfaction globale.

In [30]:
# Votre code ici


## Conclusion

Dans ce notebook, nous avons approfondi la manipulation de données avec Pandas en utilisant un jeu de données réel sur la satisfaction des passagers. Nous avons appris à :

- Sélectionner des données avec différentes méthodes
- Filtrer des données selon des conditions simples ou complexes
- Traiter les valeurs manquantes
- Créer de nouvelles colonnes pour enrichir notre analyse
- Réaliser une analyse exploratoire simple

Ces compétences sont essentielles pour préparer les données avant d'appliquer des algorithmes de machine learning, que nous aborderons dans les prochains notebooks.