In [None]:
# Import des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import sys



In [None]:
# Ajouter le répertoire parent au path pour importer les fonctions du projet
sys.path.append('..')
from src.preprocessing import load_data, clean_data, get_key_factors


In [None]:
# Configuration matplotlib et seaborn
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('Blues_r')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12



In [None]:
# Supprimer les avertissements
import warnings
warnings.filterwarnings('ignore')



In [None]:
# Chemin vers le fichier de données
data_path = '../data/airline_satisfaction.csv'

# Charger les données
df = load_data(data_path)

# Afficher les premières lignes
print(f"Nombre total d'enregistrements: {len(df)}")
df.head()



In [None]:
# Informations sur le dataset
df.info()



In [None]:
# Statistiques descriptives
df.describe()

In [None]:
# Vérifier les valeurs manquantes
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]

if len(missing_values) > 0:
    print("Colonnes avec des valeurs manquantes:")
    print(missing_values)
else:
    print("Aucune valeur manquante trouvée.")


In [None]:
# Nettoyer les données
df_clean = clean_data(df)

# Vérifier le résultat
print(f"Nombre d'enregistrements après nettoyage: {len(df_clean)}")
df_clean.head()

In [None]:
# Répartition de la satisfaction
if 'satisfaction' in df_clean.columns:
    satisfaction_counts = df_clean['satisfaction'].value_counts(normalize=True) * 100
    
    plt.figure(figsize=(10, 6))
    ax = sns.barplot(x=satisfaction_counts.index, y=satisfaction_counts.values)
    plt.title('Répartition de la satisfaction des clients (%)')
    plt.ylabel('Pourcentage')
    plt.xlabel('Satisfaction')
    
    # Ajouter les pourcentages sur les barres
    for i, v in enumerate(satisfaction_counts.values):
        ax.text(i, v + 1, f'{v:.1f}%', ha='center')
    
    plt.show()
    
    print(f"Taux de satisfaction global: {df_clean['satisfaction'].mean()*100:.2f}%")

In [None]:
# Analyse par type de client
if 'Customer Type' in df_clean.columns:
    plt.figure(figsize=(12, 5))
    
    # Satisfaction par type de client
    customer_satisfaction = df_clean.groupby('Customer Type')['satisfaction'].mean() * 100
    
    ax = sns.barplot(x=customer_satisfaction.index, y=customer_satisfaction.values)
    plt.title('Taux de satisfaction par type de client')
    plt.ylabel('Taux de satisfaction (%)')
    plt.xlabel('Type de client')
    
    # Ajouter les pourcentages sur les barres
    for i, v in enumerate(customer_satisfaction.values):
        ax.text(i, v + 1, f'{v:.1f}%', ha='center')
    
    plt.show()
    
    # Répartition des types de clients
    plt.figure(figsize=(10, 6))
    customer_counts = df_clean['Customer Type'].value_counts(normalize=True) * 100
    plt.pie(customer_counts.values, labels=customer_counts.index, autopct='%1.1f%%', startangle=90, shadow=True)
    plt.title('Répartition des types de clients')
    plt.axis('equal')
    plt.show()


In [None]:
# Analyse par classe de voyage
if 'Class' in df_clean.columns:
    plt.figure(figsize=(12, 5))
    
    # Satisfaction par classe
    class_satisfaction = df_clean.groupby('Class')['satisfaction'].mean() * 100
    
    ax = sns.barplot(x=class_satisfaction.index, y=class_satisfaction.values)
    plt.title('Taux de satisfaction par classe de voyage')
    plt.ylabel('Taux de satisfaction (%)')
    plt.xlabel('Classe')
    
    # Ajouter les pourcentages sur les barres
    for i, v in enumerate(class_satisfaction.values):
        ax.text(i, v + 1, f'{v:.1f}%', ha='center')
    
    plt.show()
    
    # Répartition des classes
    plt.figure(figsize=(10, 6))
    class_counts = df_clean['Class'].value_counts(normalize=True) * 100
    plt.pie(class_counts.values, labels=class_counts.index, autopct='%1.1f%%', startangle=90, shadow=True)
    plt.title('Répartition des classes de voyage')
    plt.axis('equal')
    plt.show()

In [None]:
# Distribution de l'âge des passagers
if 'Age' in df_clean.columns:
    plt.figure(figsize=(12, 6))
    sns.histplot(data=df_clean, x='Age', bins=30, kde=True)
    plt.title('Distribution de l\'âge des passagers')
    plt.xlabel('Âge')
    plt.ylabel('Nombre de passagers')
    plt.show()
    
    # Satisfaction par tranche d'âge
    plt.figure(figsize=(12, 6))
    df_clean['Age Group'] = pd.cut(df_clean['Age'], bins=[0, 20, 30, 40, 50, 60, 100], labels=['<20', '20-30', '30-40', '40-50', '50-60', '>60'])
    age_satisfaction = df_clean.groupby('Age Group')['satisfaction'].mean() * 100
    
    ax = sns.barplot(x=age_satisfaction.index, y=age_satisfaction.values)
    plt.title('Taux de satisfaction par tranche d\'âge')
    plt.ylabel('Taux de satisfaction (%)')
    plt.xlabel('Tranche d\'âge')
    
    # Ajouter les pourcentages sur les barres
    for i, v in enumerate(age_satisfaction.values):
        ax.text(i, v + 1, f'{v:.1f}%', ha='center')
    
    plt.show()

In [None]:
# Analyse de la distance de vol
if 'Flight Distance' in df_clean.columns:
    plt.figure(figsize=(12, 6))
    sns.histplot(data=df_clean, x='Flight Distance', bins=30, kde=True)
    plt.title('Distribution des distances de vol')
    plt.xlabel('Distance (miles)')
    plt.ylabel('Nombre de vols')
    plt.show()
    
    # Créer des catégories de distance
    df_clean['Distance Category'] = pd.cut(
        df_clean['Flight Distance'], 
        bins=[0, 500, 1000, 2000, 5000, float('inf')], 
        labels=['<500', '500-1000', '1000-2000', '2000-5000', '>5000']
    )
    
    # Satisfaction par catégorie de distance
    plt.figure(figsize=(12, 6))
    distance_satisfaction = df_clean.groupby('Distance Category')['satisfaction'].mean() * 100
    
    ax = sns.barplot(x=distance_satisfaction.index, y=distance_satisfaction.values)
    plt.title('Taux de satisfaction par catégorie de distance')
    plt.ylabel('Taux de satisfaction (%)')
    plt.xlabel('Catégorie de distance (miles)')
    
    # Ajouter les pourcentages sur les barres
    for i, v in enumerate(distance_satisfaction.values):
        ax.text(i, v + 1, f'{v:.1f}%', ha='center')
    
    plt.show()

In [None]:
# Analyse des évaluations des services
service_columns = [col for col in df_clean.columns if col not in ['id', 'satisfaction', 'Age', 'Flight Distance', 'Customer Type', 'Class', 'Type of Travel', 'Age Group', 'Distance Category']]

In [None]:
# Filtrer uniquement les colonnes numériques qui sont probablement des évaluations (de 0 à 5)
rating_columns = []
for col in service_columns:
    if df_clean[col].dtype in ['int64', 'float64']:
        if df_clean[col].min() >= 0 and df_clean[col].max() <= 5:
            rating_columns.append(col)

if rating_columns:
    # Créer un dataframe avec les évaluations moyennes et les classer
    ratings_df = pd.DataFrame({
        'Service': rating_columns,
        'Average Rating': [df_clean[col].mean() for col in rating_columns],
        'Satisfaction Correlation': [df_clean[['satisfaction', col]].corr().iloc[0, 1] for col in rating_columns]
    })
    
    # Trier par corrélation avec la satisfaction
    ratings_df = ratings_df.sort_values('Satisfaction Correlation', ascending=False)
    
    # Afficher le tableau
    print("Services classés par corrélation avec la satisfaction:")
    display(ratings_df)
    
    # Visualiser les évaluations moyennes
    plt.figure(figsize=(14, 6))
    avg_ratings = ratings_df.sort_values('Average Rating', ascending=False)
    ax = sns.barplot(x='Average Rating', y='Service', data=avg_ratings)
    plt.title('Évaluation moyenne des services')
    plt.xlabel('Évaluation moyenne')
    plt.ylabel('Service')
    
    # Ajouter les valeurs sur les barres
    for i, v in enumerate(avg_ratings['Average Rating']):
        ax.text(v + 0.05, i, f'{v:.2f}', va='center')
    
    plt.tight_layout()
    plt.show()
    
    # Visualiser les corrélations avec la satisfaction
    plt.figure(figsize=(14, 8))
    corr_ratings = ratings_df.copy()
    ax = sns.barplot(x='Satisfaction Correlation', y='Service', data=corr_ratings)
    plt.title('Corrélation des services avec la satisfaction client')
    plt.xlabel('Corrélation avec la satisfaction')
    plt.ylabel('Service')
    
    # Ajouter les valeurs sur les barres
    for i, v in enumerate(corr_ratings['Satisfaction Correlation']):
        ax.text(v + 0.01, i, f'{v:.3f}', va='center')
    
    plt.tight_layout()
    plt.show()

In [None]:
# Matrice de corrélation pour les variables numériques
numeric_columns = df_clean.select_dtypes(include=['int64', 'float64']).columns.tolist()
if 'id' in numeric_columns:
    numeric_columns.remove('id')

if len(numeric_columns) > 1:
    plt.figure(figsize=(16, 12))
    correlation_matrix = df_clean[numeric_columns].corr()
    mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
    sns.heatmap(correlation_matrix, mask=mask, annot=True, fmt='.2f', cmap='Blues', cbar_kws={'label': 'Corrélation'})
    plt.title('Matrice de corrélation des variables numériques')
    plt.tight_layout()
    plt.show()

print("\n## Analyse terminée ##")