In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
import os

def charger_dataset():
    """
    Charge le dataset Titanic
    """
    try:
        chemin = 'WEEK_2/DAY_3/DATASET/train.csv'
        if not os.path.exists(chemin):
            print(f"Erreur : Le fichier {chemin} n'existe pas")
            return None
            
        df = pd.read_csv(chemin)
        return df
        
    except Exception as e:
        print(f"Erreur lors du chargement : {e}")
        return None

In [2]:
def analyser_valeurs_manquantes(df):
    """
    Analyse les valeurs manquantes dans le dataset
    """
    print("\n=== ANALYSE DES VALEURS MANQUANTES ===")
    
    # Compte des valeurs manquantes par colonne
    valeurs_manquantes = df.isnull().sum()
    
    print("\nNombre de valeurs manquantes par colonne :")
    for colonne, compte in valeurs_manquantes.items():
        if compte > 0:
            pourcentage = (compte / len(df)) * 100
            print(f"{colonne}: {compte} valeurs manquantes ({pourcentage:.2f}%)")
    
    return valeurs_manquantes

In [3]:
def traiter_valeurs_manquantes(df):
    """
    Applique différentes stratégies pour traiter les valeurs manquantes
    """
    print("\n=== TRAITEMENT DES VALEURS MANQUANTES ===")
    
    # Création d'une copie pour ne pas modifier les données originales
    df_traite = df.copy()
    
    # 1. Age : Imputation par la médiane
    print("\nTraitement de l'Age :")
    age_median = df_traite['Age'].median()
    df_traite['Age'].fillna(age_median, inplace=True)
    print(f"Âge médian utilisé pour l'imputation : {age_median:.2f}")
    
    # 2. Cabin : Création d'une catégorie 'Unknown'
    print("\nTraitement de Cabin :")
    df_traite['Cabin'].fillna('Unknown', inplace=True)
    print("Cabines manquantes remplacées par 'Unknown'")
    
    # 3. Embarked : Mode (valeur la plus fréquente)
    print("\nTraitement de Embarked :")
    mode_embarked = df_traite['Embarked'].mode()[0]
    df_traite['Embarked'].fillna(mode_embarked, inplace=True)
    print(f"Port d'embarquement le plus fréquent : {mode_embarked}")
    
    return df_traite

In [4]:
def verifier_traitement(df_original, df_traite):
    """
    Vérifie que le traitement des valeurs manquantes a bien fonctionné
    """
    print("\n=== VÉRIFICATION DU TRAITEMENT ===")
    
    # Vérification des valeurs manquantes restantes
    valeurs_manquantes = df_traite.isnull().sum()
    
    if valeurs_manquantes.sum() == 0:
        print("✅ Toutes les valeurs manquantes ont été traitées !")
    else:
        print("⚠️ Il reste des valeurs manquantes :")
        print(valeurs_manquantes[valeurs_manquantes > 0])
    
    # Comparaison des statistiques avant/après
    print("\nComparaison des statistiques pour Age :")
    print("\nAvant traitement :")
    print(df_original['Age'].describe())
    print("\nAprès traitement :")
    print(df_traite['Age'].describe())

In [5]:
def main():
    # Chargement des données
    print("Chargement du dataset Titanic...")
    df = charger_dataset()
    
    if df is not None:
        # Analyse des valeurs manquantes
        valeurs_manquantes = analyser_valeurs_manquantes(df)
        
        # Traitement des valeurs manquantes
        df_traite = traiter_valeurs_manquantes(df)
        
        # Vérification du traitement
        verifier_traitement(df, df_traite)
        
        print("\nTraitement terminé avec succès !")
        
        # Sauvegarde optionnelle du dataset traité
        # df_traite.to_csv('titanic_cleaned.csv', index=False)

if __name__ == "__main__":
    main()

Chargement du dataset Titanic...

=== ANALYSE DES VALEURS MANQUANTES ===

Nombre de valeurs manquantes par colonne :
Age: 177 valeurs manquantes (19.87%)
Cabin: 687 valeurs manquantes (77.10%)
Embarked: 2 valeurs manquantes (0.22%)

=== TRAITEMENT DES VALEURS MANQUANTES ===

Traitement de l'Age :
Âge médian utilisé pour l'imputation : 28.00

Traitement de Cabin :
Cabines manquantes remplacées par 'Unknown'

Traitement de Embarked :
Port d'embarquement le plus fréquent : S

=== VÉRIFICATION DU TRAITEMENT ===
✅ Toutes les valeurs manquantes ont été traitées !

Comparaison des statistiques pour Age :

Avant traitement :
count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

Après traitement :
count    891.000000
mean      29.361582
std       13.019697
min        0.420000
25%       22.000000
50%       28.000000
75%       35.000000
max       80.000000
Name: Age

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_traite['Age'].fillna(age_median, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_traite['Cabin'].fillna('Unknown', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting