In [1]:
import pandas as pd
import numpy as np
import os

def charger_dataset():
    """
    Charge le dataset Titanic
    """
    print("Chargement du dataset Titanic...")
    chemin = 'WEEK_2/DAY_3/DATASET/train.csv'
    return pd.read_csv(chemin)

In [2]:
def analyser_age(df):
    """
    Analyse la distribution de l'âge
    """
    print("\n1. ANALYSE DE LA DISTRIBUTION DE L'ÂGE")
    
    print("\nStatistiques de l'âge:")
    print(df['Age'].describe())
    
    print(f"\nNombre de valeurs manquantes: {df['Age'].isna().sum()}")
    
    return df['Age'].describe()

In [3]:
def creer_groupes_age(df):
    """
    Crée des groupes d'âge à partir de la colonne Age
    """
    print("\n2. CRÉATION DES GROUPES D'ÂGE")
    
    df_transformed = df.copy()
    
    # Définition des intervalles d'âge
    bins = [0, 12, 18, 30, 50, 70, np.inf]
    labels = ['Enfant', 'Adolescent', 'Jeune_Adulte', 'Adulte', 'Senior', 'Elderly']
    
    # Création des groupes d'âge
    df_transformed['AgeGroup'] = pd.cut(df_transformed['Age'], 
                                      bins=bins, 
                                      labels=labels,
                                      right=False)
    
    # Affichage de la distribution des groupes
    print("\nDistribution des groupes d'âge:")
    distribution = df_transformed['AgeGroup'].value_counts().sort_index()
    for groupe, count in distribution.items():
        print(f"{groupe}: {count} passagers")
    
    return df_transformed

In [4]:
def encoder_groupes_age(df):
    """
    Applique le one-hot encoding aux groupes d'âge
    """
    print("\n3. ENCODAGE DES GROUPES D'ÂGE")
    
    # Application du one-hot encoding
    age_dummies = pd.get_dummies(df['AgeGroup'], prefix='Age')
    
    # Ajout des colonnes encodées au DataFrame
    df_encoded = pd.concat([df, age_dummies], axis=1)
    
    # Affichage des nouvelles colonnes
    print("\nNouvelles colonnes créées:")
    for colonne in age_dummies.columns:
        print(f"- {colonne}")
    
    return df_encoded

In [8]:
def verifier_transformation(df_original, df_transformed):
    """
    Vérifie la qualité de la transformation
    """
    print("\n4. VÉRIFICATION DE LA TRANSFORMATION")
    
    # Vérification des dimensions
    print(f"\nDimensions originales: {df_original.shape}")
    print(f"Dimensions après transformation: {df_transformed.shape}")
    
    # Vérification de la cohérence
    colonnes_age = [col for col in df_transformed.columns if col.startswith('Age_')]
    somme_groupes = df_transformed[colonnes_age].sum(axis=1)
    
    print("\nVérification de la cohérence des groupes:")
    print(f"Nombre de passagers avec un groupe d'âge assigné: {(somme_groupes == 1).sum()}")
    print(f"Nombre de passagers sans groupe d'âge: {(somme_groupes == 0).sum()}")
    
    # Exemple de quelques passagers
    print("\nExemple de transformation pour 5 passagers:")
    echantillon = df_transformed.sample(5)
    for idx, row in echantillon.iterrows():
        print(f"\nPassager {idx}:")
        # Correction du formatage de l'âge
        age_str = f"{row['Age']:.1f}" if pd.notna(row['Age']) else "NA"
        print(f"Âge original: {age_str}")
        print(f"Groupe d'âge: {row['AgeGroup']}")
        for col in colonnes_age:
            if row[col] == 1:
                print(f"Encodage: {col}")

In [9]:
def main():
    # Chargement des données
    df = charger_dataset()
    
    # Analyse de l'âge
    stats_age = analyser_age(df)
    
    # Création des groupes d'âge
    df_grouped = creer_groupes_age(df)
    
    # Encodage des groupes
    df_final = encoder_groupes_age(df_grouped)
    
    # Vérification
    verifier_transformation(df, df_final)
    
    print("\nTransformation terminée avec succès!")
    
    return df_final

if __name__ == "__main__":
    df_transformed = main()

Chargement du dataset Titanic...

1. ANALYSE DE LA DISTRIBUTION DE L'ÂGE

Statistiques de l'âge:
count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

Nombre de valeurs manquantes: 177

2. CRÉATION DES GROUPES D'ÂGE

Distribution des groupes d'âge:
Enfant: 68 passagers
Adolescent: 45 passagers
Jeune_Adulte: 271 passagers
Adulte: 256 passagers
Senior: 67 passagers
Elderly: 7 passagers

3. ENCODAGE DES GROUPES D'ÂGE

Nouvelles colonnes créées:
- Age_Enfant
- Age_Adolescent
- Age_Jeune_Adulte
- Age_Adulte
- Age_Senior
- Age_Elderly

4. VÉRIFICATION DE LA TRANSFORMATION

Dimensions originales: (891, 12)
Dimensions après transformation: (891, 19)

Vérification de la cohérence des groupes:
Nombre de passagers avec un groupe d'âge assigné: 714
Nombre de passagers sans groupe d'âge: 177

Exemple de transformation pour 5 passagers:

Passager 299:
Âge original: 50.