In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
import os

def charger_dataset():
    """
    Charge le dataset Titanic
    """
    chemin = 'WEEK_2/DAY_3/DATASET/train.csv'
    return pd.read_csv(chemin)

In [2]:
def identifier_colonnes_categoriques(df):
    """
    Identifie les colonnes catégorielles du dataset
    """
    print("\n1. IDENTIFICATION DES COLONNES CATÉGORIELLES")
    
    # Colonnes nominales (pas d'ordre naturel)
    colonnes_nominales = ['Sex', 'Embarked', 'Cabin']
    
    # Colonnes ordinales (ordre naturel)
    colonnes_ordinales = ['Pclass']
    
    print("\nColonnes nominales:", colonnes_nominales)
    print("Colonnes ordinales:", colonnes_ordinales)
    
    # Affichage des valeurs uniques
    for colonne in colonnes_nominales + colonnes_ordinales:
        n_unique = df[colonne].nunique()
        valeurs = df[colonne].unique()
        print(f"\nValeurs uniques dans {colonne} ({n_unique}):")
        print(valeurs)
    
    return colonnes_nominales, colonnes_ordinales

In [3]:
def encoder_variables_nominales(df, colonnes_nominales):
    """
    Applique le one-hot encoding aux variables nominales
    """
    print("\n2. ENCODAGE DES VARIABLES NOMINALES (ONE-HOT)")
    
    df_encoded = df.copy()
    
    for colonne in colonnes_nominales:
        # Gestion des valeurs manquantes
        df_encoded[colonne] = df_encoded[colonne].fillna('Missing')
        
        # Application du one-hot encoding
        dummies = pd.get_dummies(df_encoded[colonne], prefix=colonne)
        
        # Ajout des colonnes encodées
        df_encoded = pd.concat([df_encoded, dummies], axis=1)
        
        # Suppression de la colonne originale
        df_encoded.drop(colonne, axis=1, inplace=True)
        
        print(f"\nColonnes créées pour {colonne}:")
        print(dummies.columns.tolist())
    
    return df_encoded

In [4]:
def encoder_variables_ordinales(df, colonnes_ordinales):
    """
    Applique le label encoding aux variables ordinales
    """
    print("\n3. ENCODAGE DES VARIABLES ORDINALES (LABEL)")
    
    df_encoded = df.copy()
    encoders = {}
    
    for colonne in colonnes_ordinales:
        # Création de l'encodeur
        encoders[colonne] = LabelEncoder()
        
        # Application de l'encodage
        df_encoded[f'{colonne}_encoded'] = encoders[colonne].fit_transform(df_encoded[colonne])
        
        # Affichage du mapping
        mapping = dict(zip(encoders[colonne].classes_, 
                         encoders[colonne].transform(encoders[colonne].classes_)))
        print(f"\nMapping pour {colonne}:")
        for original, encode in mapping.items():
            print(f"{original} -> {encode}")
    
    return df_encoded, encoders

In [5]:
def verifier_encodage(df_original, df_encoded):
    """
    Vérifie que l'encodage a été correctement appliqué
    """
    print("\n4. VÉRIFICATION DE L'ENCODAGE")
    
    # Comparaison des dimensions
    print(f"\nDimensions originales: {df_original.shape}")
    print(f"Dimensions après encodage: {df_encoded.shape}")
    
    # Nouvelles colonnes créées
    nouvelles_colonnes = set(df_encoded.columns) - set(df_original.columns)
    print("\nNouvelles colonnes créées:")
    print(sorted(nouvelles_colonnes))
    
    # Vérification des valeurs manquantes
    na_count = df_encoded[list(nouvelles_colonnes)].isna().sum()
    if na_count.sum() > 0:
        print("\nAttention: Valeurs manquantes dans les colonnes encodées:")
        print(na_count[na_count > 0])
    else:
        print("\nAucune valeur manquante dans les colonnes encodées ✓")

In [6]:
def main():
    # Chargement des données
    print("Chargement du dataset Titanic...")
    df = charger_dataset()
    
    # Identification des colonnes catégorielles
    colonnes_nominales, colonnes_ordinales = identifier_colonnes_categoriques(df)
    
    # Encodage des variables nominales
    df_nominal = encoder_variables_nominales(df, colonnes_nominales)
    
    # Encodage des variables ordinales
    df_final, encoders = encoder_variables_ordinales(df_nominal, colonnes_ordinales)
    
    # Vérification
    verifier_encodage(df, df_final)
    
    print("\nEncodage terminé avec succès!")
    
    return df_final, encoders

if __name__ == "__main__":
    df_encoded, encoders = main()

Chargement du dataset Titanic...

1. IDENTIFICATION DES COLONNES CATÉGORIELLES

Colonnes nominales: ['Sex', 'Embarked', 'Cabin']
Colonnes ordinales: ['Pclass']

Valeurs uniques dans Sex (2):
['male' 'female']

Valeurs uniques dans Embarked (3):
['S' 'C' 'Q' nan]

Valeurs uniques dans Cabin (147):
[nan 'C85' 'C123' 'E46' 'G6' 'C103' 'D56' 'A6' 'C23 C25 C27' 'B78' 'D33'
 'B30' 'C52' 'B28' 'C83' 'F33' 'F G73' 'E31' 'A5' 'D10 D12' 'D26' 'C110'
 'B58 B60' 'E101' 'F E69' 'D47' 'B86' 'F2' 'C2' 'E33' 'B19' 'A7' 'C49'
 'F4' 'A32' 'B4' 'B80' 'A31' 'D36' 'D15' 'C93' 'C78' 'D35' 'C87' 'B77'
 'E67' 'B94' 'C125' 'C99' 'C118' 'D7' 'A19' 'B49' 'D' 'C22 C26' 'C106'
 'C65' 'E36' 'C54' 'B57 B59 B63 B66' 'C7' 'E34' 'C32' 'B18' 'C124' 'C91'
 'E40' 'T' 'C128' 'D37' 'B35' 'E50' 'C82' 'B96 B98' 'E10' 'E44' 'A34'
 'C104' 'C111' 'C92' 'E38' 'D21' 'E12' 'E63' 'A14' 'B37' 'C30' 'D20' 'B79'
 'E25' 'D46' 'B73' 'C95' 'B38' 'B39' 'B22' 'C86' 'C70' 'A16' 'C101' 'C68'
 'A10' 'E68' 'B41' 'A20' 'D19' 'D50' 'D9' 'A23' 'B5