In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler
import os

In [2]:
def charger_dataset():
    """
    Charge le dataset Titanic
    """
    chemin = 'WEEK_2/DAY_3/DATASET/train.csv'
    return pd.read_csv(chemin)

In [3]:

def feature_engineering():
    # 1. Chargement des données
    print("1. Chargement du dataset...")
    df = charger_dataset()
    
    # 2. Création de nouvelles features
    print("\n2. Création de nouvelles features...")
    
    # Family Size à partir de SibSp et Parch
    df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
    print("✓ Feature 'FamilySize' créée")
    
    # Title à partir de Name
    df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
    print("✓ Feature 'Title' extraite du nom")
    
    # 3. Conversion des variables catégorielles
    print("\n3. Conversion des variables catégorielles...")
    
    # Label Encoding pour Sex
    le = LabelEncoder()
    df['Sex_encoded'] = le.fit_transform(df['Sex'])
    print("✓ 'Sex' encodé")
    
    # One-hot encoding pour Embarked
    df = pd.get_dummies(df, columns=['Embarked'], prefix='Embarked')
    print("✓ 'Embarked' encodé (one-hot)")
    
    # Label Encoding pour Title
    df['Title_encoded'] = le.fit_transform(df['Title'])
    print("✓ 'Title' encodé")
    
    # 4. Normalisation des features numériques
    print("\n4. Normalisation des features numériques...")
    scaler = StandardScaler()
    
    colonnes_a_normaliser = ['Age', 'Fare', 'FamilySize']
    df[colonnes_a_normaliser] = scaler.fit_transform(df[colonnes_a_normaliser].fillna(0))
    print("✓ Features numériques normalisées")
    
    # Affichage des résultats
    print("\nAperçu des nouvelles features :")
    print(df[['FamilySize', 'Title', 'Sex_encoded', 'Title_encoded'] + 
           [col for col in df.columns if 'Embarked_' in col]].head())
    
    return df

if __name__ == "__main__":
    df_transforme = feature_engineering()


1. Chargement du dataset...

2. Création de nouvelles features...
✓ Feature 'FamilySize' créée
✓ Feature 'Title' extraite du nom

3. Conversion des variables catégorielles...
✓ 'Sex' encodé
✓ 'Embarked' encodé (one-hot)
✓ 'Title' encodé

4. Normalisation des features numériques...
✓ Features numériques normalisées

Aperçu des nouvelles features :
   FamilySize Title  Sex_encoded  Title_encoded  Embarked_C  Embarked_Q  \
0    0.059160    Mr            1             12       False       False   
1    0.059160   Mrs            0             13        True       False   
2   -0.560975  Miss            0              9       False       False   
3    0.059160   Mrs            0             13       False       False   
4   -0.560975    Mr            1             12       False       False   

   Embarked_S  
0        True  
1       False  
2        True  
3        True  
4        True  


  df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
