# TP 3 - Nettoyage et Feature Engineering
## Mast√®re 2 - Data & Intelligence Artificielle

**Dur√©e** : 45 minutes

### Objectifs
1. Traiter les valeurs manquantes (strat√©gie m√©diane/mode)
2. D√©tecter et traiter les outliers (m√©thode IQR et capping)
3. Cr√©er des features m√©tier pertinentes :
   - TotalIncome
   - LoanAmountToIncome
   - EMI (mensualit√©)
   - EMIToIncome
   - Transformations logarithmiques
4. Encoder les variables cat√©gorielles
5. Sauvegarder le dataset nettoy√©

## üì¶ Imports

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configuration
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Imports r√©ussis")

‚úÖ Imports r√©ussis


## üìä Chargement des donn√©es

In [2]:
# Charger le dataset
df = pd.read_csv('../data/raw/loan_data.csv')

print("=" * 80)
print("DATASET INITIAL")
print("=" * 80)
print(f"Dimensions : {df.shape}")
print(f"\nValeurs manquantes :")
print(df.isnull().sum())

# Cr√©er une copie pour le travail
df_clean = df.copy()

print("\n‚úÖ Dataset charg√© et copi√©")

FileNotFoundError: [Errno 2] No such file or directory: '../data/raw/loan_data.csv'

In [None]:
# üö® IMPORTANT : Supprimer la colonne Loan_ID (identifiant sans pouvoir pr√©dictif)
if 'Loan_ID' in df_clean.columns:
    print("\n‚ö†Ô∏è Colonne 'Loan_ID' d√©tect√©e")
    print("   ‚Üí C'est un identifiant unique sans pouvoir pr√©dictif")
    print("   ‚Üí L'inclure causerait du data leakage et un overfitting")
    df_clean = df_clean.drop('Loan_ID', axis=1)
    print("   ‚úÖ Loan_ID supprim√©e")
    print(f"   Nouvelles dimensions : {df_clean.shape}")
else:
    print("\n‚úÖ Pas de colonne Loan_ID d√©tect√©e")

---
## üîß √âTAPE 1 : Traitement des valeurs manquantes

### Strat√©gie
- **Variables num√©riques** : Imputer avec la **m√©diane** (robuste aux outliers)
- **Variables cat√©gorielles** : Imputer avec le **mode** (valeur la plus fr√©quente)

### Pourquoi la m√©diane plut√¥t que la moyenne ?
La m√©diane n'est pas influenc√©e par les valeurs extr√™mes. Par exemple, si les revenus sont [1000, 2000, 3000, 100000], la moyenne (26500) est tir√©e vers le haut par 100000, alors que la m√©diane (2500) est plus repr√©sentative.

In [None]:
print("\n" + "=" * 80)
print("√âTAPE 1 : TRAITEMENT DES VALEURS MANQUANTES")
print("=" * 80)

# D√©finir les colonnes num√©riques et cat√©gorielles
numerical_cols = ['ApplicantIncome', 'CoapplicantIncome', 'LoanAmount', 
                  'Loan_Amount_Term', 'Credit_History']
categorical_cols = ['Gender', 'Married', 'Dependents', 'Education', 
                    'Self_Employed', 'Property_Area']

### Imputation des variables num√©riques

In [None]:
# TODO : Imputer les valeurs manquantes num√©riques avec la m√©diane
for col in numerical_cols:
    if col in df_clean.columns and df_clean[col].isnull().sum() > 0:
        median_value = df_clean[col].median()
        missing_count = df_clean[col].isnull().sum()
        
        # Remplir les NaN avec la m√©diane
        df_clean[col].fillna(median_value, inplace=True)
        
        print(f"‚úÖ {col}: {missing_count} NaN remplac√©s par la m√©diane ({median_value:.2f})")

### Imputation des variables cat√©gorielles

In [None]:
# TODO : Imputer les valeurs manquantes cat√©gorielles avec le mode
for col in categorical_cols:
    if col in df_clean.columns and df_clean[col].isnull().sum() > 0:
        mode_value = df_clean[col].mode()[0]
        missing_count = df_clean[col].isnull().sum()
        
        # Remplir les NaN avec le mode
        df_clean[col].fillna(mode_value, inplace=True)
        
        print(f"‚úÖ {col}: {missing_count} NaN remplac√©s par le mode ('{mode_value}')")

In [None]:
# V√©rification finale
print(f"\n‚úÖ Total de valeurs manquantes apr√®s imputation : {df_clean.isnull().sum().sum()}")

---
## üéØ √âTAPE 2 : D√©tection et traitement des outliers

### Qu'est-ce qu'un outlier ?
Une valeur **aberrante** qui s'√©carte fortement des autres observations. Les outliers peuvent :
- √ätre des **erreurs de saisie** (revenu de 1 000 000 000‚Ç¨)
- √ätre des **valeurs r√©elles** mais extr√™mes (PDG avec tr√®s haut salaire)
- **Fausser les mod√®les** ML sensibles aux valeurs extr√™mes

### M√©thode IQR (InterQuartile Range)
- **Q1** : Premier quartile (25% des donn√©es)
- **Q3** : Troisi√®me quartile (75% des donn√©es)
- **IQR** : Q3 - Q1
- **Outliers** : Valeurs < Q1 - 1.5√óIQR ou > Q3 + 1.5√óIQR

### Notre approche : Capping
Au lieu de **supprimer** les outliers (perte d'information), nous allons les **plafonner** (capping) aux percentiles 1% et 99%.

### Visualisation des outliers AVANT traitement

In [None]:
print("\n" + "=" * 80)
print("√âTAPE 2 : D√âTECTION ET TRAITEMENT DES OUTLIERS")
print("=" * 80)

# Cr√©er les boxplots pour visualiser les outliers
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('D√©tection des outliers - AVANT traitement', fontsize=16, fontweight='bold')

outlier_cols = ['ApplicantIncome', 'CoapplicantIncome', 'LoanAmount']

for idx, col in enumerate(outlier_cols):
    row = idx // 2
    col_idx = idx % 2
    
    # Boxplot
    axes[row, col_idx].boxplot(df_clean[col].dropna(), vert=True)
    axes[row, col_idx].set_title(f'{col}', fontsize=12, fontweight='bold')
    axes[row, col_idx].set_ylabel('Valeur')
    axes[row, col_idx].grid(axis='y', alpha=0.3)
    
    # Calculer les statistiques d'outliers
    Q1 = df_clean[col].quantile(0.25)
    Q3 = df_clean[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    n_outliers = ((df_clean[col] < lower_bound) | (df_clean[col] > upper_bound)).sum()
    axes[row, col_idx].text(0.5, 0.95, f'Outliers: {n_outliers}', 
                           transform=axes[row, col_idx].transAxes,
                           ha='center', va='top', fontsize=10,
                           bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# Supprimer le dernier subplot vide
fig.delaxes(axes[1, 1])

plt.tight_layout()
plt.savefig('outliers_before.png', dpi=300, bbox_inches='tight')
print("üìä Graphique 'outliers_before.png' sauvegard√©")
plt.show()

### Fonction de capping (plafonnement)

In [None]:
# TODO : Impl√©menter la fonction de capping
def cap_outliers(df, column, lower_percentile=1, upper_percentile=99):
    """
    Plafonne les valeurs extr√™mes en utilisant des percentiles
    
    Args:
        df: DataFrame
        column: Nom de la colonne
        lower_percentile: Percentile inf√©rieur (d√©faut: 1%)
        upper_percentile: Percentile sup√©rieur (d√©faut: 99%)
    
    Returns:
        DataFrame avec valeurs plafonn√©es
    """
    lower_bound = df[column].quantile(lower_percentile / 100)
    upper_bound = df[column].quantile(upper_percentile / 100)
    
    # Compter les valeurs plafonn√©es
    n_capped_lower = (df[column] < lower_bound).sum()
    n_capped_upper = (df[column] > upper_bound).sum()
    
    # Appliquer le capping
    df[column] = df[column].clip(lower=lower_bound, upper=upper_bound)
    
    if n_capped_lower + n_capped_upper > 0:
        print(f"‚úÖ {column}: {n_capped_lower} valeurs plafonn√©es en bas, "
              f"{n_capped_upper} en haut (percentiles {lower_percentile}-{upper_percentile})")
    
    return df

print("‚úÖ Fonction cap_outliers cr√©√©e")

### Application du capping

In [None]:
# Appliquer le capping sur les revenus
for col in ['ApplicantIncome', 'CoapplicantIncome']:
    df_clean = cap_outliers(df_clean, col, lower_percentile=1, upper_percentile=99)

# Pour LoanAmount, utiliser des percentiles plus conservateurs
df_clean = cap_outliers(df_clean, 'LoanAmount', lower_percentile=0, upper_percentile=95)

print("\n‚úÖ Capping appliqu√© sur toutes les variables")

---
## üèóÔ∏è √âTAPE 3 : Feature Engineering

Le **feature engineering** consiste √† cr√©er de nouvelles variables (features) √† partir des variables existantes pour am√©liorer la performance du mod√®le.

### Pourquoi c'est important ?
Les mod√®les ML ne peuvent pas "deviner" les relations complexes. Par exemple :
- Le mod√®le voit `ApplicantIncome` et `LoanAmount` s√©par√©ment
- Mais le **ratio** `LoanAmount / Income` est plus informatif (c'est le taux d'endettement !)

### Features que nous allons cr√©er :
1. **TotalIncome** : Revenu du m√©nage (applicant + coapplicant)
2. **LoanAmountToIncome** : Ratio d'endettement
3. **EMI** : Mensualit√© estim√©e (Equated Monthly Installment)
4. **EMIToIncome** : Part du revenu consacr√©e au remboursement
5. **Log_LoanAmount** : Transformation log (r√©duit l'asym√©trie)
6. **Log_TotalIncome** : Transformation log
7. **Has_Coapplicant** : Indicateur binaire

In [None]:
print("\n" + "=" * 80)
print("√âTAPE 3 : FEATURE ENGINEERING")
print("=" * 80)

### Feature 1 : Revenu total du m√©nage

In [None]:
# TODO : Cr√©er TotalIncome
df_clean['TotalIncome'] = df_clean['ApplicantIncome'] + df_clean['CoapplicantIncome']
print(f"‚úÖ Feature cr√©√©e : TotalIncome (moyenne: {df_clean['TotalIncome'].mean():.2f}‚Ç¨)")

### Feature 2 : Ratio d'endettement

In [None]:
# TODO : Cr√©er LoanAmountToIncome (√©viter division par z√©ro)
df_clean['LoanAmountToIncome'] = df_clean['LoanAmount'] / (df_clean['TotalIncome'] + 1)
print(f"‚úÖ Feature cr√©√©e : LoanAmountToIncome (moyenne: {df_clean['LoanAmountToIncome'].mean():.3f})")

### Feature 3 : EMI (Mensualit√©)

In [None]:
# TODO : Calculer la mensualit√© estim√©e
# Formule simplifi√©e : EMI = LoanAmount / Loan_Amount_Term
df_clean['EMI'] = df_clean['LoanAmount'] / df_clean['Loan_Amount_Term']
print(f"‚úÖ Feature cr√©√©e : EMI (moyenne: {df_clean['EMI'].mean():.2f}‚Ç¨/mois)")

### Feature 4 : Ratio EMI sur revenu

In [None]:
# TODO : Cr√©er EMIToIncome
df_clean['EMIToIncome'] = df_clean['EMI'] / (df_clean['TotalIncome'] + 1)
print(f"‚úÖ Feature cr√©√©e : EMIToIncome (moyenne: {df_clean['EMIToIncome'].mean():.4f})")

### Feature 5 & 6 : Transformations logarithmiques

**Pourquoi le logarithme ?**
- R√©duit l'asym√©trie des distributions (skewness)
- Ram√®ne les grandes valeurs vers des √©chelles plus g√©rables
- Am√©liore souvent la performance des mod√®les lin√©aires

In [None]:
# TODO : Appliquer log sur les variables asym√©triques
df_clean['Log_LoanAmount'] = np.log(df_clean['LoanAmount'] + 1)
df_clean['Log_TotalIncome'] = np.log(df_clean['TotalIncome'] + 1)

print(f"‚úÖ Features cr√©√©es : Log_LoanAmount, Log_TotalIncome")

### Feature 7 : Indicateur de co-demandeur

In [None]:
# TODO : Cr√©er une variable binaire indiquant la pr√©sence d'un co-demandeur
df_clean['Has_Coapplicant'] = (df_clean['CoapplicantIncome'] > 0).astype(int)
print(f"‚úÖ Feature cr√©√©e : Has_Coapplicant "
      f"({df_clean['Has_Coapplicant'].sum()} personnes avec co-demandeur)")

### Visualisation des nouvelles features

In [None]:
# Visualiser les nouvelles features
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('Nouvelles features cr√©√©es', fontsize=16, fontweight='bold')

# Distribution TotalIncome
axes[0, 0].hist(df_clean['TotalIncome'], bins=30, color='skyblue', edgecolor='black', alpha=0.7)
axes[0, 0].set_title('Total Income Distribution')
axes[0, 0].set_xlabel('Total Income (‚Ç¨)')
axes[0, 0].set_ylabel('Frequency')
axes[0, 0].grid(axis='y', alpha=0.3)

# Distribution LoanAmountToIncome
axes[0, 1].hist(df_clean['LoanAmountToIncome'], bins=30, color='lightcoral', edgecolor='black', alpha=0.7)
axes[0, 1].set_title('Loan Amount to Income Ratio')
axes[0, 1].set_xlabel('Ratio')
axes[0, 1].set_ylabel('Frequency')
axes[0, 1].grid(axis='y', alpha=0.3)

# Distribution EMI
axes[1, 0].hist(df_clean['EMI'], bins=30, color='lightgreen', edgecolor='black', alpha=0.7)
axes[1, 0].set_title('EMI Distribution')
axes[1, 0].set_xlabel('EMI (‚Ç¨/month)')
axes[1, 0].set_ylabel('Frequency')
axes[1, 0].grid(axis='y', alpha=0.3)

# EMIToIncome vs Loan_Status
if 'Loan_Status' in df_clean.columns:
    df_clean.boxplot(column='EMIToIncome', by='Loan_Status', ax=axes[1, 1])
    axes[1, 1].set_title('EMI to Income Ratio by Loan Status')
    axes[1, 1].set_xlabel('Loan Status')
    axes[1, 1].set_ylabel('EMI to Income Ratio')
    plt.suptitle('')  # Supprimer le titre automatique du boxplot

plt.tight_layout()
plt.savefig('new_features.png', dpi=300, bbox_inches='tight')
print("\nüìä Graphique 'new_features.png' sauvegard√©")
plt.show()

---
## üî§ √âTAPE 4 : Encodage des variables cat√©gorielles

Les mod√®les ML ne comprennent que les nombres. Il faut donc **encoder** les variables cat√©gorielles.

### Deux m√©thodes :

#### 1. Label Encoding
- Pour variables **ordinales** (avec un ordre logique)
- Exemple : Education (Graduate > Not Graduate)
- Transforme en : 0, 1, 2...

#### 2. One-Hot Encoding
- Pour variables **nominales** (sans ordre)
- Exemple : Property_Area (Urban, Rural, Semiurban)
- Transforme en : colonnes binaires (Area_Urban, Area_Rural...)

**‚ö†Ô∏è Attention** : One-Hot avec `drop_first=True` √©vite la multicolin√©arit√© (dummy variable trap)

In [None]:
print("\n" + "=" * 80)
print("√âTAPE 4 : ENCODAGE DES VARIABLES CAT√âGORIELLES")
print("=" * 80)

### Label Encoding pour variables ordinales

In [None]:
# TODO : Encoder Education (Graduate = 1, Not Graduate = 0)
if 'Education' in df_clean.columns:
    df_clean['Education'] = df_clean['Education'].map({'Graduate': 1, 'Not Graduate': 0})
    print("‚úÖ Education encod√©e : Graduate=1, Not Graduate=0")

# TODO : Encoder Loan_Status (Y = 1, N = 0)
if 'Loan_Status' in df_clean.columns:
    df_clean['Loan_Status'] = df_clean['Loan_Status'].map({'Y': 1, 'N': 0})
    print("‚úÖ Loan_Status encod√©e : Y=1, N=0")

### One-Hot Encoding pour variables nominales

In [None]:
# TODO : Encoder Property_Area (Dummy variables)
if 'Property_Area' in df_clean.columns:
    df_clean = pd.get_dummies(df_clean, columns=['Property_Area'], prefix='Area', drop_first=True)
    print("‚úÖ Property_Area encod√©e (One-Hot) : Area_Semiurban, Area_Urban")

# TODO : Encoder Gender
if 'Gender' in df_clean.columns:
    df_clean = pd.get_dummies(df_clean, columns=['Gender'], prefix='Gender', drop_first=True)
    print("‚úÖ Gender encod√©e (One-Hot) : Gender_Male")

# TODO : Encoder Married
if 'Married' in df_clean.columns:
    df_clean = pd.get_dummies(df_clean, columns=['Married'], prefix='Married', drop_first=True)
    print("‚úÖ Married encod√©e (One-Hot) : Married_Yes")

# TODO : Encoder Self_Employed
if 'Self_Employed' in df_clean.columns:
    df_clean = pd.get_dummies(df_clean, columns=['Self_Employed'], prefix='SelfEmployed', drop_first=True)
    print("‚úÖ Self_Employed encod√©e (One-Hot) : SelfEmployed_Yes")

# TODO : Encoder Dependents
if 'Dependents' in df_clean.columns:
    # Convertir '3+' en 3 pour traiter comme num√©rique
    df_clean['Dependents'] = df_clean['Dependents'].replace('3+', '3').astype(float)
    print("‚úÖ Dependents convertie en num√©rique (3+ ‚Üí 3)")

---
## ‚úÖ √âTAPE 5 : V√©rifications finales

In [None]:
print("\n" + "=" * 80)
print("√âTAPE 5 : V√âRIFICATIONS FINALES")
print("=" * 80)

# V√©rifier qu'il n'y a plus de NaN
print(f"\n‚úÖ Valeurs manquantes restantes : {df_clean.isnull().sum().sum()}")

In [None]:
# V√©rifier les types de donn√©es
print(f"\n‚úÖ Types de donn√©es apr√®s nettoyage :")
df_clean.dtypes

In [None]:
# Afficher les dimensions finales
print(f"\n‚úÖ Dimensions finales : {df_clean.shape}")
print(f"   ‚Üí {df_clean.shape[0]} lignes")
print(f"   ‚Üí {df_clean.shape[1]} colonnes (vs {df.shape[1]} initialement)")

In [None]:
# Afficher les premi√®res lignes
print(f"\n‚úÖ Aper√ßu du dataset nettoy√© :")
df_clean.head()

In [None]:
# Statistiques descriptives
print(f"\n‚úÖ Statistiques descriptives :")
df_clean.describe()

---
## üíæ √âTAPE 6 : Sauvegarde du dataset nettoy√©

In [None]:
print("\n" + "=" * 80)
print("√âTAPE 6 : SAUVEGARDE DU DATASET NETTOY√â")
print("=" * 80)

# TODO : Sauvegarder le dataset nettoy√©
output_file = '../data/processed/loan_data_clean.csv'
df_clean.to_csv(output_file, index=False)

print(f"\n‚úÖ Dataset nettoy√© sauvegard√© dans '{output_file}'")
print(f"   Pr√™t pour l'√©tape de mod√©lisation !")

---
## üìä R√©capitulatif du nettoyage

In [None]:
print("\n" + "=" * 80)
print("üìä R√âCAPITULATIF DU NETTOYAGE")
print("=" * 80)

print(f"""
‚úÖ Valeurs manquantes trait√©es : {df.isnull().sum().sum()} ‚Üí 0
‚úÖ Outliers trait√©s : Capping appliqu√© sur revenus et montants
‚úÖ Features cr√©√©es : 
   - TotalIncome
   - LoanAmountToIncome
   - EMI
   - EMIToIncome
   - Log_LoanAmount
   - Log_TotalIncome
   - Has_Coapplicant
‚úÖ Encodage effectu√© :
   - Label Encoding : Education, Loan_Status
   - One-Hot Encoding : Property_Area, Gender, Married, Self_Employed
   - Conversion num√©rique : Dependents
‚úÖ Dataset final : {df_clean.shape[0]} lignes √ó {df_clean.shape[1]} colonnes

Le dataset est maintenant pr√™t pour l'entra√Ænement du mod√®le ! üöÄ
""")

print("=" * 80)

---
## üéØ Conclusion du TP

### Ce que vous avez appris
‚úÖ Traiter les valeurs manquantes avec des strat√©gies appropri√©es  
‚úÖ D√©tecter et traiter les outliers avec la m√©thode IQR  
‚úÖ Cr√©er des features m√©tier pertinentes (feature engineering)  
‚úÖ Encoder les variables cat√©gorielles (Label + One-Hot)  
‚úÖ Pr√©parer un dataset propre pour le machine learning  

### Prochaines √©tapes
Dans le **TP 4**, nous allons :
- Entra√Æner un mod√®le de classification (R√©gression Logistique)
- √âvaluer la performance avec plusieurs m√©triques
- Cr√©er des visualisations (matrice de confusion, courbe ROC)
- Identifier les features les plus importantes

### Points cl√©s √† retenir
1. **Toujours v√©rifier les NaN** avant de mod√©liser
2. **Outliers ‚â† Erreurs** : parfois ce sont des valeurs r√©elles
3. **Feature engineering > Algorithmes complexes** : de bonnes features font la diff√©rence
4. **Encoder intelligemment** : ordinale vs nominale