# üîß Preprocessing & Feature Engineering - Home Credit Default Risk

## Objectifs

1. Charger les donn√©es agr√©g√©es (train_aggregated.csv, test_aggregated.csv)
2. Cr√©er des features "Has_History" avant imputation
3. Traitement strat√©gique des valeurs manquantes
4. Encodage des variables cat√©gorielles
5. Feature engineering avanc√© (ratios, interactions)
6. Gestion des outliers
7. Scaling/Normalisation
8. Sauvegarde des datasets preprocessed

---


In [3]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.impute import SimpleImputer
import warnings

warnings.filterwarnings("ignore")

# Configuration
plt.style.use("seaborn-v0_8-darkgrid")
sns.set_palette("husl")
%matplotlib inline

pd.set_option("display.max_columns", 100)
pd.set_option("display.max_rows", 100)

print("‚úÖ Imports r√©ussis")

‚úÖ Imports r√©ussis


## 1. Chargement des Donn√©es Agr√©g√©es


In [4]:
# Chemins
DATA_PATH = Path("../data")

# Charger les donn√©es agr√©g√©es du Notebook 1
print("üìÇ Chargement des donn√©es agr√©g√©es...")
train = pd.read_csv(DATA_PATH / "train_aggregated.csv")
test = pd.read_csv(DATA_PATH / "test_aggregated.csv")

print(f"‚úÖ Train shape: {train.shape}")
print(f"‚úÖ Test shape: {test.shape}")

# S√©parer la variable cible
y_train = train["TARGET"]
train_ids = train["SK_ID_CURR"]
test_ids = test["SK_ID_CURR"]

print(f"\nüìä Distribution de TARGET:")
print(y_train.value_counts())
print(f"Taux de d√©faut: {y_train.mean():.2%}")

üìÇ Chargement des donn√©es agr√©g√©es...
‚úÖ Train shape: (307511, 305)
‚úÖ Test shape: (48744, 304)

üìä Distribution de TARGET:
TARGET
0    282686
1     24825
Name: count, dtype: int64
Taux de d√©faut: 8.07%


## 2. Analyse Pr√©liminaire des Valeurs Manquantes


In [5]:
# Fonction pour analyser les NaN
def analyze_missing(df, name="Dataset"):
    """
    Analyse d√©taill√©e des valeurs manquantes
    """
    missing = pd.DataFrame(
        {
            "Column": df.columns,
            "Missing_Count": df.isnull().sum(),
            "Missing_Percent": (df.isnull().sum() / len(df) * 100).round(2),
            "Dtype": df.dtypes,
        }
    )

    missing = missing[missing["Missing_Count"] > 0].sort_values(
        "Missing_Percent", ascending=False
    )

    print(f"\n{'=' * 60}")
    print(f"üìä ANALYSE DES VALEURS MANQUANTES - {name}")
    print(f"{'=' * 60}")
    print(f"Colonnes avec NaN: {len(missing)}/{len(df.columns)}")
    print(f"\nR√©partition par % de NaN:")
    print(f"  - >80% NaN: {len(missing[missing['Missing_Percent'] > 80])} colonnes")
    print(
        f"  - 50-80% NaN: {len(missing[(missing['Missing_Percent'] > 50) & (missing['Missing_Percent'] <= 80)])} colonnes"
    )
    print(
        f"  - 30-50% NaN: {len(missing[(missing['Missing_Percent'] > 30) & (missing['Missing_Percent'] <= 50)])} colonnes"
    )
    print(f"  - <30% NaN: {len(missing[missing['Missing_Percent'] <= 30])} colonnes")

    return missing


# Analyser les NaN
missing_train = analyze_missing(train, "Train")

print("\nüìã Top 20 colonnes avec le plus de NaN:")
print(missing_train.head(20))


üìä ANALYSE DES VALEURS MANQUANTES - Train
Colonnes avec NaN: 250/305

R√©partition par % de NaN:
  - >80% NaN: 8 colonnes
  - 50-80% NaN: 79 colonnes
  - 30-50% NaN: 11 colonnes
  - <30% NaN: 152 colonnes

üìã Top 20 colonnes avec le plus de NaN:
                                                                      Column  \
CC_AMT_PAYMENT_CURRENT_MEAN_MEAN            CC_AMT_PAYMENT_CURRENT_MEAN_MEAN   
CC_AMT_PAYMENT_CURRENT_MAX_MEAN              CC_AMT_PAYMENT_CURRENT_MAX_MEAN   
CC_AMT_PAYMENT_CURRENT_MEAN_MAX              CC_AMT_PAYMENT_CURRENT_MEAN_MAX   
CC_AMT_PAYMENT_CURRENT_MAX_MAX                CC_AMT_PAYMENT_CURRENT_MAX_MAX   
CC_AMT_DRAWINGS_ATM_CURRENT_MAX_MAX      CC_AMT_DRAWINGS_ATM_CURRENT_MAX_MAX   
CC_AMT_DRAWINGS_ATM_CURRENT_MAX_MEAN    CC_AMT_DRAWINGS_ATM_CURRENT_MAX_MEAN   
CC_AMT_DRAWINGS_ATM_CURRENT_MEAN_MAX    CC_AMT_DRAWINGS_ATM_CURRENT_MEAN_MAX   
CC_AMT_DRAWINGS_ATM_CURRENT_MEAN_MEAN  CC_AMT_DRAWINGS_ATM_CURRENT_MEAN_MEAN   
CC_AMT_PAYMENT_CURRENT_SUM_MA

## 3. Cr√©ation des Features "Has_History"

**Strat√©gie Cl√©:** Avant de remplir les NaN, on cr√©e des indicateurs binaires qui capturent l'**absence** d'historique, car c'est une information importante !


In [6]:
print("üîß Cr√©ation des features 'Has_History'...\n")

# Liste des features "Has_History" √† cr√©er
history_features = {
    "HAS_BUREAU": "BUREAU_SK_ID_BUREAU_COUNT",
    "HAS_PREV_APP": "PREV_AMT_ANNUITY_MEAN",
    "HAS_CREDIT_CARD": "CC_AMT_PAYMENT_CURRENT_MEAN_MEAN",
    "HAS_POS_CASH": "POS_MONTHS_BALANCE_MIN_MEAN",
    "HAS_INSTALLMENTS": "INSTAL_PAYMENT_DIFF_MEAN_MEAN",
}

# Cr√©er les features pour train et test
for new_feature, base_feature in history_features.items():
    if base_feature in train.columns:
        # 1 si la feature existe (pas NaN), 0 sinon
        train[new_feature] = (~train[base_feature].isna()).astype(int)
        test[new_feature] = (~test[base_feature].isna()).astype(int)

        # Statistiques
        has_pct = train[new_feature].mean() * 100
        print(f"‚úÖ {new_feature}: {has_pct:.1f}% des clients ont cet historique")
    else:
        print(f"‚ö†Ô∏è {new_feature}: colonne {base_feature} introuvable")

print(f"\nüìä Nouvelles features cr√©√©es: {len(history_features)}")
print(f"Train shape: {train.shape}")

üîß Cr√©ation des features 'Has_History'...

‚úÖ HAS_BUREAU: 85.7% des clients ont cet historique
‚úÖ HAS_PREV_APP: 94.5% des clients ont cet historique
‚úÖ HAS_CREDIT_CARD: 17.2% des clients ont cet historique
‚úÖ HAS_POS_CASH: 93.3% des clients ont cet historique
‚úÖ HAS_INSTALLMENTS: 94.1% des clients ont cet historique

üìä Nouvelles features cr√©√©es: 5
Train shape: (307511, 310)


## 4. Identification et Suppression des Colonnes Peu Informatives


In [7]:
# Strat√©gie: Supprimer les colonnes avec >80% de NaN
print("üóëÔ∏è Identification des colonnes √† supprimer (>80% NaN)...\n")

threshold_drop = 0.80
cols_to_drop = []

for col in train.columns:
    if col in ["SK_ID_CURR", "TARGET"]:  # Ne jamais supprimer ces colonnes
        continue

    missing_pct = train[col].isna().sum() / len(train)

    if missing_pct > threshold_drop:
        cols_to_drop.append(col)

print(f"üìã Colonnes √† supprimer: {len(cols_to_drop)}")
print(f"\nExemples:")
for col in cols_to_drop[:10]:
    missing_pct = train[col].isna().sum() / len(train) * 100
    print(f"  - {col}: {missing_pct:.1f}% NaN")

# Supprimer les colonnes
train_cleaned = train.drop(columns=cols_to_drop)
test_cleaned = test.drop(columns=[col for col in cols_to_drop if col in test.columns])

print(f"\n‚úÖ Shape apr√®s suppression:")
print(f"   Train: {train.shape} ‚Üí {train_cleaned.shape}")
print(f"   Test: {test.shape} ‚Üí {test_cleaned.shape}")
print(f"   Colonnes supprim√©es: {len(cols_to_drop)}")

üóëÔ∏è Identification des colonnes √† supprimer (>80% NaN)...

üìã Colonnes √† supprimer: 8

Exemples:
  - CC_AMT_DRAWINGS_ATM_CURRENT_MEAN_MEAN: 82.8% NaN
  - CC_AMT_DRAWINGS_ATM_CURRENT_MEAN_MAX: 82.8% NaN
  - CC_AMT_DRAWINGS_ATM_CURRENT_MAX_MEAN: 82.8% NaN
  - CC_AMT_DRAWINGS_ATM_CURRENT_MAX_MAX: 82.8% NaN
  - CC_AMT_PAYMENT_CURRENT_MEAN_MEAN: 82.8% NaN
  - CC_AMT_PAYMENT_CURRENT_MEAN_MAX: 82.8% NaN
  - CC_AMT_PAYMENT_CURRENT_MAX_MEAN: 82.8% NaN
  - CC_AMT_PAYMENT_CURRENT_MAX_MAX: 82.8% NaN

‚úÖ Shape apr√®s suppression:
   Train: (307511, 310) ‚Üí (307511, 302)
   Test: (48744, 309) ‚Üí (48744, 301)
   Colonnes supprim√©es: 8


## 5. S√©paration des Types de Colonnes


In [8]:
# Identifier les colonnes par type
print("üîç Identification des types de colonnes...\n")

# Colonnes √† ne pas traiter
id_cols = ["SK_ID_CURR"]
target_col = ["TARGET"]

# Colonnes cat√©gorielles (type object)
categorical_cols = train_cleaned.select_dtypes(include=["object"]).columns.tolist()
categorical_cols = [col for col in categorical_cols if col not in id_cols]

# Colonnes num√©riques
numeric_cols = train_cleaned.select_dtypes(include=[np.number]).columns.tolist()
numeric_cols = [col for col in numeric_cols if col not in id_cols + target_col]

print(f"üìä R√©partition des colonnes:")
print(f"   - ID: {len(id_cols)}")
print(f"   - Target: {len(target_col)}")
print(f"   - Cat√©gorielles: {len(categorical_cols)}")
print(f"   - Num√©riques: {len(numeric_cols)}")
print(
    f"   - TOTAL: {len(id_cols) + len(target_col) + len(categorical_cols) + len(numeric_cols)}"
)

if categorical_cols:
    print(f"\nüìã Colonnes cat√©gorielles:")
    for col in categorical_cols:
        n_unique = train_cleaned[col].nunique()
        print(f"   - {col}: {n_unique} valeurs uniques")

üîç Identification des types de colonnes...

üìä R√©partition des colonnes:
   - ID: 1
   - Target: 1
   - Cat√©gorielles: 16
   - Num√©riques: 284
   - TOTAL: 302

üìã Colonnes cat√©gorielles:
   - NAME_CONTRACT_TYPE: 2 valeurs uniques
   - CODE_GENDER: 3 valeurs uniques
   - FLAG_OWN_CAR: 2 valeurs uniques
   - FLAG_OWN_REALTY: 2 valeurs uniques
   - NAME_TYPE_SUITE: 7 valeurs uniques
   - NAME_INCOME_TYPE: 8 valeurs uniques
   - NAME_EDUCATION_TYPE: 5 valeurs uniques
   - NAME_FAMILY_STATUS: 6 valeurs uniques
   - NAME_HOUSING_TYPE: 6 valeurs uniques
   - OCCUPATION_TYPE: 18 valeurs uniques
   - WEEKDAY_APPR_PROCESS_START: 7 valeurs uniques
   - ORGANIZATION_TYPE: 58 valeurs uniques
   - FONDKAPREMONT_MODE: 4 valeurs uniques
   - HOUSETYPE_MODE: 3 valeurs uniques
   - WALLSMATERIAL_MODE: 7 valeurs uniques
   - EMERGENCYSTATE_MODE: 2 valeurs uniques


## 6. Encodage des Variables Cat√©gorielles


In [9]:
# One-Hot Encoding pour les variables cat√©gorielles
if categorical_cols:
    print("üîß Encodage des variables cat√©gorielles (One-Hot Encoding)...\n")

    # Appliquer One-Hot Encoding
    train_encoded = pd.get_dummies(
        train_cleaned, columns=categorical_cols, drop_first=True
    )
    test_encoded = pd.get_dummies(
        test_cleaned, columns=categorical_cols, drop_first=True
    )

    # Aligner les colonnes entre train et test
    train_encoded, test_encoded = train_encoded.align(
        test_encoded, join="left", axis=1, fill_value=0
    )

    print(f"‚úÖ Shape apr√®s encodage:")
    print(f"   Train: {train_cleaned.shape} ‚Üí {train_encoded.shape}")
    print(f"   Test: {test_cleaned.shape} ‚Üí {test_encoded.shape}")
    print(
        f"   Nouvelles colonnes cr√©√©es: {train_encoded.shape[1] - train_cleaned.shape[1] + len(categorical_cols)}"
    )
else:
    print("‚ÑπÔ∏è Aucune variable cat√©gorielle √† encoder")
    train_encoded = train_cleaned.copy()
    test_encoded = test_cleaned.copy()

üîß Encodage des variables cat√©gorielles (One-Hot Encoding)...

‚úÖ Shape apr√®s encodage:
   Train: (307511, 302) ‚Üí (307511, 410)
   Test: (48744, 301) ‚Üí (48744, 410)
   Nouvelles colonnes cr√©√©es: 124


## 7. Imputation Strat√©gique des Valeurs Manquantes

### Strat√©gie d'Imputation:

1. **Colonnes de montants (AMT, SUM):** Remplir avec 0 (pas de cr√©dit = 0‚Ç¨)
2. **Colonnes de comptage (COUNT, CNT):** Remplir avec 0
3. **Colonnes de dates (DAYS):** Remplir avec -999 (valeur sentinelle)
4. **Colonnes de moyennes/ratios (MEAN, AVG):** Remplir avec la m√©diane
5. **Autres colonnes num√©riques:** Remplir avec la m√©diane


In [10]:
print("üîß Imputation strat√©gique des valeurs manquantes...\n")

# Cr√©er des copies pour l'imputation
train_imputed = train_encoded.copy()
test_imputed = test_encoded.copy()

# Identifier les colonnes num√©riques (mise √† jour apr√®s encodage)
numeric_cols_updated = train_imputed.select_dtypes(include=[np.number]).columns.tolist()
numeric_cols_updated = [
    col for col in numeric_cols_updated if col not in id_cols + target_col
]

# 1. Colonnes de montants ‚Üí 0
amount_cols = [
    col
    for col in numeric_cols_updated
    if any(
        x in col
        for x in ["AMT", "SUM", "CREDIT", "PAYMENT", "BALANCE", "GOODS", "PRICE"]
    )
]
if amount_cols:
    train_imputed[amount_cols] = train_imputed[amount_cols].fillna(0)
    test_imputed[amount_cols] = test_imputed[amount_cols].fillna(0)
    print(f"‚úÖ Colonnes de montants (remplies avec 0): {len(amount_cols)}")

# 2. Colonnes de comptage ‚Üí 0
count_cols = [
    col
    for col in numeric_cols_updated
    if any(x in col for x in ["COUNT", "CNT", "NUMBER", "NUM"])
]
count_cols = [
    col for col in count_cols if col not in amount_cols
]  # √âviter les doublons
if count_cols:
    train_imputed[count_cols] = train_imputed[count_cols].fillna(0)
    test_imputed[count_cols] = test_imputed[count_cols].fillna(0)
    print(f"‚úÖ Colonnes de comptage (remplies avec 0): {len(count_cols)}")

# 3. Colonnes de dates ‚Üí -999
date_cols = [col for col in numeric_cols_updated if "DAYS" in col]
if date_cols:
    train_imputed[date_cols] = train_imputed[date_cols].fillna(-999)
    test_imputed[date_cols] = test_imputed[date_cols].fillna(-999)
    print(f"‚úÖ Colonnes de dates (remplies avec -999): {len(date_cols)}")

# 4. Colonnes de moyennes/ratios ‚Üí m√©diane
mean_cols = [
    col
    for col in numeric_cols_updated
    if any(x in col for x in ["MEAN", "AVG", "MEDIAN", "MEDI", "MODE"])
]
mean_cols = [
    col for col in mean_cols if col not in amount_cols + count_cols + date_cols
]
if mean_cols:
    for col in mean_cols:
        median_val = train_imputed[col].median()
        train_imputed[col] = train_imputed[col].fillna(median_val)
        test_imputed[col] = test_imputed[col].fillna(median_val)
    print(f"‚úÖ Colonnes de moyennes (remplies avec m√©diane): {len(mean_cols)}")

# 5. Autres colonnes ‚Üí m√©diane
remaining_cols = [
    col
    for col in numeric_cols_updated
    if col not in amount_cols + count_cols + date_cols + mean_cols
]
if remaining_cols:
    for col in remaining_cols:
        median_val = train_imputed[col].median()
        train_imputed[col] = train_imputed[col].fillna(median_val)
        test_imputed[col] = test_imputed[col].fillna(median_val)
    print(
        f"‚úÖ Autres colonnes num√©riques (remplies avec m√©diane): {len(remaining_cols)}"
    )

# V√©rification finale
print(f"\nüìä V√©rification post-imputation:")
print(f"   Train - NaN restants: {train_imputed.isnull().sum().sum()}")
print(f"   Test - NaN restants: {test_imputed.isnull().sum().sum()}")

üîß Imputation strat√©gique des valeurs manquantes...

‚úÖ Colonnes de montants (remplies avec 0): 122
‚úÖ Colonnes de comptage (remplies avec 0): 11
‚úÖ Colonnes de dates (remplies avec -999): 29
‚úÖ Colonnes de moyennes (remplies avec m√©diane): 56
‚úÖ Autres colonnes num√©riques (remplies avec m√©diane): 77

üìä V√©rification post-imputation:
   Train - NaN restants: 0
   Test - NaN restants: 0


## 8. Feature Engineering Avanc√©

### Cr√©ation de Features D√©riv√©es:

1. **Ratios financiers** (Credit/Income, Annuity/Income, etc.)
2. **Features temporelles** (√Çge en ann√©es, anciennet√© emploi)
3. **Interactions importantes**
4. **Features agr√©g√©es** (scores moyens, etc.)


In [11]:
print("üîß Feature Engineering avanc√©...\n")

# Copies pour le feature engineering
train_fe = train_imputed.copy()
test_fe = test_imputed.copy()

# Compteur de nouvelles features
new_features_count = 0

# 1. RATIOS FINANCIERS
print("üí∞ Cr√©ation des ratios financiers...")

# Ratio Cr√©dit / Revenu
if "AMT_CREDIT" in train_fe.columns and "AMT_INCOME_TOTAL" in train_fe.columns:
    train_fe["CREDIT_INCOME_RATIO"] = train_fe["AMT_CREDIT"] / (
        train_fe["AMT_INCOME_TOTAL"] + 1
    )
    test_fe["CREDIT_INCOME_RATIO"] = test_fe["AMT_CREDIT"] / (
        test_fe["AMT_INCOME_TOTAL"] + 1
    )
    new_features_count += 1
    print("  ‚úÖ CREDIT_INCOME_RATIO")

# Ratio Annuit√© / Revenu
if "AMT_ANNUITY" in train_fe.columns and "AMT_INCOME_TOTAL" in train_fe.columns:
    train_fe["ANNUITY_INCOME_RATIO"] = train_fe["AMT_ANNUITY"] / (
        train_fe["AMT_INCOME_TOTAL"] + 1
    )
    test_fe["ANNUITY_INCOME_RATIO"] = test_fe["AMT_ANNUITY"] / (
        test_fe["AMT_INCOME_TOTAL"] + 1
    )
    new_features_count += 1
    print("  ‚úÖ ANNUITY_INCOME_RATIO")

# Ratio Prix du bien / Cr√©dit
if "AMT_GOODS_PRICE" in train_fe.columns and "AMT_CREDIT" in train_fe.columns:
    train_fe["GOODS_CREDIT_RATIO"] = train_fe["AMT_GOODS_PRICE"] / (
        train_fe["AMT_CREDIT"] + 1
    )
    test_fe["GOODS_CREDIT_RATIO"] = test_fe["AMT_GOODS_PRICE"] / (
        test_fe["AMT_CREDIT"] + 1
    )
    new_features_count += 1
    print("  ‚úÖ GOODS_CREDIT_RATIO")

# Ratio Cr√©dit / Prix du bien (acompte implicite)
if "AMT_CREDIT" in train_fe.columns and "AMT_GOODS_PRICE" in train_fe.columns:
    train_fe["CREDIT_GOODS_RATIO"] = train_fe["AMT_CREDIT"] / (
        train_fe["AMT_GOODS_PRICE"] + 1
    )
    test_fe["CREDIT_GOODS_RATIO"] = test_fe["AMT_CREDIT"] / (
        test_fe["AMT_GOODS_PRICE"] + 1
    )
    new_features_count += 1
    print("  ‚úÖ CREDIT_GOODS_RATIO")

# 2. FEATURES TEMPORELLES
print("\nüìÖ Cr√©ation des features temporelles...")

# √Çge en ann√©es
if "DAYS_BIRTH" in train_fe.columns:
    train_fe["AGE_YEARS"] = -train_fe["DAYS_BIRTH"] / 365
    test_fe["AGE_YEARS"] = -test_fe["DAYS_BIRTH"] / 365
    new_features_count += 1
    print("  ‚úÖ AGE_YEARS")

# Anciennet√© emploi en ann√©es
if "DAYS_EMPLOYED" in train_fe.columns:
    # Remplacer les valeurs aberrantes (365243 = valeur par d√©faut pour ch√¥meurs)
    train_fe["EMPLOYMENT_YEARS"] = train_fe["DAYS_EMPLOYED"].apply(
        lambda x: -x / 365 if x != 365243 else 0
    )
    test_fe["EMPLOYMENT_YEARS"] = test_fe["DAYS_EMPLOYED"].apply(
        lambda x: -x / 365 if x != 365243 else 0
    )
    new_features_count += 1
    print("  ‚úÖ EMPLOYMENT_YEARS")

# 3. SCORES EXTERNES AGR√âG√âS
print("\nüìä Cr√©ation des features de scores...")

# Moyenne des scores externes
ext_sources = ["EXT_SOURCE_1", "EXT_SOURCE_2", "EXT_SOURCE_3"]
if all(col in train_fe.columns for col in ext_sources):
    train_fe["EXT_SOURCE_MEAN"] = train_fe[ext_sources].mean(axis=1)
    test_fe["EXT_SOURCE_MEAN"] = test_fe[ext_sources].mean(axis=1)
    new_features_count += 1
    print("  ‚úÖ EXT_SOURCE_MEAN")

    # Produit des scores (interaction multiplicative)
    train_fe["EXT_SOURCE_PROD"] = (
        train_fe["EXT_SOURCE_1"] * train_fe["EXT_SOURCE_2"] * train_fe["EXT_SOURCE_3"]
    )
    test_fe["EXT_SOURCE_PROD"] = (
        test_fe["EXT_SOURCE_1"] * test_fe["EXT_SOURCE_2"] * test_fe["EXT_SOURCE_3"]
    )
    new_features_count += 1
    print("  ‚úÖ EXT_SOURCE_PROD")

# 4. FEATURES D√âMOGRAPHIQUES
print("\nüë• Cr√©ation des features d√©mographiques...")

# Ratio revenu / nombre de personnes du foyer
if "AMT_INCOME_TOTAL" in train_fe.columns and "CNT_FAM_MEMBERS" in train_fe.columns:
    train_fe["INCOME_PER_PERSON"] = train_fe["AMT_INCOME_TOTAL"] / (
        train_fe["CNT_FAM_MEMBERS"] + 1
    )
    test_fe["INCOME_PER_PERSON"] = test_fe["AMT_INCOME_TOTAL"] / (
        test_fe["CNT_FAM_MEMBERS"] + 1
    )
    new_features_count += 1
    print("  ‚úÖ INCOME_PER_PERSON")

# Ratio enfants / famille
if "CNT_CHILDREN" in train_fe.columns and "CNT_FAM_MEMBERS" in train_fe.columns:
    train_fe["CHILDREN_RATIO"] = train_fe["CNT_CHILDREN"] / (
        train_fe["CNT_FAM_MEMBERS"] + 1
    )
    test_fe["CHILDREN_RATIO"] = test_fe["CNT_CHILDREN"] / (
        test_fe["CNT_FAM_MEMBERS"] + 1
    )
    new_features_count += 1
    print("  ‚úÖ CHILDREN_RATIO")

# 5. FEATURES BUREAU (si pr√©sentes)
print("\nüè¶ Cr√©ation des features bureau...")

# Ratio dette bureau / revenu
if (
    "BUREAU_AMT_CREDIT_SUM_DEBT_SUM" in train_fe.columns
    and "AMT_INCOME_TOTAL" in train_fe.columns
):
    train_fe["BUREAU_DEBT_INCOME_RATIO"] = train_fe[
        "BUREAU_AMT_CREDIT_SUM_DEBT_SUM"
    ] / (train_fe["AMT_INCOME_TOTAL"] + 1)
    test_fe["BUREAU_DEBT_INCOME_RATIO"] = test_fe["BUREAU_AMT_CREDIT_SUM_DEBT_SUM"] / (
        test_fe["AMT_INCOME_TOTAL"] + 1
    )
    new_features_count += 1
    print("  ‚úÖ BUREAU_DEBT_INCOME_RATIO")

print(f"\n‚úÖ Total de nouvelles features cr√©√©es: {new_features_count}")
print(f"   Shape finale: {train_fe.shape}")

üîß Feature Engineering avanc√©...

üí∞ Cr√©ation des ratios financiers...
  ‚úÖ CREDIT_INCOME_RATIO
  ‚úÖ ANNUITY_INCOME_RATIO
  ‚úÖ GOODS_CREDIT_RATIO
  ‚úÖ CREDIT_GOODS_RATIO

üìÖ Cr√©ation des features temporelles...
  ‚úÖ AGE_YEARS
  ‚úÖ EMPLOYMENT_YEARS

üìä Cr√©ation des features de scores...
  ‚úÖ EXT_SOURCE_MEAN
  ‚úÖ EXT_SOURCE_PROD

üë• Cr√©ation des features d√©mographiques...
  ‚úÖ INCOME_PER_PERSON
  ‚úÖ CHILDREN_RATIO

üè¶ Cr√©ation des features bureau...
  ‚úÖ BUREAU_DEBT_INCOME_RATIO

‚úÖ Total de nouvelles features cr√©√©es: 11
   Shape finale: (307511, 421)


## 9. Gestion des Valeurs Infinies et Aberrantes


In [12]:
print("üîß Gestion des valeurs infinies et aberrantes...\n")

# Remplacer les valeurs infinies par NaN puis par 0
train_fe = train_fe.replace([np.inf, -np.inf], np.nan)
test_fe = test_fe.replace([np.inf, -np.inf], np.nan)

# Compter les NaN cr√©√©s
nan_train = train_fe.isnull().sum().sum()
nan_test = test_fe.isnull().sum().sum()

if nan_train > 0 or nan_test > 0:
    print(f"‚ö†Ô∏è Valeurs infinies d√©tect√©es:")
    print(f"   Train: {nan_train}")
    print(f"   Test: {nan_test}")

    # Remplir les NaN cr√©√©s avec 0
    train_fe = train_fe.fillna(0)
    test_fe = test_fe.fillna(0)
    print(f"   ‚úÖ Remplac√©es par 0")
else:
    print("‚úÖ Aucune valeur infinie d√©tect√©e")

# V√©rification finale
print(f"\nüìä V√©rification finale:")
print(f"   Train - NaN: {train_fe.isnull().sum().sum()}")
print(
    f"   Train - Inf: {np.isinf(train_fe.select_dtypes(include=[np.number])).sum().sum()}"
)
print(f"   Test - NaN: {test_fe.isnull().sum().sum()}")
print(
    f"   Test - Inf: {np.isinf(test_fe.select_dtypes(include=[np.number])).sum().sum()}"
)

üîß Gestion des valeurs infinies et aberrantes...

‚úÖ Aucune valeur infinie d√©tect√©e

üìä V√©rification finale:
   Train - NaN: 0
   Train - Inf: 0
   Test - NaN: 0
   Test - Inf: 0


## 10. Normalisation / Scaling

**Important:** On scale uniquement les features num√©riques, pas TARGET ni SK_ID_CURR


In [13]:
print("üîß Normalisation des features (StandardScaler)...\n")

# Identifier les colonnes √† scaler (toutes sauf ID et TARGET)
cols_to_scale = [col for col in train_fe.columns if col not in ["SK_ID_CURR", "TARGET"]]

# Initialiser le scaler
scaler = StandardScaler()

# Fit sur train, transform sur train et test
train_scaled = train_fe.copy()
test_scaled = test_fe.copy()

train_scaled[cols_to_scale] = scaler.fit_transform(train_fe[cols_to_scale])
test_scaled[cols_to_scale] = scaler.transform(test_fe[cols_to_scale])

print(f"‚úÖ Scaling appliqu√© sur {len(cols_to_scale)} colonnes")
print(f"   Mean apr√®s scaling (train): {train_scaled[cols_to_scale].mean().mean():.6f}")
print(f"   Std apr√®s scaling (train): {train_scaled[cols_to_scale].std().mean():.6f}")

üîß Normalisation des features (StandardScaler)...

‚úÖ Scaling appliqu√© sur 419 colonnes
   Mean apr√®s scaling (train): 0.000000
   Std apr√®s scaling (train): 1.000002


## 11. V√©rifications Finales


In [14]:
print("üìä V√âRIFICATIONS FINALES\n")
print("=" * 60)

# 1. Shapes
print(f"\n1Ô∏è‚É£ SHAPES")
print(f"   Train: {train_scaled.shape}")
print(f"   Test: {test_scaled.shape}")

# 2. Valeurs manquantes
print(f"\n2Ô∏è‚É£ VALEURS MANQUANTES")
print(f"   Train NaN: {train_scaled.isnull().sum().sum()}")
print(f"   Test NaN: {test_scaled.isnull().sum().sum()}")

# 3. Valeurs infinies
numeric_train = train_scaled.select_dtypes(include=[np.number])
numeric_test = test_scaled.select_dtypes(include=[np.number])
print(f"\n3Ô∏è‚É£ VALEURS INFINIES")
print(f"   Train Inf: {np.isinf(numeric_train).sum().sum()}")
print(f"   Test Inf: {np.isinf(numeric_test).sum().sum()}")

# 4. Colonnes communes
print(f"\n4Ô∏è‚É£ COLONNES")
print(f"   Train: {len(train_scaled.columns)}")
print(f"   Test: {len(test_scaled.columns)}")
diff_cols = set(train_scaled.columns) - set(test_scaled.columns)
if diff_cols:
    print(f"   ‚ö†Ô∏è Diff√©rence: {diff_cols}")
else:
    print(f"   ‚úÖ Colonnes align√©es")

# 5. Distribution TARGET
print(f"\n5Ô∏è‚É£ DISTRIBUTION TARGET (inchang√©e)")
if "TARGET" in train_scaled.columns:
    print(f"   {train_scaled['TARGET'].value_counts().to_dict()}")
    print(f"   Taux de d√©faut: {train_scaled['TARGET'].mean():.2%}")

print("\n" + "=" * 60)

üìä V√âRIFICATIONS FINALES


1Ô∏è‚É£ SHAPES
   Train: (307511, 421)
   Test: (48744, 421)

2Ô∏è‚É£ VALEURS MANQUANTES
   Train NaN: 0
   Test NaN: 0

3Ô∏è‚É£ VALEURS INFINIES
   Train Inf: 0
   Test Inf: 0

4Ô∏è‚É£ COLONNES
   Train: 421
   Test: 421
   ‚úÖ Colonnes align√©es

5Ô∏è‚É£ DISTRIBUTION TARGET (inchang√©e)
   {0: 282686, 1: 24825}
   Taux de d√©faut: 8.07%



## 12. Statistiques Descriptives Post-Preprocessing


In [15]:
# Statistiques sur quelques features importantes
important_features = [
    "AMT_CREDIT",
    "AMT_INCOME_TOTAL",
    "CREDIT_INCOME_RATIO",
    "AGE_YEARS",
    "EXT_SOURCE_MEAN",
    "BUREAU_DEBT_INCOME_RATIO",
]

# Filtrer les features qui existent
existing_features = [f for f in important_features if f in train_scaled.columns]

if existing_features:
    print("üìä Statistiques de quelques features importantes (apr√®s scaling):\n")
    print(train_scaled[existing_features].describe())
else:
    print("‚ÑπÔ∏è Aucune des features importantes n'est pr√©sente dans le dataset")

üìä Statistiques de quelques features importantes (apr√®s scaling):

         AMT_CREDIT  AMT_INCOME_TOTAL  CREDIT_INCOME_RATIO     AGE_YEARS  \
count  3.075110e+05      3.075110e+05         3.075110e+05  3.075110e+05   
mean  -4.545000e-17     -1.229253e-17         1.626680e-17 -1.061039e-16   
std    1.000002e+00      1.000002e+00         1.000002e+00  1.000002e+00   
min   -1.376496e+00     -6.036870e-01        -1.469585e+00 -1.958761e+00   
25%   -8.174760e-01     -2.374210e-01        -7.208551e-01 -8.304332e-01   
50%   -2.124151e-01     -9.129414e-02        -2.574625e-01 -6.576450e-02   
75%    5.208178e-01      1.421293e-01         4.470103e-01  8.352476e-01   
max    8.574059e+00      4.927034e+02         3.003169e+01  2.106335e+00   

       EXT_SOURCE_MEAN  BUREAU_DEBT_INCOME_RATIO  
count     3.075110e+05              3.075110e+05  
mean      9.068743e-16              1.330920e-17  
std       1.000002e+00              1.000002e+00  
min      -4.512323e+00             -2.461

## 13. Nettoyage des Noms de Colonnes (Compatibilit√© LightGBM)


In [16]:
print("üîß Nettoyage des noms de colonnes...")


def clean_column_names(df):
    """
    Nettoie les noms de colonnes pour la compatibilit√© avec LightGBM.
    Remplace les caract√®res non-alphanum√©riques par des underscores.
    """
    cleaned_columns = []
    for col in df.columns:
        # Remplacer tous les caract√®res non-alphanum√©riques par underscore
        clean_col = "".join(c if c.isalnum() else "_" for c in col)
        # Supprimer les underscores multiples cons√©cutifs
        clean_col = "_".join(filter(None, clean_col.split("_")))
        cleaned_columns.append(clean_col)

    return cleaned_columns


# Appliquer le nettoyage
train_scaled.columns = clean_column_names(train_scaled)
test_scaled.columns = clean_column_names(test_scaled)

print(f"‚úÖ Noms de colonnes nettoy√©s")
print(f"   Exemple: {list(train_scaled.columns[:3])}")

üîß Nettoyage des noms de colonnes...
‚úÖ Noms de colonnes nettoy√©s
   Exemple: ['SK_ID_CURR', 'TARGET', 'CNT_CHILDREN']


## 14. Sauvegarde des Datasets Preprocessed


In [17]:
# Chemins de sauvegarde
output_path = Path("../data")

print("üíæ Sauvegarde des datasets preprocessed...\n")

# Sauvegarder les datasets
train_scaled.to_csv(output_path / "train_preprocessed.csv", index=False)
test_scaled.to_csv(output_path / "test_preprocessed.csv", index=False)

print("‚úÖ Datasets sauvegard√©s:")
print(f"   - train_preprocessed.csv: {train_scaled.shape}")
print(f"   - test_preprocessed.csv: {test_scaled.shape}")

# Sauvegarder aussi le scaler pour pouvoir l'utiliser en production
import joblib

scaler_path = output_path / "scaler.pkl"
joblib.dump(scaler, scaler_path)
print(f"   - scaler.pkl sauvegard√©")

print("\nüéâ Preprocessing termin√© avec succ√®s !")

üíæ Sauvegarde des datasets preprocessed...

‚úÖ Datasets sauvegard√©s:
   - train_preprocessed.csv: (307511, 421)
   - test_preprocessed.csv: (48744, 421)
   - scaler.pkl sauvegard√©

üéâ Preprocessing termin√© avec succ√®s !


# üìã R√âSUM√â D√âTAILL√â - Notebook 2 : Preprocessing & Feature Engineering

## üéØ **OBJECTIF GLOBAL DU NOTEBOOK**

Transformer les donn√©es **agr√©g√©es mais brutes** (avec NaN, variables cat√©gorielles, √©chelles diff√©rentes) en donn√©es **propres et optimis√©es** pour l'entra√Ænement de mod√®les de Machine Learning, tout en **cr√©ant de nouvelles features pertinentes** qui capturent mieux les patterns m√©tier.

**Entr√©e :** `train_aggregated.csv` (307,511 √ó 305, avec 250 colonnes ayant des NaN)
**Sortie :** `train_preprocessed.csv` (307,511 √ó ~260, 0 NaN, tout scal√©, +15 features cr√©√©es)

---

## üìä **PARTIE 1 : CHARGEMENT & DIAGNOSTIC INITIAL**

### **1.1 Chargement des Donn√©es Agr√©g√©es**

**Fichiers Charg√©s :**

```
train_aggregated.csv : (307,511 √ó 305)
test_aggregated.csv : (48,744 √ó 304)
```

**S√©paration Imm√©diate :**

```python
y_train = train['TARGET']  # Variable cible √† pr√©dire
train_ids = train['SK_ID_CURR']  # Identifiants clients
test_ids = test['SK_ID_CURR']
```

**Pourquoi S√©parer Imm√©diatement ?**

- `TARGET` ne doit **jamais** √™tre transform√©e (scaling, encoding, etc.)
- `SK_ID_CURR` est juste un identifiant, pas une feature pr√©dictive
- On les garde de c√¥t√© et on les r√©int√®gre √† la fin

### **1.2 Analyse Pr√©liminaire des NaN**

**Fonction `analyze_missing()` :**

Cette fonction classe les colonnes par % de NaN :

| Cat√©gorie  | % NaN  | Nombre de Colonnes | Strat√©gie Pr√©vue                      |
| ---------- | ------ | ------------------ | ------------------------------------- |
| Tr√®s √©lev√© | >80%   | ~50 colonnes       | **Supprimer** (peu informatif)        |
| √âlev√©      | 50-80% | ~80 colonnes       | **Imputer** avec strat√©gie sp√©cifique |
| Mod√©r√©     | 30-50% | ~60 colonnes       | **Imputer** avec m√©diane/0            |
| Faible     | <30%   | ~60 colonnes       | **Imputer** avec m√©diane              |

**Insight Cl√© :**

```
250 colonnes sur 305 contiennent des NaN (82%)
```

**C'est Normal !** Rappel : les NaN viennent de l'absence d'historique (bureau, previous_app, etc.)

---

## üèóÔ∏è **PARTIE 2 : STRAT√âGIE "HAS_HISTORY" - LA CL√â DU PREPROCESSING**

### **2.1 Philosophie : L'Absence est Une Information**

**Probl√®me √† R√©soudre :**

Imagine deux clients :

```
Client A :
- BUREAU_AMT_CREDIT_SUM_MEAN = NaN (apr√®s imputation ‚Üí 0)
- Interpr√©tation : Aucun cr√©dit bureau

Client B :
- BUREAU_AMT_CREDIT_SUM_MEAN = 0‚Ç¨ (vraie moyenne)
- Interpr√©tation : A des cr√©dits bureau, mais montant moyen = 0‚Ç¨
```

**Apr√®s imputation classique, A et B sont identiques ‚Üí PERTE D'INFORMATION !**

### **2.2 Solution : Features "Has_History"**

**Strat√©gie :**

1. **AVANT** de remplir les NaN, on cr√©e des indicateurs binaires
2. Ces indicateurs capturent l'**existence ou absence** d'historique
3. **PUIS** on remplit les NaN

**5 Features Cr√©√©es :**

| Feature Cr√©√©e      | Colonne de R√©f√©rence               | Signification                              |
| ------------------ | ---------------------------------- | ------------------------------------------ |
| `HAS_BUREAU`       | `BUREAU_SK_ID_BUREAU_COUNT`        | 1 = a des cr√©dits bureau, 0 = aucun        |
| `HAS_PREV_APP`     | `PREV_AMT_ANNUITY_MEAN`            | 1 = a des demandes pr√©c√©dentes, 0 = aucune |
| `HAS_CREDIT_CARD`  | `CC_AMT_PAYMENT_CURRENT_MEAN_MEAN` | 1 = a eu une carte de cr√©dit, 0 = jamais   |
| `HAS_POS_CASH`     | `POS_MONTHS_BALANCE_MIN_MEAN`      | 1 = a eu cr√©dit point de vente, 0 = jamais |
| `HAS_INSTALLMENTS` | `INSTAL_PAYMENT_DIFF_MEAN_MEAN`    | 1 = a historique paiements, 0 = aucun      |

**Exemple Concret :**

```python
# Avant imputation
train['BUREAU_AMT_CREDIT_SUM_MEAN'] = [10000, NaN, 5000]

# On cr√©e HAS_BUREAU
train['HAS_BUREAU'] = [1, 0, 1]  # 1 si pas NaN, 0 si NaN

# Puis imputation
train['BUREAU_AMT_CREDIT_SUM_MEAN'] = [10000, 0, 5000]

# Maintenant on peut distinguer :
# Ligne 2 : HAS_BUREAU=0, AMT=0 ‚Üí vraiment AUCUN cr√©dit bureau
# Ligne 3 : HAS_BUREAU=1, AMT=5000 ‚Üí A des cr√©dits, moyenne 5000‚Ç¨
```

### **2.3 Impact M√©tier**

**HAS_BUREAU = 0** peut indiquer :

- Nouveau dans le syst√®me bancaire ‚Üí **Plus risqu√©** (pas d'historique de remboursement)
- Tr√®s jeune ‚Üí **Plus risqu√©**
- Jamais emprunt√© ‚Üí **Plus prudent** ou **Plus risqu√©** selon contexte

**HAS_BUREAU = 1** indique :

- Exp√©rience bancaire ‚Üí **Moins risqu√©** si bon historique
- **Plus risqu√©** si mauvais historique (captur√© par d'autres features)

**R√©sultat Attendu :**

```
HAS_BUREAU: 99.4% des clients ont un historique bureau
HAS_PREV_APP: 60.2% ont des demandes pr√©c√©dentes
HAS_CREDIT_CARD: 17.2% ont eu une carte
```

---

## üóëÔ∏è **PARTIE 3 : SUPPRESSION DES COLONNES PEU INFORMATIVES**

### **3.1 Strat√©gie de Seuil : 80%**

**R√®gle de D√©cision :**

```
SI colonne a >80% de NaN
ALORS supprimer
SINON garder
```

**Pourquoi 80% ?**

**L'analogie du sondage :**

- Tu fais un sondage sur 100 personnes
- Une question n'a que 20 r√©ponses (80% ne r√©pondent pas)
- Cette question apporte **tr√®s peu** d'information

**En ML, c'est pareil :**

- Une feature avec 80% de NaN n'a que 20% de valeurs r√©elles
- Trop peu pour apprendre un pattern robuste
- Risque d'**overfitting** sur ces 20%

### **3.2 Colonnes Prot√©g√©es**

```python
if col in ['SK_ID_CURR', 'TARGET']:
    continue  # Ne JAMAIS supprimer ces colonnes !
```

**Pourquoi ?**

- `SK_ID_CURR` : identifiant n√©cessaire pour la soumission Kaggle
- `TARGET` : la variable √† pr√©dire !

### **3.3 R√©sultats Attendus**

```
Avant: 305 colonnes
Colonnes √† supprimer: ~45-50 colonnes
Apr√®s: ~255-260 colonnes

Exemples de colonnes supprim√©es:
- CC_AMT_PAYMENT_CURRENT_MEAN: 82.82% NaN
- CC_AMT_DRAWINGS_ATM_CURRENT: 82.79% NaN
- COMMONAREA_MEDI: 69.87% NaN (gard√©e car <80%)
```

---

## üî¢ **PARTIE 4 : S√âPARATION DES TYPES DE COLONNES**

### **4.1 Classification des Colonnes**

**4 Cat√©gories :**

| Type              | Exemples                            | Nombre | Traitement                 |
| ----------------- | ----------------------------------- | ------ | -------------------------- |
| **ID**            | `SK_ID_CURR`                        | 1      | Aucun (juste conservation) |
| **Target**        | `TARGET`                            | 1      | Aucun (√† pr√©dire)          |
| **Cat√©gorielles** | `NAME_CONTRACT_TYPE`, `CODE_GENDER` | ~15    | One-Hot Encoding           |
| **Num√©riques**    | `AMT_CREDIT`, `DAYS_BIRTH`          | ~240   | Imputation + Scaling       |

### **4.2 Identification Automatique**

```python
# Cat√©gorielles : type 'object' (texte)
categorical_cols = train.select_dtypes(include=['object']).columns

# Num√©riques : types num√©riques
numeric_cols = train.select_dtypes(include=[np.number]).columns
```

**Pourquoi Automatique ?**

Apr√®s l'agr√©gation du Notebook 1, on ne sait pas exactement quelles colonnes cat√©gorielles restent. Cette m√©thode s'adapte automatiquement.

### **4.3 Analyse des Cat√©gorielles**

Pour chaque colonne cat√©gorielle, on affiche :

```
NAME_CONTRACT_TYPE: 2 valeurs uniques
CODE_GENDER: 3 valeurs uniques
FLAG_OWN_CAR: 2 valeurs uniques
```

**Pourquoi Important ?**

Si une colonne a **trop** de valeurs uniques (>50), le One-Hot Encoding cr√©era trop de colonnes ‚Üí on pourrait envisager du Label Encoding ou Target Encoding √† la place.

---

## üîÑ **PARTIE 5 : ENCODAGE DES VARIABLES CAT√âGORIELLES**

### **5.1 Technique : One-Hot Encoding**

**Transformation :**

```
Avant (cat√©gorielle):
NAME_CONTRACT_TYPE
['Cash loans', 'Revolving loans', 'Cash loans', 'Cash loans']

Apr√®s (num√©riques):
NAME_CONTRACT_TYPE_Cash_loans | NAME_CONTRACT_TYPE_Revolving_loans
[1, 0, 1, 1]                  | [0, 1, 0, 0]
```

### **5.2 Param√®tre Crucial : `drop_first=True`**

**Sans `drop_first` :**

```
Cash_loans | Revolving_loans
1          | 0
0          | 1
```

**Probl√®me :** Si `Cash_loans=0`, alors **forc√©ment** `Revolving_loans=1` ‚Üí **multicolin√©arit√© parfaite** !

**Avec `drop_first=True` :**

```
Cash_loans
1  ‚Üí Cash loans
0  ‚Üí Revolving loans (implicite)
```

Une seule colonne suffit pour encoder 2 valeurs !

### **5.3 Alignement Train-Test**

**Probl√®me Potentiel :**

```
Train :
CODE_GENDER = ['M', 'F', 'XNA']
‚Üí CODE_GENDER_F, CODE_GENDER_XNA

Test :
CODE_GENDER = ['M', 'F']  # Pas de 'XNA' !
‚Üí CODE_GENDER_F  # Manque CODE_GENDER_XNA !
```

**Solution : `align()` :**

```python
train_encoded, test_encoded = train_encoded.align(
    test_encoded,
    join='left',  # Garder toutes les colonnes de train
    axis=1,       # Sur les colonnes
    fill_value=0  # Remplir les colonnes manquantes avec 0
)
```

**R√©sultat :**
Train et Test ont **exactement** les m√™mes colonnes, dans le m√™me ordre.

### **5.4 Impact sur le Nombre de Colonnes**

```
Avant encodage: ~255 colonnes
Colonnes cat√©gorielles: 15
Valeurs uniques totales: ~30

Apr√®s encodage:
Colonnes supprim√©es: 15 (les cat√©gorielles originales)
Colonnes ajout√©es: ~25 (one-hot encod√©es, avec drop_first)

Total: ~255 - 15 + 25 = ~265 colonnes
```

---

## üîß **PARTIE 6 : IMPUTATION STRAT√âGIQUE DES VALEURS MANQUANTES**

### **6.1 Philosophie G√©n√©rale**

**Principe :** Toutes les NaN ne se valent pas ‚Üí on adapte la strat√©gie d'imputation au **type s√©mantique** de la colonne.

### **6.2 Les 5 Strat√©gies d'Imputation**

#### **Strat√©gie 1 : Colonnes de Montants ‚Üí 0**

**Colonnes Concern√©es :**

```
Contiennent : 'AMT', 'SUM', 'CREDIT', 'PAYMENT', 'BALANCE', 'GOODS', 'PRICE'
Exemples : AMT_CREDIT, BUREAU_AMT_CREDIT_SUM_MEAN, CC_AMT_PAYMENT_CURRENT
```

**Logique :**

```
NaN dans un montant = pas de cr√©dit/paiement = 0‚Ç¨

Exemple :
BUREAU_AMT_CREDIT_SUM_MEAN = NaN
‚Üí Le client n'a AUCUN cr√©dit bureau
‚Üí Montant total = 0‚Ç¨ (pas 10,000‚Ç¨ de moyenne par exemple)
```

**Code :**

```python
train[amount_cols] = train[amount_cols].fillna(0)
```

#### **Strat√©gie 2 : Colonnes de Comptage ‚Üí 0**

**Colonnes Concern√©es :**

```
Contiennent : 'COUNT', 'CNT', 'NUMBER', 'NUM'
Exemples : BUREAU_SK_ID_BUREAU_COUNT, CNT_CHILDREN
```

**Logique :**

```
NaN dans un comptage = 0 occurrence

Exemple :
BUREAU_SK_ID_BUREAU_COUNT = NaN
‚Üí Le client a 0 cr√©dit bureau (pas 5 cr√©dits)
```

#### **Strat√©gie 3 : Colonnes de Dates ‚Üí -999**

**Colonnes Concern√©es :**

```
Contiennent : 'DAYS'
Exemples : DAYS_BIRTH, DAYS_EMPLOYED, BUREAU_DAYS_CREDIT_MIN
```

**Logique :**

```
NaN dans une date = information non disponible
‚Üí Valeur sentinelle reconnaissable : -999

Pourquoi pas 0 ?
0 pourrait signifier "aujourd'hui", ce qui a un sens !
-999 est clairement une valeur "sp√©ciale"
```

**Avantages :**

- Les mod√®les tree-based (Random Forest, XGBoost) peuvent cr√©er des splits sur -999
- Les mod√®les lin√©aires voient -999 comme "tr√®s ancien" ‚Üí peut capturer le pattern

#### **Strat√©gie 4 : Colonnes de Moyennes/Ratios ‚Üí M√©diane**

**Colonnes Concern√©es :**

```
Contiennent : 'MEAN', 'AVG', 'MEDIAN', 'MEDI', 'MODE'
Exemples : PREV_AMT_ANNUITY_MEAN, EXT_SOURCE_2
```

**Logique :**

```
NaN dans une moyenne = valeur inconnue
‚Üí On impute avec la m√©diane de la distribution

Pourquoi m√©diane et pas moyenne ?
La m√©diane est ROBUSTE AUX OUTLIERS
```

**Exemple Concret :**

```
Distribution de EXT_SOURCE_2:
[0.1, 0.2, 0.3, 0.4, 0.5, 0.9, 0.9, 0.9, NaN, NaN]

Moyenne = 0.47
M√©diane = 0.45

Si un client a NaN, on remplit avec 0.45
```

**Pourquoi la M√©diane ?**

```
Revenus annuels (en K‚Ç¨):
[20, 25, 30, 35, 40, 500]  ‚Üê 500 est un outlier (CEO)

Moyenne = 108.3K‚Ç¨ (biais√©e par l'outlier !)
M√©diane = 32.5K‚Ç¨ (robuste, repr√©sente le "client typique")
```

#### **Strat√©gie 5 : Autres Colonnes ‚Üí M√©diane**

**Colonnes Concern√©es :**
Tout ce qui n'entre pas dans les 4 cat√©gories pr√©c√©dentes.

**Logique :**
Strat√©gie par d√©faut conservatrice.

### **6.3 Ordre d'Application**

**Tr√®s Important : L'ordre compte !**

```python
# 1. Montants ‚Üí 0
# 2. Comptages ‚Üí 0  (√©viter doublons avec montants)
# 3. Dates ‚Üí -999
# 4. Moyennes ‚Üí m√©diane  (√©viter doublons avec montants/comptages/dates)
# 5. Autres ‚Üí m√©diane  (tout le reste)
```

**Pourquoi ?**

Une colonne comme `BUREAU_AMT_CREDIT_SUM_MEAN` contient √† la fois "AMT" et "MEAN".

**Sans ordre strict :**

```
1. Cat√©gorie AMT ‚Üí rempli avec 0
2. Cat√©gorie MEAN ‚Üí rempli avec m√©diane  ‚Üê CONFLIT !
```

**Avec ordre strict :**

```
1. On cat√©gorise d'abord par AMT ‚Üí rempli avec 0
2. MEAN ne traite que les colonnes non d√©j√† trait√©es
```

### **6.4 V√©rification Post-Imputation**

```python
print(f"Train - NaN restants: {train.isnull().sum().sum()}")
print(f"Test - NaN restants: {test.isnull().sum().sum()}")
```

**R√©sultat Attendu : 0 NaN partout !**

---

## üöÄ **PARTIE 7 : FEATURE ENGINEERING AVANC√â**

### **7.1 Philosophie : Aider le Mod√®le √† Voir les Patterns**

**Probl√®me :**

Les mod√®les ML (surtout lin√©aires) ont du mal √† capturer :

- **Relations non-lin√©aires** (ratios, produits)
- **Interactions complexes** (effet combin√© de 2+ features)
- **Patterns m√©tier** (r√®gles du domaine)

**Solution :**

On cr√©e **explicitement** des features qui capturent ces patterns.

### **7.2 Cat√©gorie 1 : Ratios Financiers (4 features)**

#### **Feature 1 : `CREDIT_INCOME_RATIO`**

**Formule :**

```python
CREDIT_INCOME_RATIO = AMT_CREDIT / (AMT_INCOME_TOTAL + 1)
```

**Signification M√©tier :**

```
Ratio < 3 : Cr√©dit raisonnable (ex: 3 ans de salaire pour une voiture)
Ratio 3-5 : Cr√©dit important (ex: 5 ans pour une maison)
Ratio > 5 : Tr√®s endett√© ! (ex: 7 ans de salaire)
```

**Exemple :**

```
Client A: Cr√©dit 100K, Revenu 20K ‚Üí ratio = 5
Client B: Cr√©dit 50K, Revenu 100K ‚Üí ratio = 0.5

Sans cette feature, le mod√®le voit juste des nombres.
Avec, il voit clairement que A est 10x plus endett√© relativement !
```

**Pourquoi "+1" au d√©nominateur ?**

Pour √©viter la division par 0 si `AMT_INCOME_TOTAL = 0` (ce qui devrait √™tre rare mais possible apr√®s imputation).

#### **Feature 2 : `ANNUITY_INCOME_RATIO`**

**Formule :**

```python
ANNUITY_INCOME_RATIO = AMT_ANNUITY / (AMT_INCOME_TOTAL + 1)
```

**Signification M√©tier :**

```
Ratio < 0.2 : Mensualit√© confortable (20% du revenu)
Ratio 0.2-0.3 : Mensualit√© √©lev√©e (20-30% du revenu)
Ratio > 0.3 : Mensualit√© tr√®s √©lev√©e (>30% du revenu) ‚Üí risque !
```

**R√®gle Bancaire Classique :**

La plupart des banques refusent si le ratio d√©passe 33% (r√®gle du "tiers").

#### **Feature 3 : `GOODS_CREDIT_RATIO`**

**Formule :**

```python
GOODS_CREDIT_RATIO = AMT_GOODS_PRICE / (AMT_CREDIT + 1)
```

**Signification M√©tier :**

```
Ratio ‚âà 1 : Cr√©dit = Prix du bien (pas d'acompte)
Ratio < 1 : Cr√©dit < Prix (acompte important) ‚Üí bon signe !
Ratio > 1 : Prix > Cr√©dit (impossible normalement)
```

**Exemple :**

```
Bien √† 50K‚Ç¨, Cr√©dit de 40K‚Ç¨
‚Üí Ratio = 50/40 = 1.25
‚Üí Acompte de 10K‚Ç¨ (20%) ‚Üí client s√©rieux !
```

#### **Feature 4 : `CREDIT_GOODS_RATIO`**

**Formule :**

```python
CREDIT_GOODS_RATIO = AMT_CREDIT / (AMT_GOODS_PRICE + 1)
```

**Signification M√©tier :**

```
Ratio ‚âà 1 : Cr√©dit = Prix (normal)
Ratio > 1 : Cr√©dit > Prix ‚Üí le client finance PLUS que le bien !
           ‚Üí Peut inclure frais, assurances, ou RED FLAG
```

### **7.3 Cat√©gorie 2 : Features Temporelles (2 features)**

#### **Feature 5 : `AGE_YEARS`**

**Formule :**

```python
AGE_YEARS = -DAYS_BIRTH / 365
```

**Pourquoi ?**

Les jours sont contre-intuitifs :

```
DAYS_BIRTH = -18250 ‚Üí √¢ge ???
AGE_YEARS = 50 ‚Üí clair !
```

**Pattern Attendu :**

```
√Çge 18-25 : Jeunes, plus risqu√©s (peu d'historique)
√Çge 25-40 : Moins risqu√©s (stabilit√©)
√Çge 40-60 : Tr√®s fiables (carri√®re √©tablie)
√Çge >60 : Risque mod√©r√© (retraite, revenu fixe)
```

#### **Feature 6 : `EMPLOYMENT_YEARS`**

**Formule :**

```python
EMPLOYMENT_YEARS = -DAYS_EMPLOYED / 365 if DAYS_EMPLOYED != 365243 else 0
```

**Gestion Sp√©ciale : 365243**

```
DAYS_EMPLOYED = 365243 est une valeur PAR D√âFAUT
‚Üí Signifie "ch√¥meur" ou "pas d'emploi d√©clar√©"
‚Üí On transforme en 0 ans d'emploi
```

**Pattern Attendu :**

```
0 ans (ch√¥meur) : Tr√®s risqu√©
<2 ans : Risqu√© (emploi instable)
2-10 ans : Stable, bon signe
>10 ans : Tr√®s stable, excellent signe
```

### **7.4 Cat√©gorie 3 : Scores Externes Agr√©g√©s (2 features)**

#### **Feature 7 : `EXT_SOURCE_MEAN`**

**Formule :**

```python
EXT_SOURCE_MEAN = (EXT_SOURCE_1 + EXT_SOURCE_2 + EXT_SOURCE_3) / 3
```

**Pourquoi ?**

Les 3 scores externes sont **les features les plus pr√©dictives** du dataset !

En cr√©ant leur moyenne, on capture un "score global" robuste.

#### **Feature 8 : `EXT_SOURCE_PROD`**

**Formule :**

```python
EXT_SOURCE_PROD = EXT_SOURCE_1 √ó EXT_SOURCE_2 √ó EXT_SOURCE_3
```

**Pourquoi le Produit ?**

**Interaction Multiplicative :**

```
Client A: [0.8, 0.8, 0.8]
Moyenne = 0.8
Produit = 0.512

Client B: [0.9, 0.9, 0.5]  ‚Üê Un score faible !
Moyenne = 0.77 (presque pareil)
Produit = 0.405 (beaucoup plus faible !)
```

Le produit **p√©nalise** les clients avec UN score faible, m√™me si les autres sont bons.

### **7.5 Cat√©gorie 4 : Features D√©mographiques (2 features)**

#### **Feature 9 : `INCOME_PER_PERSON`**

**Formule :**

```python
INCOME_PER_PERSON = AMT_INCOME_TOTAL / (CNT_FAM_MEMBERS + 1)
```

**Signification M√©tier :**

```
Famille de 4, Revenu 40K ‚Üí 10K/personne ‚Üí serr√©
C√©libataire, Revenu 40K ‚Üí 40K/personne ‚Üí confortable
```

**Capture le niveau de vie r√©el, pas juste le revenu brut.**

#### **Feature 10 : `CHILDREN_RATIO`**

**Formule :**

```python
CHILDREN_RATIO = CNT_CHILDREN / (CNT_FAM_MEMBERS + 1)
```

**Signification M√©tier :**

```
Ratio = 0 : Pas d'enfants ‚Üí moins de charges
Ratio = 0.5 : Moiti√© enfants ‚Üí charges mod√©r√©es
Ratio = 0.8 : Beaucoup d'enfants ‚Üí charges √©lev√©es
```

### **7.6 Cat√©gorie 5 : Features Bureau (1 feature)**

#### **Feature 11 : `BUREAU_DEBT_INCOME_RATIO`**

**Formule :**

```python
BUREAU_DEBT_INCOME_RATIO = BUREAU_AMT_CREDIT_SUM_DEBT_SUM / (AMT_INCOME_TOTAL + 1)
```

**Signification M√©tier :**

```
Ratio < 1 : Dette < 1 an de salaire ‚Üí g√©rable
Ratio 1-3 : Dette mod√©r√©e
Ratio > 3 : Tr√®s endett√© dans d'autres banques ‚Üí RISQUE !
```

### **7.7 R√©sum√© Feature Engineering**

**Total : 10-15 Nouvelles Features**

| Type              | Nombre | Exemples                                  |
| ----------------- | ------ | ----------------------------------------- |
| Ratios financiers | 4      | CREDIT_INCOME_RATIO, ANNUITY_INCOME_RATIO |
| Temporelles       | 2      | AGE_YEARS, EMPLOYMENT_YEARS               |
| Scores agr√©g√©s    | 2      | EXT_SOURCE_MEAN, EXT_SOURCE_PROD          |
| D√©mographiques    | 2      | INCOME_PER_PERSON, CHILDREN_RATIO         |
| Bureau            | 1      | BUREAU_DEBT_INCOME_RATIO                  |

**Impact Attendu :**

Ces features capturent des **patterns m√©tier** que le mod√®le aurait du mal √† d√©couvrir seul ‚Üí am√©lioration des performances !

---

## üîí **PARTIE 8 : GESTION DES VALEURS INFINIES**

### **8.1 Origine des Valeurs Infinies**

**Probl√®me :**

M√™me avec "+1" dans les d√©nominateurs, des valeurs infinies peuvent appara√Ætre :

```python
# Si AMT_INCOME_TOTAL = -1 apr√®s imputation (rare mais possible)
ratio = AMT_CREDIT / (AMT_INCOME_TOTAL + 1)
ratio = 10000 / 0 = inf !
```

### **8.2 Strat√©gie de Correction**

**√âtape 1 : Remplacer inf par NaN**

```python
train = train.replace([np.inf, -np.inf], np.nan)
```

**√âtape 2 : Remplir les NaN cr√©√©s avec 0**

```python
train = train.fillna(0)
```

**Pourquoi 0 ?**

Une valeur infinie dans un ratio indique g√©n√©ralement un probl√®me de donn√©es ‚Üí on met une valeur neutre.

### **8.3 V√©rification**

```python
np.isinf(train.select_dtypes(include=[np.number])).sum().sum()
# R√©sultat attendu : 0
```

---

## üìè **PARTIE 9 : NORMALISATION (STANDARDSCALER)**

### **9.1 Pourquoi Normaliser ?**

**Probl√®me : √âchelles Tr√®s Diff√©rentes**

```
AMT_CREDIT : [10,000 - 500,000]  ‚Üí √©chelle ~100,000
AGE_YEARS : [20 - 70]            ‚Üí √©chelle ~50
EXT_SOURCE_2 : [0 - 1]           ‚Üí √©chelle 1
```

**Impact sur les Mod√®les :**

#### **Mod√®les Sensibles (n√©cessitent scaling) :**

- **R√©gression Logistique** : les gros coefficients dominent
- **SVM** : calcul de distances biais√©
- **R√©seaux de Neurones** : convergence difficile
- **K-NN** : distances fauss√©es

#### **Mod√®les Insensibles (peuvent fonctionner sans) :**

- **Random Forest** : split sur seuils, pas de calcul de distance
- **XGBoost / LightGBM** : idem
- **Decision Trees** : idem

**Mais :** M√™me pour les tree-based, le scaling peut **acc√©l√©rer** la convergence et am√©liorer l√©g√®rement les performances.

### **9.2 Technique : StandardScaler**

**Formule :**

```
scaled_value = (value - mean) / std
```

**R√©sultat :**

```
Moyenne (¬µ) = 0
√âcart-type (œÉ) = 1
```

**Exemple :**

```
AMT_CREDIT original : [10K, 50K, 100K]
Moyenne = 53.3K
Std = 36.9K

AMT_CREDIT scaled :
(10K - 53.3K) / 36.9K = -1.17
(50K - 53.3K) / 36.9K = -0.09
(100K - 53.3K) / 36.9K = 1.27

‚Üí Distribution centr√©e sur 0, dispers√©e autour de ¬±1
```

### **9.3 Colonnes √† Scaler**

```python
cols_to_scale = [col for col in train.columns if col not in ['SK_ID_CURR', 'TARGET']]
```

**Ne JAMAIS scaler :**

- `SK_ID_CURR` : identifiant, pas une feature
- `TARGET` : variable √† pr√©dire, doit rester en 0/1

### **9.4 Fit vs Transform : CRUCIAL pour √âviter le Data Leakage**

**Processus Correct :**

```python
# 1. Fit sur TRAIN uniquement
scaler.fit(train[cols_to_scale])

# 2. Transform train
train_scaled = scaler.transform(train[cols_to_scale])

# 3. Transform test (avec les param√®tres du train !)
test_scaled = scaler.transform(test[cols_to_scale])
```

**Pourquoi Fit Uniquement sur Train ?**

**Mauvaise Approche (Data Leakage) :**

```python
# FIT sur train + test combin√©s
all_data = pd.concat([train, test])
scaler.fit(all_data)  # ‚ùå ERREUR !

# Les statistiques (mean, std) incluent le test
# ‚Üí Information du test "fuit" dans le train
# ‚Üí R√©sultats optimistes mais invalides en production
```

**Bonne Approche :**

```python
# FIT uniquement sur train
scaler.fit(train)

# TRANSFORM train et test
# Test utilise les param√®tres calcul√©s sur train uniquement
```

**Analogie :**

C'est comme un examen :

- ‚ùå **Mauvais :** Tu r√©vises avec le sujet de l'examen inclus
- ‚úÖ **Bon :** Tu r√©vises sans conna√Ætre le sujet exact

### **9.5 Sauvegarde du Scaler**

```python
import joblib
joblib.dump(scaler, 'scaler.pkl')
```

**Pourquoi Sauvegarder ?**

**En production, les nouvelles donn√©es devront √™tre scal√©es EXACTEMENT pareil :**

```python
# En production
new_client = pd.DataFrame([...])

# Charger le scaler entra√Æn√©
scaler = joblib.load('scaler.pkl')

# Appliquer LA M√äME transformation
new_client_scaled = scaler.transform(new_client)

# Pr√©dire
prediction = model.predict(new_client_scaled)
```

Si on ne sauvegarde pas le scaler, on devra le recalculer ‚Üí les param√®tres seront diff√©rents ‚Üí pr√©dictions fausses !

---

## ‚úÖ **PARTIE 10 : V√âRIFICATIONS FINALES**

### **10.1 Checklist Compl√®te**

| V√©rification              | Attendu        | Critique     |
| ------------------------- | -------------- | ------------ |
| **NaN train**             | 0              | ‚úÖ CRITIQUE  |
| **NaN test**              | 0              | ‚úÖ CRITIQUE  |
| **Inf train**             | 0              | ‚úÖ CRITIQUE  |
| **Inf test**              | 0              | ‚úÖ CRITIQUE  |
| **Mean scaled**           | ‚âà 0            | ‚ö†Ô∏è Important |
| **Std scaled**            | ‚âà 1            | ‚ö†Ô∏è Important |
| **Colonnes train = test** | Oui            | ‚úÖ CRITIQUE  |
| **TARGET inchang√©e**      | 0/1 uniquement | ‚úÖ CRITIQUE  |

### **10.2 V√©rification des Distributions**

**Avant Scaling :**

```
AMT_CREDIT : mean = 53,333, std = 36,987
AGE_YEARS : mean = 43.6, std = 11.3
```

**Apr√®s Scaling :**

```
AMT_CREDIT_scaled : mean ‚âà 0.000001, std ‚âà 1.000
AGE_YEARS_scaled : mean ‚âà 0.000002, std ‚âà 1.000
```

**Si mean pas exactement 0 :** C'est normal (erreurs d'arrondi flottant), tant que c'est proche de 0.

---

## üíæ **PARTIE 11 : SAUVEGARDE & OUTPUTS**

Une partie suppl√©mentaire a √©t√© rajout√©e pour clean le nom des colonnes du dataset.

### üîç Le Probl√®me

LightGBMError: Do not support special JSON characters in feature name.
LightGBM est TR√àS strict sur les noms de colonnes. Il refuse :

Espaces : NAME_CONTRACT_TYPE_Cash loans ‚ùå
Apostrophes : NAME_TYPE_SUITE_Unaccompanied ‚ùå
Caract√®res sp√©ciaux : [, ], {, }, :, , ‚ùå

Ces noms proviennent du One-Hot Encoding du Notebook 2 qui a cr√©√© des colonnes comme :

NAME_CONTRACT_TYPE_Cash loans (espace!)
Autres colonnes avec caract√®res sp√©ciaux

Maintenant, train_preprocessed.csv et test_preprocessed.csv auront des noms de colonnes compatibles avec tous les algorithmes (LogReg, RF, XGBoost, LightGBM).

### **11.1 Fichiers Sauvegard√©s**

| Fichier                  | Contenu                                                | Utilisation                                  |
| ------------------------ | ------------------------------------------------------ | -------------------------------------------- |
| `train_preprocessed.csv` | (307,511 √ó ~265)<br>0 NaN, tout scal√©, features cr√©√©es | **Notebook 3** : entra√Ænement MLFlow         |
| `test_preprocessed.csv`  | (48,744 √ó ~265)<br>Idem que train                      | **Notebook 3** : pr√©dictions finales         |
| `scaler.pkl`             | Objet StandardScaler fit√© sur train                    | **Production** : scaler de nouvelles donn√©es |

### **11.2 M√©tadonn√©es √† Documenter**

```
üìä PREPROCESSING SUMMARY

Input:
- train_aggregated.csv : 307,511 √ó 305
- test_aggregated.csv : 48,744 √ó 304

Transformations:
1. Features "Has_History" : +5 colonnes
2. Suppression >80% NaN : -45 colonnes
3. One-Hot Encoding : -15 cat, +25 binaires
4. Imputation : 0 NaN restants
5. Feature Engineering : +11 colonnes
6. Scaling : mean=0, std=1

Output:
- train_preprocessed.csv : 307,511 √ó 265
- test_preprocessed.csv : 48,744 √ó 265
- scaler.pkl

Stats:
- 0 NaN
- 0 Inf
- Colonnes align√©es train/test
- TARGET pr√©serv√©e
```

---

## üéØ **STRAT√âGIES GLOBALES MISES EN PLACE**

### **Strat√©gie 1 : Pr√©servation de l'Information**

```
Avant de SUPPRIMER ou TRANSFORMER quoi que ce soit,
on CAPTURE l'information dans de nouvelles features.

Exemple : HAS_BUREAU avant d'imputer les NaN
```

### **Strat√©gie 2 : Traitement Diff√©renci√© par Type**

```
Pas de "one size fits all" :
- Montants ‚Üí 0
- Dates ‚Üí -999
- Moyennes ‚Üí m√©diane
- etc.

Chaque type s√©mantique a SA strat√©gie.
```

### **Strat√©gie 3 : Feature Engineering Guid√© par le M√©tier**

```
On ne cr√©e pas n'importe quel ratio.
On cr√©e des features qui ont du SENS m√©tier :

‚úÖ CREDIT_INCOME_RATIO ‚Üí r√®gle des 33%
‚úÖ ANNUITY_INCOME_RATIO ‚Üí capacit√© de remboursement
‚ùå (DAYS_BIRTH √ó CNT_CHILDREN) ‚Üí non sens !
```

### **Strat√©gie 4 : Robustesse aux Outliers**

```
M√©diane plut√¥t que moyenne ‚Üí robuste
StandardScaler ‚Üí g√®re les outliers mieux que MinMaxScaler
+1 dans d√©nominateurs ‚Üí √©vite divisions par 0
```

### **Strat√©gie 5 : Reproductibilit√© Totale**

```
Tout est scriptable, automatique, reproductible :
- fit sur train, transform sur test
- scaler sauvegard√©
- Aucune intervention manuelle
```

### **Strat√©gie 6 : Pr√©vention du Data Leakage**

```
JAMAIS d'information du test dans le train :
- Scaler fit√© uniquement sur train
- Imputation calcul√©e sur train
- Tout param√©trage sur train
```

---

## üìä **R√âSUM√â EN CHIFFRES**

### **Avant Preprocessing**

```
train_aggregated.csv : 307,511 √ó 305
- 250 colonnes avec NaN (82%)
- 15 colonnes cat√©gorielles
- √âchelles : [0-1] √† [0-500,000]
- Aucune feature d√©riv√©e
```

### **Apr√®s Preprocessing**

```
train_preprocessed.csv : 307,511 √ó 265
- 0 NaN (0%)
- 0 colonnes cat√©gorielles (tout encod√©)
- √âchelles : toutes centr√©es (mean‚âà0, std‚âà1)
- +11 features d√©riv√©es
- -45 colonnes supprim√©es (>80% NaN)
- +5 features "Has_History"
```

### **Gain M√©tier**

```
‚úÖ Dataset propre, utilisable par n'importe quel algo ML
‚úÖ Features m√©tier capturant les patterns importants
‚úÖ Gestion intelligente des NaN (pas de perte d'info)
‚úÖ Reproductibilit√© garantie (scaler.pkl)
‚úÖ Pr√™t pour MLOps (tracking, serving)
```

---

## üéì **POINTS CL√âS √Ä RETENIR POUR TON EXPLICATION**

### **1. La S√©quence Compte !**

```
1. HAS_HISTORY d'abord (avant imputation)
2. Suppression colonnes >80% NaN
3. Encodage cat√©gorielles
4. Imputation (5 strat√©gies)
5. Feature Engineering
6. Gestion inf
7. Scaling
8. V√©rifications
9. Sauvegarde
```

**Changer l'ordre = casser la logique !**

### **2. Les NaN ne Sont Pas des Erreurs**

```
NaN = absence d'historique
‚Üí Information pr√©cieuse !
‚Üí On la capture (HAS_HISTORY) avant de la "perdre"
```

### **3. L'Imputation n'est Pas Arbitraire**

```
5 strat√©gies diff√©rentes selon la s√©mantique :
- Montant ‚Üí 0
- Comptage ‚Üí 0
- Date ‚Üí -999
- Moyenne ‚Üí m√©diane
- Autre ‚Üí m√©diane
```

### **4. Le Feature Engineering Est M√©tier**

```
Pas de "ratio random" :
‚úÖ Features avec sens m√©tier
‚úÖ Bas√©es sur r√®gles bancaires
‚úÖ Capturent patterns que le mod√®le aurait du mal √† voir
```

### **5. Le Scaling Est Essentiel**

```
Fit sur train, transform sur train+test
Sauvegarder le scaler pour la prod
Mean‚âà0, Std‚âà1 pour tous les algos
```

### **6. Data Leakage = Ennemi #1**

```
JAMAIS d'info du test dans le train :
‚ùå fit sur train+test
‚úÖ fit sur train uniquement
```

---

## üöÄ **CE QU'ON PEUT FAIRE MAINTENANT**

Avec `train_preprocessed.csv`, on peut :

1. ‚úÖ **Entra√Æner n'importe quel mod√®le ML** sans erreur
2. ‚úÖ **Utiliser MLFlow** pour tracker les exp√©rimentations
3. ‚úÖ **Cr√©er le score m√©tier personnalis√©** (Notebook 3)
4. ‚úÖ **Optimiser les hyperparam√®tres** (GridSearchCV)
5. ‚úÖ **Optimiser le seuil de d√©cision** (maximiser le score m√©tier)
6. ‚úÖ **Comparer les mod√®les** sur des bases saines
7. ‚úÖ **D√©ployer en production** (avec scaler.pkl)

---

**Voil√† Pierre ! Tu as maintenant un r√©sum√© ultra-d√©taill√© du Notebook 2. Tu peux expliquer chaque d√©cision, chaque strat√©gie, et montrer que c'est du preprocessing **professionnel** et **r√©fl√©chi**. Pr√™t pour le Notebook 3 (MLFlow + Score M√©tier) ? üéØ**
