# üèÜ DataTour 2025 - Solution Compl√®te de Credit Scoring

## üéØ Objectif
Pr√©dire le risque de d√©faut de cr√©dit avec une approche avanc√©e combinant :
- **Feature engineering sophistiqu√©** : extraction de patterns temporels, ratios financiers, agr√©gations
- **Mod√®les performants** : LightGBM, XGBoost, CatBoost avec optimisation pour donn√©es d√©s√©quilibr√©es
- **Validation crois√©e stratifi√©e** : 5-fold pour estimation robuste de la performance
- **Ensemble optimis√©** : combinaison pond√©r√©e des mod√®les pour maximiser l'AUC

**M√©trique d'√©valuation :** ROC AUC Score

---
## üì¶ 0. Installation des D√©pendances

Installation des biblioth√®ques n√©cessaires :
- **lightgbm, xgboost, catboost** : algorithmes de gradient boosting
- **optuna** : optimisation d'hyperparam√®tres (pour usage futur)
- **df-squeezer** : r√©duction automatique de la m√©moire des DataFrames

In [14]:
!pip install lightgbm xgboost catboost optuna df-squeezer -q

---
## üìö 1. Imports et Configuration

Configuration de l'environnement avec :
- Imports des librairies essentielles
- Param√®tres globaux (nombre de folds, random state)
- Suppression des warnings pour une sortie plus propre

In [15]:
import gc
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score, roc_curve
from sklearn.preprocessing import StandardScaler

import lightgbm as lgb
import xgboost as xgb
from catboost import CatBoostClassifier, Pool

from df_squeezer import df_squeezer

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

# Configuration globale
N_FOLDS = 5              # Nombre de folds pour la validation crois√©e
RANDOM_STATE = 42        # Seed pour la reproductibilit√©
VERBOSE = 100            # Fr√©quence d'affichage pendant l'entra√Ænement

print("‚úÖ Imports termin√©s")

‚úÖ Imports termin√©s


Configuration importante :

N_FOLDS = 5 : divise les donn√©es en 5 parties pour la validation crois√©e

RANDOM_STATE = 42 : assure la reproductibilit√© des r√©sultats

VERBOSE = 100 : contr√¥le la fr√©quence des logs pendant l'entra√Ænement

---
## üìÇ 2. Chargement des Donn√©es

Chargement des fichiers parquet contenant :
- **train.parquet** : donn√©es d'entra√Ænement avec la variable cible `flag`
- **test.parquet** : donn√©es de test pour la soumission finale

Nous analysons √©galement la distribution de la cible pour comprendre le d√©s√©quilibre des classes.

In [38]:
print("üìÇ Chargement des donn√©es...")
train = pd.read_parquet("train.parquet")
test = pd.read_parquet("test.parquet")

print(f"Train shape: {train.shape}")
print(f"Test shape: {test.shape}")
print(f"\nDistribution de la cible:")
print(train['flag'].value_counts(normalize=True))
print(f"\nTaux de d√©faut: {train['flag'].mean():.2%}")
print(f"Ratio de d√©s√©quilibre: {(train['flag']==0).sum() / (train['flag']==1).sum():.1f}:1")

üìÇ Chargement des donn√©es...
Train shape: (17659833, 62)
Test shape: (654068, 62)

Distribution de la cible:
flag
0    0.966372
1    0.033628
Name: proportion, dtype: float64

Taux de d√©faut: 3.36%
Ratio de d√©s√©quilibre: 28.7:1
Train shape: (17659833, 62)
Test shape: (654068, 62)

Distribution de la cible:
flag
0    0.966372
1    0.033628
Name: proportion, dtype: float64

Taux de d√©faut: 3.36%
Ratio de d√©s√©quilibre: 28.7:1


In [39]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17659833 entries, 0 to 17659832
Data columns (total 62 columns):
 #   Column                         Dtype
---  ------                         -----
 0   id                             int32
 1   rn                             int8 
 2   pre_since_opened               int8 
 3   pre_since_confirmed            int8 
 4   pre_pterm                      int8 
 5   pre_fterm                      int8 
 6   pre_till_pclose                int8 
 7   pre_till_fclose                int8 
 8   pre_loans_credit_limit         int8 
 9   pre_loans_next_pay_summ        int8 
 10  pre_loans_outstanding          int8 
 11  pre_loans_total_overdue        int8 
 12  pre_loans_max_overdue_sum      int8 
 13  pre_loans_credit_cost_rate     int8 
 14  pre_loans5                     int8 
 15  pre_loans530                   int8 
 16  pre_loans3060                  int8 
 17  pre_loans6090                  int8 
 18  pre_loans90                    int8 
 19

In [40]:
train.head()

Unnamed: 0,id,rn,pre_since_opened,pre_since_confirmed,pre_pterm,pre_fterm,pre_till_pclose,pre_till_fclose,pre_loans_credit_limit,pre_loans_next_pay_summ,pre_loans_outstanding,pre_loans_total_overdue,pre_loans_max_overdue_sum,pre_loans_credit_cost_rate,pre_loans5,pre_loans530,pre_loans3060,pre_loans6090,pre_loans90,is_zero_loans5,is_zero_loans530,is_zero_loans3060,is_zero_loans6090,is_zero_loans90,pre_util,pre_over2limit,pre_maxover2limit,is_zero_util,is_zero_over2limit,is_zero_maxover2limit,enc_paym_0,enc_paym_1,enc_paym_2,enc_paym_3,enc_paym_4,enc_paym_5,enc_paym_6,enc_paym_7,enc_paym_8,enc_paym_9,enc_paym_10,enc_paym_11,enc_paym_12,enc_paym_13,enc_paym_14,enc_paym_15,enc_paym_16,enc_paym_17,enc_paym_18,enc_paym_19,enc_paym_20,enc_paym_21,enc_paym_22,enc_paym_23,enc_paym_24,enc_loans_account_holder_type,enc_loans_credit_status,enc_loans_credit_type,enc_loans_account_cur,pclose_flag,fclose_flag,flag
0,1678548,3,8,7,17,16,9,1,9,2,3,0,2,2,6,16,5,4,8,1,1,1,1,1,16,2,17,1,1,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,1,1,3,2,1,0,0,0
1,2834188,11,3,2,0,7,14,8,2,5,1,0,2,13,6,16,5,4,8,1,0,1,1,1,1,2,17,0,1,1,0,0,0,1,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,1,1,2,4,1,0,0,0
2,811902,11,9,6,11,13,14,8,2,5,1,0,2,11,6,16,5,4,8,1,1,1,1,1,11,2,17,0,1,1,0,0,0,0,0,0,0,0,3,3,3,4,3,3,3,3,3,3,3,3,4,3,3,3,4,1,2,4,1,0,0,0
3,836450,1,16,0,13,0,4,9,5,2,3,0,2,2,6,16,5,4,8,1,1,1,1,1,16,2,17,1,1,1,0,0,0,0,0,0,0,0,0,0,0,4,3,3,3,3,3,3,3,3,4,3,3,3,4,1,3,4,1,0,0,0
4,1769024,15,9,9,4,8,1,11,1,2,3,0,2,2,6,16,5,4,8,1,1,1,1,1,16,2,17,1,1,1,0,0,0,0,0,0,0,0,0,0,3,4,3,3,3,3,3,3,3,3,4,3,3,3,4,1,2,4,1,1,1,0


In [41]:
test.head()

Unnamed: 0,id,rn,pre_since_opened,pre_since_confirmed,pre_pterm,pre_fterm,pre_till_pclose,pre_till_fclose,pre_loans_credit_limit,pre_loans_next_pay_summ,pre_loans_outstanding,pre_loans_total_overdue,pre_loans_max_overdue_sum,pre_loans_credit_cost_rate,pre_loans5,pre_loans530,pre_loans3060,pre_loans6090,pre_loans90,is_zero_loans5,is_zero_loans530,is_zero_loans3060,is_zero_loans6090,is_zero_loans90,pre_util,pre_over2limit,pre_maxover2limit,is_zero_util,is_zero_over2limit,is_zero_maxover2limit,enc_paym_0,enc_paym_1,enc_paym_2,enc_paym_3,enc_paym_4,enc_paym_5,enc_paym_6,enc_paym_7,enc_paym_8,enc_paym_9,enc_paym_10,enc_paym_11,enc_paym_12,enc_paym_13,enc_paym_14,enc_paym_15,enc_paym_16,enc_paym_17,enc_paym_18,enc_paym_19,enc_paym_20,enc_paym_21,enc_paym_22,enc_paym_23,enc_paym_24,enc_loans_account_holder_type,enc_loans_credit_status,enc_loans_credit_type,enc_loans_account_cur,pclose_flag,fclose_flag,id_x_rn
0,1472943,2,10,4,16,16,13,10,10,2,3,0,2,2,6,16,5,4,8,1,1,1,1,1,16,2,17,1,1,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,3,3,3,3,3,4,3,3,3,4,1,3,4,1,0,0,1472943_x_2
1,660465,5,6,14,9,7,3,11,0,2,3,0,2,4,6,16,5,4,8,1,0,1,1,1,16,2,17,1,1,1,0,0,0,0,0,0,0,0,0,1,0,1,3,3,3,3,3,3,3,3,4,3,3,3,4,1,3,4,1,0,0,660465_x_5
2,1788193,3,1,0,9,9,7,2,16,2,3,0,2,2,6,16,5,4,8,1,1,1,1,1,16,2,17,1,1,1,0,0,0,0,0,0,0,0,0,0,0,4,3,3,3,3,3,3,3,3,4,3,3,3,4,1,3,4,1,0,0,1788193_x_3
3,2767146,3,15,8,1,16,6,13,14,2,3,0,2,2,6,16,5,4,8,1,1,1,1,1,9,5,4,0,0,0,0,0,3,3,3,3,3,3,3,3,3,4,3,3,3,3,3,3,3,3,4,3,3,3,4,1,3,3,1,0,0,2767146_x_3
4,2601698,9,19,10,4,8,1,11,4,2,3,0,2,2,6,16,5,4,8,1,1,1,1,1,9,5,4,0,0,0,0,0,3,3,3,3,3,3,3,3,3,4,3,3,3,3,3,3,3,3,4,3,3,3,4,1,2,3,1,1,1,2601698_x_9


### üóúÔ∏è Optimisation de la m√©moire

R√©duction de l'empreinte m√©moire avec `df_squeezer` qui :
- Convertit les types de donn√©es en types plus compacts (int64 ‚Üí int8/16, float64 ‚Üí float32)
- Permet de travailler avec des datasets volumineux sans saturer la RAM

In [17]:
print("\nüóúÔ∏è Optimisation m√©moire...")
print("Avant:")
print(f"  Train: {train.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
print(f"  Test: {test.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

df_squeezer(train, edit=True, report=False)
df_squeezer(test, edit=True, report=False)

print("\nApr√®s:")
print(f"  Train: {train.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
print(f"  Test: {test.memory_usage(deep=True).sum() / 1024**2:.1f} MB")


üóúÔ∏è Optimisation m√©moire...
Avant:
  Train: 1094.7 MB
  Test: 346.8 MB

Apr√®s:
  Train: 1094.7 MB
  Test: 82.3 MB

Apr√®s:
  Train: 1094.7 MB
  Test: 82.3 MB


---
## üîç 3. Analyse Exploratoire Rapide

V√©rification de la qualit√© des donn√©es et exploration des caract√©ristiques cl√©s.

### V√©rification des valeurs manquantes

In [18]:
missing = train.isnull().sum()
missing = missing[missing > 0].sort_values(ascending=False)
if len(missing) > 0:
    print("‚ö†Ô∏è Colonnes avec valeurs manquantes:")
    print(missing)
else:
    print("‚úÖ Aucune valeur manquante d√©tect√©e")

‚úÖ Aucune valeur manquante d√©tect√©e


### Analyse des s√©quences de paiement

Les colonnes `enc_paym_0` √† `enc_paym_24` repr√©sentent l'historique des paiements sur 25 mois.  
Ce sont des features temporelles cruciales pour pr√©dire le d√©faut.

In [19]:
paym_cols = [col for col in train.columns if 'enc_paym_' in col]
print(f"üìä Nombre de colonnes de paiement temporelles: {len(paym_cols)}")
print(f"Colonnes: {paym_cols[:5]} ... {paym_cols[-3:]}")
print(f"\nValeurs uniques dans enc_paym_0: {sorted(train['enc_paym_0'].unique())}")
print("\nInterpr√©tation probable:")
print("  0 = Paiement √† jour")
print("  1+ = Diff√©rents niveaux de retard/d√©faut")

üìä Nombre de colonnes de paiement temporelles: 25
Colonnes: ['enc_paym_0', 'enc_paym_1', 'enc_paym_2', 'enc_paym_3', 'enc_paym_4'] ... ['enc_paym_22', 'enc_paym_23', 'enc_paym_24']

Valeurs uniques dans enc_paym_0: [0, 1, 2, 3]

Interpr√©tation probable:
  0 = Paiement √† jour
  1+ = Diff√©rents niveaux de retard/d√©faut


---
## üîß 4. Feature Engineering Avanc√©

Cette section est **cruciale** pour am√©liorer les performances. Nous cr√©ons des features d√©riv√©es qui capturent :
1. **Patterns temporels** : tendances, volatilit√©, changements de comportement
2. **Ratios financiers** : taux d'utilisation du cr√©dit, ratios de dette
3. **Agr√©gations** : statistiques sur l'historique de paiement
4. **Interactions** : combinaisons de features existantes

La fonction create_advanced_features cr√©e de nouvelles variables :

Features temporelles sur les paiements (moyennes, √©carts-types, tendances)

Ratios financiers (taux d'utilisation du cr√©dit, ratios de dette)

Features de dur√©e et d√©lais

Agr√©gations des retards de paiement


  Votre fonction create_advanced_features est impressionnante :
  - Features temporelles : moyennes, √©carts-types, tendances, patterns de      
  changement
  - Ratios financiers : taux d'utilisation, ratios de dette
  - Agr√©gations intelligentes : score de s√©v√©rit√© pond√©r√© pour les retards     
  - Encodages cycliques : pour la variable rn
  - 28 nouvelles features cr√©√©es, passant de 62 √† 90 colonnes

In [20]:
def create_advanced_features(df):
    """
    Cr√©e des features avanc√©es √† partir des donn√©es brutes.
    
    Cat√©gories de features cr√©√©es :
    1. Features temporelles sur les paiements (statistiques, tendances)
    2. Ratios et relations financi√®res
    3. Features de dur√©e et d√©lais
    4. Agr√©gations des retards de paiement
    5. Interactions entre flags binaires
    6. Encodages cycliques
    """
    df = df.copy()
    
    print("üîß Cr√©ation de features avanc√©es...")
    initial_cols = len(df.columns)
    
    # ==================== 1. FEATURES TEMPORELLES SUR LES PAIEMENTS ====================
    paym_cols = [col for col in df.columns if 'enc_paym_' in col]
    
    if len(paym_cols) > 0:
        print("  ‚îú‚îÄ Features temporelles sur les paiements...")
        paym_data = df[paym_cols]
        
        # Statistiques descriptives de base
        df['paym_mean'] = paym_data.mean(axis=1)
        df['paym_std'] = paym_data.std(axis=1)
        df['paym_max'] = paym_data.max(axis=1)
        df['paym_min'] = paym_data.min(axis=1)
        df['paym_median'] = paym_data.median(axis=1)
        
        # Mesures de dispersion et variabilit√©
        df['paym_range'] = df['paym_max'] - df['paym_min']
        df['paym_cv'] = df['paym_std'] / (df['paym_mean'] + 1e-6)  # Coefficient de variation
        
        # D√©tection de patterns : nombre de changements de statut
        df['paym_changes'] = (paym_data.diff(axis=1) != 0).sum(axis=1)
        
        # Comparaison r√©cent vs ancien (6 derniers mois vs reste)
        recent_cols = paym_cols[:6] if len(paym_cols) >= 6 else paym_cols
        older_cols = paym_cols[6:] if len(paym_cols) > 6 else paym_cols
        
        df['paym_recent_mean'] = df[recent_cols].mean(axis=1)
        df['paym_older_mean'] = df[older_cols].mean(axis=1)
        df['paym_trend'] = df['paym_recent_mean'] - df['paym_older_mean']  # Am√©lioration ou d√©t√©rioration
        
        # Comptages de valeurs sp√©cifiques
        df['paym_count_zero'] = (paym_data == 0).sum(axis=1)  # Nombre de mois avec paiement √† jour
        df['paym_count_nonzero'] = (paym_data != 0).sum(axis=1)  # Nombre de mois avec probl√®me
        df['paym_ratio_zero'] = df['paym_count_zero'] / len(paym_cols)  # Proportion de bons paiements
        
        # Cons√©cutivit√© : plus long streak de bons paiements
        df['paym_max_consecutive_zero'] = paym_data.apply(
            lambda x: max([sum(1 for _ in group) for key, group in __import__('itertools').groupby(x) if key == 0] or [0]), 
            axis=1
        )
    
    # ==================== 2. RATIOS ET RELATIONS FINANCI√àRES ====================
    print("  ‚îú‚îÄ Ratios financiers...")
    
    # Taux d'utilisation du cr√©dit
    if 'pre_loans_outstanding' in df.columns and 'pre_loans_credit_limit' in df.columns:
        df['utilization_rate'] = df['pre_loans_outstanding'] / (df['pre_loans_credit_limit'] + 1)
    
    # Ratio de dette en souffrance
    if 'pre_loans_total_overdue' in df.columns and 'pre_loans_outstanding' in df.columns:
        df['overdue_ratio'] = df['pre_loans_total_overdue'] / (df['pre_loans_outstanding'] + 1)
    
    # Ratio du plus gros d√©passement
    if 'pre_loans_max_overdue_sum' in df.columns and 'pre_loans_credit_limit' in df.columns:
        df['max_overdue_ratio'] = df['pre_loans_max_overdue_sum'] / (df['pre_loans_credit_limit'] + 1)
    
    # ==================== 3. FEATURES DE DUR√âE ====================
    print("  ‚îú‚îÄ Features de dur√©e et d√©lais...")
    
    # D√©lai de confirmation du pr√™t
    if 'pre_since_opened' in df.columns and 'pre_since_confirmed' in df.columns:
        df['days_to_confirm'] = df['pre_since_opened'] - df['pre_since_confirmed']
    
    # √âcart entre dur√©e pr√©vue et r√©elle
    if 'pre_pterm' in df.columns and 'pre_fterm' in df.columns:
        df['term_diff'] = df['pre_pterm'] - df['pre_fterm']
        df['term_ratio'] = df['pre_fterm'] / (df['pre_pterm'] + 1)
    
    # ==================== 4. AGR√âGATIONS DES RETARDS ====================
    print("  ‚îú‚îÄ Agr√©gations des retards de paiement...")
    
    loans_cols = ['pre_loans5', 'pre_loans530', 'pre_loans3060', 'pre_loans6090', 'pre_loans90']
    if all(col in df.columns for col in loans_cols):
        # Total de tous les retards
        df['total_late_payments'] = df[loans_cols].sum(axis=1)
        
        # Cat√©gorie de retard la plus fr√©quente
        df['max_late_bucket'] = df[loans_cols].idxmax(axis=1).str.extract('(\\d+)')[0].astype(float)
        
        # Score de s√©v√©rit√© pond√©r√© (plus le retard est long, plus le poids est √©lev√©)
        df['late_severity_score'] = (
            df['pre_loans5'] * 1 +      # 0-5 jours
            df['pre_loans530'] * 2 +    # 5-30 jours
            df['pre_loans3060'] * 3 +   # 30-60 jours
            df['pre_loans6090'] * 4 +   # 60-90 jours
            df['pre_loans90'] * 5       # 90+ jours (tr√®s grave)
        )
    
    # ==================== 5. INTERACTIONS ENTRE FLAGS ====================
    print("  ‚îú‚îÄ Interactions entre flags binaires...")
    
    zero_cols = [col for col in df.columns if 'is_zero_' in col]
    if len(zero_cols) > 0:
        df['count_zero_flags'] = df[zero_cols].sum(axis=1)
        df['ratio_zero_flags'] = df['count_zero_flags'] / len(zero_cols)
    
    # ==================== 6. FEATURES CYCLIQUES ====================
    print("  ‚îî‚îÄ Encodages cycliques...")
    
    # Encodage cyclique de rn (position dans la s√©quence)
    if 'rn' in df.columns:
        df['rn_sin'] = np.sin(2 * np.pi * df['rn'] / df['rn'].max())
        df['rn_cos'] = np.cos(2 * np.pi * df['rn'] / df['rn'].max())
    
    new_features = len(df.columns) - initial_cols
    print(f"\n‚úÖ {new_features} nouvelles features cr√©√©es")
    print(f"   Total de features: {len(df.columns)}")
    
    return df

### Application du feature engineering

On applique la fonction √† nos datasets train et test.

S√©pare les features (X) de la variable cible (y)

Aligne les colonnes entre train et test



In [21]:
train_fe = create_advanced_features(train)
test_fe = create_advanced_features(test)

print(f"\nShape apr√®s feature engineering:")
print(f"  Train: {train_fe.shape}")
print(f"  Test: {test_fe.shape}")

üîß Cr√©ation de features avanc√©es...
  ‚îú‚îÄ Features temporelles sur les paiements...
  ‚îú‚îÄ Ratios financiers...
  ‚îú‚îÄ Ratios financiers...
  ‚îú‚îÄ Features de dur√©e et d√©lais...
  ‚îú‚îÄ Features de dur√©e et d√©lais...
  ‚îú‚îÄ Agr√©gations des retards de paiement...
  ‚îú‚îÄ Agr√©gations des retards de paiement...
  ‚îú‚îÄ Interactions entre flags binaires...
  ‚îú‚îÄ Interactions entre flags binaires...
  ‚îî‚îÄ Encodages cycliques...
  ‚îî‚îÄ Encodages cycliques...

‚úÖ 28 nouvelles features cr√©√©es
   Total de features: 90
üîß Cr√©ation de features avanc√©es...
  ‚îú‚îÄ Features temporelles sur les paiements...

‚úÖ 28 nouvelles features cr√©√©es
   Total de features: 90
üîß Cr√©ation de features avanc√©es...
  ‚îú‚îÄ Features temporelles sur les paiements...
  ‚îú‚îÄ Ratios financiers...
  ‚îú‚îÄ Features de dur√©e et d√©lais...
  ‚îú‚îÄ Agr√©gations des retards de paiement...
  ‚îú‚îÄ Ratios financiers...
  ‚îú‚îÄ Features de dur√©e et d√©lais...
  ‚îú‚îÄ Agr√©

---
## üìä 5. Pr√©paration des Donn√©es

S√©paration des features et de la cible, gestion des identifiants, et alignement des colonnes.

In [24]:
# Extraction de l'identifiant pour la soumission
if 'id_x_rn' in test_fe.columns:
    test_id = test_fe['id_x_rn'].values
    print("‚úÖ Utilisation de 'id_x_rn' comme identifiant")
else:
    test_id = test_fe['id'].values
    print("‚úÖ Utilisation de 'id' comme identifiant")

# Colonnes √† exclure du train
train_exclude_cols = ['id', 'rn', 'flag']
# Colonnes √† exclure du test
test_exclude_cols = ['id', 'rn']
if 'id_x_rn' in test_fe.columns:
    test_exclude_cols.append('id_x_rn')

# S√©paration features/target
X = train_fe.drop(columns=train_exclude_cols)
y = train_fe['flag'].values
X_test = test_fe.drop(columns=[col for col in test_exclude_cols if col in test_fe.columns])

# Alignement des colonnes entre train et test
common_features = [col for col in X.columns if col in X_test.columns]
X = X[common_features]
X_test = X_test[common_features]

print(f"\nüìã R√©sum√©:")
print(f"  Nombre de features finales: {len(common_features)}")
print(f"  X shape: {X.shape}")
print(f"  y shape: {y.shape}")
print(f"  X_test shape: {X_test.shape}")
print(f"  Test IDs shape: {test_id.shape}")

# Lib√©ration m√©moire
del train, test, train_fe, test_fe
gc.collect()
print("\nüóëÔ∏è M√©moire lib√©r√©e")

‚úÖ Utilisation de 'id_x_rn' comme identifiant

üìã R√©sum√©:
  Nombre de features finales: 87
  X shape: (17659833, 87)
  y shape: (17659833,)
  X_test shape: (654068, 87)
  Test IDs shape: (654068,)

üóëÔ∏è M√©moire lib√©r√©e

üìã R√©sum√©:
  Nombre de features finales: 87
  X shape: (17659833, 87)
  y shape: (17659833,)
  X_test shape: (654068, 87)
  Test IDs shape: (654068,)

üóëÔ∏è M√©moire lib√©r√©e


---
## ‚öôÔ∏è 6. Configuration des Mod√®les

Configuration des hyperparam√®tres pour chaque mod√®le avec gestion du d√©s√©quilibre via neg_pos_ratio.

D√©cortiquons-la :

y == 0 : identifie tous les cas de non-d√©faut (classe n√©gative)

y == 1 : identifie tous les cas de d√©faut (classe positive)

.sum() : compte le nombre total de chaque cas

La division / nous donne le ratio

Par exemple, si nous avons :

9000 clients qui n'ont pas fait d√©faut (y == 0)
1000 clients qui ont fait d√©faut (y == 1)
Alors neg_pos_ratio = 9000/1000 = 9

Ce ratio est crucial car :

Il montre le d√©s√©quilibre dans nos donn√©es (ici 9 non-d√©fauts pour 1 d√©faut)

Il est utilis√© comme scale_pos_weight dans nos mod√®les pour :

Donner plus de poids aux cas rares (d√©fauts)

Emp√™cher le mod√®le de toujours pr√©dire la classe majoritaire

√âquilibrer l'importance des erreurs sur chaque classe

Configure trois mod√®les avec leurs param√®tres :

LightGBM : rapide et efficace en m√©moire

XGBoost : tr√®s performant 

CatBoost : bon avec les variables cat√©gorielles

In [34]:
# Calcul du poids des classes pour g√©rer le d√©s√©quilibre
neg_pos_ratio = (y == 0).sum() / (y == 1).sum()
print(f"‚öñÔ∏è Ratio n√©gatif/positif: {neg_pos_ratio:.2f}")
print(f"   Cela signifie qu'il y a ~{neg_pos_ratio:.0f} non-d√©fauts pour 1 d√©faut")
print(f"   Les mod√®les donneront {neg_pos_ratio:.0f}x plus de poids aux cas de d√©faut\n")

# ==================== LIGHTGBM ====================
lgb_params = {
    'objective': 'binary',
    'metric': 'auc',
    'verbosity': -1,
    'boosting_type': 'gbdt',
    'num_leaves': 63,            # 63 pour des arbres plus complexes
    'max_depth': 7,             #  7 pour des arbres plus profonds
    'learning_rate': 0.05,      # Pour un bon compromis vitesse/pr√©cision
    'feature_fraction': 0.7,    # √âvite le surapprentissage
    'bagging_fraction': 0.7,    # √âvite le surapprentissage
    'bagging_freq': 5,          # Pour la stabilit√©
    'n_estimators': 2000,       # Maximum d'it√©rations
    'early_stopping_rounds': 50, # Arr√™t si pas d'am√©lioration
    'min_data_in_leaf': 50,    # 50 pour plus de granularit√©
    'max_bin': 255,            # 255 pour plus de pr√©cision dans les splits
    'scale_pos_weight': neg_pos_ratio,  # Gestion du d√©s√©quilibre
    'lambda_l1': 0.1,          # R√©gularisation L1
    'lambda_l2': 0.1,          # R√©gularisation L2
    'min_gain_to_split': 0.0,  # Splits agressifs
    'num_threads': -1          # Utilise tous les CPU
}

# ==================== XGBOOST ====================
xgb_params = {
    'objective': 'binary:logistic',
    'eval_metric': 'auc',
    'learning_rate': 0.05,       # Identique √† LightGBM pour la coh√©rence
    'max_depth': 7,             # Augment√© pour correspondre √† LightGBM
    'min_child_weight': 50,     # Similaire √† min_data_in_leaf de LightGBM
    'subsample': 0.7,           # Identique √† bagging_fraction
    'colsample_bytree': 0.7,    # Identique √† feature_fraction
    'gamma': 0.0,               # Augment√© un peu pour √©viter le surapprentissage
    'reg_alpha': 0.1,           # L1, identique √† LightGBM
    'reg_lambda': 0.1,          # L2, identique √† LightGBM
    'scale_pos_weight': neg_pos_ratio,  # M√™me gestion du d√©s√©quilibre
    'max_bin': 255,             # Identique √† LightGBM
    'random_state': RANDOM_STATE,
    'n_estimators': 2000,       # Identique √† LightGBM
    'early_stopping_rounds': 50, # Identique √† LightGBM
    'n_jobs': -1,               # Utilise tous les CPU
    'tree_method': 'hist'       # Plus rapide pour gros datasets
}

# ==================== CATBOOST ====================
cat_params = {
    'loss_function': 'Logloss',  
    'eval_metric': 'AUC',
    'learning_rate': 0.05,       # Identique aux autres pour coh√©rence
    'depth': 7,                  # Align√© sur max_depth de LGB/XGB
    'min_data_in_leaf': 50,      # Identique √† LightGBM
    'subsample': 0.7,            # Identique aux autres (bagging)
    'colsample_bylevel': 0.7,    # Identique aux autres (feature sampling)
    'l2_leaf_reg': 0.1,         # R√©gularisation L2, comme les autres
    'random_strength': 0.1,      # Pour introduire de la randomisation
    'scale_pos_weight': neg_pos_ratio,  # Gestion du d√©s√©quilibre
    'max_bin': 255,             # Identique aux autres
    'random_seed': RANDOM_STATE,
    'verbose': False,
    'thread_count': -1,         # Utilise tous les CPU
    'task_type': 'CPU',         # Mode CPU optimis√©
    'bootstrap_type': 'Bernoulli',  # Pour activer subsample
    'boosting_type': 'Plain'    # Type de boosting standard
}

print("‚úÖ Param√®tres des 3 mod√®les configur√©s")

‚öñÔ∏è Ratio n√©gatif/positif: 28.74
   Cela signifie qu'il y a ~29 non-d√©fauts pour 1 d√©faut
   Les mod√®les donneront 29x plus de poids aux cas de d√©faut

‚úÖ Param√®tres des 3 mod√®les configur√©s


---
## üöÄ 7. Entra√Ænement avec Validation Crois√©e Stratifi√©e

Dans notre code, on utilise StratifiedKFold

"Stratifi√©" signifie que chaque fold conserve la m√™me proportion de classes que dans les donn√©es originales

Par exemple, si on a 10% de d√©fauts dans les donn√©es totales, chaque fold aura aussi environ 10% de d√©fauts

Nous utilisons une validation crois√©e (cross validation en anglais) stratifi√©e √† 5 folds qui :
- Pr√©serve la proportion de d√©fauts dans chaque fold
- G√©n√®re des pr√©dictions **Out-Of-Fold (OOF)** pour √©valuer la performance
- Produit des pr√©dictions test en moyennant les 5 mod√®les entra√Æn√©s
- Utilise l'**early stopping** pour √©viter le surapprentissage

La fonction train_with_cv :

Divise les donn√©es en 5 parties

Entra√Æne le mod√®le sur 4 parties et teste sur la 5√®me

R√©p√®te 5 fois en changeant la partie de test

Produit des pr√©dictions "Out-of-Fold" pour √©valuer la performance

In [35]:
def train_with_cv(X, y, X_test, params, model_type='lgb', n_folds=5):
    """
    Entra√Æne un mod√®le avec validation crois√©e stratifi√©e.
    
    Param√®tres:
    -----------
    X : DataFrame
        Features d'entra√Ænement
    y : array
        Variable cible
    X_test : DataFrame
        Features de test
    params : dict
        Hyperparam√®tres du mod√®le
    model_type : str
        Type de mod√®le ('lgb', 'xgb', 'cat')
    n_folds : int
        Nombre de folds pour la CV
    
    Retourne:
    ---------
    oof_preds : array
        Pr√©dictions Out-Of-Fold sur le train
    test_preds : array
        Pr√©dictions moyenn√©es sur le test
    oof_score : float
        Score AUC sur les pr√©dictions OOF
    """
    kfold = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=RANDOM_STATE)
    
    oof_preds = np.zeros(len(X))
    test_preds = np.zeros(len(X_test))
    fold_scores = []
    
    print(f"\n{'='*60}")
    print(f"üöÄ Entra√Ænement {model_type.upper()} avec {n_folds} folds")
    print(f"{'='*60}\n")
    
    for fold, (train_idx, val_idx) in enumerate(kfold.split(X, y), 1):
        print(f"\n{'‚îÄ'*60}")
        print(f"üìÅ Fold {fold}/{n_folds}")
        print(f"{'‚îÄ'*60}")
        
        X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_train, y_val = y[train_idx], y[val_idx]
        
        print(f"  Train size: {len(X_train):,} | Val size: {len(X_val):,}")
        
        if model_type == 'lgb':
            train_data = lgb.Dataset(X_train, label=y_train)
            val_data = lgb.Dataset(X_val, label=y_val, reference=train_data)
            
            model = lgb.train(
                params,
                train_data,
                num_boost_round=1000,
                valid_sets=[train_data, val_data],
                valid_names=['train', 'valid'],
                callbacks=[lgb.early_stopping(50), lgb.log_evaluation(VERBOSE)]
            )
            
            oof_preds[val_idx] = model.predict(X_val, num_iteration=model.best_iteration)
            test_preds += model.predict(X_test, num_iteration=model.best_iteration) / n_folds
            
        elif model_type == 'xgb':
            dtrain = xgb.DMatrix(X_train, label=y_train)
            dval = xgb.DMatrix(X_val, label=y_val)
            dtest = xgb.DMatrix(X_test)
            
            model = xgb.train(
                params,
                dtrain,
                num_boost_round=1000,
                evals=[(dtrain, 'train'), (dval, 'valid')],
                early_stopping_rounds=50,
                verbose_eval=VERBOSE
            )
            
            oof_preds[val_idx] = model.predict(dval, iteration_range=(0, model.best_iteration + 1))
            test_preds += model.predict(dtest, iteration_range=(0, model.best_iteration + 1)) / n_folds
            
        elif model_type == 'cat':
            train_pool = Pool(X_train, y_train)
            val_pool = Pool(X_val, y_val)
            
            model = CatBoostClassifier(**params, iterations=1000, early_stopping_rounds=50)
            model.fit(train_pool, eval_set=val_pool, verbose=VERBOSE)
            
            oof_preds[val_idx] = model.predict_proba(X_val)[:, 1]
            test_preds += model.predict_proba(X_test)[:, 1] / n_folds
        
        fold_score = roc_auc_score(y_val, oof_preds[val_idx])
        fold_scores.append(fold_score)
        print(f"\n  ‚úÖ Fold {fold} AUC: {fold_score:.6f}")
    
    oof_score = roc_auc_score(y, oof_preds)
    print(f"\n{'='*60}")
    print(f"üìä R√âSULTATS {model_type.upper()}:")
    print(f"{'='*60}")
    print(f"  Score OOF global:     {oof_score:.6f}")
    print(f"  Score moyen folds:    {np.mean(fold_scores):.6f}")
    print(f"  √âcart-type folds:     {np.std(fold_scores):.6f}")
    print(f"  Min/Max folds:        {np.min(fold_scores):.6f} / {np.max(fold_scores):.6f}")
    print(f"{'='*60}")
    
    return oof_preds, test_preds, oof_score

### üåü Entra√Ænement LightGBM

LightGBM est r√©put√© pour sa rapidit√© et son efficacit√© m√©moire.

In [None]:
oof_lgb, test_lgb, score_lgb = train_with_cv(X, y, X_test, lgb_params, model_type='lgb', n_folds=N_FOLDS)

# Visualisation de l'importance des features
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': model.feature_importance(importance_type='gain')
}).sort_values('importance', ascending=False)

print("\nüéØ Top 20 features les plus importantes:")
print(feature_importance.head(20))

# Visualisation graphique
plt.figure(figsize=(12, 6))
plt.barh(feature_importance.head(20)['feature'], feature_importance.head(20)['importance'])
plt.title('Top 20 Features les Plus Importantes (LightGBM)', fontsize=14, fontweight='bold')
plt.xlabel('Importance (gain)', fontsize=12)
plt.ylabel('Feature', fontsize=12)
plt.gca().invert_yaxis()  # Pour avoir la feature la plus importante en haut
plt.tight_layout()
plt.show()

# Statistiques sur l'importance des features
print("\nüìä Statistiques sur l'importance des features:")
print(f"  ‚Ä¢ Nombre total de features: {len(feature_importance)}")
print(f"  ‚Ä¢ Top 10 features repr√©sentent: {feature_importance.head(10)['importance'].sum() / feature_importance['importance'].sum():.1%} de l'importance totale")
print(f"  ‚Ä¢ Top 20 features repr√©sentent: {feature_importance.head(20)['importance'].sum() / feature_importance['importance'].sum():.1%} de l'importance totale")


üöÄ Entra√Ænement LGB avec 5 folds


‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÅ Fold 1/5
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÅ Fold 1/5
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
  Train size: 14,127,866 | Val size: 3,531,967
  Train size: 14,127,866 | Val size: 3,531,967
Training until validation scores don't improve for 50 rounds
Training until validation scores don't improve for 50

NameError: name 'model' is not defined

### üî∑ Entra√Ænement XGBoost

XGBoost est un des algorithmes les plus performants en comp√©tition.

In [27]:
oof_xgb, test_xgb, score_xgb = train_with_cv(X, y, X_test, xgb_params, model_type='xgb', n_folds=N_FOLDS)


üöÄ Entra√Ænement XGB avec 5 folds


‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÅ Fold 1/5
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÅ Fold 1/5
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
  Train size: 14,127,866 | Val size: 3,531,967
  Train size: 14,127,866 | Val size: 3,531,967
[0]	train-auc:0.60403	valid-auc:0.60308
[0]	train-auc:0.60403	valid-auc:0.60308
[100]	train-auc:0.64830	valid-auc:

### üê± Entra√Ænement CatBoost

CatBoost excelle avec les features cat√©gorielles et offre une robustesse suppl√©mentaire.

In [36]:
oof_cat, test_cat, score_cat = train_with_cv(X, y, X_test, cat_params, model_type='cat', n_folds=N_FOLDS)


üöÄ Entra√Ænement CAT avec 5 folds


‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÅ Fold 1/5
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üìÅ Fold 1/5
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
  Train size: 14,127,866 | Val size: 3,531,967
  Train size: 14,127,866 | Val size: 3,531,967
0:	test: 0.6020299	best: 0.6020299 (0)	total: 1.6s	remaining: 26m 42s
0:	test: 0.6020299	best: 0.6020299 (0)	total

---
## üéØ 8. Ensemble de Mod√®les - Optimisation des Poids

Au lieu d'une simple moyenne, nous optimisons les poids de chaque mod√®le pour maximiser l'AUC.  
Cette approche permet de donner plus de poids au(x) meilleur(s) mod√®le(s).

In [None]:
from scipy.optimize import minimize

def ensemble_score(weights, *args):
    """
    Fonction objectif pour optimiser les poids de l'ensemble.
    On minimise le n√©gatif de l'AUC (car minimize cherche un minimum).
    """
    oof_preds, y_true = args
    final_pred = np.zeros(len(y_true))
    for i, oof in enumerate(oof_preds):
        final_pred += weights[i] * oof
    return -roc_auc_score(y_true, final_pred)

print("üîç Optimisation des poids de l'ensemble...\n")

# Optimisation des poids
oof_preds = [oof_lgb, oof_xgb, oof_cat]
initial_weights = [1/3, 1/3, 1/3]  # Poids √©gaux au d√©part
constraints = ({'type': 'eq', 'fun': lambda w: np.sum(w) - 1})  # Les poids doivent sommer √† 1
bounds = [(0, 1)] * len(oof_preds)  # Chaque poids entre 0 et 1

result = minimize(
    ensemble_score,
    initial_weights,
    args=(oof_preds, y),
    method='SLSQP',
    bounds=bounds,
    constraints=constraints
)

optimal_weights = result.x
print(f"üéØ Poids optimaux trouv√©s:")
print(f"  LightGBM: {optimal_weights[0]:.4f}")
print(f"  XGBoost:  {optimal_weights[1]:.4f}")
print(f"  CatBoost: {optimal_weights[2]:.4f}")
print(f"  Somme:    {optimal_weights.sum():.4f}\n")

# Pr√©dictions ensemble avec poids optimaux
oof_ensemble = (optimal_weights[0] * oof_lgb + 
                optimal_weights[1] * oof_xgb + 
                optimal_weights[2] * oof_cat)

test_ensemble = (optimal_weights[0] * test_lgb + 
                 optimal_weights[1] * test_xgb + 
                 optimal_weights[2] * test_cat)

score_ensemble = roc_auc_score(y, oof_ensemble)

print(f"{'='*60}")
print(f"üìä COMPARAISON DES SCORES (OOF):")
print(f"{'='*60}")
print(f"  LightGBM:       {score_lgb:.6f}")
print(f"  XGBoost:        {score_xgb:.6f}")
print(f"  CatBoost:       {score_cat:.6f}")
print(f"  {'‚îÄ'*56}")
print(f"  üèÜ ENSEMBLE:     {score_ensemble:.6f}")
print(f"{'='*60}")

# Am√©lioration par rapport au meilleur mod√®le individuel
best_individual = max(score_lgb, score_xgb, score_cat)
improvement = (score_ensemble - best_individual) * 100
print(f"\nüí° Am√©lioration vs meilleur individuel: +{improvement:.4f} points")

---
## üìà 9. Analyse des Pr√©dictions

Visualisation des performances et distribution des pr√©dictions.

Compare les pr√©dictions pour les d√©fauts vs non-d√©fauts

### Courbe ROC

In [None]:
fpr, tpr, thresholds = roc_curve(y, oof_ensemble)

plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, label=f'Ensemble (AUC = {score_ensemble:.4f})', linewidth=2, color='#2E86AB')
plt.plot([0, 1], [0, 1], 'k--', label='Random (AUC = 0.5000)', linewidth=1)
plt.fill_between(fpr, tpr, alpha=0.2, color='#2E86AB')
plt.xlabel('Taux de Faux Positifs (FPR)', fontsize=12)
plt.ylabel('Taux de Vrais Positifs (TPR)', fontsize=12)
plt.title('Courbe ROC - Mod√®le Ensemble', fontsize=14, fontweight='bold')
plt.legend(fontsize=10, loc='lower right')
plt.grid(alpha=0.3, linestyle=':')
plt.tight_layout()
plt.show()

print(f"\nüìà Statistiques des pr√©dictions OOF:")
print(pd.Series(oof_ensemble).describe())

### Distribution des pr√©dictions par classe

Visualisons comment le mod√®le s√©pare les cas de d√©faut des non-d√©fauts.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histogramme de densit√©
axes[0].hist(oof_ensemble[y == 0], bins=50, alpha=0.7, label='Non-d√©faut (0)', 
             density=True, color='#06D6A0')
axes[0].hist(oof_ensemble[y == 1], bins=50, alpha=0.7, label='D√©faut (1)', 
             density=True, color='#EF476F')
axes[0].set_xlabel('Probabilit√© pr√©dite', fontsize=12)
axes[0].set_ylabel('Densit√©', fontsize=12)
axes[0].set_title('Distribution des pr√©dictions par classe', fontsize=13, fontweight='bold')
axes[0].legend(fontsize=10)
axes[0].grid(alpha=0.3, linestyle=':')

# Boxplot comparatif
bp = axes[1].boxplot([oof_ensemble[y == 0], oof_ensemble[y == 1]], 
                      labels=['Non-d√©faut (0)', 'D√©faut (1)'],
                      patch_artist=True,
                      medianprops=dict(color='red', linewidth=2))
bp['boxes'][0].set_facecolor('#06D6A0')
bp['boxes'][1].set_facecolor('#EF476F')
axes[1].set_ylabel('Probabilit√© pr√©dite', fontsize=12)
axes[1].set_title('Boxplot des pr√©dictions par classe', fontsize=13, fontweight='bold')
axes[1].grid(alpha=0.3, linestyle=':', axis='y')

plt.tight_layout()
plt.show()

print("\nüìä S√©parabilit√© des classes:")
print(f"  M√©diane non-d√©faut: {np.median(oof_ensemble[y==0]):.4f}")
print(f"  M√©diane d√©faut:     {np.median(oof_ensemble[y==1]):.4f}")
print(f"  √âcart m√©dian:       {np.median(oof_ensemble[y==1]) - np.median(oof_ensemble[y==0]):.4f}")

---
## üíæ 10. G√©n√©ration des Soumissions

Cr√©ation des fichiers de soumission au format attendu par la comp√©tition.

In [None]:
# Cr√©ation du DataFrame de soumission principale (ensemble)
submission = pd.DataFrame({
    'id': test_id,
    'target': test_ensemble
})

print("\nüìÑ Aper√ßu de la soumission ENSEMBLE:")
print(submission.head(10))
print(f"\nüìä Informations:")
print(f"  Shape: {submission.shape}")
print(f"  Colonnes: {submission.columns.tolist()}")
print(f"\nüìà Statistiques des pr√©dictions:")
print(submission['target'].describe())

# V√©rifications de s√©curit√©
print(f"\n‚úÖ V√©rifications:")
try:
    assert submission['id'].nunique() == len(submission), "IDs dupliqu√©s d√©tect√©s!"
    print("  ‚úì Pas d'IDs dupliqu√©s")
    
    assert submission['target'].between(0, 1).all(), "Probabilit√©s hors de [0,1]!"
    print("  ‚úì Toutes les probabilit√©s sont dans [0,1]")
    
    assert not submission.isnull().any().any(), "Valeurs manquantes d√©tect√©es!"
    print("  ‚úì Aucune valeur manquante")
    
    print("\nüéâ Toutes les v√©rifications pass√©es avec succ√®s!")
except AssertionError as e:
    print(f"\n‚ö†Ô∏è ERREUR: {e}")

### Sauvegarde des fichiers

Nous sauvegardons :
- Le fichier **ensemble** (recommand√© pour la soumission)
- Les 3 fichiers individuels (pour comparaison sur le leaderboard)

In [None]:
# Sauvegarde LightGBM (PRINCIPAL)
submission = pd.DataFrame({'id': test_id, 'target': test_lgb})
submission.to_parquet('submission_lgb.parquet', index=False)
print("‚úÖ Fichier de soumission sauvegard√©: submission_lgb.parquet")

print("\n" + "="*60)
print("üéØ SOUMISSION LIGHTGBM:")
print("="*60)
print(f"‚Ä¢ AUC validation (OOF): {score_lgb:.6f}")
print(f"‚Ä¢ Statistiques des pr√©dictions test:")
print(submission['target'].describe())
print("="*60)

‚úÖ Fichier de soumission sauvegard√©: submission_lgb.parquet

üéØ SOUMISSION LIGHTGBM:
‚Ä¢ AUC validation (OOF): 0.654171
‚Ä¢ Statistiques des pr√©dictions test:
count    654068.000000
mean          0.450041
std           0.119405
min           0.059015
25%           0.372978
50%           0.437676
75%           0.517755
max           0.937326
Name: target, dtype: float64


---
## üìã 11. Points cl√©s

C'est un probl√®me de classification binaire (d√©faut/non-d√©faut)

On utilise trois mod√®les diff√©rents pour plus de robustesse

Le feature engineering est crucial pour la performance

La validation crois√©e assure des r√©sultats fiables

L'ensemble optimis√© donne les meilleures performances

In [28]:
# Cellule: afficher score XGBoost, comparaison rapide et sauvegarde optionnelle
print('\nüîé R√©sum√© XGBoost vs LightGBM')

reported_lgb_score = 0.65417  # score LightGBM rapport√© pr√©c√©demment

try:
    print(f"score_xgb (OOF) = {score_xgb:.6f}")
except Exception as e:
    print(f"score_xgb non d√©fini: {e}")

if 'score_xgb' in globals():
    delta = score_xgb - reported_lgb_score
    print(f"\nŒî AUC (XGB - reported LGB 0.65417): {delta:.6f}")
    if delta > 0:
        print("‚úÖ XGBoost est l√©g√®rement meilleur que le LightGBM rapport√©.")
    elif delta < 0:
        print("‚ö†Ô∏è LightGBM rapport√© est meilleur que XGBoost.")
    else:
        print("‚öñÔ∏è Scores identiques √† la pr√©cision affich√©e.")

    # Sauvegarde optionnelle
    try:
        submission_xgb = pd.DataFrame({'id': test_id, 'target': test_xgb})
        submission_xgb.to_parquet('submission_xgb.parquet', index=False)
        print("\nüíæ Fichier sauvegard√©: submission_xgb.parquet")
    except Exception as e:
        print(f"\n‚ö†Ô∏è Impossible de sauvegarder la soumission XGB: {e}")
else:
    print('\n‚ÑπÔ∏è Ex√©cutez d\'abord la cellule d\'entra√Ænement XGBoost pour d√©finir score_xgb, oof_xgb et test_xgb.')



üîé R√©sum√© XGBoost vs LightGBM
score_xgb (OOF) = 0.654879

Œî AUC (XGB - reported LGB 0.65417): 0.000709
‚úÖ XGBoost est l√©g√®rement meilleur que le LightGBM rapport√©.

üíæ Fichier sauvegard√©: submission_xgb.parquet

üíæ Fichier sauvegard√©: submission_xgb.parquet
