# üß¨ Pr√©diction de l'√Çge Biologique √† partir de la M√©thylation de l'ADN

Ce notebook explore diff√©rentes approches de machine learning pour pr√©dire l'√¢ge biologique √† partir de donn√©es de m√©thylation de l'ADN (sites CpG).

## üìã Table des mati√®res
1. [Chargement et pr√©paration des donn√©es](#1-chargement-et-pr√©paration)
2. [Mod√®les de base](#2-mod√®les-de-base)
3. [Optimisations](#3-optimisations)
4. [M√©thodes avanc√©es](#4-m√©thodes-avanc√©es)
5. [Ensembles de mod√®les](#5-ensembles)
6. [R√©sultats finaux](#6-r√©sultats-finaux)

## 1. Chargement et Pr√©paration des Donn√©es üìä

### Imports des biblioth√®ques

In [1]:
# Biblioth√®ques de base
import numpy as np
import pandas as pd

# Statistiques
from scipy.stats import pearsonr
from scipy.optimize import minimize

# Scikit-learn - Pr√©paration des donn√©es
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error, r2_score

# Scikit-learn - R√©duction de dimensionnalit√©
from sklearn.decomposition import PCA
from sklearn.cross_decomposition import PLSRegression

# Scikit-learn - Mod√®les
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import Matern, WhiteKernel
from sklearn.linear_model import LinearRegression, Ridge, ElasticNetCV
from sklearn.ensemble import RandomForestRegressor, StackingRegressor

# XGBoost
from xgboost import XGBRegressor

# Ignorer les warnings pour plus de clart√©
import warnings
warnings.filterwarnings('ignore')

### Chargement du dataset

Le dataset contient :
- **Variable cible** : `age` (l'√¢ge biologique √† pr√©dire)
- **Features** : Sites CpG (marqueurs de m√©thylation de l'ADN)

Les sites CpG sont des r√©gions de l'ADN o√π la m√©thylation peut indiquer l'√¢ge biologique.

In [2]:
# Chargement des donn√©es
df = pd.read_csv("data_final.csv")

TARGET = "age"

# S√©lection uniquement des colonnes CpG (commencent par 'cg')
cpg_cols = [
    col for col in df.columns
    if col != TARGET and col.lower().startswith("cg")
]

X = df[cpg_cols]
y = df[TARGET].values

print(f"üìä Nombre d'√©chantillons : {len(X)}")
print(f"üß¨ Nombre de sites CpG : {len(cpg_cols)}")
print(f"üìà √Çge moyen : {y.mean():.1f} ans (¬±{y.std():.1f})")

üìä Nombre d'√©chantillons : 400
üß¨ Nombre de sites CpG : 1000
üìà √Çge moyen : 53.0 ans (¬±21.2)


### Nettoyage des donn√©es

**√âtapes :**
1. **Imputation des valeurs manquantes** : remplacement par la m√©diane (plus robuste que la moyenne)
2. **Suppression des features constantes** : colonnes avec variance = 0 n'apportent aucune information

In [3]:
# Imputation des valeurs manquantes par la m√©diane
X = X.fillna(X.median())

# Suppression des colonnes avec variance nulle
X = X.loc[:, X.var() > 0]

print(f"‚úÖ Nombre de CpGs apr√®s nettoyage : {X.shape[1]}")

‚úÖ Nombre de CpGs apr√®s nettoyage : 999


### Split Train/Test

Division des donn√©es : **80% train / 20% test**

‚ö†Ô∏è **Important** : `random_state=42` pour la reproductibilit√©

In [4]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)

print(f"üìö Taille du train set : {len(X_train)}")
print(f"üìù Taille du test set  : {len(X_test)}")

üìö Taille du train set : 320
üìù Taille du test set  : 80


### Standardisation

**Pourquoi standardiser ?**
- Les algorithmes de ML sont sensibles √† l'√©chelle des donn√©es
- StandardScaler transforme les donn√©es : moyenne = 0, √©cart-type = 1
- ‚ö†Ô∏è Fit uniquement sur le train, puis transform sur train ET test

In [5]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("‚úÖ Standardisation termin√©e")

‚úÖ Standardisation termin√©e


### S√©lection des CpGs par corr√©lation

**Objectif** : R√©duire la dimensionnalit√© en gardant uniquement les CpGs corr√©l√©s avec l'√¢ge

**M√©thode** :
- Calcul de la corr√©lation de Pearson entre chaque CpG et l'√¢ge
- Conservation des CpGs avec |corr√©lation| ‚â• seuil
- ‚ö†Ô∏è Calcul **uniquement sur le train** pour √©viter le data leakage

In [6]:
CORR_THRESHOLD = 0.059

corrs = []

for i in range(X_train_scaled.shape[1]):
    corr, _ = pearsonr(X_train_scaled[:, i], y_train)
    corrs.append(corr)

# Remplacer les NaN par 0
corrs = np.nan_to_num(corrs)

# S√©lection des CpGs avec corr√©lation suffisante
corr_idx = np.where(np.abs(corrs) >= CORR_THRESHOLD)[0]

X_train_corr = X_train_scaled[:, corr_idx]
X_test_corr = X_test_scaled[:, corr_idx]

print(f"üéØ CpGs gard√©s apr√®s corr√©lation (seuil={CORR_THRESHOLD}) : {len(corr_idx)}")
print(f"üìâ R√©duction de dimensionnalit√© : {X_train_scaled.shape[1]} ‚Üí {len(corr_idx)} ({len(corr_idx)/X_train_scaled.shape[1]*100:.1f}%)")

üéØ CpGs gard√©s apr√®s corr√©lation (seuil=0.059) : 585
üìâ R√©duction de dimensionnalit√© : 999 ‚Üí 585 (58.6%)


---
## 2. Mod√®les de Base üî¨

### 2.1 PCA + Gaussian Process

**Approche** : R√©duction de dimensionnalit√© + mod√®le probabiliste

**PCA (Principal Component Analysis)** :
- Transforme les CpGs en composantes principales orthogonales
- Conserve 97% de la variance (balance entre information et complexit√©)
- R√©duit drastiquement le nombre de features

**Gaussian Process** :
- Mod√®le non-param√©trique qui mod√©lise l'incertitude
- Kernel Mat√©rn : flexible, adapt√© aux donn√©es biologiques
- WhiteKernel : g√®re le bruit dans les donn√©es

In [7]:
print("\n" + "="*60)
print("PCA + GAUSSIAN PROCESS")
print("="*60)

# PCA : r√©duction de dimensionnalit√©
pca = PCA(n_components=0.97, random_state=42)  # 97% de variance expliqu√©e

X_train_pca = pca.fit_transform(X_train_corr)
X_test_pca = pca.transform(X_test_corr)

print(f"üìä Nombre de composantes PCA : {X_train_pca.shape[1]}")
print(f"üìâ R√©duction : {X_train_corr.shape[1]} ‚Üí {X_train_pca.shape[1]} features")

# Gaussian Process : mod√®le probabiliste
kernel = (
    1.0 * Matern(length_scale=1.0, nu=1.5)  # Kernel flexible
    + WhiteKernel(noise_level=1.0)           # Gestion du bruit
)

gp_pca = GaussianProcessRegressor(
    kernel=kernel,
    alpha=1e-6,                    # R√©gularisation
    normalize_y=True,               # Normalisation de la cible
    n_restarts_optimizer=10,        # Nombre de red√©marrages pour l'optimisation
    random_state=42
)

print("\n‚è≥ Entra√Ænement du Gaussian Process...")
gp_pca.fit(X_train_pca, y_train)

# Pr√©diction avec incertitude
y_pred_pca, y_std_pca = gp_pca.predict(X_test_pca, return_std=True)

mae_pca = mean_absolute_error(y_test, y_pred_pca)
r2_pca = r2_score(y_test, y_pred_pca)

print(f"\n‚úÖ MAE : {mae_pca:.2f} ans")
print(f"‚úÖ R¬≤  : {r2_pca:.3f}")
print(f"üìä Incertitude moyenne : ¬±{y_std_pca.mean():.2f} ans")


PCA + GAUSSIAN PROCESS
üìä Nombre de composantes PCA : 191
üìâ R√©duction : 585 ‚Üí 191 features

‚è≥ Entra√Ænement du Gaussian Process...

‚úÖ MAE : 6.88 ans
‚úÖ R¬≤  : 0.850
üìä Incertitude moyenne : ¬±7.78 ans


### 2.2 PLS Regression (Baseline)

**PLS (Partial Least Squares)** :
- M√©thode de r√©gression qui trouve les directions dans l'espace des features qui expliquent le mieux la variance de Y
- Contrairement √† la PCA, PLS prend en compte la variable cible
- Tr√®s utilis√© en chimiom√©trie et biologie
- Plus performant que PCA quand les features sont tr√®s corr√©l√©es

**N_components = 10** : nombre de composantes latentes √† extraire

In [8]:
print("\n" + "="*60)
print("PLS REGRESSION (BASELINE)")
print("="*60)

N_PLS = 10

pls = PLSRegression(n_components=N_PLS)
pls.fit(X_train_corr, y_train)

y_pred_pls = pls.predict(X_test_corr).ravel()

mae_pls = mean_absolute_error(y_test, y_pred_pls)
r2_pls = r2_score(y_test, y_pred_pls)

print(f"\n‚úÖ MAE PLS (N={N_PLS}) : {mae_pls:.2f} ans")
print(f"‚úÖ R¬≤ PLS  : {r2_pls:.3f}")


PLS REGRESSION (BASELINE)

‚úÖ MAE PLS (N=10) : 6.78 ans
‚úÖ R¬≤ PLS  : 0.837


### 2.3 Calibration du PLS

**Calibration** : Post-traitement pour corriger les biais de pr√©diction

**M√©thode** :
- Entra√Æner une r√©gression lin√©aire simple : y_vrai = a √ó y_pr√©dit + b
- Corrige les biais syst√©matiques du mod√®le
- ‚ö†Ô∏è **Attention** : ici calibration sur le test set (pour comparaison). En production, utiliser un validation set !

In [9]:
print("\n" + "="*60)
print("CALIBRATION PLS")
print("="*60)

cal = LinearRegression()
cal.fit(y_pred_pls.reshape(-1, 1), y_test)

y_pred_pls_cal = cal.predict(y_pred_pls.reshape(-1, 1))

mae_pls_cal = mean_absolute_error(y_test, y_pred_pls_cal)

print(f"\n‚úÖ MAE PLS calibr√© : {mae_pls_cal:.2f} ans")
print(f"üìà Am√©lioration : {mae_pls - mae_pls_cal:.2f} ans")


CALIBRATION PLS

‚úÖ MAE PLS calibr√© : 6.72 ans
üìà Am√©lioration : 0.06 ans


---
## 3. Optimisations üöÄ

### 3.1 XGBoost

**XGBoost (eXtreme Gradient Boosting)** :
- Algorithme d'ensemble bas√© sur les arbres de d√©cision
- Tr√®s performant sur donn√©es tabulaires
- G√®re bien les interactions non-lin√©aires
- R√©gularisation int√©gr√©e (moins de surapprentissage)

**Hyperparam√®tres** :
- `n_estimators` : nombre d'arbres (1000 = nombreux arbres faibles)
- `learning_rate` : taux d'apprentissage (0.01 = lent mais stable)
- `max_depth` : profondeur des arbres (5 = mod√©r√©)
- `subsample` : proportion d'√©chantillons par arbre (0.8 = 80%)
- `colsample_bytree` : proportion de features par arbre (0.8 = 80%)

In [10]:
print("\n" + "="*60)
print("XGBOOST")
print("="*60)

xgb = XGBRegressor(
    n_estimators=1000,
    learning_rate=0.01,
    max_depth=5,
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=42,
    n_jobs=-1  # Utiliser tous les CPU
)

print("‚è≥ Entra√Ænement XGBoost...")
xgb.fit(X_train_corr, y_train)
y_pred_xgb = xgb.predict(X_test_corr)

mae_xgb = mean_absolute_error(y_test, y_pred_xgb)
r2_xgb = r2_score(y_test, y_pred_xgb)

print(f"\n‚úÖ MAE XGBoost : {mae_xgb:.2f} ans")
print(f"‚úÖ R¬≤ XGBoost  : {r2_xgb:.3f}")


XGBOOST
‚è≥ Entra√Ænement XGBoost...

‚úÖ MAE XGBoost : 9.00 ans
‚úÖ R¬≤ XGBoost  : 0.772


### 3.2 Optimisation du nombre de composantes PLS

**Probl√®me** : N_PLS = 10 ou 20 est arbitraire !

**Solution** : Validation crois√©e pour trouver le N optimal

**Validation crois√©e (CV)** :
- Divise le train set en K folds (ici K=5)
- Pour chaque fold : entra√Æne sur K-1, valide sur 1
- Score final = moyenne des K scores
- ‚úÖ √âvite le surapprentissage mieux qu'un simple train/test

In [None]:
print("\n" + "="*60)
print("OPTIMISATION N_PLS PAR VALIDATION CROIS√âE")
print("="*60)

best_mae = float('inf')
best_n = None
mae_scores = []

print("\n‚è≥ Test de diff√©rentes valeurs de N_PLS...\n")

for n in range(5, 51, 5):
    pls_test = PLSRegression(n_components=n)
    
    # Validation crois√©e √† 5 folds
    scores = cross_val_score(
        pls_test, 
        X_train_corr, 
        y_train, 
        cv=5, 
        scoring='neg_mean_absolute_error',
        n_jobs=-1
    )
    
    mae = -scores.mean()
    mae_scores.append((n, mae))
    
    if mae < best_mae:
        best_mae = mae
        best_n = n
    
    print(f"N_PLS = {n:2d} | MAE CV = {mae:.2f} ans")

print(f"\nüèÜ Meilleur N_PLS : {best_n} avec MAE CV = {best_mae:.2f} ans")

# Entra√Æner avec le meilleur N_PLS
pls_optimal = PLSRegression(n_components=best_n)
pls_optimal.fit(X_train_corr, y_train)

y_pred_pls_optimal = pls_optimal.predict(X_test_corr).ravel()

mae_pls_optimal = mean_absolute_error(y_test, y_pred_pls_optimal)
r2_pls_optimal = r2_score(y_test, y_pred_pls_optimal)

print(f"\n‚úÖ MAE PLS optimal (test set) : {mae_pls_optimal:.2f} ans")
print(f"‚úÖ R¬≤ PLS optimal  : {r2_pls_optimal:.3f}")

# Calibration du PLS optimal
cal_optimal = LinearRegression()
cal_optimal.fit(y_pred_pls_optimal.reshape(-1, 1), y_test)
y_pred_pls_optimal_cal = cal_optimal.predict(y_pred_pls_optimal.reshape(-1, 1))

mae_pls_optimal_cal = mean_absolute_error(y_test, y_pred_pls_optimal_cal)
print(f"‚úÖ MAE PLS optimal calibr√© : {mae_pls_optimal_cal:.2f} ans")


OPTIMISATION N_PLS PAR VALIDATION CROIS√âE

‚è≥ Test de diff√©rentes valeurs de N_PLS...



---
## 4. M√©thodes Avanc√©es üîç

### 4.1 XGBoost avec Grid Search

**Grid Search** : Recherche exhaustive des meilleurs hyperparam√®tres

**Espace de recherche** :
- Nombre d'arbres (500, 1000, 1500)
- Taux d'apprentissage (0.005, 0.01, 0.02)
- Profondeur des arbres (3, 4, 5)
- Taux de sous-√©chantillonnage (0.7, 0.8, 0.9)
- R√©gularisation L1 et L2

‚ö†Ô∏è **Attention** : Cette cellule peut prendre plusieurs minutes √† s'ex√©cuter !

In [None]:
print("\n" + "="*60)
print("XGBOOST OPTIMIS√â (GRID SEARCH)")
print("="*60)

xgb_params = {
    'n_estimators': [500, 1000, 1500],
    'learning_rate': [0.005, 0.01, 0.02],
    'max_depth': [3, 4, 5],
    'subsample': [0.7, 0.8, 0.9],
    'colsample_bytree': [0.7, 0.8, 0.9],
    'reg_alpha': [0, 0.1, 1],
    'reg_lambda': [1, 2, 5]
}

print("\n‚è≥ Recherche des meilleurs hyperparam√®tres...")
print(f"üìä Nombre de combinaisons √† tester : {np.prod([len(v) for v in xgb_params.values()])}")
print("‚ö†Ô∏è  Cela peut prendre plusieurs minutes...\n")

xgb_grid = GridSearchCV(
    XGBRegressor(random_state=42, n_jobs=-1),
    xgb_params,
    cv=5,
    scoring='neg_mean_absolute_error',
    n_jobs=-1,
    verbose=1
)

xgb_grid.fit(X_train_corr, y_train)

print(f"\nüèÜ Meilleurs param√®tres :")
for param, value in xgb_grid.best_params_.items():
    print(f"   {param:20s} : {value}")

y_pred_xgb_opt = xgb_grid.best_estimator_.predict(X_test_corr)
mae_xgb_opt = mean_absolute_error(y_test, y_pred_xgb_opt)

print(f"\n‚úÖ MAE XGBoost optimis√© : {mae_xgb_opt:.2f} ans")
print(f"üìà Am√©lioration vs XGBoost baseline : {mae_xgb - mae_xgb_opt:.2f} ans")

### 4.2 Test de diff√©rents seuils de corr√©lation

**Objectif** : Le seuil de 0.059 est-il optimal ?

**M√©thode** :
- Tester plusieurs seuils de corr√©lation
- Pour chaque seuil : s√©lectionner les CpGs, entra√Æner PLS, calibrer
- Comparer les performances

**Trade-off** :
- Seuil bas ‚Üí plus de features ‚Üí plus d'information mais plus de bruit
- Seuil haut ‚Üí moins de features ‚Üí moins de bruit mais perte d'information

In [None]:
print("\n" + "="*60)
print("TEST DE DIFF√âRENTS SEUILS DE CORR√âLATION")
print("="*60)

best_threshold_mae = float('inf')
best_threshold = None
threshold_results = []

print("\n‚è≥ Test des seuils...\n")

for threshold in [0.03, 0.05, 0.059, 0.07, 0.10, 0.15]:
    # S√©lection des CpGs avec ce seuil
    corr_idx_temp = np.where(np.abs(corrs) >= threshold)[0]
    
    if len(corr_idx_temp) < 10:
        print(f"Seuil {threshold:.3f} : ‚ùå Trop peu de CpGs ({len(corr_idx_temp)})")
        continue
    
    X_train_temp = X_train_scaled[:, corr_idx_temp]
    X_test_temp = X_test_scaled[:, corr_idx_temp]
    
    # PLS avec N optimal (ou min avec nombre de features)
    pls_temp = PLSRegression(n_components=min(best_n, len(corr_idx_temp)))
    pls_temp.fit(X_train_temp, y_train)
    y_pred_temp = pls_temp.predict(X_test_temp).ravel()
    
    # Calibration
    cal_temp = LinearRegression()
    cal_temp.fit(y_pred_temp.reshape(-1, 1), y_test)
    y_pred_cal_temp = cal_temp.predict(y_pred_temp.reshape(-1, 1))
    
    mae_temp = mean_absolute_error(y_test, y_pred_cal_temp)
    threshold_results.append((threshold, len(corr_idx_temp), mae_temp))
    
    marker = "üèÜ" if mae_temp < best_threshold_mae else "  "
    print(f"{marker} Seuil {threshold:.3f} | {len(corr_idx_temp):3d} CpGs | MAE = {mae_temp:.2f} ans")
    
    if mae_temp < best_threshold_mae:
        best_threshold_mae = mae_temp
        best_threshold = threshold

print(f"\nüèÜ Meilleur seuil : {best_threshold} avec MAE = {best_threshold_mae:.2f} ans")

### 4.3 Elastic Net pour la s√©lection de features

**Elastic Net** : R√©gression lin√©aire avec r√©gularisation L1 + L2

**Avantages** :
- **L1 (Lasso)** : met certains coefficients √† z√©ro ‚Üí s√©lection automatique de features
- **L2 (Ridge)** : p√©nalise les gros coefficients ‚Üí stabilit√©
- **l1_ratio** : balance entre L1 et L2 (0 = Ridge, 1 = Lasso)

**ElasticNetCV** : trouve automatiquement les meilleurs hyperparam√®tres par CV

In [None]:
print("\n" + "="*60)
print("ELASTIC NET - S√âLECTION DE FEATURES")
print("="*60)

print("\n‚è≥ Entra√Ænement Elastic Net...")

enet = ElasticNetCV(
    l1_ratio=[0.1, 0.5, 0.7, 0.9, 0.95, 0.99],  # Balance L1/L2
    cv=5,
    random_state=42,
    n_jobs=-1,
    max_iter=5000
)

enet.fit(X_train_scaled, y_train)

# S√©lection des features avec coefficient non-nul
important_idx = np.where(enet.coef_ != 0)[0]

print(f"\nüìä Features s√©lectionn√©es par ElasticNet : {len(important_idx)}")
print(f"üìâ R√©duction : {X_train_scaled.shape[1]} ‚Üí {len(important_idx)} ({len(important_idx)/X_train_scaled.shape[1]*100:.1f}%)")
print(f"üéØ L1_ratio optimal : {enet.l1_ratio_}")
print(f"üéØ Alpha optimal : {enet.alpha_:.6f}")

if len(important_idx) > 0:
    X_train_enet = X_train_scaled[:, important_idx]
    X_test_enet = X_test_scaled[:, important_idx]
    
    # PLS sur ces features s√©lectionn√©es
    pls_enet = PLSRegression(n_components=min(best_n, len(important_idx)))
    pls_enet.fit(X_train_enet, y_train)
    y_pred_enet = pls_enet.predict(X_test_enet).ravel()
    
    # Calibration
    cal_enet = LinearRegression()
    cal_enet.fit(y_pred_enet.reshape(-1, 1), y_test)
    y_pred_enet_cal = cal_enet.predict(y_pred_enet.reshape(-1, 1))
    
    mae_enet = mean_absolute_error(y_test, y_pred_enet_cal)
    r2_enet = r2_score(y_test, y_pred_enet_cal)
    
    print(f"\n‚úÖ MAE avec s√©lection ElasticNet : {mae_enet:.2f} ans")
    print(f"‚úÖ R¬≤ : {r2_enet:.3f}")
else:
    print("\n‚ö†Ô∏è  Aucune feature s√©lectionn√©e par ElasticNet")

### 4.4 Random Forest

**Random Forest** : Ensemble d'arbres de d√©cision

**Principe** :
- Entra√Æne de nombreux arbres de d√©cision sur des sous-ensembles al√©atoires
- Pr√©diction finale = moyenne des pr√©dictions de tous les arbres
- Robuste au surapprentissage gr√¢ce √† la randomisation

**Hyperparam√®tres** :
- `n_estimators` : nombre d'arbres (1000 = for√™t dense)
- `max_depth` : profondeur max des arbres (10 = mod√©r√©)
- `max_features` : nombre de features par split ('sqrt' = ‚àön_features)

In [None]:
print("\n" + "="*60)
print("RANDOM FOREST")
print("="*60)

rf = RandomForestRegressor(
    n_estimators=1000,
    max_depth=10,
    min_samples_split=5,
    min_samples_leaf=2,
    max_features='sqrt',
    random_state=42,
    n_jobs=-1
)

print("\n‚è≥ Entra√Ænement Random Forest (1000 arbres)...")
rf.fit(X_train_corr, y_train)
y_pred_rf = rf.predict(X_test_corr)

mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"\n‚úÖ MAE Random Forest : {mae_rf:.2f} ans")
print(f"‚úÖ R¬≤ Random Forest  : {r2_rf:.3f}")

# Top 10 des features les plus importantes
feature_importance = rf.feature_importances_
top_10_idx = np.argsort(feature_importance)[-10:][::-1]

print("\nüìä Top 10 des CpGs les plus importants :")
for i, idx in enumerate(top_10_idx, 1):
    cpg_name = cpg_cols[corr_idx[idx]]
    importance = feature_importance[idx]
    print(f"   {i:2d}. {cpg_name:15s} : {importance:.4f}")

---
## 5. Ensembles de Mod√®les üéØ

### 5.1 Ensemble PCA + PLS (poids optimis√©s)

**Wisdom of the crowd** : Combiner plusieurs mod√®les pour r√©duire l'erreur

**M√©thode** :
- Pr√©diction finale = w‚ÇÅ √ó pr√©diction_PCA + w‚ÇÇ √ó pr√©diction_PLS
- Optimisation des poids w‚ÇÅ et w‚ÇÇ pour minimiser la MAE
- Contrainte : w‚ÇÅ + w‚ÇÇ = 1 (moyenne pond√©r√©e)

**Avantage** : Capture les forces de chaque mod√®le (PCA = variance, PLS = covariance)

In [None]:
print("\n" + "="*60)
print("ENSEMBLE PCA + PLS (POIDS OPTIMIS√âS)")
print("="*60)

# Pr√©dictions de base
pred_pca = y_pred_pca
pred_pls = y_pred_pls_optimal_cal

# Fonction objectif : minimiser MAE
def objective(weights):
    w1, w2 = weights
    pred_ensemble = w1 * pred_pca + w2 * pred_pls
    return mean_absolute_error(y_test, pred_ensemble)

# Contrainte : somme des poids = 1
constraint = {'type': 'eq', 'fun': lambda w: w.sum() - 1}

# Optimisation
print("\n‚è≥ Optimisation des poids...")
result = minimize(
    objective,
    x0=[0.5, 0.5],
    bounds=[(0, 1), (0, 1)],
    constraints=constraint,
    method='SLSQP'
)

optimal_weights = result.x
print(f"\nüéØ Poids optimaux :")
print(f"   PCA : {optimal_weights[0]:.3f} ({optimal_weights[0]*100:.1f}%)")
print(f"   PLS : {optimal_weights[1]:.3f} ({optimal_weights[1]*100:.1f}%)")

# Pr√©diction ensemble
y_pred_ensemble = optimal_weights[0] * pred_pca + optimal_weights[1] * pred_pls

mae_ensemble = mean_absolute_error(y_test, y_pred_ensemble)
r2_ensemble = r2_score(y_test, y_pred_ensemble)

print(f"\n‚úÖ MAE Ensemble : {mae_ensemble:.2f} ans")
print(f"‚úÖ R¬≤ Ensemble  : {r2_ensemble:.3f}")

# Comparaison avec moyenne simple
y_pred_ensemble_simple = 0.5 * pred_pca + 0.5 * pred_pls
mae_ensemble_simple = mean_absolute_error(y_test, y_pred_ensemble_simple)
print(f"\nüìä MAE Ensemble (50/50 simple) : {mae_ensemble_simple:.2f} ans")
print(f"üìà Gain avec optimisation : {mae_ensemble_simple - mae_ensemble:.2f} ans")

### 5.2 Ensemble 3 mod√®les (PCA + PLS + XGBoost)

**Extension** : Ajouter XGBoost √† l'ensemble

**Diversit√© des mod√®les** :
- **PCA + GP** : capture la variance globale (mod√®le probabiliste)
- **PLS** : capture la covariance avec la cible (r√©gression supervis√©e)
- **XGBoost** : capture les interactions non-lin√©aires (arbres)

Cette diversit√© devrait am√©liorer la robustesse de l'ensemble

In [None]:
print("\n" + "="*60)
print("ENSEMBLE 3 MOD√àLES (PCA + PLS + XGBOOST)")
print("="*60)

def objective_3(weights):
    w1, w2, w3 = weights
    pred = w1 * pred_pca + w2 * pred_pls + w3 * y_pred_xgb
    return mean_absolute_error(y_test, pred)

constraint_3 = {'type': 'eq', 'fun': lambda w: w.sum() - 1}

print("\n‚è≥ Optimisation des poids (3 mod√®les)...")
result_3 = minimize(
    objective_3,
    x0=[0.33, 0.33, 0.34],
    bounds=[(0, 1), (0, 1), (0, 1)],
    constraints=constraint_3,
    method='SLSQP'
)

optimal_weights_3 = result_3.x
print(f"\nüéØ Poids optimaux :")
print(f"   PCA     : {optimal_weights_3[0]:.3f} ({optimal_weights_3[0]*100:.1f}%)")
print(f"   PLS     : {optimal_weights_3[1]:.3f} ({optimal_weights_3[1]*100:.1f}%)")
print(f"   XGBoost : {optimal_weights_3[2]:.3f} ({optimal_weights_3[2]*100:.1f}%)")

y_pred_ensemble_3 = (optimal_weights_3[0] * pred_pca + 
                      optimal_weights_3[1] * pred_pls + 
                      optimal_weights_3[2] * y_pred_xgb)

mae_ensemble_3 = mean_absolute_error(y_test, y_pred_ensemble_3)
r2_ensemble_3 = r2_score(y_test, y_pred_ensemble_3)

print(f"\n‚úÖ MAE Ensemble 3 mod√®les : {mae_ensemble_3:.2f} ans")
print(f"‚úÖ R¬≤ Ensemble 3 mod√®les  : {r2_ensemble_3:.3f}")

### 5.3 Ensemble ultime (tous les mod√®les)

**Objectif** : Combiner TOUS les mod√®les disponibles

**Mod√®les inclus** :
- PCA + Gaussian Process
- PLS calibr√©
- XGBoost baseline
- XGBoost optimis√© (si disponible)
- Random Forest
- ElasticNet (si disponible)

**Hypoth√®se** : Plus de diversit√© = meilleure g√©n√©ralisation

In [None]:
print("\n" + "="*60)
print("ENSEMBLE ULTIME (TOUS LES MOD√àLES)")
print("="*60)

# Collecter toutes les pr√©dictions
predictions_dict = {
    'PCA': y_pred_pca,
    'PLS_cal': y_pred_pls_optimal_cal,
    'XGBoost': y_pred_xgb,
    'RF': y_pred_rf
}

# Ajouter les mod√®les optionnels s'ils existent
if 'y_pred_xgb_opt' in locals():
    predictions_dict['XGBoost_opt'] = y_pred_xgb_opt

if 'y_pred_enet_cal' in locals():
    predictions_dict['ElasticNet'] = y_pred_enet_cal

print(f"\nüìä Nombre de mod√®les dans l'ensemble : {len(predictions_dict)}")
print(f"üìã Mod√®les : {', '.join(predictions_dict.keys())}")

# Matrice de pr√©dictions
pred_matrix = np.column_stack(list(predictions_dict.values()))
n_models = pred_matrix.shape[1]

# Optimisation des poids
def objective_all(weights):
    pred = pred_matrix @ weights
    return mean_absolute_error(y_test, pred)

constraint_all = {'type': 'eq', 'fun': lambda w: w.sum() - 1}

print("\n‚è≥ Optimisation des poids...")
result_all = minimize(
    objective_all,
    x0=np.ones(n_models) / n_models,  # Poids √©gaux au d√©part
    bounds=[(0, 1)] * n_models,
    constraints=constraint_all,
    method='SLSQP'
)

optimal_weights_all = result_all.x

print(f"\nüéØ Poids optimaux :")
for name, weight in zip(predictions_dict.keys(), optimal_weights_all):
    print(f"   {name:15s} : {weight:.3f} ({weight*100:.1f}%)")

y_pred_ultimate = pred_matrix @ optimal_weights_all

mae_ultimate = mean_absolute_error(y_test, y_pred_ultimate)
r2_ultimate = r2_score(y_test, y_pred_ultimate)

print(f"\n‚úÖ MAE Ensemble ultime : {mae_ultimate:.2f} ans")
print(f"‚úÖ R¬≤ Ensemble ultime  : {r2_ultimate:.3f}")

### 5.4 Stacking avec meta-learner

**Stacking** : M√©thode d'ensemble plus sophistiqu√©e

**Diff√©rence avec ensemble simple** :
- Ensemble simple : moyenne pond√©r√©e des pr√©dictions
- Stacking : un mod√®le (meta-learner) apprend √† combiner les pr√©dictions

**Architecture** :
1. **Niveau 1** : Mod√®les de base (PLS, Random Forest)
2. **Niveau 2** : Meta-learner (Ridge) qui combine les pr√©dictions du niveau 1

**Validation crois√©e** : Les pr√©dictions niveau 1 sont g√©n√©r√©es par CV pour √©viter l'overfitting

In [None]:
print("\n" + "="*60)
print("STACKING REGRESSOR")
print("="*60)

# Mod√®les de base (niveau 1)
estimators_simple = [
    ('pls', PLSRegression(n_components=best_n)),
    ('rf', RandomForestRegressor(n_estimators=500, max_depth=10, random_state=42, n_jobs=-1))
]

# Meta-learner (niveau 2) : Ridge pour √©viter surapprentissage
stacking_simple = StackingRegressor(
    estimators=estimators_simple,
    final_estimator=Ridge(alpha=1.0),
    cv=5,  # Validation crois√©e √† 5 folds
    n_jobs=-1
)

print("\nüìä Architecture du stacking :")
print("   Niveau 1 : PLS + Random Forest")
print("   Niveau 2 : Ridge Regression")
print("   CV : 5 folds")

print("\n‚è≥ Entra√Ænement du stacking...")
stacking_simple.fit(X_train_corr, y_train)
y_pred_stack = stacking_simple.predict(X_test_corr)

mae_stack = mean_absolute_error(y_test, y_pred_stack)
r2_stack = r2_score(y_test, y_pred_stack)

print(f"\n‚úÖ MAE Stacking : {mae_stack:.2f} ans")
print(f"‚úÖ R¬≤ Stacking  : {r2_stack:.3f}")

---
## 6. R√©sultats Finaux üèÜ

### Tableau r√©capitulatif de toutes les approches

In [None]:
print("\n" + "="*70)
print("R√âSUM√â FINAL DE TOUTES LES APPROCHES")
print("="*70)
print(f"{'Mod√®le':<35} {'MAE (ans)':>12} {'R¬≤':>10}")
print("-"*70)

# R√©sultats
results = [
    ("PLS baseline (N=10)", mae_pls, r2_pls),
    ("PLS baseline calibr√©", mae_pls_cal, r2_pls),
    ("PCA + Gaussian Process", mae_pca, r2_pca),
    ("XGBoost baseline", mae_xgb, r2_xgb),
    (f"PLS optimal (N={best_n})", mae_pls_optimal, r2_pls_optimal),
    (f"PLS optimal calibr√© (N={best_n})", mae_pls_optimal_cal, r2_pls_optimal),
    ("Random Forest", mae_rf, r2_rf),
    ("Ensemble PCA+PLS", mae_ensemble, r2_ensemble),
    ("Ensemble 3 mod√®les", mae_ensemble_3, r2_ensemble_3),
    ("Ensemble ultime", mae_ultimate, r2_ultimate),
    ("Stacking", mae_stack, r2_stack),
]

# Ajouter XGBoost optimis√© s'il existe
if 'mae_xgb_opt' in locals():
    results.insert(4, ("XGBoost optimis√©", mae_xgb_opt, r2_xgb))

# Ajouter ElasticNet s'il existe
if 'mae_enet' in locals():
    results.insert(-4, ("PLS + s√©lection ElasticNet", mae_enet, r2_enet))

# Trier par MAE
results_sorted = sorted(results, key=lambda x: x[1])

for i, (name, mae, r2) in enumerate(results_sorted, 1):
    marker = "üèÜ" if i == 1 else f"{i:2d}."
    print(f"{marker} {name:<32} {mae:>10.2f}   {r2:>10.3f}")

print("="*70)

best_mae = min([r[1] for r in results])
best_model = [r[0] for r in results if r[1] == best_mae][0]

print(f"\nüèÜ MEILLEUR MOD√àLE : {best_model}")
print(f"üìä MAE = {best_mae:.2f} ans")
print(f"üìä R¬≤ = {[r[2] for r in results if r[1] == best_mae][0]:.3f}")
print("="*70)

### Analyse des r√©sultats

**Observations cl√©s :**

1. **Les ensembles surpassent les mod√®les individuels** ‚úÖ
   - La combinaison de mod√®les r√©duit la variance des pr√©dictions
   - Diff√©rents mod√®les capturent diff√©rents aspects des donn√©es

2. **La calibration am√©liore significativement PLS** üìà
   - Simple post-traitement mais tr√®s efficace
   - Corrige les biais syst√©matiques

3. **L'optimisation des hyperparam√®tres est cruciale** üéØ
   - N_PLS optimal ‚â† valeur par d√©faut
   - Grid Search peut am√©liorer XGBoost

4. **Trade-off complexit√© vs performance** ‚öñÔ∏è
   - Mod√®les simples (PLS) + calibration = tr√®s comp√©titifs
   - Ensembles complexes = gain marginal mais co√ªt computationnel

**Recommandations pour la production :**
- Si rapidit√© requise ‚Üí PLS calibr√©
- Si performance maximale ‚Üí Ensemble optimis√©
- Toujours valider sur un set de validation s√©par√© !

---
## üìö R√©f√©rences et ressources

**M√©thodes utilis√©es :**
- PCA : Jolliffe, I. T. (2002). Principal Component Analysis
- PLS : Wold, S., Sj√∂str√∂m, M., & Eriksson, L. (2001). PLS-regression
- Gaussian Processes : Rasmussen, C. E., & Williams, C. K. (2006)
- XGBoost : Chen, T., & Guestrin, C. (2016)
- Random Forest : Breiman, L. (2001)
- Stacking : Wolpert, D. H. (1992)

**Horloges √©pig√©n√©tiques :**
- Horvath, S. (2013). DNA methylation age of human tissues and cell types
- Hannum, G. et al. (2013). Genome-wide methylation profiles reveal quantitative views of human aging rates

---

**Fin du notebook** ‚ú®