# QRT Data Challenge : Prédiction de Survie pour la Leucémie Myéloïde Aiguë
### En partenariat avec l'Institut Gustave Roussy
<p align="center">
  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/Logo-gustave-roussy.jpg/1200px-Logo-gustave-roussy.jpg" alt="Logo 1" width="250"/>
  <img src="https://upload.wikimedia.org/wikipedia/en/thumb/3/3f/Qube_Research_%26_Technologies_Logo.svg/1200px-Qube_Research_%26_Technologies_Logo.svg.png" alt="Logo 2" width="200" style="margin-left: 20px;"/>
</p>

## I. Contexte Médical et Enjeu
Ce projet, réalisé en partenariat avec l'**Institut Gustave Roussy**, porte sur la **Leucémie Myéloïde Aiguë (AML)**.
L'objectif clinique est de stratifier les patients selon leur risque de décès afin d'optimiser la prise de décision thérapeutique :
* **Patients à faible risque** : Orientés vers des thérapies standards et des soins de support.
* **Patients à haut risque** : Prioritaires pour des traitements intensifs.

## II. Définition du Problème
* **Tâche** : Prédire un score de risque continu pour chaque patient.
* **Données** : Cohorte multicentrique (24 centres) de 3323 patients (Entraînement) et 1193 patients (Test). Les variables sont cliniques et génétiques.
* **Spécificité Mathématique** : Il s'agit d'une **régression sur données censurées à droite**. La variable cible est le temps de survie, mais pour les patients vivants à la fin de l'étude, la durée totale de survie est inconnue.
* **Métrique d'Évaluation** : Le **C-Index** (Indice de Concordance). Cette métrique évalue la capacité du modèle à ordonner correctement les patients du plus risqué au moins risqué, indépendamment de l'échelle des valeurs prédites.

## III. Choix Méthodologiques
Notre approche repose sur une architecture de **Stacking** combinant des algorithmes complémentaires pour minimiser le biais et la variance :
* **Gradient Boosting** : Pour sa performance sur données tabulaires.
* **Random Forest** : Pour la robustesse et la réduction de variance.
* **Perceptron Multi-Couches (MLP)** : Pour capturer les relations non-linéaires complexes.
* **K-Nearest Neighbors (KNN)** : Pour exploiter la topologie locale des données.
* **Modèles Linéaires (Lasso)** : Pour la sélection de variables et la régularisation.



In [1]:
import pandas as pd
import numpy as np
from scipy.stats import rankdata
from sklearn.ensemble import HistGradientBoostingClassifier, HistGradientBoostingRegressor, RandomForestRegressor
from sklearn.linear_model import Ridge, Lasso
from sklearn.neural_network import MLPRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import QuantileTransformer, RobustScaler, StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.impute import KNNImputer
from sklearn.model_selection import StratifiedKFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA