# TP5 : Introduction au Machine Learning pour la survie

- Auteur : Juliette Murris
- Date : Janvier 2024


L'objectif de ce TP est de se familiariser avec les notions de Machine Learning pour prédire la survie


## Prérequis 

Pour commencer installez les library suivantes :

In [None]:
! pip install -U scikit-survival


Collecting scikit-survival
  Downloading scikit-survival-0.17.0.tar.gz (2.5 MB)
[K     |████████████████████████████████| 2.5 MB 13.5 MB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
Building wheels for collected packages: scikit-survival
  Building wheel for scikit-survival (PEP 517) ... [?25l[?25hdone
  Created wheel for scikit-survival: filename=scikit_survival-0.17.0-cp37-cp37m-linux_x86_64.whl size=4080423 sha256=15b149f6ef3b8cc5b69144641528e2524e205c2fa7d8f98f13b24efa21129ae9
  Stored in directory: /root/.cache/pip/wheels/91/c1/99/2c2faacc82ff4f89d27612b1fd905ea35aa24f6a93dd4dcc0d
Successfully built scikit-survival
Installing collected packages: scikit-survival
Successfully installed scikit-survival-0.17.0


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder

from sksurv.datasets import load_flchain
from sksurv.preprocessing import OneHotEncoder
from sksurv.ensemble import RandomSurvivalForest
from sksurv.tree import SurvivalTree

Dans ce TP nous allons travailler sur le jeu de données **flchain**. Ces données sont issues d'une étude cherchant à évaluer la faculté prédictive des chaînes légères non clonales libres d'immunoglobulines sur le décès. Vous trouverez le détail de ces travaux dans la [publication](https://www.mayoclinicproceedings.org/article/S0025-6196(12)00388-6/fulltext) associée.

La table disponible dans la library **sksurv** contient 7874 sujet et les 9 variables suivantes :
- Age : en année
- Sexe : F=femme, M=homme
- sample.yr : année à le prélèvement de sang a eu lieu
- kappa : chaîne légère sans sérum, kappa portion
- lambda : chaîne légère sans sérum, lambda portion
- lc.grp : Groupe défini suivant les chaînes légères sans sérum, comme utilisé dans les analyses initiales
- creatinine : taux de créatinine
- mgus : 1 si le patient a été diagnostiqué avec une gammapathie monoclonale
- chapter : pour les patients décédés, le code CIM10 du la cause pruncipale de décès

In [None]:
# Chargement des données :
    # X : Features
    # y : outcome ici le décès
X, y = load_flchain()

In [None]:
y

array([( True,   85.), ( True, 1281.), ( True,   69.), ...,
       (False, 2507.), (False, 4982.), (False, 3995.)],
      dtype=[('death', '?'), ('futime', '<f8')])

## Prétraitement des données 

In [None]:
# On visualise les données 
print(X)
# On regarde le type des données
X.dtypes

       age      chapter  creatinine flc.grp  kappa  lambda mgus sample.yr sex
0     97.0  Circulatory         1.7      10  5.700   4.860   no      1997   F
1     92.0    Neoplasms         0.9       1  0.870   0.683   no      2000   F
2     94.0  Circulatory         1.4      10  4.360   3.850   no      1997   F
3     92.0  Circulatory         1.0       9  2.420   2.220   no      1996   F
4     93.0  Circulatory         1.1       6  1.320   1.690   no      1996   F
...    ...          ...         ...     ...    ...     ...  ...       ...  ..
7869  52.0          NaN         1.0       6  1.210   1.610   no      1995   F
7870  52.0          NaN         0.8       1  0.858   0.581   no      1999   F
7871  54.0          NaN         NaN       8  1.700   1.720   no      2002   F
7872  53.0          NaN         NaN       9  1.710   2.690   no      1995   F
7873  50.0          NaN         0.7       4  1.190   1.250   no      1998   F

[7874 rows x 9 columns]


age            float64
chapter       category
creatinine     float64
flc.grp       category
kappa          float64
lambda         float64
mgus          category
sample.yr     category
sex           category
dtype: object

On remarque qu'il y a des valeurs manquante dans la base. 
Le code suivant permet de quantifier les valeurs manquantes dans chacune des variables.

In [None]:
print(X.isnull().sum())

age              0
chapter       5705
creatinine    1350
flc.grp          0
kappa            0
lambda           0
mgus             0
sample.yr        0
sex              0
dtype: int64


On observe qu'il y a 1350 valeurs manquantes pour la variable créatinine et 5705 pour la variables chapter. Pour la seconde variable cela peut s'expliquer par le fait que seul les patients décédés ont cette variables renseignées. Cette variable ne sera pas utilisée pour prédire le décès. On peut donc supprimer cette variable de la table X.

On décide ici d'imputer la variable créatinine par sa médiane. **ATTENTION** : en pratique, il faut réfléchir un peu plus à la gestion des données manquantes. 

In [None]:
#On supprime la variable chapter

#On supprime les patients avec au moins une valeur manquante

#On vérifie qu'il n'y a plus de valeurs manquantes


age           0
creatinine    0
flc.grp       0
kappa         0
lambda        0
mgus          0
sample.yr     0
sex           0
dtype: int64


Pour pouvoir facilement utiliser les données ont va transformer les données qualitatives en variables booléennes et on vérifie que les variables continues sont bien en numérique.

In [1]:
#On identifie les variables quantitatives

#On vérifie les types

#On remarque que la variable flc.grp est codé en catégorie. On la transforme donc en numerique

#On récupère le noms des variables


In [None]:
#On identifie les variables quantitatives

#On récupère le noms des variables

#On les transforme en variable booléenne


In [None]:
#On compile variables quanti et quali


Enfin, on termine cette partie de prétraitement des données par créer une base de test et une base d'entrainement.

In [None]:
#Réponse 
#
#
#
#
#
#
#

## Entrainement du modèle de survie

#### <span style='color: #a13203; font-weight: 600;'>💬 Question 1 </span> Définissez une forêt aléatoire de survie avec : 
- 100 arbres, 
- $\sqrt{\text{nombre de covariables}}$ variables testées à chaque noeud

et en fixant la graine de simulation.

In [None]:
#Réponse 
#
#
#
#
#
#
#

#### <span style='color: #a13203; font-weight: 600;'>💬 Question 2 </span> Entrainez le modèle précédent sur vos données d'entrainement

In [None]:
#Réponse 
#
#
#
#
#
#
#

## Prédiction

#### <span style='color: #a13203; font-weight: 600;'>💬 Question 3 </span> Calculer le C-index sur la base de test

In [None]:
#Réponse 
#
#
#
#
#
#
#

#### <span style='color: #a13203; font-weight: 600;'>💬 Question 4 </span> Afficher les scores de risque des 5 premiers patients de la base et interpréter

In [None]:
#Réponse 
#
#
#
#
#
#
#

Le patient 2 semble être le plus à risque de décéder. A l'inverse le patient 4 semble à faible risque de décès. 

#### <span style='color: #a13203; font-weight: 600;'>💬 Question 5 </span> Evaluer les fonctions de survie des 5 premiers patients et les représenter graphiquement

In [None]:
#Réponse 
#
#
#
#
#
#
#

#### <span style='color: #a13203; font-weight: 600;'>💬 Question 6 </span> Evaluer les incidences cumulées des 5 premiers patients et les représenter graphiquement

In [None]:
#Réponse 
#
#
#
#
#
#
#

## Influence des variables

In [None]:
! pip install -U eli5

Collecting eli5
  Downloading eli5-0.11.0-py2.py3-none-any.whl (106 kB)
[?25l[K     |███                             | 10 kB 22.4 MB/s eta 0:00:01[K     |██████▏                         | 20 kB 21.1 MB/s eta 0:00:01[K     |█████████▎                      | 30 kB 24.6 MB/s eta 0:00:01[K     |████████████▍                   | 40 kB 17.1 MB/s eta 0:00:01[K     |███████████████▌                | 51 kB 17.6 MB/s eta 0:00:01[K     |██████████████████▌             | 61 kB 14.0 MB/s eta 0:00:01[K     |█████████████████████▋          | 71 kB 11.6 MB/s eta 0:00:01[K     |████████████████████████▊       | 81 kB 12.7 MB/s eta 0:00:01[K     |███████████████████████████▉    | 92 kB 13.9 MB/s eta 0:00:01[K     |███████████████████████████████ | 102 kB 14.9 MB/s eta 0:00:01[K     |████████████████████████████████| 106 kB 14.9 MB/s 
Installing collected packages: eli5
Successfully installed eli5-0.11.0


In [None]:
import eli5
from eli5.sklearn import PermutationImportance

In [None]:
#Réponse 
#
#
#
#
#
#
#