In [1]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

In [2]:
import warnings
warnings.filterwarnings('ignore')

# Comparaisons méthodes de sélection de features 

Dans ce notebook on essaye de sélectionner des features qui semblent signifiant pour une étude avec des modèles plus poussés.

On utilise :

    -La fonction SelectKBest utilisé avec une chi2
    -Une méthode de Recursive Feature Elimination essayée avec 5 modèles 

## Librairies 

In [3]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

## Data

In [4]:
from transplant.data.learningset import Learningset

learningset = Learningset()

X_train, X_test = learningset.get_data_merged_dynamic_flatten_full(full_df=True)

In [5]:
X=X_train.drop(['target','id_patient'],axis=1).apply(np.absolute)
# Il y a des valeurs négatives mais je ne sais pas où encore
Y=X_train['target']

X_col=X.columns

## Selection Avec SelectKBest et test chi-2

Je ne sais pas encore bien ce que cela fait.

In [6]:
nombre_de_feature=40 # ici on chosit le nombre de variable à "shortlister"

selection_best_feature = SelectKBest(score_func=chi2, k=nombre_de_feature)
selected_feat_fit = selection_best_feature.fit(X, Y)

In [7]:
selection_featur_selectKbest=X_col[selected_feat_fit.get_support()]
selection_featur_selectKbest

Index(['Donneur_CPT', 'LAS', 'PAPS', 'PF_donor', 'Poids', 'body_mass_index',
       'start_operation_day', 'ends_operation_day', 'B.I.S_mean',
       'BIS SR_mean', 'PNIm_mean', 'PNIs_mean', 'SvO2 (m)_mean', 'Temp_mean',
       'VT_mean', 'B.I.S_std', 'BIS SR_std', 'PNIm_std', 'PNIs_std',
       'SpO2_std', 'SvO2 (m)_std', 'B.I.S_max', 'BIS SR_max', 'PASs_max',
       'PEEPtotal_max', 'PNId_max', 'PNIm_max', 'PNIs_max', 'SvO2 (m)_max',
       'VT_max', 'FC_min', 'FR_min', 'PAPdia_min', 'PAPmoy_min', 'PAPsys_min',
       'PASd_min', 'PASm_min', 'PEEPtotal_min', 'Pmax_min', 'SpO2_min'],
      dtype='object')

## Selection avec Recursive Feature Elimination

In [8]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

from sklearn.ensemble import (RandomForestClassifier, AdaBoostClassifier,
                              GradientBoostingClassifier, ExtraTreesClassifier)


In [9]:
nombre_de_feature=15  # ici on chosit le nombre de variable à "shortlister"

### RFE with Logistic Regression

In [10]:
log_reg = LogisticRegression()
rfe_log_reg = RFE(log_reg, nombre_de_feature)
fit_log_reg = rfe_log_reg.fit(X, Y)

In [11]:
selection_featur_logreg=X_col[fit_log_reg.support_]
selection_featur_logreg

Index(['Aspirations_donor', 'PFO', 'pathologie', 'plasmapherese',
       'preoperative_ECMO', 'preoperative_ICU',
       'preoperative_mechanical_ventilation', 'super_urgence', 'ETCO2_mean',
       'Pmean_mean', 'declampage_cote1_done_mean',
       'declampage_cote2_done_mean', 'BIS SR_std', 'FR_min', 'Pmean_min'],
      dtype='object')

### RFE with Random Forest

In [12]:
rf = RandomForestClassifier()
rfe_rf = RFE(rf, nombre_de_feature)
fit_rf = rfe_rf.fit(X, Y)

In [13]:
selection_featur_rf=X_col[fit_rf.support_]
selection_featur_rf

Index(['Poids', 'ends_operation_day', 'ETCO2_mean', 'PASs_mean',
       'PEEPtotal_mean', 'Pmax_mean', 'Pmean_mean', 'SpO2_mean', 'Temp_mean',
       'VT_mean', 'declampage_cote2_done_mean', 'PASd_std', 'VT_std',
       'PASm_max', 'Temp_max'],
      dtype='object')

### RFE with AdaBoost

In [14]:
ada = AdaBoostClassifier()
rfe_ada = RFE(ada, nombre_de_feature)
fit_ada = rfe_ada.fit(X, Y)

In [15]:
selection_featur_ada=X_col[fit_ada.support_]
selection_featur_ada

Index(['LAS', 'age', 'body_mass_index', 'oto_score', 'ETCO2_mean', 'PASd_mean',
       'PASs_mean', 'Temp_mean', 'FR_std', 'PEEPtotal_std', 'PNId_std',
       'SpO2_std', 'SvO2 (m)_std', 'PASm_max', 'VT_max'],
      dtype='object')

### RFE with Gradient Boosting

In [16]:
gb = GradientBoostingClassifier()
rfe_gb = RFE(gb, nombre_de_feature)
fit_gb = rfe_gb.fit(X, Y)

In [17]:
selection_featur_gb=X_col[fit_gb.support_]
selection_featur_gb

Index(['LAS', 'body_mass_index', 'oto_score', 'ETCO2_mean', 'FiO2_mean',
       'PASs_mean', 'PEEPtotal_mean', 'PNId_mean', 'SpO2_mean', 'Temp_mean',
       'VT_mean', 'PASs_std', 'PEEPtotal_std', 'SpO2_std', 'PASm_max'],
      dtype='object')

### RFE with Extra Trees 

In [18]:
et = ExtraTreesClassifier()
rfe_et = RFE(et, nombre_de_feature)
fit_et = rfe_et.fit(X, Y)

In [19]:
selection_featur_et=X_col[fit_et.support_]
selection_featur_et

Index(['Age_donor', 'LAS', 'Poids', 'body_mass_index', 'oto_score',
       'pathologie', 'start_operation_day', 'ETCO2_mean', 'FiO2_mean',
       'declampage_cote1_done_mean', 'FiO2_std', 'PEEPtotal_std', 'VT_std',
       'BIS SR_max', 'Pmean_max'],
      dtype='object')

## Comparaison des RFE 

Principe du vote :

Ces features sont dans toutes les listes des méthodes d'ensembles

In [20]:
vote_features_ensembles=set(selection_featur_et) & set(selection_featur_rf) & set(selection_featur_ada) & set(selection_featur_gb)
vote_features_ensembles

{'ETCO2_mean'}

Ces features sont dans toutes les méthodes ensemblistes et dans le modèle linéaire

In [21]:
set(selection_featur_logreg) & vote_features_ensembles

{'ETCO2_mean'}

Ces features sont dans toutes les méthodes ensemblistes et le résultat des tests du chi2

In [22]:
vote_features_best_ensemble=set(selection_featur_selectKbest) & vote_features_ensembles
vote_features_best_ensemble

set()

Ces features sont dans le modèle linéaire et le résultat des tests du chi2

In [23]:
vote_features_best_lineaire=set(selection_featur_logreg) & set(selection_featur_selectKbest)
vote_features_best_lineaire

{'BIS SR_std', 'FR_min'}

## Idées de choix de features

On peut par exemple utiliser la liste :

In [24]:
list(vote_features_ensembles)+list(vote_features_best_lineaire)

['ETCO2_mean', 'FR_min', 'BIS SR_std']

ou pourquoi pas :

In [25]:
list(vote_features_ensembles)+list(selection_featur_selectKbest)

['ETCO2_mean',
 'Donneur_CPT',
 'LAS',
 'PAPS',
 'PF_donor',
 'Poids',
 'body_mass_index',
 'start_operation_day',
 'ends_operation_day',
 'B.I.S_mean',
 'BIS SR_mean',
 'PNIm_mean',
 'PNIs_mean',
 'SvO2 (m)_mean',
 'Temp_mean',
 'VT_mean',
 'B.I.S_std',
 'BIS SR_std',
 'PNIm_std',
 'PNIs_std',
 'SpO2_std',
 'SvO2 (m)_std',
 'B.I.S_max',
 'BIS SR_max',
 'PASs_max',
 'PEEPtotal_max',
 'PNId_max',
 'PNIm_max',
 'PNIs_max',
 'SvO2 (m)_max',
 'VT_max',
 'FC_min',
 'FR_min',
 'PAPdia_min',
 'PAPmoy_min',
 'PAPsys_min',
 'PASd_min',
 'PASm_min',
 'PEEPtotal_min',
 'Pmax_min',
 'SpO2_min']