# <center>**COMMENT REALISER UNE RFE (Recursive Feature Eliminator) DANS PYTHON ?**

<center>Par Josué AFOUDA

* 1- Définition : **La sélection d'attributs ou de variables est un processus utilisé en apprentissage automatique et en traitement de données. Il consiste à trouver un sous-sensemble de variables pertinentes à partir d'un ensemble de données de grande dimension. C'est-à-dire que l'on cherche à minimiser la perte d'information venant de la suppression de toutes les autres variables. C'est une méthode de réduction de la dimensionnalité**.

**Classement des prédicteurs dans l'ordre d'importance en éliminant de manière récursive ceux qui ne sont pas importants, c'est-à-dire qui n'affectent pas la qualité du modèle** ;

* 2- Pourquoi RFE ? :**Par souci d'interprétabilité des modèles de Machine Learning**.

# <font color=red> Importation des outils et des données

In [1]:
# Importation des librairies

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE

In [2]:
# Importation des données

file = 'https://raw.githubusercontent.com/JosueAfouda/TUTORIALS/main/churn_clean.csv'

df = pd.read_csv(file)

df.head()

Unnamed: 0,tenure,MonthlyCharges,TotalCharges,MultipleLines_No phone service,MultipleLines_Yes,InternetService_Fiber optic,InternetService_No,OnlineSecurity_No internet service,OnlineSecurity_Yes,OnlineBackup_No internet service,...,PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check,gender,SeniorCitizen,Partner,Dependents,PhoneService,PaperlessBilling,Churn
0,-1.277445,-1.160323,-0.994194,1,0,0,0,0,0,0,...,0,1,0,0,0,1,0,0,1,0
1,0.066327,-0.259629,-0.17374,0,0,0,0,0,1,0,...,0,0,1,1,0,0,0,1,0,0
2,-1.236724,-0.36266,-0.959649,0,0,0,0,0,1,0,...,0,0,1,1,0,0,0,1,1,1
3,0.514251,-0.746535,-0.195248,1,0,0,0,0,1,0,...,0,0,0,1,0,0,0,0,0,0
4,-1.236724,0.197365,-0.940457,0,0,1,0,0,0,0,...,0,1,0,0,0,0,0,1,1,1


In [3]:
# Structure des données

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7032 entries, 0 to 7031
Data columns (total 31 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   tenure                                 7032 non-null   float64
 1   MonthlyCharges                         7032 non-null   float64
 2   TotalCharges                           7032 non-null   float64
 3   MultipleLines_No phone service         7032 non-null   int64  
 4   MultipleLines_Yes                      7032 non-null   int64  
 5   InternetService_Fiber optic            7032 non-null   int64  
 6   InternetService_No                     7032 non-null   int64  
 7   OnlineSecurity_No internet service     7032 non-null   int64  
 8   OnlineSecurity_Yes                     7032 non-null   int64  
 9   OnlineBackup_No internet service       7032 non-null   int64  
 10  OnlineBackup_Yes                       7032 non-null   int64  
 11  Devi

# <font color=red> Modélisation

In [4]:
# Variables d'entrée du modèle

X = df.drop('Churn', axis=1)

# Variable cible

y = df['Churn']

# Données d'entraînement (80%) et données de test (20%)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 1111)

In [5]:
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(5274, 30)
(5274,)
(1758, 30)
(1758,)


In [6]:
# Création d'un modèle de régression logistique

log_model = LogisticRegression()

# Entraînement du modèle

log_model.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [7]:
# Précision globale sur les données d'entraînement

log_score_train = log_model.score(X_train, y_train)

log_score_train

0.8043230944254836

In [8]:
# Précision globale sur les données de test

log_score_test = log_model.score(X_test, y_test)

log_score_test

0.8088737201365188

# <font color=red> Recursive Feature Eliminator (RFE)

In [9]:
# RFE sur le modèle de régression logistique

rfe_model = RFE(estimator = log_model, verbose =1)

rfe_model.fit(X_train, y_train)

Fitting estimator with 30 features.
Fitting estimator with 29 features.
Fitting estimator with 28 features.
Fitting estimator with 27 features.
Fitting estimator with 26 features.
Fitting estimator with 25 features.
Fitting estimator with 24 features.
Fitting estimator with 23 features.
Fitting estimator with 22 features.
Fitting estimator with 21 features.
Fitting estimator with 20 features.
Fitting estimator with 19 features.
Fitting estimator with 18 features.
Fitting estimator with 17 features.
Fitting estimator with 16 features.


RFE(estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                 fit_intercept=True, intercept_scaling=1,
                                 l1_ratio=None, max_iter=100,
                                 multi_class='auto', n_jobs=None, penalty='l2',
                                 random_state=None, solver='lbfgs', tol=0.0001,
                                 verbose=0, warm_start=False),
    n_features_to_select=None, step=1, verbose=1)

Par défaut, l'algorithme sélectionne la moitié des variables d'entrée. Dans notre cas ici, on passe de de 30 prédicteurs à 15 prédicteurs.

In [10]:
# Masque de détermination des variables sélectionnées

mask = rfe_model.support_

mask

array([ True, False,  True,  True,  True,  True, False, False,  True,
        True, False, False, False, False,  True, False, False,  True,
        True,  True,  True, False,  True, False, False, False, False,
       False,  True,  True])

In [11]:
# Variables sélectionnées

reduced_X = X.loc[:, mask]

reduced_X

Unnamed: 0,tenure,TotalCharges,MultipleLines_No phone service,MultipleLines_Yes,InternetService_Fiber optic,OnlineSecurity_Yes,OnlineBackup_No internet service,TechSupport_Yes,StreamingMovies_No internet service,StreamingMovies_Yes,Contract_One year,Contract_Two year,PaymentMethod_Electronic check,PhoneService,PaperlessBilling
0,-1.277445,-0.994194,1,0,0,0,0,0,0,0,0,0,1,0,1
1,0.066327,-0.173740,0,0,0,1,0,0,0,0,1,0,0,1,0
2,-1.236724,-0.959649,0,0,0,1,0,0,0,0,0,0,0,1,1
3,0.514251,-0.195248,1,0,0,1,0,1,0,0,1,0,0,0,0
4,-1.236724,-0.940457,0,0,1,0,0,0,0,0,0,0,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7027,-0.340876,-0.129180,0,1,0,1,0,1,0,1,1,0,0,1,1
7028,1.613701,2.241056,0,1,1,0,0,0,0,1,1,0,0,1,1
7029,-0.870241,-0.854514,1,0,0,1,0,0,0,0,0,0,1,0,1
7030,-1.155283,-0.872095,0,1,1,0,0,0,0,0,0,0,0,1,1


In [12]:
reduced_X.columns

Index(['tenure', 'TotalCharges', 'MultipleLines_No phone service',
       'MultipleLines_Yes', 'InternetService_Fiber optic',
       'OnlineSecurity_Yes', 'OnlineBackup_No internet service',
       'TechSupport_Yes', 'StreamingMovies_No internet service',
       'StreamingMovies_Yes', 'Contract_One year', 'Contract_Two year',
       'PaymentMethod_Electronic check', 'PhoneService', 'PaperlessBilling'],
      dtype='object')

In [13]:
# Score d'entraînement du modèle rfe_model

rfe_score_train = rfe_model.score(X_train, y_train)

rfe_score_train

0.8007205157375806

In [14]:
# Score d'évaluation du modèle rfe_logreg_model

rfe_score_test = rfe_model.score(X_test, y_test)

rfe_score_test

0.810580204778157

# <font color=red> RFE avec sélection de 10 prédicteurs

In [15]:
# RFE sur le modèle de régression logistique (n_features_to_select = 10)

rfe_model2 = RFE(estimator = log_model, n_features_to_select = 10)

rfe_model2.fit(X_train, y_train)

# Masque de détermination des variables sélectionnées

mask2 = rfe_model2.support_

# Variables sélectionnées

reduced2_X = X.loc[:, mask2]

reduced2_X.columns

Index(['tenure', 'TotalCharges', 'MultipleLines_No phone service',
       'InternetService_Fiber optic', 'OnlineSecurity_Yes',
       'StreamingMovies_No internet service', 'Contract_One year',
       'Contract_Two year', 'PaymentMethod_Electronic check',
       'PaperlessBilling'],
      dtype='object')

In [16]:
# Score d'entraînement du modèle rfe_model2

rfe_score2_train = rfe_model2.score(X_train, y_train)

rfe_score2_train

0.8031854379977247

In [17]:
# Score d'évaluation du modèle rfe_model2

rfe_score2_test = rfe_model2.score(X_test, y_test)

rfe_score2_test

0.8065984072810012