##**Feature Selection with Filtering Method**
- **Constant**,
- **Quasi Constant**
- **Duplicate Feature Removal**

##**Caractéristiques constantes**
+ **Les caractéristiques constantes sont celles qui présentent la même valeur, une seule valeur, pour toutes les observations de l'ensemble de données**.

+ En d'autres termes, la même valeur pour toutes les lignes de l'ensemble de données. Ces caractéristiques ne fournissent aucune information permettant à un modèle d'apprentissage automatique de discriminer ou de prédire une cible.

+ **L'identification et la suppression des caractéristiques constantes est une première étape facile vers la sélection de caractéristiques et des modèles d'apprentissage automatique plus facilement interprétables.**


+ **Pour identifier les caractéristiques constantes, nous pouvons utiliser le VarianceThreshold de Scikit-learn, ou nous pouvons le coder nous-mêmes.**

+  Si nous utilisons le VarianceThreshold, toutes nos variables doivent être numériques. Cependant, si nous le faisons manuellement, nous pouvons appliquer le code aux variables numériques et catégorielles.

+ Nous allons  montrer 3 extraits de code, 1 où j'utilise le VarianceThreshold et 2 alternatives codées manuellement.

+ **Les caractéristiques inutiles et redondantes ralentissent non seulement le temps d'apprentissage d'un algorithme, mais elles affectent également les performances de celui-ci.**

+ La sélection des caractéristiques avant la formation des modèles d'apprentissage automatique présente plusieurs avantages :

  + Les modèles avec un nombre réduit de caractéristiques ont une meilleure explicabilité.
  + Il est plus facile de mettre en œuvre des modèles d'apprentissage automatique avec des caractéristiques réduites.
  + Un nombre réduit de caractéristiques permet une meilleure généralisation, ce qui réduit **l'overfitting**.
  + La sélection des caractéristiques élimine la redondance des données.
  + Le temps d'apprentissage des modèles comportant moins de caractéristiques est considérablement réduit.
  + Les modèles avec moins de caractéristiques sont moins sujets aux erreurs.
+ **Qu'est-ce qu'une méthode de filtrage ?**
+ Les caractéristiques sélectionnées à l'aide de méthodes de filtrage peuvent être utilisées en entrée de n'importe quel modèle d'apprentissage automatique.

+ **Univarié -> score de Fisher, gain d'information mutuelle, variance, etc.**
+ **Multi-variable -> Corrélation de Pearson**
+ Les méthodes de filtrage univariées sont le type de méthodes où les caractéristiques individuelles sont classées selon des critères spécifiques. Les N meilleures caractéristiques sont ensuite sélectionnées.

+ Différents types de critères de classement sont utilisés pour **les méthodes de filtrage univariées, par exemple le score de Fisher, l'information mutuelle et la variance de la caractéristique.**

+ **Les méthodes de filtrage multivariées sont capables de supprimer les caractéristiques redondantes des données car elles prennent en compte la relation mutuelle entre les caractéristiques.**

+ **Méthodes de filtrage univariées dans cette leçon**
+ Suppression des constantes
+ Suppression des quasi-constantes
+ Suppression des caractéristiques redondantes
Télécharger les fichiers de données
  + https://github.com/laxmimerit/Data-Files-for-Feature-Selection

+ **Suppression des caractéristiques constantes**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.feature_selection import VarianceThreshold
data = pd.read_csv('/content/santander-train.csv', nrows = 20000)
data.head()

Unnamed: 0,ID,var3,var15,imp_ent_var16_ult1,imp_op_var39_comer_ult1,imp_op_var39_comer_ult3,imp_op_var40_comer_ult1,imp_op_var40_comer_ult3,imp_op_var40_efect_ult1,imp_op_var40_efect_ult3,...,saldo_medio_var33_hace2,saldo_medio_var33_hace3,saldo_medio_var33_ult1,saldo_medio_var33_ult3,saldo_medio_var44_hace2,saldo_medio_var44_hace3,saldo_medio_var44_ult1,saldo_medio_var44_ult3,var38,TARGET
0,1,2,23,0.0,0.0,0.0,0.0,0.0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,39205.17,0
1,3,2,34,0.0,0.0,0.0,0.0,0.0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,49278.03,0
2,4,2,23,0.0,0.0,0.0,0.0,0.0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,67333.77,0
3,8,2,37,0.0,195.0,195.0,0.0,0.0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,64007.97,0
4,10,2,39,0.0,0.0,0.0,0.0,0.0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,117310.979016,0


In [None]:
X = data.drop('TARGET', axis = 1)
y = data['TARGET']

X.shape, y.shape

((20000, 370), (20000,))

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0, stratify = y)

In [None]:
X_train.shape, X_test.shape

((16000, 370), (4000, 370))

###**Using VarianceThreshold from Scikit-learn**
+ **Le VarianceThreshold de sklearn fournit une approche de base simple pour la sélection des caractéristiques. Il supprime toutes les caractéristiques dont la variance n'atteint pas un certain seuil. Par défaut, elle supprime toutes les caractéristiques à variance nulle, c'est-à-dire les caractéristiques qui ont la même valeur dans tous les échantillons**.

In [None]:
sel = VarianceThreshold(threshold=0)

sel.fit(X_train)  # fit finds the features with zero variance

VarianceThreshold(threshold=0)

+ **get_support()** est un vecteur booléen qui indique quelles caractéristiques sont retenues.
+ **si on fait la somme de get_support(), on obtient le nombre de caractéristiques qui ne sont pas constantes.**

+ (allez-y et imprimez le résultat de sel.get_support() pour comprendre son résultat)



In [None]:
sum(sel.get_support())

291

In [None]:
# maintenant imprimons le nombre de caractéristiques constantes
# (voyez comment nous utilisons ~ pour exclure les caractéristiques non constantes)

constant = X_train.columns[~sel.get_support()]

len(constant)

79

+ **Nous pouvons voir que 79 colonnes / variables sont constantes. Cela signifie que 79 variables présentent la même valeur, une seule valeur, pour toutes les observations de l'ensemble d'apprentissage.**

In [None]:
# let's print the constant variable names

constant

Index(['ind_var2_0', 'ind_var2', 'ind_var13_medio_0', 'ind_var13_medio',
       'ind_var18_0', 'ind_var18', 'ind_var27_0', 'ind_var28_0', 'ind_var28',
       'ind_var27', 'ind_var34_0', 'ind_var34', 'ind_var41', 'ind_var46_0',
       'ind_var46', 'num_var13_medio_0', 'num_var13_medio', 'num_var18_0',
       'num_var18', 'num_var27_0', 'num_var28_0', 'num_var28', 'num_var27',
       'num_var34_0', 'num_var34', 'num_var41', 'num_var46_0', 'num_var46',
       'saldo_var13_medio', 'saldo_var18', 'saldo_var28', 'saldo_var27',
       'saldo_var34', 'saldo_var41', 'saldo_var46',
       'delta_imp_amort_var18_1y3', 'delta_imp_amort_var34_1y3',
       'delta_imp_reemb_var33_1y3', 'delta_imp_trasp_var17_out_1y3',
       'delta_imp_trasp_var33_out_1y3', 'delta_num_reemb_var33_1y3',
       'delta_num_trasp_var17_out_1y3', 'delta_num_trasp_var33_out_1y3',
       'imp_amort_var18_hace3', 'imp_amort_var18_ult1',
       'imp_amort_var34_hace3', 'imp_amort_var34_ult1', 'imp_var7_emit_ult1',
       'imp

In [None]:
# let's visualise the values of one of the constant variables
# as an example

X_train['ind_var2_0'].unique()

array([0])

In [None]:
# we can do the same for every feature:

for col in constant:
    print(col, X_train[col].unique())

ind_var2_0 [0]
ind_var2 [0]
ind_var13_medio_0 [0]
ind_var13_medio [0]
ind_var18_0 [0]
ind_var18 [0]
ind_var27_0 [0]
ind_var28_0 [0]
ind_var28 [0]
ind_var27 [0]
ind_var34_0 [0]
ind_var34 [0]
ind_var41 [0]
ind_var46_0 [0]
ind_var46 [0]
num_var13_medio_0 [0]
num_var13_medio [0]
num_var18_0 [0]
num_var18 [0]
num_var27_0 [0]
num_var28_0 [0]
num_var28 [0]
num_var27 [0]
num_var34_0 [0]
num_var34 [0]
num_var41 [0]
num_var46_0 [0]
num_var46 [0]
saldo_var13_medio [0]
saldo_var18 [0]
saldo_var28 [0]
saldo_var27 [0]
saldo_var34 [0]
saldo_var41 [0]
saldo_var46 [0]
delta_imp_amort_var18_1y3 [0]
delta_imp_amort_var34_1y3 [0]
delta_imp_reemb_var33_1y3 [0]
delta_imp_trasp_var17_out_1y3 [0]
delta_imp_trasp_var33_out_1y3 [0]
delta_num_reemb_var33_1y3 [0]
delta_num_trasp_var17_out_1y3 [0]
delta_num_trasp_var33_out_1y3 [0]
imp_amort_var18_hace3 [0]
imp_amort_var18_ult1 [0]
imp_amort_var34_hace3 [0]
imp_amort_var34_ult1 [0]
imp_var7_emit_ult1 [0]
imp_reemb_var13_hace3 [0]
imp_reemb_var17_hace3 [0]
imp_reemb

+ Nous utilisons ensuite la méthode **transform() de VarianceThreshold pour réduire les ensembles de formation et de test à ses caractéristiques non constantes.**

+ **Notez que VarianceThreshold renvoie un tableau NumPy sans les noms des caractéristiques**, nous devons donc d'abord capturer les noms, et reconstituer le cadre de données dans une étape ultérieure.

In [None]:
# capture des noms de caractéristiques non constants

feat_names = X_train.columns[sel.get_support()]

In [None]:
X_train = sel.transform(X_train)
X_test = sel.transform(X_test)

X_train.shape, X_test.shape

((16000, 291), (4000, 291))

+ **Nous sommes passés de nos 300 variables initiales, à 266.**

In [None]:
# X_ train is a NumPy array
X_train

array([[1.72820000e+04, 2.00000000e+00, 2.40000000e+01, ...,
        0.00000000e+00, 0.00000000e+00, 6.32007000e+04],
       [3.82700000e+04, 2.00000000e+00, 2.30000000e+01, ...,
        0.00000000e+00, 0.00000000e+00, 8.86406100e+04],
       [3.15260000e+04, 2.00000000e+00, 4.50000000e+01, ...,
        0.00000000e+00, 0.00000000e+00, 9.63141600e+04],
       ...,
       [2.02500000e+03, 2.00000000e+00, 4.30000000e+01, ...,
        0.00000000e+00, 0.00000000e+00, 3.82724400e+04],
       [1.73270000e+04, 2.00000000e+00, 2.30000000e+01, ...,
        0.00000000e+00, 0.00000000e+00, 1.17310979e+05],
       [2.54060000e+04, 2.00000000e+00, 2.30000000e+01, ...,
        0.00000000e+00, 0.00000000e+00, 3.04163070e+05]])

In [None]:
# reconstitute de dataframe

X_train = pd.DataFrame(X_train, columns=feat_names)
X_train.head()

Unnamed: 0,ID,var3,var15,imp_ent_var16_ult1,imp_op_var39_comer_ult1,imp_op_var39_comer_ult3,imp_op_var40_comer_ult1,imp_op_var40_comer_ult3,imp_op_var40_efect_ult1,imp_op_var40_efect_ult3,...,saldo_medio_var29_ult3,saldo_medio_var33_hace2,saldo_medio_var33_hace3,saldo_medio_var33_ult1,saldo_medio_var33_ult3,saldo_medio_var44_hace2,saldo_medio_var44_hace3,saldo_medio_var44_ult1,saldo_medio_var44_ult3,var38
0,17282.0,2.0,24.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,63200.7
1,38270.0,2.0,23.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,88640.61
2,31526.0,2.0,45.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,96314.16
3,38737.0,2.0,29.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,117568.02
4,16469.0,2.0,23.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,117310.979016


###**Code manuel 1 : ne fonctionne qu'avec des valeurs numériques**

+ Dans les cellules suivantes, je vais montrer une alternative au transformateur VarianceThreshold de sklearn, où nous écrivons le code pour trouver les variables constantes, en utilisant l'écart-type de pandas.

In [None]:
# separate train and test (again, as we transformed the previous ones)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0, stratify = y)

In [None]:
X_train.shape, X_test.shape

((16000, 370), (4000, 370))

In [None]:
# court et facile : trouver des caractéristiques constantes

# dans ce jeu de données, toutes les caractéristiques sont numériques,
# donc ce bout de code suffira :

constant_features = [
    feat for feat in X_train.columns if X_train[feat].std() == 0
]

len(constant_features)

79

In [None]:
# supprimez ces colonnes des ensembles de formation et de test :

X_train.drop(labels=constant_features, axis=1, inplace=True)
X_test.drop(labels=constant_features, axis=1, inplace=True)

X_train.shape, X_test.shape

((16000, 291), (4000, 291))

+ **Nous voyons qu'en supprimant les caractéristiques constantes, nous avons réussi à réduire considérablement l'espace des caractéristiques.**

+ **Le VarianceThreshold et le bout de code que j'ai fourni fonctionnent tous deux avec des variables numériques. Que pouvons-nous faire pour trouver des variables catégorielles constantes ?**

+ **Une alternative est de coder les catégories sous forme de nombres et d'utiliser le code ci-dessus. Mais vous devrez alors faire des efforts pour prétraiter des variables qui ne sont pas informatives.**

Le code ci-dessous offre une meilleure solution :

In [None]:
# separate train and test (again, as we transformed the previous ones)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0, stratify = y)

X_train.shape, X_test.shape

((16000, 370), (4000, 370))

In [None]:
# Je vais transformer toutes les caractéristiques numériques en objet,
# pour simuler qu'elles sont catégoriques.

X_train = X_train.astype('O')
X_train.dtypes

ID                         object
var3                       object
var15                      object
imp_ent_var16_ult1         object
imp_op_var39_comer_ult1    object
                            ...  
saldo_medio_var44_hace2    object
saldo_medio_var44_hace3    object
saldo_medio_var44_ult1     object
saldo_medio_var44_ult3     object
var38                      object
Length: 370, dtype: object

In [None]:
# pour trouver les variables qui ne contiennent qu'une seule étiquette/valeur
# nous utilisons la méthode nunique() de pandas, qui retourne le nombre de
# de valeurs différentes dans une variable.

constant_features = [
    feat for feat in X_train.columns if X_train[feat].nunique() == 1
]

len(constant_features)

79

+ Comme précédemment, nous observons 79 variables qui ne présentent qu'une seule valeur dans toutes les observations de l'ensemble de données.

+ Comme ceci, nous pouvons apprécier l'utilité de rechercher les variables constantes au début de tout exercice de modélisation.

+ Notez que par défaut nunique() ignore les valeurs manquantes, donc si vos variables ont des valeurs manquantes, utilisez dropna=False dans les paramètres de nunique(). Plus de détails ici :

  + https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html

In [None]:
X_train.drop(labels=constant_features, axis=1, inplace=True)
X_test.drop(labels=constant_features, axis=1, inplace=True)

X_train.shape, X_test.shape

((16000, 291), (4000, 291))

###**Caractéristiques quasi-constantes**
+ **Les caractéristiques quasi-constantes sont celles qui présentent la même valeur pour la grande majorité des observations de l'ensemble de données**.

+ **En général, ces caractéristiques fournissent peu d'informations, voire aucune, permettant à un modèle d'apprentissage automatique de discriminer ou de prédire une cible. Mais il peut y avoir des exceptions. Vous devez donc être prudent lorsque vous supprimez ce type de caractéristiques.**

+ Identifier et supprimer les caractéristiques quasi-constantes est une première étape facile vers la sélection de caractéristiques et des modèles d'apprentissage automatique plus interprétables.


+ Pour identifier les caractéristiques quasi-constantes, nous pouvons utiliser le VarianceThreshold de Scikit-learn, ou nous pouvons le coder nous-mêmes.

+ Si nous utilisons le VarianceThreshold, toutes nos variables doivent être numériques. En revanche, si nous le codons manuellement, nous pouvons appliquer le code à des variables numériques et catégorielles.

+ Je vais montrer 2 extraits de code, 1 où j'utilise le VarianceThreshold et 1 alternatif codé manuellement.


###**Supprimer les caractéristiques quasi-constantes**
####**Utilisation du VarianceThreshold de sklearn**
+ **La VarianceThreshold de sklearn fournit une approche de base simple pour la sélection des caractéristiques.**
+ Il supprime toutes les caractéristiques dont la variance n'atteint pas un certain seuil.
+ Par défaut, il élimine toutes les caractéristiques à variance nulle, comme nous l'avons fait dans le cahier précédent.

+ Ici, nous allons modifier le seuil par défaut pour supprimer les caractéristiques quasi-constantes, ou, devrais-je dire, les caractéristiques à faible variance :

+ Consultez la documentation de Scikit-learn pour plus de détails :

  + https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html

In [None]:
sel = VarianceThreshold(threshold=0.01)

sel.fit(X_train)  # fit finds the features with low variance

VarianceThreshold(threshold=0.01)

In [None]:
# get_support est un vecteur booléen qui indique quelles caractéristiques
# sont retenues, c'est-à-dire quelles caractéristiques ont une variance supérieure au
# le seuil que nous avons indiqué.

# Si nous additionnons get_support, nous obtenons le nombre de caractéristiques qui ne sont pas quasi constantes.
# de caractéristiques qui ne sont pas quasi-constantes

sum(sel.get_support())

245

In [None]:
# imprimons le nombre de caractéristiques quasi-constantes

quasi_constant = X_train.columns[~sel.get_support()]

len(quasi_constant)

46

+ Nous pouvons voir que 46 colonnes / variables sont presque constantes.

+ Cela signifie que 46 variables présentent principalement une valeur pour la majorité des observations de l'ensemble d'apprentissage. Nous allons explorer quelques-unes de ces variables ci-dessous.

In [None]:
# let's print the variable names
quasi_constant

Index(['ind_var1', 'ind_var6_0', 'ind_var6', 'ind_var13_largo_0',
       'ind_var13_largo', 'ind_var14', 'ind_var17_0', 'ind_var17', 'ind_var19',
       'ind_var20_0', 'ind_var20', 'ind_var29_0', 'ind_var29', 'ind_var30_0',
       'ind_var31_0', 'ind_var31', 'ind_var32_cte', 'ind_var32_0', 'ind_var32',
       'ind_var33_0', 'ind_var33', 'ind_var40', 'ind_var39', 'ind_var44_0',
       'ind_var44', 'num_var6_0', 'num_var6', 'num_op_var40_hace3',
       'num_var29_0', 'num_var29', 'num_var33_0', 'num_var33',
       'delta_imp_aport_var33_1y3', 'delta_num_aport_var33_1y3',
       'ind_var7_recib_ult1', 'num_aport_var33_hace3', 'num_aport_var33_ult1',
       'num_meses_var17_ult3', 'num_meses_var29_ult3', 'num_meses_var33_ult3',
       'num_meses_var44_ult3', 'num_reemb_var13_ult1', 'num_reemb_var17_ult1',
       'num_trasp_var17_in_ult1', 'num_trasp_var33_in_ult1',
       'num_venta_var44_hace3'],
      dtype='object')

In [None]:
# pourcentage d'observations présentant chacune des différentes valeurs
# de la variable

X_train['ind_var1'].value_counts(normalize=True)

0    0.996
1    0.004
Name: ind_var1, dtype: float64

+ Allez-y et explorez le reste des variables quasi-constantes.

+ Nous pouvons ensuite supprimer les caractéristiques quasi-constantes en utilisant la méthode transform() de VarianceThreshold.

+ Rappelez-vous que cette méthode renvoie un tableau NumPy sans noms de caractéristiques, donc si nous voulons un cadre de données, nous devons le reconstituer.

In [None]:
# capture feature names

feat_names = X_train.columns[sel.get_support()]

In [None]:
# remove the quasi-constant features

X_train = sel.transform(X_train)
X_test = sel.transform(X_test)

X_train.shape, X_test.shape

((16000, 245), (4000, 245))

In [None]:
# trasnform the array into a dataframe

X_train = pd.DataFrame(X_train, columns=feat_names)
X_test = pd.DataFrame(X_test, columns=feat_names)

X_test.head()

Unnamed: 0,ID,var3,var15,imp_ent_var16_ult1,imp_op_var39_comer_ult1,imp_op_var39_comer_ult3,imp_op_var40_comer_ult1,imp_op_var40_comer_ult3,imp_op_var40_efect_ult1,imp_op_var40_efect_ult3,...,saldo_medio_var29_ult3,saldo_medio_var33_hace2,saldo_medio_var33_hace3,saldo_medio_var33_ult1,saldo_medio_var33_ult3,saldo_medio_var44_hace2,saldo_medio_var44_hace3,saldo_medio_var44_ult1,saldo_medio_var44_ult3,var38
0,19459.0,2.0,52.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,74677.38
1,38602.0,2.0,39.0,570.0,1195.32,1855.32,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,117036.24
2,11052.0,2.0,23.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,117310.979016
3,38520.0,2.0,43.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,152047.38
4,9146.0,2.0,26.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,99624.42


###**Le coder nous-mêmes**
+ Tout d'abord, je vais séparer l'ensemble de données en deux parties, formation et test, et supprimer à nouveau les caractéristiques constantes. Ensuite, je fournirai une méthode alternative pour trouver les caractéristiques quasi-constantes.

+ Cette méthode, contrairement au VarianceThreshold, peut être utilisée pour les variables numériques et catégorielles.

In [None]:
# separate train and test (again, as we transformed the previous ones)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0, stratify = y)

print("============== Avant supression de valeurs condstantes ====================")
print(X_train.shape, X_test.shape)

# supprimer les caractéristiques constantes
# en utilisant le code de la conférence précédente

constant_features = [
    feat for feat in X_train.columns if X_train[feat].std() == 0
]

X_train.drop(labels=constant_features, axis=1, inplace=True)
X_test.drop(labels=constant_features, axis=1, inplace=True)

print("============== Après supression de valeurs condstantes ====================")
X_train.shape, X_test.shape

(16000, 370) (4000, 370)


((16000, 291), (4000, 291))

In [None]:
# créer une liste vide
quasi_constant_feat = []

# itérer sur chaque caractéristique
for feature in X_train.columns :

    # trouver la valeur prédominante, c'est-à-dire la valeur qui est partagée
    # par la plupart des observations
    predominant = X_train[feature].value_counts(
        normalize=True).sort_values(ascending=False).values[0]

    # évaluer la caractéristique prédominante : plus de 99% des observations sont concernées
    # afficher 1 valeur ?
    if predominant > 0.998 :

        # si oui, ajouter la variable à la liste
        quasi_constant_feat.append(feature)

len(quasi_constant_feat)

90

+ Notre méthode était un peu plus agressive que VarianceThreshold de sklearn avec le seuil que nous avons sélectionné ci-dessus.

+ Elle a trouvé 90 caractéristiques qui montrent une valeur prédominante de 1 pour la majorité des observations.

+ Voyons à quoi ressemblent certaines des caractéristiques quasi constantes.

In [None]:
# print the feature names

quasi_constant_feat

['imp_op_var40_efect_ult1',
 'imp_op_var40_efect_ult3',
 'imp_sal_var16_ult1',
 'ind_var6_0',
 'ind_var6',
 'ind_var17_0',
 'ind_var17',
 'ind_var29_0',
 'ind_var29',
 'ind_var32_cte',
 'ind_var32_0',
 'ind_var32',
 'ind_var33_0',
 'ind_var33',
 'num_var6_0',
 'num_var6',
 'num_var17_0',
 'num_var17',
 'num_op_var40_hace2',
 'num_op_var40_hace3',
 'num_var29_0',
 'num_var29',
 'num_var32_0',
 'num_var32',
 'num_var33_0',
 'num_var33',
 'saldo_var6',
 'saldo_var17',
 'saldo_var29',
 'saldo_var32',
 'saldo_var33',
 'delta_imp_aport_var17_1y3',
 'delta_imp_aport_var33_1y3',
 'delta_imp_compra_var44_1y3',
 'delta_imp_reemb_var13_1y3',
 'delta_imp_reemb_var17_1y3',
 'delta_imp_trasp_var17_in_1y3',
 'delta_imp_trasp_var33_in_1y3',
 'delta_imp_venta_var44_1y3',
 'delta_num_aport_var17_1y3',
 'delta_num_aport_var33_1y3',
 'delta_num_compra_var44_1y3',
 'delta_num_reemb_var13_1y3',
 'delta_num_reemb_var17_1y3',
 'delta_num_trasp_var17_in_1y3',
 'delta_num_trasp_var33_in_1y3',
 'delta_num_venta_

In [None]:
# select one feature from the list

quasi_constant_feat[2]

'imp_sal_var16_ult1'

In [None]:
X_train['imp_sal_var16_ult1'].value_counts(normalize=True)

0.00         0.999000
1500.00      0.000188
12000.00     0.000125
900.00       0.000063
600.00       0.000063
750.00       0.000063
29250.00     0.000063
1509.75      0.000063
1227.00      0.000063
1620.00      0.000063
300.00       0.000063
99.00        0.000063
105000.00    0.000063
360.00       0.000063
Name: imp_sal_var16_ult1, dtype: float64

+ La caractéristique affiche 0 pour plus de 99,9% des observations.

+ Mais, elle montre aussi quelques valeurs différentes pour une très petite proportion des observations.

+ Ce fait va augmenter la variance de la caractéristique, c'est pourquoi, cette caractéristique n'est pas capturée par le VarianceThreshold dans notre cellule précédente. Pourtant, nous pouvons voir qu'elle est quasi-constante.

+ Gardez à l'esprit que les seuils sont arbitraires et décidés par l'utilisateur.

In [None]:
# finally, let's drop the quasi-constant features:

X_train.drop(labels=quasi_constant_feat, axis=1, inplace=True)
X_test.drop(labels=quasi_constant_feat, axis=1, inplace=True)

X_train.shape, X_test.shape

((16000, 201), (4000, 201))

###**Constant and Quasi-constant features with Feature-engine**

In [None]:
! pip install feature_engine

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from feature_engine.selection import DropConstantFeatures

####**Suppression des caractéristiques constantes**
+ **La classe DropConstantFeatures de Feature-engine trouve et supprime les caractéristiques constantes et quasi-constantes d'un ensemble de données**.

+ Nous pouvons supprimer les caractéristiques constantes en fixant le paramètre **tol à 1**, ou quasi-constantes avec des valeurs plus petites pour tol.

In [None]:
# separate train and test (again, as we transformed the previous ones)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0, stratify = y)

print("============== Avant supression de valeurs condstantes ====================")
print(X_train.shape, X_test.shape)

(16000, 370) (4000, 370)


In [None]:
sel = DropConstantFeatures(tol=1, variables=None, missing_values='raise')

sel.fit(X_train)

DropConstantFeatures()

In [None]:
# list of constant features

sel.features_to_drop_

['ind_var2_0',
 'ind_var2',
 'ind_var13_medio_0',
 'ind_var13_medio',
 'ind_var18_0',
 'ind_var18',
 'ind_var27_0',
 'ind_var28_0',
 'ind_var28',
 'ind_var27',
 'ind_var34_0',
 'ind_var34',
 'ind_var41',
 'ind_var46_0',
 'ind_var46',
 'num_var13_medio_0',
 'num_var13_medio',
 'num_var18_0',
 'num_var18',
 'num_var27_0',
 'num_var28_0',
 'num_var28',
 'num_var27',
 'num_var34_0',
 'num_var34',
 'num_var41',
 'num_var46_0',
 'num_var46',
 'saldo_var13_medio',
 'saldo_var18',
 'saldo_var28',
 'saldo_var27',
 'saldo_var34',
 'saldo_var41',
 'saldo_var46',
 'delta_imp_amort_var18_1y3',
 'delta_imp_amort_var34_1y3',
 'delta_imp_reemb_var33_1y3',
 'delta_imp_trasp_var17_out_1y3',
 'delta_imp_trasp_var33_out_1y3',
 'delta_num_reemb_var33_1y3',
 'delta_num_trasp_var17_out_1y3',
 'delta_num_trasp_var33_out_1y3',
 'imp_amort_var18_hace3',
 'imp_amort_var18_ult1',
 'imp_amort_var34_hace3',
 'imp_amort_var34_ult1',
 'imp_var7_emit_ult1',
 'imp_reemb_var13_hace3',
 'imp_reemb_var17_hace3',
 'imp_ree

In [None]:
# number of constant features

len(sel.features_to_drop_)

79

In [None]:
# let's explore 1 of the constant feature values

X_train[sel.features_to_drop_[0]].unique()

array([0])

In [None]:
# remove constant features from the data

X_train = sel.transform(X_train)
X_test = sel.transform(X_test)

X_train.shape, X_test.shape

((16000, 291), (4000, 291))

###**Remove quasi-constant features**

In [None]:
sel = DropConstantFeatures(tol=0.998, variables=None, missing_values='raise')

sel.fit(X_train)

DropConstantFeatures(tol=0.998)

In [None]:
# number of quasi-constant features

len(sel.features_to_drop_)

90

In [None]:
# list of quasi-constant features

sel.features_to_drop_

['imp_op_var40_efect_ult1',
 'imp_op_var40_efect_ult3',
 'imp_sal_var16_ult1',
 'ind_var6_0',
 'ind_var6',
 'ind_var17_0',
 'ind_var17',
 'ind_var29_0',
 'ind_var29',
 'ind_var32_cte',
 'ind_var32_0',
 'ind_var32',
 'ind_var33_0',
 'ind_var33',
 'num_var6_0',
 'num_var6',
 'num_var17_0',
 'num_var17',
 'num_op_var40_hace2',
 'num_op_var40_hace3',
 'num_var29_0',
 'num_var29',
 'num_var32_0',
 'num_var32',
 'num_var33_0',
 'num_var33',
 'saldo_var6',
 'saldo_var17',
 'saldo_var29',
 'saldo_var32',
 'saldo_var33',
 'delta_imp_aport_var17_1y3',
 'delta_imp_aport_var33_1y3',
 'delta_imp_compra_var44_1y3',
 'delta_imp_reemb_var13_1y3',
 'delta_imp_reemb_var17_1y3',
 'delta_imp_trasp_var17_in_1y3',
 'delta_imp_trasp_var33_in_1y3',
 'delta_imp_venta_var44_1y3',
 'delta_num_aport_var17_1y3',
 'delta_num_aport_var33_1y3',
 'delta_num_compra_var44_1y3',
 'delta_num_reemb_var13_1y3',
 'delta_num_reemb_var17_1y3',
 'delta_num_trasp_var17_in_1y3',
 'delta_num_trasp_var33_in_1y3',
 'delta_num_venta_

In [None]:
# percentage of observations showing each of the different values
# of the variable

var = sel.features_to_drop_[0]

X_train[var].value_counts(normalize=True)

0       0.999500
6600    0.000063
1710    0.000063
600     0.000063
300     0.000063
870     0.000063
450     0.000063
1800    0.000063
750     0.000063
Name: imp_op_var40_efect_ult1, dtype: float64

In [None]:
# let's explore another one

var = sel.features_to_drop_[2]

X_train[var].value_counts(normalize=True)

0.00         0.999000
1500.00      0.000188
12000.00     0.000125
900.00       0.000063
600.00       0.000063
750.00       0.000063
29250.00     0.000063
1509.75      0.000063
1227.00      0.000063
1620.00      0.000063
300.00       0.000063
99.00        0.000063
105000.00    0.000063
360.00       0.000063
Name: imp_sal_var16_ult1, dtype: float64

In [None]:
#remove the quasi-constant features

X_train = sel.transform(X_train)
X_test = sel.transform(X_test)

X_train.shape, X_test.shape

((16000, 201), (4000, 201))

###**Caractéristiques dupliquées**
+ Les ensembles de données contiennent souvent des caractéristiques dupliquées, c'est-à-dire des caractéristiques qui, bien que portant des noms différents, sont identiques.

+ De plus, nous pouvons souvent introduire des caractéristiques dupliquées lorsque nous effectuons un codage à chaud de variables catégorielles, en particulier si nos ensembles de données comportent de nombreuses variables catégorielles et/ou des variables hautement cardinales.

+ L'identification et la suppression des caractéristiques dupliquées, et donc redondantes, est une première étape facile vers la sélection de caractéristiques et des modèles d'apprentissage automatique plus interprétables.

+ **Il n'existe pas de fonction dans Pandas pour trouver les colonnes dupliquées. Nous devons donc écrire un peu de code pour le faire.**

+ Remarque La recherche de caractéristiques dupliquées peut être une opération coûteuse en termes de calcul en Python. Par conséquent, selon la taille de votre ensemble de données, vous ne serez pas toujours en mesure de le faire.

+ La méthode que je décris ici pour trouver les caractéristiques dupliquées fonctionne pour les variables numériques et catégorielles.

###**Supprimer les caractéristiques dupliquées**
+ Pour identifier les variables dupliquées, nous devons itérer à travers toutes les caractéristiques de notre ensemble de données, et pour chaque caractéristique, essayer d'en trouver d'autres qui sont identiques, ou dupliquées.

+ Nous allons créer un dictionnaire de paires {variable : variables dupliquées} pour les identifier plus facilement tout au long de la démo. Gardez à l'esprit que dans un jeu de données, il peut y avoir 2 caractéristiques ou plus qui sont identiques les unes aux autres.

In [None]:
# vérifier les caractéristiques dupliquées dans l'ensemble d'entraînement :

# créer un dictionnaire vide, dans lequel nous allons stocker
# les groupes de doublons
duplicated_feat_pairs = {}

# créer une liste vide pour collecter les caractéristiques
# qui se sont avérées être dupliquées
_duplicated_feat = []


# itérer sur chaque caractéristique de notre jeu de données :
for i in range(0, len(X_train.columns)) :

    # cette partie m'aide à comprendre où se trouve la boucle :
    if i % 10 == 0 :
        print(i)

    # choisir 1 caractéristique :
    feat_1 = X_train.columns[i]

    # vérifier si cette caractéristique a déjà été identifiée
    # en tant que duplicata d'une autre. Si c'est le cas, elle doit être stockée dans
    # notre liste _duplicated_feat.

    # Si cette caractéristique a déjà été identifiée comme un doublon, nous l'ignorons.
    # elle n'a pas encore été identifiée comme un doublon, alors nous continuons :
    if feat_1 not in _duplicated_feat :

        # créer une liste vide comme entrée pour cette caractéristique dans le dictionnaire :
        duplicated_feat_pairs[feat_1] = []

        # maintenant, itérer sur les caractéristiques restantes de l'ensemble de données :
        for feat_2 in X_train.columns[i + 1 :]:

            # vérifiez si cette deuxième caractéristique est identique à la première
            if X_train[feat_1].equals(X_train[feat_2]) :

                # si elle est identique, ajoutez-la à la liste dans le dictionnaire
                duplicated_feat_pairs[feat_1].append(feat_2)

                # et l'ajouter à notre liste de surveillance des variables dupliquées.
                _duplicated_feat.append(feat_2)

                # c'est fait !

0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200


In [None]:
# let's explore our list of duplicated features
len(_duplicated_feat)

13

In [None]:
# these are the ones:

_duplicated_feat

['ind_var40_0',
 'ind_var40',
 'ind_var39',
 'ind_var26',
 'ind_var25',
 'ind_var37',
 'num_var40_0',
 'num_var40',
 'num_var39',
 'num_var26',
 'num_var25',
 'num_var37',
 'saldo_var40']

In [None]:
# let's explore the dictionary we created:

duplicated_feat_pairs

{'ID': [],
 'delta_imp_aport_var13_1y3': [],
 'delta_num_aport_var13_1y3': [],
 'imp_aport_var13_hace3': [],
 'imp_aport_var13_ult1': [],
 'imp_ent_var16_ult1': [],
 'imp_op_var39_comer_ult1': [],
 'imp_op_var39_comer_ult3': [],
 'imp_op_var39_efect_ult1': [],
 'imp_op_var39_efect_ult3': [],
 'imp_op_var39_ult1': [],
 'imp_op_var40_comer_ult1': [],
 'imp_op_var40_comer_ult3': [],
 'imp_op_var40_ult1': [],
 'imp_op_var41_comer_ult1': [],
 'imp_op_var41_comer_ult3': [],
 'imp_op_var41_efect_ult1': [],
 'imp_op_var41_efect_ult3': [],
 'imp_op_var41_ult1': [],
 'imp_trans_var37_ult1': [],
 'imp_var43_emit_ult1': [],
 'imp_var7_recib_ult1': [],
 'ind_var1': ['ind_var40', 'ind_var39'],
 'ind_var10_ult1': [],
 'ind_var10cte_ult1': [],
 'ind_var12': [],
 'ind_var12_0': [],
 'ind_var13': [],
 'ind_var13_0': [],
 'ind_var13_corto': [],
 'ind_var13_corto_0': [],
 'ind_var13_largo': [],
 'ind_var13_largo_0': [],
 'ind_var14': [],
 'ind_var14_0': [],
 'ind_var19': [],
 'ind_var1_0': ['ind_var40_0']

In [None]:
# explorons le nombre de clés dans notre dictionnaire

# nous voyons qu'il est de 370, car 13 des 370 étaient des doublons,
# ils n'ont donc pas été inclus dans les clés

print(len(duplicated_feat_pairs.keys()))

188


In [None]:
# imprimer les caractéristiques avec leurs duplicatas

# itérer sur chaque caractéristique dans notre dict :
for feat in duplicated_feat_pairs.keys() :

    # si elle a des doublons, la liste ne doit pas être vide :
    if len(duplicated_feat_pairs[feat]) > 0 :

        # affiche la caractéristique et ses doublons :
        print(feat, duplicated_feat_pairs[feat])
        print()

ind_var1_0 ['ind_var40_0']

ind_var1 ['ind_var40', 'ind_var39']

ind_var26_0 ['ind_var26']

ind_var25_0 ['ind_var25']

ind_var37_0 ['ind_var37']

num_var1_0 ['num_var40_0']

num_var1 ['num_var40', 'num_var39']

num_var26_0 ['num_var26']

num_var25_0 ['num_var25']

num_var37_0 ['num_var37']

saldo_var1 ['saldo_var40']



In [None]:
# vérifions qu'effectivement ces caractéristiques sont dupliquées
# Je sélectionne une paire dans la liste ci-dessus

X_train[['ind_var1_0', 'ind_var40_0']].head(10)

Unnamed: 0,ind_var1_0,ind_var40_0
8579,0,0
19085,0,0
15698,0,0
19307,0,0
8165,0,0
2222,0,0
161,0,0
11419,1,1
6080,0,0
5957,0,0


In [None]:
X_train['ind_var1_0'].unique()

array([0, 1])

In [None]:
X_train['ind_var40_0'].unique()

array([0, 1])

In [None]:
# explorons les parties de la trame de données où les valeurs de
# ces caractéristiques sont différentes de 0 :

X_train[X_train['ind_var1_0'] != 0][['ind_var1_0', 'ind_var40_0']].head(10)

Unnamed: 0,ind_var1_0,ind_var40_0
11419,1,1
6473,1,1
9043,1,1
14353,1,1
12757,1,1
12407,1,1
16201,1,1
4199,1,1
761,1,1
12330,1,1


+ Comme nous le voyons, ces caractéristiques sont en effet identiques :)

+ Il existe d'autres caractéristiques dupliquées dans cet ensemble de données, que nous avons supprimées car elles sont constantes ou quasi-constantes. Donc, à titre d'exercice, pourquoi n'essayez-vous pas de trouver quelles autres caractéristiques dans cet ensemble de données sont des doublons ?


In [None]:

# Enfin, pour supprimer les doublons, ce que nous allons faire est de conserver
# les clés du dictionnaire

# Si ce n'est pas le cas, revenez à notre boucle dans la cellule 7 et essayez de déterminer la raison.
# déterminer la raison

X_train = X_train[duplicated_feat_pairs.keys()]
X_test = X_test[duplicated_feat_pairs.keys()]

X_train.shape, X_test.shape

((16000, 188), (4000, 188))

###**Fonctionnalités dupliquées avec Feature-engine**
  + Dans ce cahier, nous allons identifier et supprimer les fonctionnalités dupliquées avec Feature-engine.

In [None]:
from sklearn.pipeline import Pipeline

from feature_engine.selection import DropDuplicateFeatures, DropConstantFeatures

In [None]:
# separate train and test (again, as we transformed the previous ones)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0, stratify = y)

print("============== Avant supression de valeurs condstantes ====================")
print(X_train.shape, X_test.shape)

(16000, 370) (4000, 370)


###**Remove constant and quasi-constant**

In [None]:
# remove constant and quasi-constant features first:
# we use Feature-engine for this

sel = DropConstantFeatures(tol=0.998, variables=None, missing_values='raise')

sel.fit(X_train)

DropConstantFeatures(tol=0.998)

In [None]:
# remove the quasi-constant features

X_train = sel.transform(X_train)
X_test = sel.transform(X_test)

X_train.shape, X_test.shape

((16000, 201), (4000, 201))

###**Remove duplicated features**

In [None]:
# set up the selector
sel = DropDuplicateFeatures(variables=None, missing_values='raise')

# find the duplicate features, this might take a while
sel.fit(X_train)

DropDuplicateFeatures(missing_values='raise')

In [None]:
# these are the pairs of duplicated features
# each set are duplicates

sel.duplicated_feature_sets_

[{'ind_var1_0', 'ind_var40_0'},
 {'ind_var1', 'ind_var39', 'ind_var40'},
 {'ind_var26', 'ind_var26_0'},
 {'ind_var25', 'ind_var25_0'},
 {'ind_var37', 'ind_var37_0'},
 {'num_var1_0', 'num_var40_0'},
 {'num_var1', 'num_var39', 'num_var40'},
 {'num_var26', 'num_var26_0'},
 {'num_var25', 'num_var25_0'},
 {'num_var37', 'num_var37_0'},
 {'saldo_var1', 'saldo_var40'}]

In [None]:
# these are the features that will be dropped
# 1 from each of the pairs above

sel.features_to_drop_

{'ind_var25',
 'ind_var26',
 'ind_var37',
 'ind_var39',
 'ind_var40',
 'ind_var40_0',
 'num_var25',
 'num_var26',
 'num_var37',
 'num_var39',
 'num_var40',
 'num_var40_0',
 'saldo_var40'}

In [None]:
# let's explore our list of duplicated features

len(sel.features_to_drop_)

13

In [None]:
# remove the duplicated features

X_train = sel.transform(X_train)
X_test = sel.transform(X_test)

X_train.shape, X_test.shape

((16000, 188), (4000, 188))

###**Stack Feature selection in a Pipeline**
+ **We can perform both steps together by setting up the transformers within a pipeline.**

In [None]:
# separate train and test (again, as we transformed the previous ones)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0, stratify = y)

print("============== Avant supression de valeurs condstantes ====================")
print(X_train.shape, X_test.shape)

(16000, 370) (4000, 370)


In [None]:
pipe = Pipeline([
    ('constant', DropConstantFeatures(tol=0.998)),
    ('duplicated', DropDuplicateFeatures()),
])

pipe.fit(X_train)

Pipeline(steps=[('constant', DropConstantFeatures(tol=0.998)),
                ('duplicated', DropDuplicateFeatures())])

In [None]:
# remove features

X_train = pipe.transform(X_train)
X_test = pipe.transform(X_test)

X_train.shape, X_test.shape

((16000, 188), (4000, 188))

In [None]:
# we can navigate the pipeline transformers

len(pipe.named_steps['constant'].features_to_drop_)

169

In [None]:
pipe.named_steps['duplicated'].features_to_drop_

{'ind_var25',
 'ind_var26',
 'ind_var37',
 'ind_var39',
 'ind_var40',
 'ind_var40_0',
 'num_var25',
 'num_var26',
 'num_var37',
 'num_var39',
 'num_var40',
 'num_var40_0',
 'saldo_var40'}