<center>
Auteur: [Wayde Herman](https://www.linkedin.com/in/wayde-herman-10986685/) depuis [kaggle](https://www.kaggle.com/waydeherman/tutorial-categorical-encoding). Traduit et édité par [Ousmane Cissé](https://www.linkedin.com/in/ousmane-cissé).  
<center>
Ce matériel est soumis aux termes et conditions de la licence [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/).  
L'utilisation gratuite est autorisée à des fins non commerciales.

# Encodage des caractéristiques catégorielles

## Introduction:

Dans la plupart des problèmes de science des données, nos ensembles de données contiendront des caractéristiques catégorielles. Les entités catégorielles contiennent un nombre fini de valeurs discrètes. La façon dont nous représentons ces caratéristiques aura un impact sur les performances de notre modèle. Comme dans d'autres aspects de l'apprentissage automatique, il n'y a pas de "baguette magique". Déterminer la bonne approche, spécifique à notre modèle et à nos données, fait partie du défi.

Ce tutoriel vise à couvrir quelques-unes de ces méthodes. Nous commençons par couvrir une technique simple avant d'aborder des approches plus complexes et moins connues.

**Liste des méthodes couvertes**:
1. One-Hot Encoding (Encodage 1 parmi n)
2. Feature Hashing (Hachage de caractéristiques)
3. Binary Encoding (Encodage binaire)
4. Target Encoding (Encodage de la cible)
5. Weight of Evidence (Poids de l'élement preuve)

In [None]:
# Import required libraries:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.metrics import roc_auc_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
import os
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

# Set our random seed:
SEED = 17
PATH_TO_DIR = 'data/'

print(os.listdir(PATH_TO_DIR))

Pour ce tutoriel, nous utiliserons l'ensemble de données «[Amazon.com Employee Access Challenge](https://www.kaggle.com/c/amazon-employee-access-challenge)». Cet ensemble de données de classification binaire est composé de caractéristiques strictement catégorielles, qui sont déjà converties en chiffres, ce qui en fait un choix particulièrement approprié pour explorer diverses techniques de codage. Pour simplifier les choses, nous n'utiliserons qu'un sous-ensemble des caractéristiques de cette démonstration.

In [None]:
# Import data:
train = pd.read_csv(PATH_TO_DIR + 'train.csv')

In [None]:
y = train['ACTION']
train = train[['RESOURCE', 'MGR_ID', 'ROLE_FAMILY_DESC', 'ROLE_FAMILY', 'ROLE_CODE']]

Nous comparerons les différences de ces méthodes de codage à la fois sur un modèle linéaire et sur un modèle basé sur des arbres. Ceux-ci représentent deux familles de modèles qui ont des comportements contrastés en ce qui concerne les différentes représentations d'entités.

In [None]:
logit = LogisticRegression(random_state=SEED)
rf = RandomForestClassifier(random_state=SEED)

In [None]:
# Split dataset into train and validation subsets:
X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=SEED)

In [None]:
# We create a helper function to get the scores for each encoding method:
def get_score(model, X, y, X_val, y_val):
    model.fit(X, y)
    y_pred = model.predict_proba(X_val)[:,1]
    score = roc_auc_score(y_val, y_pred)
    return score

In [None]:
# Lets have a quick look at our data:
X_train.head(5)

In [None]:
X_train.info()

In [None]:
# Discover the number of categories within each categorical feature:
len(X_train.RESOURCE.unique()), len(X_train.MGR_ID.unique()), len(X_train.ROLE_FAMILY_DESC.unique()), len(X_train.ROLE_FAMILY.unique()),len(X_train.ROLE_CODE.unique())

In [None]:
# Create a list of each categorical column name:
columns = [i for i in X_train.columns]

In [None]:
columns

Avant de commencer, examinons la vitesse et les performances de l'entraînement de ces modèles sans encodage de caractéristiques.

In [None]:
%%time
baseline_logit_score = get_score(logit, X_train, y_train, X_val, y_val)
print('Logistic Regression score without feature engineering:', baseline_logit_score)

In [None]:
%%time
baseline_rf_score = get_score(rf, X_train, y_train, X_val, y_val)
print('Random Forest score without feature engineering:', baseline_rf_score)

## One-Hot Encoding:

La première méthode que nous aborderons est celle que vous connaissez sans doute. Le One-hot encoding transforme 1 caratéristique catégorielle composée de m catégories en m* caractéristiques distinctes avec des valeurs de 0 ou 1.

Il existe 2 façons de mettre en œuvre unOne-Hot Encoding, avec pandas ou scikit-learn. Dans ce tutoriel, nous avons choisi d'utiliser ce dernier.  

*En fait, il est considéré comme plus correct d'élargir m catégories en (m - 1) caractéristiques distinctes. La raison en est double. Premièrement, si les valeurs des (m - 1) caractéristiques sont connues, la m-ième caractéristiques peut être déduite et deuxièmement parce que l'inclusion de la m-ième entité peut rendre certains modèles linéaires instables. Plus d'informations à ce sujet peuvent être trouvées [ici](https://www.algosome.com/articles/dummy-variable-trap-regression.html). En pratique, je pense que cela dépend de votre modèle. Certains modèles non linéaires fonctionnent mieux avec les caractéristiques m.

In [None]:
from sklearn.preprocessing import OneHotEncoder

one_hot_enc = OneHotEncoder(sparse=False)

In [None]:
print('Original number of features: \n', X_train.shape[1], "\n")
data_ohe_train = (one_hot_enc.fit_transform(X_train))
data_ohe_val = (one_hot_enc.transform(X_val))
print('Features after OHE: \n', data_ohe_train.shape[1])

In [None]:
%%time
ohe_logit_score = get_score(logit, data_ohe_train, y_train, data_ohe_val, y_val)
print('Logistic Regression score with one-hot encoding:', ohe_logit_score)

In [None]:
%%time
ohe_rf_score = get_score(rf, data_ohe_train, y_train, data_ohe_val, y_val)
print('Random Forest score with one-hot encoding:', ohe_rf_score)

Comme nous pouvons le voir, bien que les performances du modèle se soient améliorées, l'entraînement a également pris plus de temps. Cela est dû à l'augmentation du nombre de caractéristiques. Les coûts de calcul ne sont pas le seul problème associé à l'augmentation des dimensions. Un ensemble de données avec plus de caractéristiques nécessitera un modèle avec plus de paramètres qui à son tour nécessitera plus de données pour entraîner ces paramètres. Dans de nombreux cas, tels que les compétitions de kaggle, la taille de nos données est fixe et, par conséquent, la dimensionnalité de nos données devrait toujours être une préoccupation.

Une façon de gérer la dimensionnalité élevée consiste à compresser les caractéristiques. Le hachage de caractéristiques, que nous aborderons ensuite, en est un exemple.

## Feature Hashing:

Le hachage de caractéristiques mappe chaque catégorie d'une caractéristique catégorielle à un entier dans une plage prédéterminée. Cette plage de sortie est plus petite que la plage d'entrée, de sorte que plusieurs catégories peuvent être mappées sur le même entier. Le hachage des caractéristiques est très similaire au One-Hot Encoding, mais avec un contrôle sur les dimensions de sortie.

Pour implémenter le hachage des caractéristiques en python, nous pouvons utiliser category_encoder, une bibliothèque contenant des encodeurs de catégorie compabitables sklearn.

In [None]:
# Install category_encoders:
# !pip install category_encoders
# or !conda install -c conda-forge category_encoders -y

In [None]:
from category_encoders import HashingEncoder

La taille des dimensions de sortie est contrôlée par la variable n_components. Cela peut être traité comme un hyperparamètre.

In [None]:
n_components_list = [100, 500, 1000, 5000, 10000]
n_components_list_str = [str(i) for i in n_components_list]

In [None]:
fh_logit_scores = []

# Iterate over different n_components:
for n_components in n_components_list:
    
    hashing_enc = HashingEncoder(cols=columns, n_components=n_components).fit(X_train, y_train)
    
    X_train_hashing = hashing_enc.transform(X_train.reset_index(drop=True))
    X_val_hashing = hashing_enc.transform(X_val.reset_index(drop=True))
    
    fe_logit_score = get_score(logit, X_train_hashing, y_train, X_val_hashing, y_val)
    fh_logit_scores.append(fe_logit_score)

In [None]:
plt.figure(figsize=(8, 5))
plt.plot(n_components_list_str, fh_logit_scores, linewidth=3)
plt.title('n_compontents vs roc_auc for feature hashing with logistic regression')
plt.xlabel('n_components')
plt.ylabel('score')
plt.show;

Comme nous pouvons le voir, les performances du modèle de régression logistique s'améliorent à mesure que le nombre de composants augmente. Mais regardons l'effet de la réduction des dimensions sur un modèle de forêt aléatoire.

In [None]:
hashing_enc = HashingEncoder(cols=columns, n_components=10000).fit(X_train, y_train)

X_train_hashing = hashing_enc.transform(X_train.reset_index(drop=True))
X_val_hashing = hashing_enc.transform(X_val.reset_index(drop=True))

In [None]:
X_train_hashing.head()

In [None]:
%%time
hashing_logit_score = get_score(logit, X_train_hashing, y_train, X_val_hashing, y_val)
print('Logistic Regression score with feature hashing:', hashing_logit_score)

In [None]:
%%time
hashing_rf_score = get_score(rf, X_train_hashing, y_train, X_val_hashing, y_val)
print('Random Forest score with feature hashing:', hashing_rf_score)

Cela s'améliore! Comme nous l'avons peut-être deviné, la réduction du nombre de caractéristiques améliore les performances des modèles basés sur les arbres.

## Binary Encoding:

L' encodage binaire implique la conversion de chaque catégorie en un code binaire, par exemple 2 devient 11 et 3 devient 100, puis divise la chaîne binaire résultante en colonnes.

Cela peut être plus facile à comprendre avec un exemple:

In [None]:
# Create example dataframe with numbers ranging from 1 to 5:
example_df = pd.DataFrame([1,2,3,4,5], columns=['example'])

from category_encoders import BinaryEncoder

example_binary = BinaryEncoder(cols=['example']).fit_transform(example_df)

example_binary

L'encodage binaire est clairement très similaire au hachage de caractéristiques, mais beaucoup plus restreint. En pratique, l'utilisation du hachage de caractéristiques est souvent conseillée par rapport à l'encodage binaire en raison du contrôle que vous avez sur les dimensions de sortie.

In [None]:
binary_enc = BinaryEncoder(cols=columns).fit(X_train, y_train)

In [None]:
X_train_binary = binary_enc.transform(X_train.reset_index(drop=True))
X_val_binary = binary_enc.transform(X_val.reset_index(drop=True))
# note: category_encoders implementations can't handle shuffled datasets. 

In [None]:
print('Features after Binary Encoding: \n', X_train_binary.shape[1])

In [None]:
%%time
be_logit_score = get_score(logit, X_train_binary, y_train, X_val_binary, y_val)
print('Logistic Regression score with binary encoding:', be_logit_score)

In [None]:
%%time
binary_rf_score = get_score(rf, X_train_binary, y_train, X_val_binary, y_val)
print('Random Forest score with binary encoding:', binary_rf_score)

## Target Encoding:

Le Target Encoding est le premier de nos encodeurs bayésiens. Il s'agit d'une famille d'encodeurs qui prennent en compte les informations sur la variable cible. Le Target Encoding peut se référer à un codeur qui considère la corrélation statistique entre les catégories individuelles d'une caractéristique catégorielle. Dans ce tutoriel, nous examinerons uniquement les encodeurs cibles qui se concentrent sur la relation entre chaque catégorie et la moyenne de la cible, car il s'agit de la variation la plus couramment utilisée du Target Encoding.

In [None]:
from category_encoders import TargetEncoder

targ_enc = TargetEncoder(cols=columns, smoothing=8, min_samples_leaf=5).fit(X_train, y_train)

In [None]:
X_train_te = targ_enc.transform(X_train.reset_index(drop=True))
X_val_te = targ_enc.transform(X_val.reset_index(drop=True))

In [None]:
X_train_te.head()

In [None]:
%%time
te_logit_score = get_score(logit, X_train_te, y_train, X_val_te, y_val)
print('Logistic Regression score with target encoding:', te_logit_score)

In [None]:
%%time
te_rf_score = get_score(rf, X_train_te, y_train, X_val_te, y_val)
print('Random Forest score with target encoding:', te_rf_score)

En raison de l'utilisation de la variable cible, la fuite de données et le sur-ajustement sont une préoccupation majeure. L'implémentation de category_encoders a deux façons prédéfinies de régulariser les encodages, le smoothing «lissage» et les min_samples_leaf. Ces paramètres peuvent être traités comme des hyperparamètres.

le «lissage» détermine la pondération de la moyenne de chaque catégorie avec la moyenne de l'ensemble de la variable catégorielle. Il s'agit d'empêcher l'influence de moyens peu fiables provenant de catégories à faible taille d'échantillon.

'min_ samples_leaf' est le nombre minimum d'échantillons dans une catégorie pour tenir compte de sa moyenne.

In [None]:
targ_enc = TargetEncoder(cols=columns, smoothing=8, min_samples_leaf=5).fit(X_train, y_train)

X_train_te = targ_enc.transform(X_train.reset_index(drop=True))
X_val_te = targ_enc.transform(X_val.reset_index(drop=True))

In [None]:
%%time
me_logit_score = get_score(logit, X_train_te, y_train, X_val_te, y_val)
print('Logistic Regression score with target encoding with regularization:', me_logit_score)

In [None]:
%%time
me_rf_score = get_score(rf, X_train_te, y_train, X_val_te, y_val)
print('Random Forest score with target encoding with regularization:', me_rf_score)

Une autre approche pour régulariser l'encodeur cible consiste à calculer la relation statistique entre chaque catégorie et la variable cible via une division kfold. Cette méthode n'est actuellement pas disponible dans l'implémentation category_encoders et doit être écrite à partir de zéro.

In [None]:
from sklearn.model_selection import KFold

# Create 5 kfold splits:
kf = KFold(random_state=17, n_splits=5, shuffle=False)

In [None]:
# Create copy of data:
X_train_te = X_train.copy()
X_train_te['target'] = y_train

In [None]:
all_set = []

for train_index, val_index in kf.split(X_train_te):
    # Create splits:
    train, val = X_train_te.iloc[train_index], X_train_te.iloc[val_index]
    val=val.copy()
    
    # Calculate the mean of each column:
    means_list = []
    for col in columns:
        means_list.append(train.groupby(str(col)).target.mean())
    
    # Calculate the mean of each category in each column:
    col_means = []
    for means_series in means_list:
        col_means.append(means_series.mean())
    
    # Encode the data:
    for column, means_series, means in zip(columns, means_list, col_means):
        val[str(column) + '_target_enc'] = val[str(column)].map(means_series).fillna(means) 
    
    list_of_mean_enc = [str(column) + '_target_enc' for column in columns]
    list_of_mean_enc.extend(columns)
    
    all_set.append(val[list_of_mean_enc].copy())

X_train_te=pd.concat(all_set, axis=0)

In [None]:
# Apply encodings to validation set:
X_val_te = pd.DataFrame(index=X_val.index)
for column, means in zip(columns, col_means):
    enc_dict = X_train_te.groupby(column).mean().to_dict()[str(column) + '_target_enc']
    X_val_te[column] = X_val[column].map(enc_dict).fillna(means)

In [None]:
# Create list of target encoded columns:
list_of_target_enc = [str(column) + '_target_enc' for column in columns]

In [None]:
%%time
kf_reg_logit_score = get_score(logit, X_train_te[list_of_target_enc], y_train, X_val_te, y_val)
print('Logistic Regression score with kfold-regularized target encoding:', kf_reg_logit_score)

In [None]:
%%time
kf_reg_rf_score = get_score(rf, X_train_te[list_of_target_enc], y_train, X_val_te, y_val)
print('Random Forest score with kfold-regularized target encoding:', kf_reg_rf_score)

## Weight Of Evidence (WOE):

L'encodeur WOE (Weight of evidence) calcule le logarithme naturel du% de non-événements divisé par le% d'événements pour chaque catégorie dans une caractéristique catégorielle. Pour plus de précision, les événements se réfèrent à la variable cible.

In [None]:
from category_encoders import WOEEncoder

woe_enc = WOEEncoder(cols=columns, random_state=17).fit(X_train, y_train)

In [None]:
X_train_woe = woe_enc.transform(X_train.reset_index(drop=True))
X_val_woe = woe_enc.transform(X_val.reset_index(drop=True))

In [None]:
X_train_woe.head()

In [None]:
%%time
woe_logit_score = get_score(logit, X_train_woe, y_train, X_val_woe, y_val)
print('Logistic Regression score with woe encoding:', woe_logit_score)

In [None]:
%%time
woe_rf_score = get_score(rf, X_train_woe, y_train, X_val_woe, y_val)
print('Random Forest score with woe encoding:', woe_rf_score)

En résumé, les caractéristiques catégorielles peuvent être représentées de plus de façons que le traditionnel one-hot encoding. Ces représentations ont des effets différents sur nos modèles et le choix de la représentation est spécifique à la tâche (mission ou objectif). Le hachage des caractéristiques et l'encodage binaire nous offrent des moyens d'encoder les données avec des dimensions plus faibles, ce qui est moins coûteux en termes de calcul et mieux adapté aux modèles arborescents. Le Target Encoding et le Weight Of Evidence semblent être beaucoup plus spécifiques à la tâche.

Vos commentaires seraient appréciés, ainsi que vos votes ! Merci.

### Pour en savoir plus:

* [category_encoder documentation](http://contrib.scikit-learn.org/categorical-encoding/)
* [weight of evidence](https://www.listendata.com/2015/03/weight-of-evidence-woe-and-information.html)
* [smarter ways of encoding categorical data for machine learning](https://towardsdatascience.com/smarter-ways-to-encode-categorical-data-for-machine-learning-part-1-of-3-6dca2f71b159)
* [an exploration of categorical variables](http://www.willmcginnis.com/2015/11/29/beyond-one-hot-an-exploration-of-categorical-variables/)