# Etude de l'impact de l'encodage

Le but de cet exercice est d'évaluer l'impact de l'utilisation d'un encodage numérique arbitraire pour les variables catégorielles avec un modèle de classification linéaire tel que la régression logistique.

Pour ce faire, essayons d'utiliser `OrdinalEncoder` pour prétraiter les variables catégorielles. Cet encodeur est assemblé dans un pipeline avec `LogisticRegression`. La performance de généralisation du pipeline peut être évaluée par validation croisée et ensuite comparée au score obtenu en utilisant `OneHotEncoder` ou à un autre score de base.

D'abord, chargez le jeu de données `adult-census.csv` puis supprimer la colonne `education-num`. Séparer le reste en données cible (colonne `class`) et en données non-cibles.

In [5]:
import pandas as pd

df = pd.read_csv('../datasets/adult-census.csv')
df = df.drop(columns=['education-num'])
df.head()

df_target = df["class"]

df_data = df.drop(columns=['class'])

Dans le notebook précédent, nous avons utilisé `sklearn.compose.make_column_selector` pour sélectionner automatiquement les colonnes avec un type de données spécifique (aussi appelé `dtype`).

Utilisez ce sélecteur pour obtenir uniquement les colonnes contenant des chaînes de caractères (colonne avec le type de données `object`) qui correspondent à des colonnes catégorielles dans notre jeu de données. 

In [11]:
from sklearn.compose import make_column_selector

selector = make_column_selector(dtype_include=object)
selected_columns = selector(df_data)
print(selected_columns)

df_cat_data = df_data
for column in df_data:
    if column not in selected_columns:
        print(column)
        df_cat_data = df_cat_data.drop(columns=[column])
print(df_cat_data)

['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country']
age
capital-gain
capital-loss
hours-per-week
           workclass      education       marital-status          occupation  \
0            Private           11th        Never-married   Machine-op-inspct   
1            Private        HS-grad   Married-civ-spouse     Farming-fishing   
2          Local-gov     Assoc-acdm   Married-civ-spouse     Protective-serv   
3            Private   Some-college   Married-civ-spouse   Machine-op-inspct   
4                  ?   Some-college        Never-married                   ?   
...              ...            ...                  ...                 ...   
48837        Private     Assoc-acdm   Married-civ-spouse        Tech-support   
48838        Private        HS-grad   Married-civ-spouse   Machine-op-inspct   
48839        Private        HS-grad              Widowed        Adm-clerical   
48840        Private        HS-grad        Neve

Définir un pipeline scikit-learn composé d'un `OrdinalEncoder` et d'un classificateur `LogisticRegression`. Puis évaluez-le en utilisant une validation croisée en passant par `sklearn.model_selection.cross_validate`.

Comme `OrdinalEncoder` peut soulever des erreurs s'il voit une catégorie inconnue au moment de la prédiction, vous pouvez définir les paramètres `handle_unknown` et `unknown_value` à `use_encoded_value`. Vous pouvez vous référer à la [documentation scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) pour plus de détails concernant ces paramètres.

In [26]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OrdinalEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_validate
import numpy as np

pipe = make_pipeline(
    OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1),
    LogisticRegression(random_state=0, max_iter=3000)
)

pipe.fit(df_cat_data, df_target)

cv = cross_validate(pipe, df_cat_data, df_target, cv=5)
print(cv)
print("fit_time ", cv['fit_time'].mean())
print("score_time ", cv['score_time'].mean())
print("test_score ", cv['test_score'].mean())

{'fit_time': array([0.31108689, 0.19494653, 0.25701475, 0.28283644, 0.23415446]), 'score_time': array([0.02557302, 0.02980494, 0.03121901, 0.03064489, 0.02766871]), 'test_score': array([0.75514382, 0.75555328, 0.75573301, 0.75307125, 0.75788288])}
fit_time  0.25600781440734866
score_time  0.028982114791870118
test_score  0.7554768489536634


Maintenant, nous voudrions comparer la performance de généralisation de notre pipeline précédent avec un nouveau pipeline où au lieu d'utiliser un `OrdinalEncoder`, nous utiliserons un `OneHotEncoder`. Répétez l'évaluation du pipeline en utilisant la validation croisée. 

Comparez le score des deux pipelines et concluez sur l'impact du choix d'une stratégie d'encodage spécifique lors de l'utilisation d'un modèle linéaire.

In [27]:
from sklearn.preprocessing import OneHotEncoder

#create pipeline
pipe = make_pipeline(
    OneHotEncoder(handle_unknown='ignore'),
    LogisticRegression(random_state=0, max_iter=3000)
)
pipe.fit(df_cat_data, df_target)

cv = cross_validate(pipe, df_cat_data, df_target, cv=5)
print(cv)
print("fit_time ", cv['fit_time'].mean())
print("score_time ", cv['score_time'].mean())
print("test_score ", cv['test_score'].mean())

{'fit_time': array([0.5759263 , 0.55823708, 0.56384635, 0.57882881, 0.62207389]), 'score_time': array([0.0229125 , 0.0241437 , 0.02327919, 0.02793407, 0.01971793]), 'test_score': array([0.83222438, 0.83560242, 0.82872645, 0.83312858, 0.83466421])}
fit_time  0.5797824859619141
score_time  0.02359747886657715
test_score  0.8328692091154984
