# Encodage des variables catégorielles

Dans ce notebook, nous présenterons les techniques de traitement des **variables catégorielles** au moyen de l'encodage. Deux types encodages seront vus, à savoir **l'encodage ordinal** et l'encodage **unique**. **encodage one-hot**.

Commençez par charger l'ensemble des données `adult-census.csv` contenant des données numériques et catégorielles.

In [1]:
import pandas as pd

df = pd.read_csv('../datasets/adult-census.csv')
df.head()

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


## Identifier les variables catégorielles

Comme nous l'avons vu dans la séance précédente, une variable numérique est une quantité représentée par un nombre réel ou entier. Ces variables peuvent être naturellement traitées par les algorithmes d'apprentissage automatique qui sont typiquement composés d'une séquence d'instructions arithmétiques telles que les additions et les multiplications.

En revanche, les variables catégorielles ont des valeurs discrètes, généralement représentées par des étiquettes de chaînes de caractères (mais pas seulement) prises dans une liste finie de choix possibles. Par exemple, la variable `native-country` dans notre jeu de données est une variable catégorielle parce qu'elle code les données à l'aide d'une liste finie de pays possibles (avec le symbole `?` si le nom de pays est manquant). 

Pour le constater, affichez la liste des valeurs de `native-country` ainsi que la cardinalité associée. 



In [2]:
print(df["native-country"].unique())
print("Il y a ", len(df["native-country"].unique()), "colonnes")

[' United-States' ' ?' ' Peru' ' Guatemala' ' Mexico'
 ' Dominican-Republic' ' Ireland' ' Germany' ' Philippines' ' Thailand'
 ' Haiti' ' El-Salvador' ' Puerto-Rico' ' Vietnam' ' South' ' Columbia'
 ' Japan' ' India' ' Cambodia' ' Poland' ' Laos' ' England' ' Cuba'
 ' Taiwan' ' Italy' ' Canada' ' Portugal' ' China' ' Nicaragua'
 ' Honduras' ' Iran' ' Scotland' ' Jamaica' ' Ecuador' ' Yugoslavia'
 ' Hungary' ' Hong' ' Greece' ' Trinadad&Tobago'
 ' Outlying-US(Guam-USVI-etc)' ' France' ' Holand-Netherlands']
Il y a  42 colonnes


Comment reconnaître facilement les colonnes catégoriques dans un ensemble de données ? Une partie de la
réponse réside dans le type de données des colonnes. 

Affichez les types du jeu de données. A quoi correspond le type `object`?

In [3]:
print(df.columns)
for column in df:
    print(df[column].dtype)

Index(['age', 'workclass', 'education', 'education-num', 'marital-status',
       'occupation', 'relationship', 'race', 'sex', 'capital-gain',
       'capital-loss', 'hours-per-week', 'native-country', 'class'],
      dtype='object')
int64
object
object
int64
object
object
object
object
object
int64
int64
int64
object
object


In [4]:
# Le type object correspond au format string qui peut être potentiellement une variable catégorielle

## Sélectionner les colonnes en fonction de leur type de données

Si nous nous intéressons seulement à un type de données (dans notre cas, les données catégorielles), nous pouvons utiliser la fonction d'aide de scikit-learn `make_column_selector`, qui nous permet de sélectionner les colonnes en fonction de leur leur type de données.

Utilisez `make_column_selector` pour ne sélectionner que les colonnes catégorielles.

In [5]:
from sklearn.compose import make_column_selector

selector = make_column_selector(dtype_include=object)
selected_columns = selector(df)
print(selected_columns)

['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country', 'class']


Ici, nous avons créé le sélecteur en passant le type de données à inclure. Ensuite l'ensemble de données d'entrée à été fourni à l'objet sélecteur. Celui-ci renvoie une liste de noms de colonnes qui ont le type de données demandé. Nous pouvons maintenant filtrer les colonnes non désirées. 

Filtrez les colonnes désirées de l'ensemble de données et afficher le nombre colonnes restant.

In [6]:
df_object = df
for column in df:
    if column not in selected_columns:
        print(column)
        df_object = df_object.drop(columns=[column])
print(df_object)

print(len(df_object.columns))

age
education-num
capital-gain
capital-loss
hours-per-week
           workclass      education       marital-status          occupation  \
0            Private           11th        Never-married   Machine-op-inspct   
1            Private        HS-grad   Married-civ-spouse     Farming-fishing   
2          Local-gov     Assoc-acdm   Married-civ-spouse     Protective-serv   
3            Private   Some-college   Married-civ-spouse   Machine-op-inspct   
4                  ?   Some-college        Never-married                   ?   
...              ...            ...                  ...                 ...   
48837        Private     Assoc-acdm   Married-civ-spouse        Tech-support   
48838        Private        HS-grad   Married-civ-spouse   Machine-op-inspct   
48839        Private        HS-grad              Widowed        Adm-clerical   
48840        Private        HS-grad        Never-married        Adm-clerical   
48841   Self-emp-inc        HS-grad   Married-civ-spouse     

Dans la suite de cette section, nous allons présenter différentes stratégies pour encoder des données catégorielles en données numériques utilisables par un algorithme d'apprentissage automatique.

### Stratégies d'encodage des catégories

### Encodage des catégories ordinales

La stratégie la plus intuitive est d'encoder chaque catégorie avec un numéro différent. Le `OrdinalEncoder` va transformer les données de cette manière. 

Utilisez `OrdinalEncoder` sur la colonne `education` pour comprendre comment l'encodage fonctionne.

In [7]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder()
df_ordinal_encoder = df_object.copy()

In [8]:
encoder.fit(df_ordinal_encoder[["education"]])
education = encoder.transform(df_ordinal_encoder[["education"]])
print(education)

# education = encoder.inverse_transform(education)
# print(education)

[[ 1.]
 [11.]
 [ 7.]
 ...
 [11.]
 [11.]
 [11.]]


Nous constatons que chaque catégorie dans `education` est remplacée par une valeur numérique. Nous pouvons vérifier la correspondance entre les catégories et les valeurs numériques en utilisant l'attribut `categories_` de l'encodeur.

In [9]:
encoder.categories_

[array([' 10th', ' 11th', ' 12th', ' 1st-4th', ' 5th-6th', ' 7th-8th',
        ' 9th', ' Assoc-acdm', ' Assoc-voc', ' Bachelors', ' Doctorate',
        ' HS-grad', ' Masters', ' Preschool', ' Prof-school',
        ' Some-college'], dtype=object)]

Maintenant, appliquez l'encodage sur toutes les caractéristiques catégorielles. Afficher le nombre de colonnes.

In [11]:
encoder.fit(df_ordinal_encoder[selected_columns])
df_ordinal_encoder[selected_columns] = encoder.transform(df_ordinal_encoder[selected_columns])
print(df_ordinal_encoder)
print("il y a ", len(df_ordinal_encoder.columns), " colonnes")

       workclass  education  marital-status  occupation  relationship  race  \
0            4.0        1.0             4.0         7.0           3.0   2.0   
1            4.0       11.0             2.0         5.0           0.0   4.0   
2            2.0        7.0             2.0        11.0           0.0   4.0   
3            4.0       15.0             2.0         7.0           0.0   2.0   
4            0.0       15.0             4.0         0.0           3.0   4.0   
...          ...        ...             ...         ...           ...   ...   
48837        4.0        7.0             2.0        13.0           5.0   4.0   
48838        4.0       11.0             2.0         7.0           0.0   4.0   
48839        4.0       11.0             6.0         1.0           4.0   4.0   
48840        4.0       11.0             4.0         1.0           3.0   4.0   
48841        5.0       11.0             2.0         4.0           5.0   4.0   

       sex  native-country  class  
0      1.0     

Nous observons que les catégories ont été encodées pour chaque caractéristique (colonne) indépendamment. Nous notons également que le nombre de caractéristiques avant et après l'encodage est le même.


Cependant, il faut être prudent lors de l'application de cette stratégie d'encodage : l'utilisation de cette représentation en nombres entiers conduit les modèles prédictifs en aval à supposer que les valeurs sont ordonnées (0 < 1 < 2 < 3... par exemple).

Par défaut, `OrdinalEncoder` utilise une stratégie lexicographique pour faire correspondre des aux entiers. Cette stratégie est arbitraire et souvent sans signification. Par exemple, supposons que l'ensemble de données a une colonne catégorielle nommée `"size"` avec des catégories telles que "S", "M", "L", "XL". Nous aimerions que la que la représentation entière respecte la signification des tailles en les faisant correspondre à des entiers croissants tels que `0, 1, 2, 3`.
Toutefois, la stratégie lexicographique utilisée par défaut mettrait en correspondance les étiquettes "S", "M", "L", "XL" en 2, 1, 0, 3, en suivant l'ordre alphabétique.

La classe `OrdinalEncoder` accepte un argument de constructeur `categories` pour passer explicitement les catégories dans l'ordre attendu. Vous pouvez trouver plus informations dans la [documentation scikit-learn](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features) si nécessaire.

Si une colonne catégorielle ne porte pas d'informations d'ordre significatives d'ordre significatif, ce codage peut induire en erreur les modèles statistiques en aval et vous pouvez envisager d'utiliser `l'encodage ont-hot` à la place (voir ci-dessous).

### Encodage de catégories nominales (sans supposer d'ordre)

`OneHotEncoder` est un encodeur alternatif qui empêche les modèles en aval de faire une fausse hypothèse sur l'ordre des catégories. Pour une colonne donnée, il créera autant de nouvelles colonnes qu'il y a de catégories possibles. Pour une obervation donnée, la valeur de la colonne correspondant à la catégorie sera mise à 1 alors que toutes les colonnes des autres catégories seront mises à 0.


Commencez par utiliser `OneHotEncoder` sur une seule colonne (par exemple "education") pour illustrer son fonctionnement.

In [26]:
from sklearn.preprocessing import OneHotEncoder

hotencoder = OneHotEncoder(handle_unknown='ignore')
hotencoder.fit(df_object[["education"]])

result = hotencoder.transform(df_object[["education"]]).toarray()
print(result)

hotencoder_education_df = pd.DataFrame(result)
print(hotencoder_education_df)

# print(df_object[["education"]])

[[0. 1. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
        0    1    2    3    4    5    6    7    8    9    10   11   12   13  \
0      0.0  1.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   
1      0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  1.0  0.0  0.0   
2      0.0  0.0  0.0  0.0  0.0  0.0  0.0  1.0  0.0  0.0  0.0  0.0  0.0  0.0   
3      0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   
4      0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   
...    ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...   
48837  0.0  0.0  0.0  0.0  0.0  0.0  0.0  1.0  0.0  0.0  0.0  0.0  0.0  0.0   
48838  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  1.0  0.0  0.0   
48839  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  1.0  0.0  0.0   
48840  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p><tt class="docutils literal">sparse=False</tt> est utilisé dans <tt class="docutils literal">OneHotEncoder</tt> à des fins didactiques, à savoir une visualisation plus facile des données.</p>
<p class="last"> Les matrices éparses sont des structures de données efficaces lorsque la plupart des éléments de votre matrice sont nuls. Elles ne seront pas abordées dans ce cours. Si vous
voulez plus de détails à leur sujet, vous pouvez consulter
<a class="reference external" href="https://docs.scipy.org/doc/scipy/reference/sparse.html">ceci</a>.</p>
</div>

Nous observons que l'encodage d'une seule colonne donnera un tableau NumPy rempli 0 et 1. Nous pouvons mieux comprendre en utilisant les noms des colonnes associées résultant de la transformation.

Utilisez la méthode get_feature_names_out pour obtenir la liste des noms des colonnes après encodage de la colonne `education`.


In [27]:
hotencoder.get_feature_names_out()

array(['education_ 10th', 'education_ 11th', 'education_ 12th',
       'education_ 1st-4th', 'education_ 5th-6th', 'education_ 7th-8th',
       'education_ 9th', 'education_ Assoc-acdm', 'education_ Assoc-voc',
       'education_ Bachelors', 'education_ Doctorate',
       'education_ HS-grad', 'education_ Masters', 'education_ Preschool',
       'education_ Prof-school', 'education_ Some-college'], dtype=object)

Comme on peut le voir, chaque catégorie (valeur unique) est devenue une colonne ; l'encodage renvoie, pour chaque observation, un 1 pour préciser à quelle catégorie il appartient.

Appliquez cet encodage sur l'ensemble des données. Calculez le nouveau nombre de colonnes.

In [29]:
hotencoder_df = df_object.copy()

hotencoder.fit(hotencoder_df)
print(hotencoder.get_feature_names_out())

NumPy_result = hotencoder.transform(hotencoder_df).toarray()
print(NumPy_result)


print("Il y a ", len(hotencoder.get_feature_names_out()), "colonnes")

['workclass_ ?' 'workclass_ Federal-gov' 'workclass_ Local-gov'
 'workclass_ Never-worked' 'workclass_ Private' 'workclass_ Self-emp-inc'
 'workclass_ Self-emp-not-inc' 'workclass_ State-gov'
 'workclass_ Without-pay' 'education_ 10th' 'education_ 11th'
 'education_ 12th' 'education_ 1st-4th' 'education_ 5th-6th'
 'education_ 7th-8th' 'education_ 9th' 'education_ Assoc-acdm'
 'education_ Assoc-voc' 'education_ Bachelors' 'education_ Doctorate'
 'education_ HS-grad' 'education_ Masters' 'education_ Preschool'
 'education_ Prof-school' 'education_ Some-college'
 'marital-status_ Divorced' 'marital-status_ Married-AF-spouse'
 'marital-status_ Married-civ-spouse'
 'marital-status_ Married-spouse-absent' 'marital-status_ Never-married'
 'marital-status_ Separated' 'marital-status_ Widowed' 'occupation_ ?'
 'occupation_ Adm-clerical' 'occupation_ Armed-Forces'
 'occupation_ Craft-repair' 'occupation_ Exec-managerial'
 'occupation_ Farming-fishing' 'occupation_ Handlers-cleaners'
 'occupation

Transformez ce tableau NumPy en un dataframe avec des noms de colonnes informatifs comme fournis par l'encodeur.

In [198]:
hotencoder_df = pd.DataFrame(data = NumPy_result, columns = hotencoder.get_feature_names_out())
print(hotencoder_df)

       workclass_ ?  workclass_ Federal-gov  workclass_ Local-gov  \
0               0.0                     0.0                   0.0   
1               0.0                     0.0                   0.0   
2               0.0                     0.0                   1.0   
3               0.0                     0.0                   0.0   
4               1.0                     0.0                   0.0   
...             ...                     ...                   ...   
48837           0.0                     0.0                   0.0   
48838           0.0                     0.0                   0.0   
48839           0.0                     0.0                   0.0   
48840           0.0                     0.0                   0.0   
48841           0.0                     0.0                   0.0   

       workclass_ Never-worked  workclass_ Private  workclass_ Self-emp-inc  \
0                          0.0                 1.0                      0.0   
1            

Observez comment la colonne `workclass` des trois premières observations a été encodée et comparez-la à la représentation originale en chaîne de caractères.

Le nombre de caractéristiques après l'encodage est plus de 10 fois plus grand que dans les données originales parce que certaines colonnes comme `occupation` et  `native-country` ont de nombreuses catégories possibles.

### Choix d'une stratégie d'encodage

Le choix d'une stratégie d'encodage dépendra des modèles sous-jacents et du type de catégories (c'est-à-dire ordinales ou nominales).

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p class="last">En générale <tt class="docutils literal">OneHotEncoder</tt> est une stratégie d'encodage utilisée lorsque les modèles en aval sont des <strong>modèles linéaires</strong> tandis que <tt class="docutils literal">OrdinalEncoder</tt> est souvent une bonne stratégie pour 
les <strong>modèles arborescents</strong>.</p>
</div>

L'utilisation d'un `OrdinalEncoder` produira des catégories ordinales. Cela signifie qu'il y a un ordre dans les catégories résultantes (par exemple, `0 < 1 < 2`). L'impact de la violation de cette hypothèse d'ordre dépend des modèles en aval. Les modèles linéaires seront impactés par des catégories mal ordonnées alors que les modèles basés sur les arbres ne le seront pas.

Vous pouvez toujours utiliser un `OrdinalEncoder` avec des modèles linéaires mais vous devez être sûr que :
- les catégories originales (avant l'encodage) ont un ordre ;
- les catégories codées suivent le même ordre que les catégories originales. 


L'encodage ont-hot des colonnes catégorielles avec une cardinalité élevée peut causer une inefficacité computationnelle dans les modèles basés sur des arbres. Pour cette raison, il n'est pas recommandé d'utiliser `OneHotEncoder` dans de tels cas, même si les catégories originales n'ont pas un ordre donné. 




## Évaluer notre pipeline prédictif

Nous pouvons maintenant intégrer cet encodeur dans un pipeline d'apprentissage automatique: entraînons un classificateur linéaire sur les données encodées et vérifions la performance de généralisation de ce pipeline d'apprentissage automatique en utilisant la validation croisée.

Avant de créer le pipeline, nous devons nous attarder sur le `native-country`. 

Calculez les cardinalités de chaque valeur de cette colonne.

In [203]:
print(df["native-country"].value_counts())

native-country
 United-States                 43832
 Mexico                          951
 ?                               857
 Philippines                     295
 Germany                         206
 Puerto-Rico                     184
 Canada                          182
 El-Salvador                     155
 India                           151
 Cuba                            138
 England                         127
 China                           122
 South                           115
 Jamaica                         106
 Italy                           105
 Dominican-Republic              103
 Japan                            92
 Guatemala                        88
 Poland                           87
 Vietnam                          86
 Columbia                         85
 Haiti                            75
 Portugal                         67
 Taiwan                           65
 Iran                             59
 Greece                           49
 Nicaragua             

Nous constatons que la catégorie `Holand-Netherlands` apparaît rarement. Cela posera un problème lors de la validation croisée : si cette observation se retrouve dans l'ensemble de test lors du fractionnement, le classificateur n'aura pas vu la catégorie lors de l'entraînement et ne sera pas capable de la coder.

Dans scikit-learn, il existe deux solutions pour contourner ce problème :

* lister toutes les catégories possibles et les fournir à l'encodeur via l'argument mot-clé `categories` ;
* utiliser le paramètre `handle_unknown`.

Ici, nous utiliserons la dernière solution pour plus de simplicité.

Mettez en place le pipeline d'apprentissage automatique en utilisant la méthode `make_pipeline`. Celui-ci doit contenir l'encodeur one-hot ainsi que la méthode de régression logistique.

In [63]:
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_validate

df_pipeline = pd.read_csv('../datasets/adult-census.csv')

# create data DF with only object
df_data = df_pipeline.drop(columns=['class'])
df_data = df_data.select_dtypes(include=['object'], exclude=['int64'])

# create target DF
df_target = df_pipeline["class"]

#create pipeline
pipe = make_pipeline(
    OneHotEncoder(handle_unknown='ignore'),
    LogisticRegression(random_state=0, max_iter=3000)
)
pipe.fit(df_data, df_target)

cv = cross_validate(pipe, df_data, df_target, cv=5)

print(cv)
print("fit_time ", cv['fit_time'].mean())
print("score_time ", cv['score_time'].mean())
print("test_score ", cv['test_score'].mean())

{'fit_time': array([0.55014753, 0.53401089, 0.50177431, 0.54954314, 0.57596779]), 'score_time': array([0.00753498, 0.01562643, 0.0317626 , 0.02035975, 0.03125811]), 'test_score': array([0.83222438, 0.83560242, 0.82872645, 0.83312858, 0.83466421])}
fit_time  0.5422887325286865
score_time  0.021308374404907227
test_score  0.8328692091154984


Enfin, vérifiez la performance de généralisation du modèle en utilisant uniquement les colonnes catégorielles. Ceci doit être effectué avec la méthode cross_validate à laquelle le pipeline, les données catégorielles ainsi que la cible sont fournis en argument. 

Choisissez un nombre de fractionnement `cv` égal à 5.

Calculez la moyenne des 5 scores.

Le score est-il meilleur que celui du modèle entraîné sur uniquement les colonnes numériques?

In [59]:
#le test score est de 0.8328692091154984.
# Le score du modèle entrainé uniquement sur les colonnes numériques est 0.7562698331456649
# Il est donc meilleur que le précédent modèle entrainé sur les colonnes numériques

Varier la valeur de cv entre 3 et 10. Y a t-il un changement dans le score moyen?

In [69]:
# Non, il n'y a aucun changement

{'fit_time': array([0.83485889, 0.7092247 , 0.64337397, 0.64413571, 0.67607498,
       0.7219243 , 0.73416829, 0.69096208, 0.72166467, 0.70642066,
       0.5967176 , 0.67539024, 0.67737079, 0.62806869, 0.67536163,
       0.72246456, 0.65925932, 0.69149828, 0.72225308, 0.59666562,
       0.64887762, 0.6749301 , 0.6923933 , 0.65068412, 0.69091439,
       0.64278603, 0.68579173, 0.6015799 , 0.69284439, 0.62778473]), 'score_time': array([0.        , 0.        , 0.        , 0.        , 0.        ,
       0.00453591, 0.        , 0.        , 0.        , 0.        ,
       0.01562572, 0.01561689, 0.015625  , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.01104379, 0.01617551, 0.00903893, 0.01562691, 0.        ,
       0.00503945, 0.01553822, 0.01104879, 0.        , 0.        ]), 'test_score': array([0.82074893, 0.8422345 , 0.83599509, 0.83660934, 0.82309582,
       0.83476658, 0.83906634, 0.84275184, 0.83353808, 0.84090909,
       0.83292383

Dans ce notebook, nous avons :
* vu deux stratégies communes pour coder les colonnes catégorielles : **l'encodage nominal et l'encodage one-hot** ;
* utilisé un **pipeline** pour utiliser un **encodeur one-hot** avant de procéder à une régression logistique.