In [1]:
import pandas as pd
from sklearn.preprocessing import (LabelEncoder, OrdinalEncoder, OneHotEncoder,
                                    LabelBinarizer, MultiLabelBinarizer)
from sklearn.datasets import load_iris

# Encoding des variables catégorielles

| Forme d'encodage | Définition | Avantages | Inconvénients | Conditions d'utilisation |
| --- | --- | --- | --- | --- |
| Label Encoding | Transformation des valeurs catégorielles en entiers | Facile à implémenter, adapté aux algorithmes de machine learning | Création d'une relation d'ordre artificielle entre les catégories, peut induire en erreur certains algorithmes | Les catégories doivent être ordonnées ou ne pas avoir de relation d'ordre |
| One-Hot Encoding | Transformation des valeurs catégorielles en vecteurs binaires | Ne crée pas de relation d'ordre artificielle, adapté à de nombreux algorithmes de machine learning | Peut créer des colonnes redondantes et augmenter considérablement la taille des données | Les catégories ne doivent pas être trop nombreuses |



In [2]:
# Charger un exemple de dataset
iris = load_iris()
df = pd.DataFrame(iris.data, columns=["sepal_length", "sepal_width", "petal_length", "petal_width"])
df["class"] = iris.target
print("Dataset original : ")
print(df.head())

Dataset original : 
   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa


# Label Encoding

Le Label Encoding est une technique de transformation de variables catégorielles en valeurs numériques ordinales. Chaque catégorie possible de la variable est remplacée par un entier unique, en fonction de l'ordre dans lequel les catégories apparaissent dans la variable.

## Avantages

Le Label Encoding présente plusieurs avantages :

- Il est simple à mettre en œuvre et ne nécessite pas beaucoup de ressources.
- Il préserve l'ordre des catégories si elle est importante pour l'analyse.

## Inconvénients

Le Label Encoding présente également quelques inconvénients :

- Il crée une relation d'ordre artificielle entre les catégories.
- Il n'est pas adapté à certains algorithmes de machine learning, tels que les réseaux de neurones et les machines à vecteurs de support, qui peuvent interpréter les valeurs numériques comme des valeurs continues plutôt que des catégories.

## Conditions d'utilisation

Le Label Encoding est adapté aux variables catégorielles qui ont une relation d'ordre naturelle et pour lesquelles l'interprétation en termes de valeurs numériques est pertinente. Cependant, il est important de prendre en compte les avantages, les inconvénients et les conditions d'utilisation de cette technique pour éviter des erreurs d'interprétation ou des problèmes d'analyse. 

En général, le Label Encoding est une technique simple et rapide pour encoder des variables catégorielles en valeurs numériques ordinales, mais il est important de bien comprendre ses limites et d'utiliser d'autres techniques d'encodage pour des analyses plus avancées ou pour des algorithmes de machine learning plus complexes.

In [3]:
# Label encoding
le = LabelEncoder()
df['class_le'] = le.fit_transform(df['class'])
print("Label encoding : ")
print(df[['class', 'class_le']].head())
print("Valeurs Unique")
print(df.class_le.unique())
# Réalisation de la table de contingence
table = pd.crosstab(df['class_le'], df['class'])
print(table)

Label encoding : 
         class  class_le
0  Iris-setosa         0
1  Iris-setosa         0
2  Iris-setosa         0
3  Iris-setosa         0
4  Iris-setosa         0
Valeurs Unique
[0 1 2]
class     Iris-setosa  Iris-versicolor  Iris-virginica
class_le                                              
0                  50                0               0
1                   0               50               0
2                   0                0              50


# One-Hot Encoding

Le One-Hot Encoding est une technique de transformation de variables catégorielles en vecteurs binaires. Chaque catégorie possible de la variable est représentée par une colonne binaire, et chaque observation est représentée par un vecteur binaire de la même dimension que le nombre de catégories possibles.

## Avantages

Le One-Hot Encoding présente plusieurs avantages :

- Il ne crée pas de relation d'ordre artificielle entre les catégories.
- Il est adapté à de nombreux algorithmes de machine learning, tels que les réseaux de neurones, les arbres de décision et les machines à vecteurs de support.
- Il permet de prendre en compte des variables catégorielles avec un grand nombre de catégories.

## Inconvénients

Le One-Hot Encoding présente également quelques inconvénients :

- Il peut créer des colonnes redondantes si une variable catégorielle a un grand nombre de catégories.
- Il peut augmenter considérablement la taille des données si plusieurs variables catégorielles sont encodées de cette manière.

## Conditions d'utilisation

Le One-Hot Encoding est adapté aux variables catégorielles qui ne sont pas ordonnées et qui ont un nombre raisonnable de catégories possibles. Si une variable catégorielle a un grand nombre de catégories, il peut être préférable d'utiliser d'autres techniques d'encodage, telles que le Target Encoding ou le Binary Encoding.

En général, le One-Hot Encoding est une technique efficace pour encoder des variables catégorielles et les utiliser dans des algorithmes de machine learning. Cependant, il est important de prendre en compte les avantages, les inconvénients et les conditions d'utilisation de cette technique pour éviter des problèmes de dimensionnalité ou des erreurs d'interprétation.

In [4]:

# One-hot encoding
ohe = OneHotEncoder(sparse=False)
ohe_result = ohe.fit_transform(df[['class']])
df_ohe = pd.DataFrame(ohe_result, columns=ohe.get_feature_names(['class']))
print("One-hot encoding : ")
print(df_ohe)




One-hot encoding : 
     class_Iris-setosa  class_Iris-versicolor  class_Iris-virginica
0                  1.0                    0.0                   0.0
1                  1.0                    0.0                   0.0
2                  1.0                    0.0                   0.0
3                  1.0                    0.0                   0.0
4                  1.0                    0.0                   0.0
..                 ...                    ...                   ...
145                0.0                    0.0                   1.0
146                0.0                    0.0                   1.0
147                0.0                    0.0                   1.0
148                0.0                    0.0                   1.0
149                0.0                    0.0                   1.0

[150 rows x 3 columns]




# Target Encoding

Le Target Encoding est une technique de transformation de variables catégorielles en valeurs numériques en fonction de la variable cible. Chaque catégorie possible de la variable est remplacée par la moyenne, la médiane ou tout autre agrégat de la variable cible pour cette catégorie.

## Avantages

Le Target Encoding présente plusieurs avantages :

- Il peut capturer des informations importantes sur la relation entre la variable catégorielle et la variable cible.
- Il peut être adapté à des variables catégorielles avec un grand nombre de catégories ou des catégories rares.

## Inconvénients

Le Target Encoding présente également quelques inconvénients :

- Il peut être sensible aux valeurs aberrantes et aux échantillons de petite taille.
- Il peut surajuster les données d'entraînement s'il n'est pas utilisé avec prudence.

## Conditions d'utilisation

Le Target Encoding est adapté aux variables catégorielles pour lesquelles la relation avec la variable cible est importante pour l'analyse ou la prédiction. Il est important de prendre en compte les avantages et les inconvénients de cette technique pour éviter des erreurs d'interprétation ou des problèmes d'analyse.

En général, le Target Encoding est une technique utile pour encoder des variables catégorielles en valeurs numériques en fonction de la variable cible, mais il est important de bien comprendre ses limites et d'utiliser d'autres techniques d'encodage pour des analyses plus avancées ou pour des algorithmes de machine learning plus complexes.