# Encodage 

## One-Hot encodage

L'encodage "one-hot" (ou "one-of-K" encoding ou encodage binaire) est une technique couramment utilisée en machine learning, en particulier en classification, pour représenter des données catégoriques ou des étiquettes de classe de manière numérique. L'objectif de cette technique est de convertir des catégories en vecteurs binaires (0 ou 1) pour les utiliser plus efficacement dans les algorithmes d'apprentissage automatique. Voici comment cela fonctionne :

Supposons que vous ayez une variable catégorique, comme "couleur des fruits", avec trois catégories possibles : "rouge", "vert" et "bleu". L'encodage one-hot crée trois nouvelles variables binaires, une pour chaque catégorie :

* La catégorie "rouge" est représentée par (1, 0, 0).
* La catégorie "vert" est représentée par (0, 1, 0).
* La catégorie "bleu" est représentée par (0, 0, 1).

Chaque variable binaire indique si une observation particulière appartient ou non à une catégorie donnée. Ainsi, une observation qui correspond à "vert" aura une valeur de 1 dans la deuxième position (vert) et des zéros dans les autres positions (rouge et bleu).

Voici pourquoi l'encodage one-hot est utile :

- Compatibilité avec les algorithmes : De nombreux algorithmes d'apprentissage automatique, tels que les réseaux de neurones, les arbres de décision, etc., travaillent mieux avec des données numériques. L'encodage one-hot permet de représenter des catégories de manière numérique tout en évitant d'attribuer un ordre ou une relation ordonnée entre les catégories.

- Évite la distorsion : Si vous encodez une variable catégorique avec des entiers (par exemple, 1 pour "rouge", 2 pour "vert" et 3 pour "bleu"), les algorithmes peuvent interpréter involontairement une relation ordonnée entre les catégories (par exemple, "vert" est plus grand que "rouge"). L'encodage one-hot évite cette distorsion.

- Facilité d'interprétation : Les variables binaires one-hot sont faciles à interpréter. Chaque variable indique simplement la présence ou l'absence d'une catégorie particulière.

- Prise en charge des catégories multiples : L'encodage one-hot peut également gérer des situations où une observation peut appartenir à plusieurs catégories simultanément. Par exemple, si vous encodez les genres de films, un film peut être à la fois "action" et "science-fiction", ce qui est difficile à représenter avec une simple variable catégorique.

Il est important de noter que l'encodage one-hot peut augmenter considérablement la dimension de vos données si vous avez de nombreuses catégories. Cependant, il est souvent préférable pour la plupart des modèles d'apprentissage automatique. De plus, de nombreuses bibliothèques, y compris TensorFlow et scikit-learn en Python, proposent des outils pour effectuer facilement l'encodage one-hot sur vos données.

In [1]:
from tensorflow import keras

# Exemple de données d'entraînement (des entiers représentant des classes)
train_data = [0, 1, 2, 1, 0]

# Créez un modèle séquentiel
model = keras.Sequential()

# Ajoutez une couche d'encodage one-hot
model.add(keras.layers.OneHotEncoding(num_classes=3))  # Remplacez 3 par le nombre de classes dans vos données

# Transformez vos données en utilisant le modèle
one_hot_encoded_data = model.predict(train_data)

# Affichez les résultats
print(one_hot_encoded_data)

2023-10-11 14:55:27.219375: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2023-10-11 14:55:27.219503: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2023-10-11 14:55:31.497544: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcuda.so.1'; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory
2023-10-11 14:55:31.497640: W tensorflow/stream_executor/cuda/cuda_driver.cc:269] failed call to cuInit: UNKNOWN ERROR (303)
2023-10-11 14:55:31.497722: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not appear to be running on this host (newtown): /proc/driver/nvidia/version does not exist


AttributeError: module 'keras.api._v2.keras.layers' has no attribute 'OneHotEncoding'

# Label Encoder

Keras ne propose pas directement une couche spécifique pour l'encodage des étiquettes (label encoding) comme il le fait pour l'encodage one-hot. Cependant, vous pouvez utiliser la classe **LabelEncoder** de la bibliothèque scikit-learn pour effectuer le label encoding avant d'utiliser vos données avec Keras. Voici comment faire :


In [None]:
from sklearn.preprocessing import LabelEncoder

# Exemple de données d'étiquettes
labels = ['chat', 'chien', 'oiseau', 'chien', 'chat']

# Créez une instance de LabelEncoder
label_encoder = LabelEncoder()

# Ajustez le label encoder aux données et transformez les étiquettes
encoded_labels = label_encoder.fit_transform(labels)

# Les étiquettes sont maintenant encodées sous forme d'entiers
print(encoded_labels)

Bien sûr les labels peuvent avoir un encodage "one-hot label" (ou "one-hot encoding with label encoding") :

In [2]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import numpy as np

# Exemple de données d'étiquettes
labels = ['chat', 'chien', 'oiseau', 'chien', 'chat']

# Créez une instance de LabelEncoder
label_encoder = LabelEncoder()

# Ajustez le label encoder aux données et transformez les étiquettes
encoded_labels = label_encoder.fit_transform(labels)

# Trouvez les catégories uniques dans les étiquettes
unique_labels = np.unique(encoded_labels)

# Créez un one-hot encoder
onehot_encoder = OneHotEncoder(sparse=False)

# Préparez les données pour l'encodage one-hot
encoded_labels = encoded_labels.reshape(len(encoded_labels), 1)

# Effectuez l'encodage one-hot uniquement pour les catégories rares
onehot_labels = onehot_encoder.fit_transform(encoded_labels)

# Affichez les résultats
print(onehot_labels)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


