# Encodage numérique de variables

Tous les modèles que l'on utilise procède à de l'optimisation numérique. Seulement, pour effectuer des calculs numériques, ces variables doivent être transformés **numériquement**. Cela devient problématique lorsque l'on utilise des variables qualitatives et non ordinales (date, lieu, texte, ...). Heureusement, il existe diverses méthodes afin d'**encoder** ces variables de manière numérique.

In [9]:
import numpy as np

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

## Encodage *one-hot*

Un premier type d'encodage, particulièrement utilisé en NLP (traitement du langage) est l'encodage *one-hot*. Le principe est suivant : on dispose d'une variable $X$ à $p$ modalités (pouvant prendre $p$ valeurs différentes) identifiées de $1$ à $p$. Pour représenter numériquement une observation de cette variable, on crée un vecteur de taille $p$ dont toutes les composantes sont nulles, sauf une composante qui vaut $1$ et qui correspond à la $i$⁻ème modalité.

Par exemple, considérons quatre villes : Paris, Marseille, Nice et Bordeaux. On dispose d'une observation de la valeur est Nice. Dans ce cas, le vecteur *one-hot* associé à cette observation est :

$$(0 \quad 0 \quad 1 \quad 0)$$

Car Nice est bien la troisième modalité de la variable *ville*.

In [48]:
X = np.asarray([ ["Paris"], ["Marseille"], ["Paris"], ["Nice"], ["Bordeaux"], ["Bordeaux"], ["Marseille"] ])
# Création de l'objet Label Encoder
label_encoder = LabelEncoder()
X_labels = label_encoder.fit_transform(X)
print("Classes :", label_encoder.classes_)
print("Encodage par labels :", X_labels)
# Redimensionnement matriciel
X_labels = X_labels.reshape(len(X_labels), 1)
# Objet One Hot Encoder
one_hot_encoder = OneHotEncoder(sparse=False)
print("Encodage one-hot :")
print(one_hot_encoder.fit_transform(X_labels))

Encodage par labels : [3 1 3 2 0 0 1]
Classes : ['Bordeaux' 'Marseille' 'Nice' 'Paris']
Encodage one-hot :
[[0. 0. 0. 1.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]
 [0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]]


## Encodage par dictionnaire



## Encodage transformé et circulaire

Dans certains cas, même en présence de variables qualitatives, on souhaite obtenir un certain ordre lors du passage du qualitatif au numérique. Par exemple, on aimerait classer la météo selon plusieurs niveaux : proche de $0$ en cas de très mauvais temps, et proche de $1$ en cas de ciel bleu ensoleillé.

Ce genre d'approche dépends entièrement de la problématique, de l'objectif de modélisation voir du modélisation en lui même.

Autre exemple, supposons vouloir prédire la variation de la météo en fonction de la date : plutôt que de tronquer semaine par semaine ou jour par jour, on peut effectuer en encodage circulaire. On démarre de $0$ au mois de janvier pour arriver à $1$ en avril, puisque durant cette période, la météo varie beaucoup plus. Ensuite, on repasse à $0$ au mois juillet (en été, le temps reste globalement chaud) pour ensuite redescendre à $-1$ en octobre et terminer à $0$ en décembre.