# Variables catégorielles
Il existe de nombreuses données non numériques. Voici comment les utiliser pour l’apprentissage automatique.

## Introduction
Une variable catégorielle ne prend qu’un nombre limité de valeurs.

Prenons l’exemple d’un sondage qui demande à quelle fréquence vous prenez un petit-déjeuner et qui propose quatre options : "Jamais", "Rarement", "La plupart des jours" ou "Tous les jours". Dans ce cas, les données sont catégorielles, car les réponses appartiennent à un ensemble fixe de catégories.

Si les gens répondaient à un sondage sur la marque de voiture qu’ils possèdent, les réponses tomberaient dans des catégories comme "Honda", "Toyota" et "Ford". Dans ce cas, les données sont également catégorielles.

Vous obtiendrez une erreur si vous essayez d’insérer ces variables dans la plupart des modèles d’apprentissage automatique en Python sans les prétraiter au préalable. 

Dans ce tutoriel, nous allons comparer trois approches que vous pouvez utiliser pour préparer vos données catégorielles.

## Trois approches
#### 1) Supprimer les variables catégorielles
L’approche la plus simple pour traiter les variables catégorielles est de simplement les supprimer du jeu de données. Cette approche ne fonctionnera bien que si les colonnes ne contiennent pas d’informations utiles.

#### 2) Encodage ordinal
L’encodage ordinal attribue à chaque valeur unique un entier différent.

Exemple :

    Jamais	Rarement	La plupart des jours	Tous les jours
    0	       1	               2	              3

Cette approche suppose un ordre des catégories : "Jamais" (0) < "Rarement" (1) < "La plupart des jours" (2) < "Tous les jours" (3).

Cette hypothèse est logique dans cet exemple, car il existe un classement indiscutable des catégories. Toutes les variables catégorielles n’ont pas un ordre clair dans leurs valeurs, mais nous appelons celles qui en ont des ***variables ordinales***. 

**Pour les modèles basés sur les arbres (comme les arbres de décision et les forêts aléatoires), vous pouvez vous attendre à ce que l’encodage ordinal fonctionne bien avec les variables ordinales.**

#### 3) Encodage one-hot
L’encodage one-hot crée de nouvelles colonnes indiquant la présence (ou l’absence) de chaque valeur possible dans les données d’origine.

*Exemple* :

Dans le jeu de données d’origine, "Couleur" est une variable catégorielle avec trois catégories : "Rouge", "Jaune" et "Vert". L’encodage one-hot correspondant contient une colonne pour chaque valeur possible et une ligne pour chaque ligne du jeu de données d’origine. Chaque fois que la valeur d’origine était "Rouge", nous mettons un 1 dans la colonne "Rouge" ; si la valeur d’origine était "Jaune", nous mettons un 1 dans la colonne "Jaune", et ainsi de suite.

En contraste avec l’encodage ordinal, l’encodage one-hot ne suppose pas d’ordre dans les catégories. Ainsi, vous pouvez vous attendre à ce que cette approche fonctionne particulièrement bien s’il n’y a pas d’ordre clair dans les données catégorielles (par exemple, "Rouge" n’est ni plus ni moins que "Jaune"). 

**Nous appelons les variables catégorielles sans classement intrinsèque des variables nominales.**

L’encodage one-hot ne fonctionne généralement pas bien si la variable catégorielle prend un grand nombre de valeurs (c’est-à-dire que vous ne l’utiliserez généralement pas pour des variables prenant plus de 15 valeurs différentes).



## Exemple
Comme dans le tutoriel précédent, nous allons travailler avec le jeu de données sur **les logements de Melbourne**.

Nous ne nous concentrerons pas sur l’étape de chargement des données. Au lieu de cela, vous pouvez imaginer que vous êtes à un point où vous avez déjà les données d’entraînement et de validation dans X_train, X_valid, y_train, et y_valid.

Nous examinons rapidement les données d’entraînement avec la méthode head() ci-dessous.

In [99]:
import pandas as pd

# Charger les données
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# Identifier les variables catégorielles
categorical_cols = melbourne_data.select_dtypes(include=['object']).columns

# Variables catégorielles à conserver
keep_cols = ['Type', 'Method', 'Regionname']

# Supprimer les autres variables catégorielles
melbourne_data = melbourne_data.drop(columns=[col for col in categorical_cols if col not in keep_cols])

# Vérifier les colonnes restantes
print("Colonnes restantes :")
print(melbourne_data.columns)

Colonnes restantes :
Index(['Rooms', 'Type', 'Price', 'Method', 'Distance', 'Postcode', 'Bedroom2',
       'Bathroom', 'Car', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')


In [101]:
# Supprimer les lignes avec une cible manquante, séparer la cible des prédicteurs
melbourne_data.dropna(axis=0, subset=['Price'], inplace=True)
y = melbourne_data.Price
X = melbourne_data.drop(['Price'], axis=1)  # Retirez inplace=True

# Diviser en données d'entraînement et de validation
from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)


In [102]:
X_train.head()

Unnamed: 0,Rooms,Type,Method,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Regionname,Propertycount
12167,1,u,S,5.0,3182.0,1.0,1.0,1.0,0.0,,1940.0,-37.85984,144.9867,Southern Metropolitan,13240.0
6524,2,h,SA,8.0,3016.0,2.0,2.0,1.0,193.0,,,-37.858,144.9005,Western Metropolitan,6380.0
8413,3,h,S,12.6,3020.0,3.0,1.0,1.0,555.0,,,-37.7988,144.822,Western Metropolitan,3755.0
2919,3,u,SP,13.0,3046.0,3.0,1.0,1.0,265.0,,1995.0,-37.7083,144.9158,Northern Metropolitan,8870.0
6043,3,h,S,13.3,3020.0,3.0,1.0,2.0,673.0,673.0,1970.0,-37.7623,144.8272,Western Metropolitan,4217.0


Nous obtenons ensuite une liste de toutes les variables catégorielles dans les données d’entraînement en vérifiant le type de données (dtype) de chaque colonne. Le type object indique qu’une colonne contient du texte (il pourrait théoriquement y avoir d’autres choses, mais ce n’est pas important pour nos besoins). 

Pour ce jeu de données, **les colonnes contenant du texte indiquent des variables catégorielles.**

In [106]:
# Obtenir la liste des variables catégorielles  
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)

print("Variables catégorielles :")
print(object_cols)

Variables catégorielles :
['Type', 'Method', 'Regionname']


## Approche n°1 : Supprimer les variables catégorielles
En tant que première approche, utilisons uniquement les colonnes numériques du jeu de données. Cela implique d’éliminer les variables catégorielles, ainsi que toutes les colonnes non numériques.

In [110]:
# Supprimer les colonnes catégorielles  
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

Ensuite, nous évaluons le modèle. La fonction ci-dessous est un raccourci pour évaluer la performance d’un modèle. Si vous n’êtes pas sûr de son fonctionnement, passez simplement au code qui suit ; il n’est pas essentiel de comprendre chaque détail pour suivre le tutoriel.

In [113]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

In [115]:
# Évaluer le modèle  
print("MAE lorsque les colonnes catégorielles sont supprimées :")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

MAE lorsque les colonnes catégorielles sont supprimées :
169107.7515611193


## Approche n°2 : Encodage ordinal
Nous appliquons l’encodage ordinal, en utilisant la classe ***OrdinalEncoder*** de scikit-learn.

In [118]:
from sklearn.preprocessing import OrdinalEncoder

# Appliquer l’encodage ordinal aux colonnes catégorielles  
ordinal_encoder = OrdinalEncoder()
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

label_X_train[object_cols] = ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] = ordinal_encoder.transform(X_valid[object_cols])

# Évaluer le modèle  
print("MAE avec l’encodage ordinal :")
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))


MAE avec l’encodage ordinal :
162121.2173048601


Avec l’encodage ordinal, l’erreur absolue moyenne (MAE) est plus basse que lorsque les colonnes catégorielles sont supprimées, ce qui indique que cette approche utilise mieux les données.

## Approche n°3 : Encodage one-hot
Enfin, essayons l’encodage one-hot, en utilisant la classe ***OneHotEncoder*** de scikit-learn avec l’option ***handle_unknown='ignore'*** pour éviter les erreurs lorsque les données de validation contiennent des catégories qui ne figurent pas dans les données d’entraînement.

En raison de la grande taille des jeux de données après encodage one-hot, nous utilisons ***sparse=False*** pour convertir les résultats en un tableau NumPy denses (cela facilite l’utilisation avec scikit-learn).

In [122]:
# Encodage One-Hot
onehot_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

OH_cols_train = pd.DataFrame(onehot_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(onehot_encoder.transform(X_valid[object_cols]))

# Aligner les indices
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Supprimer les colonnes catégorielles originales
X_train = X_train.drop(object_cols, axis=1)
X_valid = X_valid.drop(object_cols, axis=1)

# Ajouter les colonnes encodées
X_train = pd.concat([X_train, OH_cols_train], axis=1)
X_valid = pd.concat([X_valid, OH_cols_valid], axis=1)

# Convertir les noms de colonnes en chaînes de caractères
X_train.columns = X_train.columns.astype(str)
X_valid.columns = X_valid.columns.astype(str)

# Fonction pour évaluer le modèle
def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

# Évaluer le modèle
print("MAE avec l’encodage one-hot :")
print(score_dataset(X_train, X_valid, y_train, y_valid))


MAE avec l’encodage one-hot :
160683.8470632583


## Conclusion
Dans ce cas, l’encodage ordinal et l’encodage one-hot ont produit des résultats similaires. Mais quelle approche est la meilleure ? Cela dépend du problème :

L’encodage ordinal fonctionne bien si les variables catégorielles ont un ordre clair.
L’encodage one-hot est plus approprié si aucune relation d’ordre n’existe entre les catégories.

Dans cet exemple, les catégories de la **colonne Regionname sont nominales** (sans ordre clair). Ainsi, l’encodage one-hot pourrait être un meilleur choix, bien que la performance ne soit pas significativement meilleure ici.

En général, l’encodage one-hot est plus sûr, car il fait moins d’hypothèses sur les données, mais il peut aussi augmenter considérablement la taille du jeu de données.