# Variables catégorielles
Il existe de nombreuses données non numériques. Voici comment les utiliser pour l’apprentissage automatique.

## Introduction
Une variable catégorielle ne prend qu’un nombre limité de valeurs.

Prenons l’exemple d’un sondage qui demande à quelle fréquence vous prenez un petit-déjeuner et qui propose quatre options : "Jamais", "Rarement", "La plupart des jours" ou "Tous les jours". Dans ce cas, les données sont catégorielles, car les réponses appartiennent à un ensemble fixe de catégories.

Si les gens répondaient à un sondage sur la marque de voiture qu’ils possèdent, les réponses tomberaient dans des catégories comme "Honda", "Toyota" et "Ford". Dans ce cas, les données sont également catégorielles.

Vous obtiendrez une erreur si vous essayez d’insérer ces variables dans la plupart des modèles d’apprentissage automatique en Python sans les prétraiter au préalable. 

Dans ce tutoriel, nous allons comparer trois approches que vous pouvez utiliser pour préparer vos données catégorielles.

## Trois approches
#### 1) Supprimer les variables catégorielles
L’approche la plus simple pour traiter les variables catégorielles est de simplement les supprimer du jeu de données. Cette approche ne fonctionnera bien que si les colonnes ne contiennent pas d’informations utiles.

#### 2) Encodage ordinal
L’encodage ordinal attribue à chaque valeur unique un entier différent.

Exemple :

    Jamais	Rarement	La plupart des jours	Tous les jours
    0	       1	               2	              3

Cette approche suppose un ordre des catégories : "Jamais" (0) < "Rarement" (1) < "La plupart des jours" (2) < "Tous les jours" (3).

Cette hypothèse est logique dans cet exemple, car il existe un classement indiscutable des catégories. Toutes les variables catégorielles n’ont pas un ordre clair dans leurs valeurs, mais nous appelons celles qui en ont des ***variables ordinales***. 

**Pour les modèles basés sur les arbres (comme les arbres de décision et les forêts aléatoires), vous pouvez vous attendre à ce que l’encodage ordinal fonctionne bien avec les variables ordinales.**

#### 3) Encodage one-hot
L’encodage one-hot crée de nouvelles colonnes indiquant la présence (ou l’absence) de chaque valeur possible dans les données d’origine.

*Exemple* :

Dans le jeu de données d’origine, "Couleur" est une variable catégorielle avec trois catégories : "Rouge", "Jaune" et "Vert". L’encodage one-hot correspondant contient une colonne pour chaque valeur possible et une ligne pour chaque ligne du jeu de données d’origine. Chaque fois que la valeur d’origine était "Rouge", nous mettons un 1 dans la colonne "Rouge" ; si la valeur d’origine était "Jaune", nous mettons un 1 dans la colonne "Jaune", et ainsi de suite.

En contraste avec l’encodage ordinal, l’encodage one-hot ne suppose pas d’ordre dans les catégories. Ainsi, vous pouvez vous attendre à ce que cette approche fonctionne particulièrement bien s’il n’y a pas d’ordre clair dans les données catégorielles (par exemple, "Rouge" n’est ni plus ni moins que "Jaune"). 

**Nous appelons les variables catégorielles sans classement intrinsèque des variables nominales.**

L’encodage one-hot ne fonctionne généralement pas bien si la variable catégorielle prend un grand nombre de valeurs (c’est-à-dire que vous ne l’utiliserez généralement pas pour des variables prenant plus de 15 valeurs différentes).



## Exemple
Comme dans le tutoriel précédent, nous allons travailler avec le jeu de données sur **les logements de Melbourne**.

Nous ne nous concentrerons pas sur l’étape de chargement des données. Au lieu de cela, vous pouvez imaginer que vous êtes à un point où vous avez déjà les données d’entraînement et de validation dans X_train, X_valid, y_train, et y_valid.

Nous examinons rapidement les données d’entraînement avec la méthode head() ci-dessous.

In [99]:
import pandas as pd

# Charger les données
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# Identifier les variables catégorielles
categorical_cols = melbourne_data.select_dtypes(include=['object']).columns

# Variables catégorielles à conserver
keep_cols = ['Type', 'Method', 'Regionname']

# Supprimer les autres variables catégorielles
melbourne_data = melbourne_data.drop(columns=[col for col in categorical_cols if col not in keep_cols])

# Vérifier les colonnes restantes
print("Colonnes restantes :")
print(melbourne_data.columns)

Colonnes restantes :
Index(['Rooms', 'Type', 'Price', 'Method', 'Distance', 'Postcode', 'Bedroom2',
       'Bathroom', 'Car', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')


In [101]:
# Supprimer les lignes avec une cible manquante, séparer la cible des prédicteurs
melbourne_data.dropna(axis=0, subset=['Price'], inplace=True)
y = melbourne_data.Price
X = melbourne_data.drop(['Price'], axis=1)  # Retirez inplace=True

# Diviser en données d'entraînement et de validation
from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)


In [102]:
X_train.head()

Unnamed: 0,Rooms,Type,Method,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Regionname,Propertycount
12167,1,u,S,5.0,3182.0,1.0,1.0,1.0,0.0,,1940.0,-37.85984,144.9867,Southern Metropolitan,13240.0
6524,2,h,SA,8.0,3016.0,2.0,2.0,1.0,193.0,,,-37.858,144.9005,Western Metropolitan,6380.0
8413,3,h,S,12.6,3020.0,3.0,1.0,1.0,555.0,,,-37.7988,144.822,Western Metropolitan,3755.0
2919,3,u,SP,13.0,3046.0,3.0,1.0,1.0,265.0,,1995.0,-37.7083,144.9158,Northern Metropolitan,8870.0
6043,3,h,S,13.3,3020.0,3.0,1.0,2.0,673.0,673.0,1970.0,-37.7623,144.8272,Western Metropolitan,4217.0


Nous obtenons ensuite une liste de toutes les variables catégorielles dans les données d’entraînement en vérifiant le type de données (dtype) de chaque colonne. Le type object indique qu’une colonne contient du texte (il pourrait théoriquement y avoir d’autres choses, mais ce n’est pas important pour nos besoins). 

Pour ce jeu de données, **les colonnes contenant du texte indiquent des variables catégorielles.**

In [106]:
# Obtenir la liste des variables catégorielles  
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)

print("Variables catégorielles :")
print(object_cols)

Variables catégorielles :
['Type', 'Method', 'Regionname']


## Approche n°1 : Supprimer les variables catégorielles
En tant que première approche, utilisons uniquement les colonnes numériques du jeu de données. Cela implique d’éliminer les variables catégorielles, ainsi que toutes les colonnes non numériques.

In [110]:
# Supprimer les colonnes catégorielles  
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

Ensuite, nous **évaluons le modèle**. La fonction ci-dessous est un raccourci pour évaluer la performance d’un modèle. Si vous n’êtes pas sûr de son fonctionnement, passez simplement au code qui suit ; il n’est pas essentiel de comprendre chaque détail pour suivre le tutoriel.

In [113]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

In [115]:
# Évaluer le modèle  
print("MAE lorsque les colonnes catégorielles sont supprimées :")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

MAE lorsque les colonnes catégorielles sont supprimées :
169107.7515611193


## Approche n°2 : Encodage ordinal
Nous appliquons l’encodage ordinal, en utilisant la classe ***OrdinalEncoder*** de scikit-learn.

In [118]:
from sklearn.preprocessing import OrdinalEncoder

# Appliquer l’encodage ordinal aux colonnes catégorielles  
ordinal_encoder = OrdinalEncoder()
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

label_X_train[object_cols] = ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] = ordinal_encoder.transform(X_valid[object_cols])

# Évaluer le modèle  
print("MAE avec l’encodage ordinal :")
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))


MAE avec l’encodage ordinal :
162121.2173048601


Avec l’encodage ordinal, l’erreur absolue moyenne (MAE) est plus basse que lorsque les colonnes catégorielles sont supprimées, ce qui indique que cette approche utilise mieux les données.

## Approche n°3 : Encodage one-hot
Enfin, essayons l’encodage one-hot, en utilisant la classe ***OneHotEncoder*** de scikit-learn avec l’option ***handle_unknown='ignore'*** pour éviter les erreurs lorsque les données de validation contiennent des catégories qui ne figurent pas dans les données d’entraînement.

En raison de la grande taille des jeux de données après encodage one-hot, nous utilisons ***sparse=False*** pour convertir les résultats en un tableau NumPy denses (cela facilite l’utilisation avec scikit-learn).

In [122]:
# Encodage One-Hot
onehot_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

OH_cols_train = pd.DataFrame(onehot_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(onehot_encoder.transform(X_valid[object_cols]))

# Aligner les indices
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Supprimer les colonnes catégorielles originales
X_train = X_train.drop(object_cols, axis=1)
X_valid = X_valid.drop(object_cols, axis=1)

# Ajouter les colonnes encodées
X_train = pd.concat([X_train, OH_cols_train], axis=1)
X_valid = pd.concat([X_valid, OH_cols_valid], axis=1)

# Convertir les noms de colonnes en chaînes de caractères
X_train.columns = X_train.columns.astype(str)
X_valid.columns = X_valid.columns.astype(str)

# Fonction pour évaluer le modèle
def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

# Évaluer le modèle
print("MAE avec l’encodage one-hot :")
print(score_dataset(X_train, X_valid, y_train, y_valid))


MAE avec l’encodage one-hot :
160683.8470632583


## Conclusion
Dans ce cas, l’encodage ordinal et l’encodage one-hot ont produit des résultats similaires. Mais quelle approche est la meilleure ? Cela dépend du problème :

L’encodage ordinal fonctionne bien si les variables catégorielles ont un ordre clair.
L’encodage one-hot est plus approprié si aucune relation d’ordre n’existe entre les catégories.

Dans cet exemple, les catégories de la **colonne Regionname sont nominales** (sans ordre clair). Ainsi, l’encodage one-hot pourrait être un meilleur choix, bien que la performance ne soit pas significativement meilleure ici.

En général, l’encodage one-hot est plus sûr, car il fait moins d’hypothèses sur les données, mais il peut aussi augmenter considérablement la taille du jeu de données.

# Problèmes eventuels




Le message montre que les colonnes `Condition2` dans les données d'entraînement (`X_train`) et de validation (`X_valid`) ont des valeurs uniques différentes. Cela peut poser un problème pour les modèles d'apprentissage automatique, surtout si certaines valeurs apparaissent dans l'ensemble de validation mais pas dans l'ensemble d'entraînement (ou vice versa).

### **Problème principal :**
- Les valeurs uniques dans `Condition2` incluent des catégories différentes entre les deux ensembles de données. Par exemple :
  - Dans `X_train`, la catégorie `'PosA'` est présente mais absente dans `X_valid`.
  - Dans `X_valid`, les catégories `'RRAn'` et `'RRNn'` sont présentes mais absentes dans `X_train`.

Cela rend difficile l'utilisation d'un encodage catégoriel direct sans traitement spécial.

---

### **Prochaines étapes suggérées :**

#### 1. **Ignorer les colonnes problématiques :**
Si la colonne `Condition2` n'est pas critique pour votre modèle, vous pouvez simplement la supprimer des deux ensembles.

```python
X_train = X_train.drop(['Condition2'], axis=1)
X_valid = X_valid.drop(['Condition2'], axis=1)
```

---

#### 2. **Utiliser l'encodage catégoriel avec `handle_unknown='ignore'` :**
Si vous souhaitez conserver la colonne `Condition2`, vous pouvez appliquer un encodage catégoriel tel que l'encodage ordinal ou l'encodage one-hot avec une gestion explicite des catégories inconnues dans l'ensemble de validation.

**Exemple avec `OneHotEncoder` :**
```python
from sklearn.preprocessing import OneHotEncoder

# Instancier l'encodage one-hot avec gestion des valeurs inconnues
onehot_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

# Appliquer l'encodage à la colonne 'Condition2'
OH_cols_train = pd.DataFrame(onehot_encoder.fit_transform(X_train[['Condition2']]))
OH_cols_valid = pd.DataFrame(onehot_encoder.transform(X_valid[['Condition2']]))

# Ajouter les colonnes encodées à X_train et X_valid après avoir supprimé 'Condition2'
X_train = X_train.drop(['Condition2'], axis=1).reset_index(drop=True)
X_valid = X_valid.drop(['Condition2'], axis=1).reset_index(drop=True)

X_train = pd.concat([X_train, OH_cols_train], axis=1)
X_valid = pd.concat([X_valid, OH_cols_valid], axis=1)
```

---

#### 3. **Remplacer les valeurs inconnues par une catégorie "Autre" :**
Vous pouvez également créer une nouvelle catégorie "Other" pour gérer les valeurs absentes de manière explicite.

```python
X_train['Condition2'] = X_train['Condition2'].replace({'RRAn': 'Other', 'RRNn': 'Other'})
X_valid['Condition2'] = X_valid['Condition2'].replace({'PosA': 'Other'})
```

---

Ces approches dépendent de l'importance de la colonne `Condition2` dans votre modèle. Si elle est très utile, l'encodage est préférable ; sinon, vous pouvez la supprimer.

Bien sûr ! Voici la traduction en français :

---

### **Explication :**
Lorsque vous utilisez un encodeur ordinal, toutes les catégories présentes dans les données de validation doivent également être présentes dans les données d'entraînement. Sinon, l'encodeur génère une erreur, car il ne peut pas attribuer de valeur entière à des catégories inconnues.

Voici un résumé des résultats et des étapes suivantes :

---

### **Catégories identifiées :**
- **Colonnes pouvant être encodées ordinalement :**  
  Ces colonnes ne contiennent que des valeurs qui existent à la fois dans les données d'entraînement et dans les données de validation. Vous pouvez les encoder en toute sécurité avec un `OrdinalEncoder`.

  **Exemples :** `'MSZoning', 'Street', 'LotShape', 'Neighborhood', etc.`

- **Colonnes problématiques :**  
  Ces colonnes contiennent des catégories dans les données de validation qui n'existent pas dans les données d'entraînement. Elles doivent être soit supprimées, soit traitées différemment.

  **Exemples :** `'RoofMatl', 'Condition2', 'Functional'`

---

### **Approche suggérée :**
#### 1. **Encodage ordinal des colonnes sûres (`good_label_cols`)**  
Vous pouvez appliquer un `OrdinalEncoder` uniquement sur les colonnes listées dans `good_label_cols`.

#### 2. **Suppression des colonnes problématiques (`bad_label_cols`)**  
Les colonnes identifiées dans `bad_label_cols` doivent être retirées avant l'entraînement du modèle.

---

```python
# Categorical columns in the training data
object_cols = [col for col in X_train.columns if X_train[col].dtype == "object"]

# Columns that can be safely ordinal encoded
good_label_cols = [col for col in object_cols if 
                   set(X_valid[col]).issubset(set(X_train[col]))]
        
# Problematic columns that will be dropped from the dataset
bad_label_cols = list(set(object_cols)-set(good_label_cols))
        
print('Categorical columns that will be ordinal encoded:', good_label_cols)
print('\nCategorical columns that will be dropped from the dataset:', bad_label_cols)
```
---


### **Code pour implémenter ces étapes :**

```python
from sklearn.preprocessing import OrdinalEncoder

# Supprimer les colonnes problématiques
X_train.drop(bad_label_cols, axis=1, inplace=True)
X_valid.drop(bad_label_cols, axis=1, inplace=True)

# Appliquer l'encodage ordinal sur les colonnes sûres
ordinal_encoder = OrdinalEncoder()

# Encoder les colonnes catégorielles
X_train[good_label_cols] = ordinal_encoder.fit_transform(X_train[good_label_cols])
X_valid[good_label_cols] = ordinal_encoder.transform(X_valid[good_label_cols])

# Vérification des résultats
print(X_train.head())
print(X_valid.head())
```

---

### **Pourquoi cette approche fonctionne :**
1. En supprimant les colonnes problématiques, vous éliminez les erreurs liées aux catégories inconnues dans les données de validation.
2. En encodant uniquement les colonnes sûres, vous assurez que toutes les catégories sont correctement traitées dans les deux ensembles.

---

Cela garantit que vos données sont prêtes pour l'entraînement d'un modèle sans erreurs liées aux variables catégorielles.

### Explication et Correction : 

L’objectif ici est de préparer les données pour l’entraînement en appliquant un encodage ordinal sur les colonnes catégorielles sûres (`good_label_cols`) et en supprimant les colonnes problématiques (`bad_label_cols`). Cela permet de convertir les données catégorielles en valeurs numériques tout en évitant les erreurs liées aux catégories inconnues.

---

### **Étapes à suivre** :

1. **Supprimer les colonnes problématiques (`bad_label_cols`)** :  
   Ces colonnes contiennent des catégories dans les données de validation qui n’existent pas dans les données d’entraînement, donc elles sont supprimées des deux ensembles (`X_train` et `X_valid`).

2. **Encoder ordinalement les colonnes catégorielles sûres (`good_label_cols`)** :  
   Cela convertit les valeurs catégorielles en valeurs numériques de manière ordonnée.

3. **Créer de nouveaux DataFrames (`label_X_train` et `label_X_valid`)** :  
   Ces DataFrames contiendront les colonnes restantes après suppression et encodage.

---

### **Code corrigé** :

```python
from sklearn.preprocessing import OrdinalEncoder

# Supprimer les colonnes catégorielles problématiques
label_X_train = X_train.drop(bad_label_cols, axis=1)
label_X_valid = X_valid.drop(bad_label_cols, axis=1)

# Appliquer l'encodage ordinal aux colonnes catégorielles sûres
ordinal_encoder = OrdinalEncoder()
label_X_train[good_label_cols] = ordinal_encoder.fit_transform(label_X_train[good_label_cols])
label_X_valid[good_label_cols] = ordinal_encoder.transform(label_X_valid[good_label_cols])

# Vérification des résultats
print(label_X_train.head())
print(label_X_valid.head())
```

---

### **Pourquoi ce code fonctionne** :
1. **Suppression des colonnes problématiques** :  
   - Les colonnes listées dans `bad_label_cols` sont éliminées, évitant ainsi les erreurs dues à des catégories inconnues.

2. **Encodage ordinal** :  
   - La méthode `fit_transform` est appliquée aux données d'entraînement pour ajuster l'encodeur aux catégories présentes.
   - La méthode `transform` est appliquée aux données de validation pour s’assurer que les mêmes règles d’encodage sont suivies.

3. **Intégrité des données** :  
   - Les colonnes catégorielles sûres (`good_label_cols`) sont encodées de manière cohérente pour les deux ensembles, tout en maintenant la structure globale des données.

---

### **Résultat attendu** :
- Le modèle peut maintenant utiliser les DataFrames `label_X_train` et `label_X_valid`, qui sont entièrement numériques et exempts d’erreurs liées aux catégories inconnues. 

Vous pouvez passer à l’étape suivante en toute confiance ! 😊

### Explication :

Le but de ce code est de préparer une analyse des colonnes catégorielles en étudiant le nombre d'entrées uniques dans chacune d'elles. Cela aide à identifier les colonnes qui pourraient poser des problèmes lors de l'encodage, par exemple :

1. **Colonnes avec un petit nombre de catégories uniques** :  
   Ces colonnes sont généralement bien adaptées à des techniques comme l'encodage ordinal ou one-hot.

2. **Colonnes avec un grand nombre de catégories uniques** :  
   Ces colonnes peuvent poser problème avec un encodage one-hot, car cela pourrait générer un très grand nombre de nouvelles colonnes.

---

### **Étapes du code** :

1. **Nombre d'entrées uniques par colonne** :
   ```python
   object_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))
   ```
   - La fonction `nunique()` calcule le nombre d'entrées uniques dans chaque colonne catégorielle.
   - `map()` applique cette fonction à toutes les colonnes catégorielles de `object_cols`.

2. **Associer les colonnes à leur nombre d'entrées uniques** :
   ```python
   d = dict(zip(object_cols, object_nunique))
   ```
   - Le dictionnaire `d` relie chaque colonne catégorielle (`object_cols`) à son nombre correspondant d'entrées uniques (`object_nunique`).

3. **Trier les colonnes par nombre d'entrées uniques** :
   ```python
   sorted(d.items(), key=lambda x: x[1])
   ```
   - Les colonnes sont triées par leur nombre d'entrées uniques dans l'ordre croissant. Cela permet d'identifier facilement les colonnes avec peu ou beaucoup de catégories.

---

### **Résultat attendu** :

La sortie du code sera une liste triée de tuples, où :
- Chaque tuple contient une colonne catégorielle et son nombre d'entrées uniques.
- Les colonnes sont listées par ordre croissant du nombre d'entrées uniques.

Par exemple :
```python
[('Street', 2), ('CentralAir', 2), ..., ('Neighborhood', 25), ('Exterior1st', 28)]
```

---

### **Utilité de cette analyse** :
- Vous pouvez déterminer quelles colonnes sont idéales pour un encodage ordinal ou one-hot.
- Vous identifierez les colonnes à ignorer ou à traiter différemment si elles ont un très grand nombre de catégories uniques.