# Variables cat√©gorielles
Il existe de nombreuses donn√©es non num√©riques. Voici comment les utiliser pour l‚Äôapprentissage automatique.

## Introduction
Une variable cat√©gorielle ne prend qu‚Äôun nombre limit√© de valeurs.

Prenons l‚Äôexemple d‚Äôun sondage qui demande √† quelle fr√©quence vous prenez un petit-d√©jeuner et qui propose quatre options‚ÄØ: "Jamais", "Rarement", "La plupart des jours" ou "Tous les jours". Dans ce cas, les donn√©es sont cat√©gorielles, car les r√©ponses appartiennent √† un ensemble fixe de cat√©gories.

Si les gens r√©pondaient √† un sondage sur la marque de voiture qu‚Äôils poss√®dent, les r√©ponses tomberaient dans des cat√©gories comme "Honda", "Toyota" et "Ford". Dans ce cas, les donn√©es sont √©galement cat√©gorielles.

Vous obtiendrez une erreur si vous essayez d‚Äôins√©rer ces variables dans la plupart des mod√®les d‚Äôapprentissage automatique en Python sans les pr√©traiter au pr√©alable. 

Dans ce tutoriel, nous allons comparer trois approches que vous pouvez utiliser pour pr√©parer vos donn√©es cat√©gorielles.

## Trois approches
#### 1) Supprimer les variables cat√©gorielles
L‚Äôapproche la plus simple pour traiter les variables cat√©gorielles est de simplement les supprimer du jeu de donn√©es. Cette approche ne fonctionnera bien que si les colonnes ne contiennent pas d‚Äôinformations utiles.

#### 2) Encodage ordinal
L‚Äôencodage ordinal attribue √† chaque valeur unique un entier diff√©rent.

Exemple‚ÄØ:

    Jamais	Rarement	La plupart des jours	Tous les jours
    0	       1	               2	              3

Cette approche suppose un ordre des cat√©gories‚ÄØ: "Jamais" (0) < "Rarement" (1) < "La plupart des jours" (2) < "Tous les jours" (3).

Cette hypoth√®se est logique dans cet exemple, car il existe un classement indiscutable des cat√©gories. Toutes les variables cat√©gorielles n‚Äôont pas un ordre clair dans leurs valeurs, mais nous appelons celles qui en ont des ***variables ordinales***. 

**Pour les mod√®les bas√©s sur les arbres (comme les arbres de d√©cision et les for√™ts al√©atoires), vous pouvez vous attendre √† ce que l‚Äôencodage ordinal fonctionne bien avec les variables ordinales.**

#### 3) Encodage one-hot
L‚Äôencodage one-hot cr√©e de nouvelles colonnes indiquant la pr√©sence (ou l‚Äôabsence) de chaque valeur possible dans les donn√©es d‚Äôorigine.

*Exemple*‚ÄØ:

Dans le jeu de donn√©es d‚Äôorigine, "Couleur" est une variable cat√©gorielle avec trois cat√©gories‚ÄØ: "Rouge", "Jaune" et "Vert". L‚Äôencodage one-hot correspondant contient une colonne pour chaque valeur possible et une ligne pour chaque ligne du jeu de donn√©es d‚Äôorigine. Chaque fois que la valeur d‚Äôorigine √©tait "Rouge", nous mettons un 1 dans la colonne "Rouge"‚ÄØ; si la valeur d‚Äôorigine √©tait "Jaune", nous mettons un 1 dans la colonne "Jaune", et ainsi de suite.

En contraste avec l‚Äôencodage ordinal, l‚Äôencodage one-hot ne suppose pas d‚Äôordre dans les cat√©gories. Ainsi, vous pouvez vous attendre √† ce que cette approche fonctionne particuli√®rement bien s‚Äôil n‚Äôy a pas d‚Äôordre clair dans les donn√©es cat√©gorielles (par exemple, "Rouge" n‚Äôest ni plus ni moins que "Jaune"). 

**Nous appelons les variables cat√©gorielles sans classement intrins√®que des variables nominales.**

L‚Äôencodage one-hot ne fonctionne g√©n√©ralement pas bien si la variable cat√©gorielle prend un grand nombre de valeurs (c‚Äôest-√†-dire que vous ne l‚Äôutiliserez g√©n√©ralement pas pour des variables prenant plus de 15 valeurs diff√©rentes).



## Exemple
Comme dans le tutoriel pr√©c√©dent, nous allons travailler avec le jeu de donn√©es sur **les logements de Melbourne**.

Nous ne nous concentrerons pas sur l‚Äô√©tape de chargement des donn√©es. Au lieu de cela, vous pouvez imaginer que vous √™tes √† un point o√π vous avez d√©j√† les donn√©es d‚Äôentra√Ænement et de validation dans X_train, X_valid, y_train, et y_valid.

Nous examinons rapidement les donn√©es d‚Äôentra√Ænement avec la m√©thode head() ci-dessous.

In [99]:
import pandas as pd

# Charger les donn√©es
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# Identifier les variables cat√©gorielles
categorical_cols = melbourne_data.select_dtypes(include=['object']).columns

# Variables cat√©gorielles √† conserver
keep_cols = ['Type', 'Method', 'Regionname']

# Supprimer les autres variables cat√©gorielles
melbourne_data = melbourne_data.drop(columns=[col for col in categorical_cols if col not in keep_cols])

# V√©rifier les colonnes restantes
print("Colonnes restantes‚ÄØ:")
print(melbourne_data.columns)

Colonnes restantes‚ÄØ:
Index(['Rooms', 'Type', 'Price', 'Method', 'Distance', 'Postcode', 'Bedroom2',
       'Bathroom', 'Car', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')


In [101]:
# Supprimer les lignes avec une cible manquante, s√©parer la cible des pr√©dicteurs
melbourne_data.dropna(axis=0, subset=['Price'], inplace=True)
y = melbourne_data.Price
X = melbourne_data.drop(['Price'], axis=1)  # Retirez inplace=True

# Diviser en donn√©es d'entra√Ænement et de validation
from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)


In [102]:
X_train.head()

Unnamed: 0,Rooms,Type,Method,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Regionname,Propertycount
12167,1,u,S,5.0,3182.0,1.0,1.0,1.0,0.0,,1940.0,-37.85984,144.9867,Southern Metropolitan,13240.0
6524,2,h,SA,8.0,3016.0,2.0,2.0,1.0,193.0,,,-37.858,144.9005,Western Metropolitan,6380.0
8413,3,h,S,12.6,3020.0,3.0,1.0,1.0,555.0,,,-37.7988,144.822,Western Metropolitan,3755.0
2919,3,u,SP,13.0,3046.0,3.0,1.0,1.0,265.0,,1995.0,-37.7083,144.9158,Northern Metropolitan,8870.0
6043,3,h,S,13.3,3020.0,3.0,1.0,2.0,673.0,673.0,1970.0,-37.7623,144.8272,Western Metropolitan,4217.0


Nous obtenons ensuite une liste de toutes les variables cat√©gorielles dans les donn√©es d‚Äôentra√Ænement en v√©rifiant le type de donn√©es (dtype) de chaque colonne. Le type object indique qu‚Äôune colonne contient du texte (il pourrait th√©oriquement y avoir d‚Äôautres choses, mais ce n‚Äôest pas important pour nos besoins). 

Pour ce jeu de donn√©es, **les colonnes contenant du texte indiquent des variables cat√©gorielles.**

In [106]:
# Obtenir la liste des variables cat√©gorielles  
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)

print("Variables cat√©gorielles‚ÄØ:")
print(object_cols)

Variables cat√©gorielles‚ÄØ:
['Type', 'Method', 'Regionname']


## Approche n¬∞1‚ÄØ: Supprimer les variables cat√©gorielles
En tant que premi√®re approche, utilisons uniquement les colonnes num√©riques du jeu de donn√©es. Cela implique d‚Äô√©liminer les variables cat√©gorielles, ainsi que toutes les colonnes non num√©riques.

In [110]:
# Supprimer les colonnes cat√©gorielles  
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

Ensuite, nous **√©valuons le mod√®le**. La fonction ci-dessous est un raccourci pour √©valuer la performance d‚Äôun mod√®le. Si vous n‚Äô√™tes pas s√ªr de son fonctionnement, passez simplement au code qui suit‚ÄØ; il n‚Äôest pas essentiel de comprendre chaque d√©tail pour suivre le tutoriel.

In [113]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

In [115]:
# √âvaluer le mod√®le  
print("MAE lorsque les colonnes cat√©gorielles sont supprim√©es‚ÄØ:")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

MAE lorsque les colonnes cat√©gorielles sont supprim√©es‚ÄØ:
169107.7515611193


## Approche n¬∞2‚ÄØ: Encodage ordinal
Nous appliquons l‚Äôencodage ordinal, en utilisant la classe ***OrdinalEncoder*** de scikit-learn.

In [118]:
from sklearn.preprocessing import OrdinalEncoder

# Appliquer l‚Äôencodage ordinal aux colonnes cat√©gorielles  
ordinal_encoder = OrdinalEncoder()
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

label_X_train[object_cols] = ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] = ordinal_encoder.transform(X_valid[object_cols])

# √âvaluer le mod√®le  
print("MAE avec l‚Äôencodage ordinal‚ÄØ:")
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))


MAE avec l‚Äôencodage ordinal‚ÄØ:
162121.2173048601


Avec l‚Äôencodage ordinal, l‚Äôerreur absolue moyenne (MAE) est plus basse que lorsque les colonnes cat√©gorielles sont supprim√©es, ce qui indique que cette approche utilise mieux les donn√©es.

## Approche n¬∞3‚ÄØ: Encodage one-hot
Enfin, essayons l‚Äôencodage one-hot, en utilisant la classe ***OneHotEncoder*** de scikit-learn avec l‚Äôoption ***handle_unknown='ignore'*** pour √©viter les erreurs lorsque les donn√©es de validation contiennent des cat√©gories qui ne figurent pas dans les donn√©es d‚Äôentra√Ænement.

En raison de la grande taille des jeux de donn√©es apr√®s encodage one-hot, nous utilisons ***sparse=False*** pour convertir les r√©sultats en un tableau NumPy denses (cela facilite l‚Äôutilisation avec scikit-learn).

In [122]:
# Encodage One-Hot
onehot_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

OH_cols_train = pd.DataFrame(onehot_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(onehot_encoder.transform(X_valid[object_cols]))

# Aligner les indices
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Supprimer les colonnes cat√©gorielles originales
X_train = X_train.drop(object_cols, axis=1)
X_valid = X_valid.drop(object_cols, axis=1)

# Ajouter les colonnes encod√©es
X_train = pd.concat([X_train, OH_cols_train], axis=1)
X_valid = pd.concat([X_valid, OH_cols_valid], axis=1)

# Convertir les noms de colonnes en cha√Ænes de caract√®res
X_train.columns = X_train.columns.astype(str)
X_valid.columns = X_valid.columns.astype(str)

# Fonction pour √©valuer le mod√®le
def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

# √âvaluer le mod√®le
print("MAE avec l‚Äôencodage one-hot‚ÄØ:")
print(score_dataset(X_train, X_valid, y_train, y_valid))


MAE avec l‚Äôencodage one-hot‚ÄØ:
160683.8470632583


## Conclusion
Dans ce cas, l‚Äôencodage ordinal et l‚Äôencodage one-hot ont produit des r√©sultats similaires. Mais quelle approche est la meilleure‚ÄØ? Cela d√©pend du probl√®me‚ÄØ:

L‚Äôencodage ordinal fonctionne bien si les variables cat√©gorielles ont un ordre clair.
L‚Äôencodage one-hot est plus appropri√© si aucune relation d‚Äôordre n‚Äôexiste entre les cat√©gories.

Dans cet exemple, les cat√©gories de la **colonne Regionname sont nominales** (sans ordre clair). Ainsi, l‚Äôencodage one-hot pourrait √™tre un meilleur choix, bien que la performance ne soit pas significativement meilleure ici.

En g√©n√©ral, l‚Äôencodage one-hot est plus s√ªr, car il fait moins d‚Äôhypoth√®ses sur les donn√©es, mais il peut aussi augmenter consid√©rablement la taille du jeu de donn√©es.

# Probl√®mes eventuels




Le message montre que les colonnes `Condition2` dans les donn√©es d'entra√Ænement (`X_train`) et de validation (`X_valid`) ont des valeurs uniques diff√©rentes. Cela peut poser un probl√®me pour les mod√®les d'apprentissage automatique, surtout si certaines valeurs apparaissent dans l'ensemble de validation mais pas dans l'ensemble d'entra√Ænement (ou vice versa).

### **Probl√®me principal :**
- Les valeurs uniques dans `Condition2` incluent des cat√©gories diff√©rentes entre les deux ensembles de donn√©es. Par exemple :
  - Dans `X_train`, la cat√©gorie `'PosA'` est pr√©sente mais absente dans `X_valid`.
  - Dans `X_valid`, les cat√©gories `'RRAn'` et `'RRNn'` sont pr√©sentes mais absentes dans `X_train`.

Cela rend difficile l'utilisation d'un encodage cat√©goriel direct sans traitement sp√©cial.

---

### **Prochaines √©tapes sugg√©r√©es :**

#### 1. **Ignorer les colonnes probl√©matiques :**
Si la colonne `Condition2` n'est pas critique pour votre mod√®le, vous pouvez simplement la supprimer des deux ensembles.

```python
X_train = X_train.drop(['Condition2'], axis=1)
X_valid = X_valid.drop(['Condition2'], axis=1)
```

---

#### 2. **Utiliser l'encodage cat√©goriel avec `handle_unknown='ignore'` :**
Si vous souhaitez conserver la colonne `Condition2`, vous pouvez appliquer un encodage cat√©goriel tel que l'encodage ordinal ou l'encodage one-hot avec une gestion explicite des cat√©gories inconnues dans l'ensemble de validation.

**Exemple avec `OneHotEncoder` :**
```python
from sklearn.preprocessing import OneHotEncoder

# Instancier l'encodage one-hot avec gestion des valeurs inconnues
onehot_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

# Appliquer l'encodage √† la colonne 'Condition2'
OH_cols_train = pd.DataFrame(onehot_encoder.fit_transform(X_train[['Condition2']]))
OH_cols_valid = pd.DataFrame(onehot_encoder.transform(X_valid[['Condition2']]))

# Ajouter les colonnes encod√©es √† X_train et X_valid apr√®s avoir supprim√© 'Condition2'
X_train = X_train.drop(['Condition2'], axis=1).reset_index(drop=True)
X_valid = X_valid.drop(['Condition2'], axis=1).reset_index(drop=True)

X_train = pd.concat([X_train, OH_cols_train], axis=1)
X_valid = pd.concat([X_valid, OH_cols_valid], axis=1)
```

---

#### 3. **Remplacer les valeurs inconnues par une cat√©gorie "Autre" :**
Vous pouvez √©galement cr√©er une nouvelle cat√©gorie "Other" pour g√©rer les valeurs absentes de mani√®re explicite.

```python
X_train['Condition2'] = X_train['Condition2'].replace({'RRAn': 'Other', 'RRNn': 'Other'})
X_valid['Condition2'] = X_valid['Condition2'].replace({'PosA': 'Other'})
```

---

Ces approches d√©pendent de l'importance de la colonne `Condition2` dans votre mod√®le. Si elle est tr√®s utile, l'encodage est pr√©f√©rable‚ÄØ; sinon, vous pouvez la supprimer.

Bien s√ªr‚ÄØ! Voici la traduction en fran√ßais‚ÄØ:

---

### **Explication :**
Lorsque vous utilisez un encodeur ordinal, toutes les cat√©gories pr√©sentes dans les donn√©es de validation doivent √©galement √™tre pr√©sentes dans les donn√©es d'entra√Ænement. Sinon, l'encodeur g√©n√®re une erreur, car il ne peut pas attribuer de valeur enti√®re √† des cat√©gories inconnues.

Voici un r√©sum√© des r√©sultats et des √©tapes suivantes‚ÄØ:

---

### **Cat√©gories identifi√©es‚ÄØ:**
- **Colonnes pouvant √™tre encod√©es ordinalement :**  
  Ces colonnes ne contiennent que des valeurs qui existent √† la fois dans les donn√©es d'entra√Ænement et dans les donn√©es de validation. Vous pouvez les encoder en toute s√©curit√© avec un `OrdinalEncoder`.

  **Exemples :** `'MSZoning', 'Street', 'LotShape', 'Neighborhood', etc.`

- **Colonnes probl√©matiques :**  
  Ces colonnes contiennent des cat√©gories dans les donn√©es de validation qui n'existent pas dans les donn√©es d'entra√Ænement. Elles doivent √™tre soit supprim√©es, soit trait√©es diff√©remment.

  **Exemples :** `'RoofMatl', 'Condition2', 'Functional'`

---

### **Approche sugg√©r√©e :**
#### 1. **Encodage ordinal des colonnes s√ªres (`good_label_cols`)**  
Vous pouvez appliquer un `OrdinalEncoder` uniquement sur les colonnes list√©es dans `good_label_cols`.

#### 2. **Suppression des colonnes probl√©matiques (`bad_label_cols`)**  
Les colonnes identifi√©es dans `bad_label_cols` doivent √™tre retir√©es avant l'entra√Ænement du mod√®le.

---

```python
# Categorical columns in the training data
object_cols = [col for col in X_train.columns if X_train[col].dtype == "object"]

# Columns that can be safely ordinal encoded
good_label_cols = [col for col in object_cols if 
                   set(X_valid[col]).issubset(set(X_train[col]))]
        
# Problematic columns that will be dropped from the dataset
bad_label_cols = list(set(object_cols)-set(good_label_cols))
        
print('Categorical columns that will be ordinal encoded:', good_label_cols)
print('\nCategorical columns that will be dropped from the dataset:', bad_label_cols)
```
---


### **Code pour impl√©menter ces √©tapes‚ÄØ:**

```python
from sklearn.preprocessing import OrdinalEncoder

# Supprimer les colonnes probl√©matiques
X_train.drop(bad_label_cols, axis=1, inplace=True)
X_valid.drop(bad_label_cols, axis=1, inplace=True)

# Appliquer l'encodage ordinal sur les colonnes s√ªres
ordinal_encoder = OrdinalEncoder()

# Encoder les colonnes cat√©gorielles
X_train[good_label_cols] = ordinal_encoder.fit_transform(X_train[good_label_cols])
X_valid[good_label_cols] = ordinal_encoder.transform(X_valid[good_label_cols])

# V√©rification des r√©sultats
print(X_train.head())
print(X_valid.head())
```

---

### **Pourquoi cette approche fonctionne‚ÄØ:**
1. En supprimant les colonnes probl√©matiques, vous √©liminez les erreurs li√©es aux cat√©gories inconnues dans les donn√©es de validation.
2. En encodant uniquement les colonnes s√ªres, vous assurez que toutes les cat√©gories sont correctement trait√©es dans les deux ensembles.

---

Cela garantit que vos donn√©es sont pr√™tes pour l'entra√Ænement d'un mod√®le sans erreurs li√©es aux variables cat√©gorielles.

### Explication et Correction : 

L‚Äôobjectif ici est de pr√©parer les donn√©es pour l‚Äôentra√Ænement en appliquant un encodage ordinal sur les colonnes cat√©gorielles s√ªres (`good_label_cols`) et en supprimant les colonnes probl√©matiques (`bad_label_cols`). Cela permet de convertir les donn√©es cat√©gorielles en valeurs num√©riques tout en √©vitant les erreurs li√©es aux cat√©gories inconnues.

---

### **√âtapes √† suivre** :

1. **Supprimer les colonnes probl√©matiques (`bad_label_cols`)** :  
   Ces colonnes contiennent des cat√©gories dans les donn√©es de validation qui n‚Äôexistent pas dans les donn√©es d‚Äôentra√Ænement, donc elles sont supprim√©es des deux ensembles (`X_train` et `X_valid`).

2. **Encoder ordinalement les colonnes cat√©gorielles s√ªres (`good_label_cols`)** :  
   Cela convertit les valeurs cat√©gorielles en valeurs num√©riques de mani√®re ordonn√©e.

3. **Cr√©er de nouveaux DataFrames (`label_X_train` et `label_X_valid`)** :  
   Ces DataFrames contiendront les colonnes restantes apr√®s suppression et encodage.

---

### **Code corrig√©** :

```python
from sklearn.preprocessing import OrdinalEncoder

# Supprimer les colonnes cat√©gorielles probl√©matiques
label_X_train = X_train.drop(bad_label_cols, axis=1)
label_X_valid = X_valid.drop(bad_label_cols, axis=1)

# Appliquer l'encodage ordinal aux colonnes cat√©gorielles s√ªres
ordinal_encoder = OrdinalEncoder()
label_X_train[good_label_cols] = ordinal_encoder.fit_transform(label_X_train[good_label_cols])
label_X_valid[good_label_cols] = ordinal_encoder.transform(label_X_valid[good_label_cols])

# V√©rification des r√©sultats
print(label_X_train.head())
print(label_X_valid.head())
```

---

### **Pourquoi ce code fonctionne** :
1. **Suppression des colonnes probl√©matiques** :  
   - Les colonnes list√©es dans `bad_label_cols` sont √©limin√©es, √©vitant ainsi les erreurs dues √† des cat√©gories inconnues.

2. **Encodage ordinal** :  
   - La m√©thode `fit_transform` est appliqu√©e aux donn√©es d'entra√Ænement pour ajuster l'encodeur aux cat√©gories pr√©sentes.
   - La m√©thode `transform` est appliqu√©e aux donn√©es de validation pour s‚Äôassurer que les m√™mes r√®gles d‚Äôencodage sont suivies.

3. **Int√©grit√© des donn√©es** :  
   - Les colonnes cat√©gorielles s√ªres (`good_label_cols`) sont encod√©es de mani√®re coh√©rente pour les deux ensembles, tout en maintenant la structure globale des donn√©es.

---

### **R√©sultat attendu** :
- Le mod√®le peut maintenant utiliser les DataFrames `label_X_train` et `label_X_valid`, qui sont enti√®rement num√©riques et exempts d‚Äôerreurs li√©es aux cat√©gories inconnues. 

Vous pouvez passer √† l‚Äô√©tape suivante en toute confiance ! üòä

### Explication :

Le but de ce code est de pr√©parer une analyse des colonnes cat√©gorielles en √©tudiant le nombre d'entr√©es uniques dans chacune d'elles. Cela aide √† identifier les colonnes qui pourraient poser des probl√®mes lors de l'encodage, par exemple :

1. **Colonnes avec un petit nombre de cat√©gories uniques** :  
   Ces colonnes sont g√©n√©ralement bien adapt√©es √† des techniques comme l'encodage ordinal ou one-hot.

2. **Colonnes avec un grand nombre de cat√©gories uniques** :  
   Ces colonnes peuvent poser probl√®me avec un encodage one-hot, car cela pourrait g√©n√©rer un tr√®s grand nombre de nouvelles colonnes.

---

### **√âtapes du code** :

1. **Nombre d'entr√©es uniques par colonne** :
   ```python
   object_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))
   ```
   - La fonction `nunique()` calcule le nombre d'entr√©es uniques dans chaque colonne cat√©gorielle.
   - `map()` applique cette fonction √† toutes les colonnes cat√©gorielles de `object_cols`.

2. **Associer les colonnes √† leur nombre d'entr√©es uniques** :
   ```python
   d = dict(zip(object_cols, object_nunique))
   ```
   - Le dictionnaire `d` relie chaque colonne cat√©gorielle (`object_cols`) √† son nombre correspondant d'entr√©es uniques (`object_nunique`).

3. **Trier les colonnes par nombre d'entr√©es uniques** :
   ```python
   sorted(d.items(), key=lambda x: x[1])
   ```
   - Les colonnes sont tri√©es par leur nombre d'entr√©es uniques dans l'ordre croissant. Cela permet d'identifier facilement les colonnes avec peu ou beaucoup de cat√©gories.

---

### **R√©sultat attendu** :

La sortie du code sera une liste tri√©e de tuples, o√π :
- Chaque tuple contient une colonne cat√©gorielle et son nombre d'entr√©es uniques.
- Les colonnes sont list√©es par ordre croissant du nombre d'entr√©es uniques.

Par exemple :
```python
[('Street', 2), ('CentralAir', 2), ..., ('Neighborhood', 25), ('Exterior1st', 28)]
```

---

### **Utilit√© de cette analyse** :
- Vous pouvez d√©terminer quelles colonnes sont id√©ales pour un encodage ordinal ou one-hot.
- Vous identifierez les colonnes √† ignorer ou √† traiter diff√©remment si elles ont un tr√®s grand nombre de cat√©gories uniques.