# Variables Categóricas. 

<div style="background-color:#F3E5F5; padding:12px; border-radius:4px;">

Hay una gran cantidad de datos no numéricos ahí fuera.  
Aquí te mostramos cómo utilizarlos para el **machine learning**.

</div>


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>

### *Introducción*

<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

Una **categorical variable** solo puede tomar un número limitado de valores.

Considera una encuesta que pregunta con qué frecuencia desayunas y ofrece cuatro opciones:  
“Never”, “Rarely”, “Most days” o “Every day”.  
En este caso, los datos son **categorical**, porque las respuestas pertenecen a un conjunto fijo de categorías.

Si las personas respondieran a una encuesta sobre qué marca de coche poseen, las respuestas entrarían en categorías como “Honda”, “Toyota” y “Ford”. En este caso, los datos también son **categorical**.

Obtendrás un error si intentas introducir estas variables directamente en la mayoría de modelos de **machine learning** en Python sin hacer **preprocessing** previamente.  
En este tutorial, compararemos tres enfoques que puedes usar para preparar tus datos **categorical**.

</div>


### *Tres Aproximaciones:*

<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

### 1) Drop Categorical Variables

El enfoque más sencillo para tratar con **categorical variables** es simplemente eliminarlas del **dataset**.  
Este enfoque solo funcionará bien si las columnas no contenían información útil.

</div>


<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

### 2) Ordinal Encoding

El **ordinal encoding** asigna a cada valor único un entero diferente.

Este enfoque asume un **ordering** de las categorías:  
“Never” (0) < “Rarely” (1) < “Most days” (2) < “Every day” (3).

Esta suposición tiene sentido en este ejemplo, porque existe un **ranking** indiscutible entre las categorías.  
No todas las **categorical variables** tienen un orden claro en sus valores, pero a las que sí lo tienen las llamamos **ordinal variables**.

Para **tree-based models** (como **decision trees** y **random forests**), puedes esperar que el **ordinal encoding** funcione bien con **ordinal variables**.

</div>


<img src="assets/3.png" alt="imagen" style="max-width:50%;">

<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

### 3) One-Hot Encoding

El **one-hot encoding** crea nuevas columnas que indican la presencia (o ausencia) de cada valor posible en los datos originales. Para entenderlo mejor, veamos un ejemplo.

En el **dataset** original, “Color” es una **categorical variable** con tres categorías: “Red”, “Yellow” y “Green”.  
El **one-hot encoding** correspondiente contiene una columna por cada valor posible y una fila por cada fila del **dataset** original.

Cuando el valor original es “Red”, se coloca un 1 en la columna “Red”; si el valor es “Yellow”, se coloca un 1 en la columna “Yellow”, y así sucesivamente.

A diferencia del **ordinal encoding**, el **one-hot encoding** no asume ningún **ordering** entre las categorías.  
Por ello, este enfoque funciona especialmente bien cuando no existe un orden claro en los datos **categorical** (por ejemplo, “Red” no es ni mayor ni menor que “Yellow”).

A las **categorical variables** que no tienen un **ranking** intrínseco se las denomina **nominal variables**.

En general, el **one-hot encoding** no funciona bien cuando una **categorical variable** tiene un gran número de valores (normalmente no se utiliza para variables con más de 15 valores distintos).

</div>


<img src="assets/4.png" alt="imagen" style="max-width:50%;">

<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>

### *Ejemplo Práctico:*

<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">



Al igual que en el tutorial anterior, trabajaremos con el **Melbourne Housing dataset**.

No nos centraremos en el paso de **data loading**. En su lugar, puedes imaginar que ya te encuentras en un punto donde dispones de los datos de **training** y **validation** en `X_train`, `X_valid`, `y_train` y `y_valid`.

</div>


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split

#Leyendo Data
ruta="data/melb_data.csv"
data=pd.read_csv(ruta)

#Separando target
y=data.Price
X=data.drop(["Price"],axis=1)

#Dividiendo Data en datos de entrenamiento y datos de validación
X_train_full, X_valid_full, y_train, y_valid = train_test_split(X,y,train_size=0.8,test_size=0.2,random_state=0)

#Dropeando columnas con NaN(modo simple)
cols_with_missing=[col for col in X_train_full.columns if X_train_full[col].isnull().any()]
X_train_full.drop(cols_with_missing, axis=1, inplace=True)
X_valid_full.drop(cols_with_missing, axis=1, inplace=True)

#"Cardinality" significa el número de valores únicos en una columna.
#Selecciona columnas categorical con una cardinality relativamente baja (conveniente pero arbitrario)

low_cardinality_cols = [cname for cname in X_train_full.columns if X_train_full[cname].nunique() < 10 and X_train_full[cname].dtype == "object"]

#Seleccionando columnas numéricas
numerical_cols=[cname for cname in X_train_full.columns if X_train_full[cname].dtype in ["int64","float64"]]

#Mantenemos solo las columnas seleccionadas anteriormente
my_cols=low_cardinality_cols + numerical_cols
X_train=X_train_full[my_cols].copy()
X_valid=X_valid_full[my_cols].copy()

<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

Le echamos un vistazo a los datos de **training** usando el método `head()` que se muestra a continuación.

</div>


In [7]:
X_train.head()

Unnamed: 0,Type,Method,Regionname,Rooms,Distance,Postcode,Bedroom2,Bathroom,Landsize,Lattitude,Longtitude,Propertycount
12167,u,S,Southern Metropolitan,1,5.0,3182.0,1.0,1.0,0.0,-37.85984,144.9867,13240.0
6524,h,SA,Western Metropolitan,2,8.0,3016.0,2.0,2.0,193.0,-37.858,144.9005,6380.0
8413,h,S,Western Metropolitan,3,12.6,3020.0,3.0,1.0,555.0,-37.7988,144.822,3755.0
2919,u,SP,Northern Metropolitan,3,13.0,3046.0,3.0,1.0,265.0,-37.7083,144.9158,8870.0
6043,h,S,Western Metropolitan,3,13.3,3020.0,3.0,1.0,673.0,-37.7623,144.8272,4217.0


<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

A continuación, obtenemos una lista de todas las **categorical variables** en los datos de **training**.

Esto lo hacemos comprobando el **data type** (o **dtype**) de cada columna.  
El **object dtype** indica que una columna contiene texto (aunque, en teoría, podría representar otras cosas, pero eso no es importante para nuestro caso).

En este **dataset**, las columnas con texto indican **categorical variables**.

</div>


In [11]:
#Obtenemos una lista con las variables categóricas
s=(X_train.dtypes == "object")
object_cols=list(s[s==True].index)

print("Categorical variables:")
print(" ")
print(object_cols)


Categorical variables:
 
['Type', 'Method', 'Regionname']


<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

### Define Function to Measure Quality of Each Approach

Definimos una función `score_dataset()` para comparar los tres enfoques diferentes para tratar las **categorical variables**.  
Esta función devuelve el **mean absolute error (MAE)** de un modelo **random forest**.

En general, queremos que el **MAE** sea lo más bajo posible.

</div>


In [12]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

#Función para comparar las diferentes aproximaciones antes descritas
def score_dataset(X_train, X_valid, y_train, y_valid):
    model=RandomForestRegressor(n_estimators=100,random_state=0)
    model.fit(X_train,y_train)
    preds=model.predict(X_valid)
    return mean_absolute_error(y_valid,preds)

<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>

<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

### Score from Approach 1 (Drop Categorical Variables)

Eliminamos las columnas de tipo **object** usando el método `select_dtypes()`.

</div>


In [13]:
drop_X_train=X_train.select_dtypes(exclude=["object"])
drop_X_valid=X_valid.select_dtypes(exclude=["object"])

print("MAE de aproximación 1 (eliminando variables categoricas:")
print(" ")
print(score_dataset(drop_X_train,drop_X_valid,y_train,y_valid))

MAE de aproximación 1 (eliminando variables categoricas:
 
175703.48185157913


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>

<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

### Score from Approach 2 (Ordinal Encoding)

Scikit-learn dispone de la clase `OrdinalEncoder`, que puede utilizarse para obtener **ordinal encodings**.  
Recorremos las **categorical variables** y aplicamos el **ordinal encoder** de forma separada a cada columna.

</div>


In [14]:
from sklearn.preprocessing import OrdinalEncoder

#Copia de Datos Originales ANTES de encoding o realizar cambios:
label_X_train=X_train.copy()
label_X_valid=X_valid.copy()

#Aplicamos el Ordinal Encoder para cada columna con datos categ´oricos:
ordinal_encoder=OrdinalEncoder()
label_X_train[object_cols]=ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols]=ordinal_encoder.transform(X_valid[object_cols])

print("MAE from Approach 2 (Ordinal Encoding):") 
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))


MAE from Approach 2 (Ordinal Encoding):
165936.40548390493


<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

En la celda de código anterior, para cada columna, asignamos de forma aleatoria cada valor único a un entero diferente.  
Este es un enfoque común que resulta más sencillo que proporcionar **custom labels**.

Sin embargo, podemos esperar una mejora adicional en el rendimiento si proporcionamos etiquetas mejor informadas para todas las **ordinal variables**.

</div>


In [15]:
label_X_train.head(1)

Unnamed: 0,Type,Method,Regionname,Rooms,Distance,Postcode,Bedroom2,Bathroom,Landsize,Lattitude,Longtitude,Propertycount
12167,2.0,1.0,5.0,1,5.0,3182.0,1.0,1.0,0.0,-37.85984,144.9867,13240.0


In [16]:
X_train.head(1)

Unnamed: 0,Type,Method,Regionname,Rooms,Distance,Postcode,Bedroom2,Bathroom,Landsize,Lattitude,Longtitude,Propertycount
12167,u,S,Southern Metropolitan,1,5.0,3182.0,1.0,1.0,0.0,-37.85984,144.9867,13240.0


<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

Podemos observar las diferencias del Data original, (abajo), al Encoder (arriba)

</div>


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>

<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

### Score from Approach 3 (One-Hot Encoding)

Usamos la clase `OneHotEncoder` de **scikit-learn** para obtener **one-hot encodings**.  
Existen varios parámetros que pueden utilizarse para personalizar su comportamiento.

Configuramos `handle_unknown='ignore'` para evitar errores cuando los datos de **validation** contienen clases que no están representadas en los datos de **training**, y  
establecer `sparse=False` garantiza que las columnas codificadas se devuelvan como un **numpy array** (en lugar de una **sparse matrix**).

Para utilizar el encoder, proporcionamos únicamente las columnas **categorical** que queremos codificar con **one-hot encoding**.  
Por ejemplo, para codificar los datos de **training**, usamos `X_train[object_cols]`.

(`object_cols` en la celda de código inferior es una lista con los nombres de las columnas que contienen datos **categorical**, por lo que `X_train[object_cols]` incluye todos los datos categóricos del conjunto de entrenamiento).

</div>


In [22]:
from sklearn.preprocessing import OneHotEncoder

#Aplicando one-hote-encoder a las columnas con datos categóricos
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[object_cols]))

#Eliminando indice One Hot. Ponemos el de antes
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

#Eliminando columnas categóricas y las reemplazamos por las one-hot
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

#Añadimos las columnas one-hot  a las features numéricas
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

#Nos aseguramos que todas las columnas tienen type String
OH_X_train.columns = OH_X_train.columns.astype(str)
OH_X_valid.columns = OH_X_valid.columns.astype(str)

print("MAE from Approach 3 (One-Hot Encoding):") 
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))



MAE from Approach 3 (One-Hot Encoding):
166089.4893009678


<div style="background-color:#E8F5E9; padding:12px; border-radius:4px;">

### Which approach is best?

En este caso, eliminar las columnas **categorical** (**Approach 1**) fue la opción con peor rendimiento, ya que obtuvo el **MAE** más alto.  
En cuanto a los otros dos enfoques, dado que los valores de **MAE** obtenidos son muy similares, no parece haber un beneficio significativo de uno frente al otro.

En general, el **one-hot encoding** (**Approach 3**) suele ofrecer el mejor rendimiento, mientras que eliminar las columnas **categorical** (**Approach 1**) suele ser la peor opción, aunque esto puede variar según el caso.

</div>


<div style="background-color:#F3E5F5; padding:12px; border-radius:4px;">

### Conclusion

El mundo está lleno de datos **categorical**.  


De los 3 enfoques ( eliminar, ordinal encoding y One - Hot, los resultados del MAE son:

- 175703.48185157913

- 165936.40548390493

- 166089.4893009678

</div>
