## **Tratamiento de Variables Categ√≥ricas**

Una variable categ√≥tica es aquella que representa grupos o categor√≠as de un dataset en lugar de valores num√©ricos continuos, por ejemplo:

  - Color de ojos (azul, verde, caf√©) - (nominal, no tiene orden)
  - Nivel de ingl√©s (bajo, medio, alto) - (ordinal, cumple con una jerarqu√≠a)

Cuando trabajas con modelos de regresi√≥n (y muchos otros modelos de machine learning), las variables categ√≥ricas requieren un tratamiento especial antes de poder incluirlas. La mayor√≠a de los algoritmos esperan entradas num√©ricas. Estas son las t√©cnicas de codificaci√≥n m√°s comunes:

### **1. Codificaci√≥n "One-Hot" (One-Hot Encoding)**

#### üìå **¬øC√≥mo funciona?**
Crea nuevas columnas binarias (0 o 1) para cada categor√≠a √∫nica presente en la variable categ√≥rica original. Cada nueva columna representa una **categor√≠a espec√≠fica**. Si una observaci√≥n pertenece a esa categor√≠a, la columna correspondiente tendr√° un valor de 1; de lo contrario (y en todas las dem√°s columnas nuevas generadas para esa variable original), tendr√° un valor de 0.

üí° **Ejemplo**: Si tienes una variable "Color" con categor√≠as "Rojo", "Azul" y "Verde":

* Se crear√≠an tres nuevas columnas: Color_Rojo, Color_Azul, Color_Verde.

  * Una observaci√≥n con Color **Rojo** tendr√≠a:
    - Color_Rojo = 1,
    - Color_Azul = 0,
    - Color_Verde = 0.

  * Una observaci√≥n con Color **Azul** tendr√≠a:
   - Color_Rojo = 0,
   - Color_Azul = 1,
   - Color_Verde = 0.

#### üìå **Ventajas:**

- Evita asumir un orden inexistente entre las categor√≠as (a diferencia de asignar 1, 2, 3...).

- Es compatible con la mayor√≠a de los modelos de regresi√≥n (y otros algoritmos).

- F√°cil de implementar e interpretar.

#### üìå **Consideraciones:**

- ‚ö†Ô∏è **Aumenta la dimensionalidad**: El n√∫mero de columnas aumenta significativamente si la variable categ√≥rica tiene muchas categor√≠as (alta cardinalidad), lo que puede llevar a la **"maldici√≥n de la dimensionalidad"** y requerir m√°s datos/potencia computacional.

- ‚ö†Ô∏è **Multicolinealidad perfecta:** Las columnas creadas son perfectamente multicolineales (una columna puede predecirse perfectamente a partir de las otras, por ejemplo, si Color_Rojo=0 y Color_Azul=0, sabes que Color_Verde debe ser 1). Para evitar problemas en algunos modelos (como regresi√≥n lineal), a menudo se elimina una de las columnas.

üí° Ejemplo en C√≥digo:

In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Datos de ejemplo
data = {'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul'],
        'Valor': [10, 15, 12, 10, 15]}
df = pd.DataFrame(data)

print("DataFrame Original:")
df

DataFrame Original:


Unnamed: 0,Color,Valor
0,Rojo,10
1,Azul,15
2,Verde,12
3,Rojo,10
4,Azul,15


In [2]:
# Inicializar el OneHotEncoder
#sparse_output=False Indica que la salida debe ser un array denso (NumPy array est√°ndar) en lugar de una matriz dispersa (sparse matrix).
# Si la cardinalidad es alta se recomienda usar una matriz dispersa (sparse matrix) porque solo guardar√° valores no nulos, y consume menos memoria
encoder = OneHotEncoder(sparse_output=False, dtype=int)

# Aplicar One-Hot Encoding solo a la columna 'Color'
encoded = encoder.fit_transform(df[['Color']])

# Obtener los nombres de las nuevas columnas
column_names = encoder.get_feature_names_out(['Color'])

# Crear un DataFrame con los valores codificados
df_encoded = pd.DataFrame(encoded, columns=column_names)

# Concatenar el DataFrame original sin la columna 'Color' con el codificado
df_final = pd.concat([df.drop(columns=['Color']), df_encoded], axis=1)

print("\nDataFrame con One-Hot Encoding:")
df_final


DataFrame con One-Hot Encoding:


Unnamed: 0,Valor,Color_Azul,Color_Rojo,Color_Verde
0,10,0,1,0
1,15,1,0,0
2,12,0,0,1
3,10,0,1,0
4,15,1,0,0


In [3]:
# one-hot solo con pandas

import pandas as pd

# Datos de ejemplo
data = {'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul'],
        'Valor': [10, 15, 12, 10, 15]}
df = pd.DataFrame(data)
print("DataFrame Original:")
print(df)

# Aplicar One-Hot Encoding (.get_dummies)

df_one_hot = pd.get_dummies(df, columns=['Color'], prefix='Color')
df_one_hot = df_one_hot.astype(int)

print("\nDataFrame con One-Hot Encoding:")
df_one_hot

DataFrame Original:
   Color  Valor
0   Rojo     10
1   Azul     15
2  Verde     12
3   Rojo     10
4   Azul     15

DataFrame con One-Hot Encoding:


Unnamed: 0,Valor,Color_Azul,Color_Rojo,Color_Verde
0,10,0,1,0
1,15,1,0,0
2,12,0,0,1
3,10,0,1,0
4,15,1,0,0


###**2. Codificaci√≥n "Dummy" (Dummy Encoding)**

#### üìå **¬øC√≥mo funciona?**
Es una variante de la codificaci√≥n One-Hot. Crea k-1 columnas binarias, donde k es el n√∫mero de categor√≠as √∫nicas. Una categor√≠a se omite y se considera la categor√≠a de referencia o base.

üí° **Ejemplo:**
Para la variable "Color" ("Rojo", "Azul", "Verde"), se podr√≠an crear solo dos columnas, por ejemplo, Color_Azul y Color_Verde.

- Color Rojo (categor√≠a de referencia):
  - Color_Azul = 0,
  - Color_Verde = 0.

- Color Azul:
  - Color_Azul = 1,
  - Color_Verde = 0.

- Color Verde:
  - Color_Azul = 0,
  - Color_Verde = 1.

#### üìå **Ventajas:**

- Evita la multicolinealidad perfecta introducida por One-Hot Encoding.

- Reduce ligeramente la dimensionalidad comparado con One-Hot (una columna menos).

- Facilita la interpretaci√≥n de los coeficientes en modelos lineales: los coeficientes de las variables dummy representan la diferencia en la variable dependiente entre esa categor√≠a y la categor√≠a de referencia, manteniendo todo lo dem√°s constante.

#### üìå **Consideraciones:**

- ‚ö†Ô∏è La interpretaci√≥n de los coeficientes depende de qu√© categor√≠a se elija como referencia (la que se omite).

üí° Ejemplo en C√≥digo:

In [4]:
import pandas as pd

# Mismos datos de ejemplo
data = {'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul'],
        'Valor': [10, 15, 12, 10, 15]}
df = pd.DataFrame(data)
print("DataFrame Original:")
print(df)

# Aplicar Dummy Encoding (k-1 columnas)
# drop_first=True elimina la primera categor√≠a ('Azul' en orden alfab√©tico)
df_dummy = pd.get_dummies(df, columns=['Color'], prefix='Color', drop_first=True, )
df_dummy = df_dummy.astype(int)
print("\nDataFrame con Dummy Encoding:")
df_dummy
# Nota: 'Rojo' se convierte en la categor√≠a de referencia (Color_Verde=0)
# Si quisieras 'Rojo' como referencia expl√≠citamente, podr√≠as reordenar categor√≠as
# o usar otras librer√≠as que permitan especificar la categor√≠a a eliminar.

DataFrame Original:
   Color  Valor
0   Rojo     10
1   Azul     15
2  Verde     12
3   Rojo     10
4   Azul     15

DataFrame con Dummy Encoding:


Unnamed: 0,Valor,Color_Rojo,Color_Verde
0,10,1,0
1,15,0,0
2,12,0,1
3,10,1,0
4,15,0,0


### **3.Codificaci√≥n Ordinal (Ordinal Encoding)**

#### üìå  **¬øCu√°ndo se usa?**
Solo cuando las categor√≠as tienen un orden intr√≠nseco y significativo (por ejemplo, "Bajo", "Medio", "Alto"; "Peque√±o", "Mediano", "Grande", etc...).

#### üìå  **¬øC√≥mo funciona?**
Asigna un valor num√©rico entero a cada categor√≠a seg√∫n su orden predefinido. Por ejemplo:
- "Bajo" -> 1,
- "Medio" -> 2,
- "Alto" -> 3.

#### üìå **Ventajas:**

- Simple y no aumenta la dimensionalidad.

- Preserva (o introduce) la informaci√≥n ordinal.

#### üìå **Consideraciones:**

- ‚ö†Ô∏è Solo apropiada para variables verdaderamente **ordinales**. Usarla en variables nominales (sin orden, como "Color") introduce relaciones de orden falsas que confundir√°n al modelo.

- ‚ö†Ô∏è **Asume distancias iguales:** El modelo interpretar√° la diferencia entre 1 y 2 como igual a la diferencia entre 2 y 3. Esto puede no ser cierto en la realidad (la diferencia de impacto entre "Bajo" y "Medio" podr√≠a no ser la misma que entre "Medio" y "Alto").

üí° Ejemplo en C√≥digo (usando scikit-learn):

In [5]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

# Datos de ejemplo con orden
data = {'Talla': ['Peque√±o', 'Mediano', 'Grande', 'Mediano', 'Peque√±o'],
        'Valor': [5, 10, 15, 10, 5]}
df = pd.DataFrame(data)
print("DataFrame Original:")
print(df)

# Definir el orden correcto de las categor√≠as
talla_orden = ['Peque√±o', 'Mediano', 'Grande']

# Inicializar y ajustar el codificador
ordinal_encoder = OrdinalEncoder(categories=[talla_orden])
# Usamos fit_transform en la columna (requiere formato 2D)
df['Talla_Ordinal'] = ordinal_encoder.fit_transform(df[['Talla']])

print("\nDataFrame con Ordinal Encoding:")
df

DataFrame Original:
     Talla  Valor
0  Peque√±o      5
1  Mediano     10
2   Grande     15
3  Mediano     10
4  Peque√±o      5

DataFrame con Ordinal Encoding:


Unnamed: 0,Talla,Valor,Talla_Ordinal
0,Peque√±o,5,0.0
1,Mediano,10,1.0
2,Grande,15,2.0
3,Mediano,10,1.0
4,Peque√±o,5,0.0


### **4.Target Encoding ( Mean Encoding)**

#### üìå **¬øC√≥mo funciona?**
Reemplaza cada categor√≠a con un **valor num√©rico** derivado de la variable dependiente (objetivo). Lo m√°s com√∫n es usar la media de la variable dependiente para las observaciones que pertenecen a esa categor√≠a. Por ejemplo, si la variable objetivo es "Precio", la categor√≠a "Rojo" se reemplazar√≠a por el precio promedio de todos los art√≠culos rojos en el conjunto de entrenamiento.

#### üìå **Ventajas:**

- Puede capturar informaci√≥n predictiva directamente relacionada con el objetivo.

- No aumenta significativamente la dimensionalidad (solo crea una columna).

- Muy √∫til en variables de alta cardinalidad donde One-Hot explotar√≠a.

#### üìå **Consideraciones:**

- ‚ö†Ô∏è **Alto riesgo de sobreajuste (Overfitting):** Si se calcula directamente sobre todo el conjunto de entrenamiento, la codificaci√≥n "ve" la variable objetivo, creando una fuga de datos (data leakage). El modelo puede aprender perfectamente la relaci√≥n en los datos de entrenamiento pero fallar en datos nuevos.

- ‚ö†Ô∏è **Necesidad de regularizaci√≥n/validaci√≥n:** Es crucial implementar t√©cnicas para mitigar el sobreajuste, como:

  - Calcular las medias usando solo los datos de entrenamiento (y aplicarlas al de test).

  - Usar validaci√≥n cruzada interna (calcular las medias en k-1 folds y aplicarlas al fold restante).

  - Aplicar suavizado (smoothing) o ponderaci√≥n, especialmente para categor√≠as con pocas muestras.

üí° Ejemplo en C√≥digo:

In [None]:
import pandas as pd

# Datos de ejemplo (con variable objetivo 'Precio')
data = {'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul', 'Verde', 'Rojo'],
        'Precio': [100, 150, 120, 110, 140, 130, 90]}
df = pd.DataFrame(data)
print("DataFrame Original:")
print(df)

# Calcular la media del 'Precio' para cada 'Color'
# ¬°¬°ADVERTENCIA: Hacer esto directamente en todo el dataset causa data leakage!! (El data leakage ocurre cuando informaci√≥n del conjunto de prueba se filtra durante el entrenamiento del modelo.)
# En una aplicaci√≥n real, calcular esto SOLO en datos de entrenamiento
# o usar t√©cnicas de validaci√≥n cruzada.
color_mean_map = df.groupby('Color')['Precio'].mean()
print("\nMedia de Precio por Color:")
print(color_mean_map)

# Mapear la media a la columna original
df['Color_TargetEncoded'] = df['Color'].map(color_mean_map)

print("\nDataFrame con Target Encoding (conceptual):")
df

# Para una implementaci√≥n m√°s robusta, considera la librer√≠a category_encoders:
# from category_encoders import TargetEncoder
# encoder = TargetEncoder(cols=['Color'])
# df_target_encoded = encoder.fit_transform(df['Color'], df['Precio'])

DataFrame Original:
   Color  Precio
0   Rojo     100
1   Azul     150
2  Verde     120
3   Rojo     110
4   Azul     140
5  Verde     130
6   Rojo      90

Media de Precio por Color:
Color
Azul     145.0
Rojo     100.0
Verde    125.0
Name: Precio, dtype: float64

DataFrame con Target Encoding (conceptual):


Unnamed: 0,Color,Precio,Color_TargetEncoded
0,Rojo,100,100.0
1,Azul,150,145.0
2,Verde,120,125.0
3,Rojo,110,100.0
4,Azul,140,145.0
5,Verde,130,125.0
6,Rojo,90,100.0


### **5. label Encoding**

#### üìå **¬øC√≥mo funciona?**  
Label Encoding convierte cada categor√≠a de una variable en un n√∫mero entero √∫nico. Se asignan valores arbitrarios sin considerar ning√∫n orden espec√≠fico.  

Por ejemplo, si tenemos una variable "Color" con los valores ("Rojo", "Azul", "Verde"), podr√≠amos asignar:  
- Azul ‚Üí 0  
- Rojo ‚Üí 1  
- Verde ‚Üí 2  

#### üìå **Ventajas:**  
- Es f√°cil de implementar y no aumenta la cantidad de columnas.  
- √ötil en modelos que aceptan datos categ√≥ricos codificados num√©ricamente.  
- Modelos como Decision Trees y Random Forest pueden manejar bien esta codificaci√≥n.  

#### üìå **Consideraciones:**  
- ‚ö†Ô∏è **Relaciones num√©ricas err√≥neas:** Modelos lineales podr√≠an interpretar que "Verde" (2) es mayor que "Rojo" (1), lo cual no tiene sentido en categor√≠as sin orden.  
- ‚ö†Ô∏è **No adecuado para variables con muchas categor√≠as:** Puede generar problemas en modelos como regresi√≥n lineal o k-means clustering.

In [8]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Datos de ejemplo
data = {'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul'],
        'Valor': [10, 15, 12, 10, 15]}
df = pd.DataFrame(data)
print("DataFrame Original:")
print(df)

# Aplicar Label Encoding
label_encoder = LabelEncoder()
df['Color_label'] = label_encoder.fit_transform(df['Color'])

print("\nDataFrame con Label Encoding:")
print(df)

# Mostrar c√≥mo se asignaron los valores
print("\nAsignaci√≥n de valores en Label Encoding:")
for clase, valor in zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)):
    print(f"{clase}: {valor}")

DataFrame Original:
   Color  Valor
0   Rojo     10
1   Azul     15
2  Verde     12
3   Rojo     10
4   Azul     15

DataFrame con Label Encoding:
   Color  Valor  Color_label
0   Rojo     10            1
1   Azul     15            0
2  Verde     12            2
3   Rojo     10            1
4   Azul     15            0

Asignaci√≥n de valores en Label Encoding:
Azul: 0
Rojo: 1
Verde: 2


### **6. Codificaci√≥n Binaria (Binary Encoding):**

#### üìå **¬øC√≥mo funciona?**  
Convierte cada categor√≠a en un n√∫mero entero y luego codifica ese entero en binario. Cada bit de la representaci√≥n binaria se convierte en una nueva columna.

Se suele usar cuando existen variables categ√≥ricas con alta cardinalidad. Puede ser una alternativa a one-hot que introduce menos dimensionalidad.

#### üìå **Ventajas:**  

- Reduce la dimensionalidad en comparaci√≥n con one-hot.

#### üìå **Consideraciones:**  
- ‚ö†Ô∏è La interpretaci√≥n de las columnas individuales es menos directa.

In [7]:
%%capture
!pip install category_encoders

In [9]:
import pandas as pd
import category_encoders as ce

# Datos de ejemplo
data = {'Color': ['Rojo', 'Azul', 'Verde', 'Amarillo', 'Azul', 'Rojo', 'Morado', '√Åmbar', 'Topacio', 'Lila', 'Rosa', 'Salm√≥n']}
df = pd.DataFrame(data)
print(df)

# Inicializar el codificador binario
encoder = ce.BinaryEncoder(cols=['Color'])

# Aplicar la codificaci√≥n binaria
df_encoded = encoder.fit_transform(df)

# Mostrar resultado
print("DataFrame con Binary Encoding:")
df_encoded

       Color
0       Rojo
1       Azul
2      Verde
3   Amarillo
4       Azul
5       Rojo
6     Morado
7      √Åmbar
8    Topacio
9       Lila
10      Rosa
11    Salm√≥n
DataFrame con Binary Encoding:


Unnamed: 0,Color_0,Color_1,Color_2,Color_3
0,0,0,0,1
1,0,0,1,0
2,0,0,1,1
3,0,1,0,0
4,0,0,1,0
5,0,0,0,1
6,0,1,0,1
7,0,1,1,0
8,0,1,1,1
9,1,0,0,0


### **Consideraciones Generales Adicionales**

#### üìå **Elecci√≥n del M√©todo**
La mejor t√©cnica de codificaci√≥n depende de varios factores:

- **Tipo de variable**: Si es **nominal** (sin orden) u **ordinal** (con orden).
- **Cardinalidad**: El n√∫mero de categor√≠as distintas.
- **Modelo utilizado**: Algunos modelos, como los **√°rboles de decisi√≥n**, manejan categor√≠as de forma diferente y son menos sensibles a la multicolinealidad.
- **Caracter√≠sticas del dataset**: La distribuci√≥n de las categor√≠as y su relaci√≥n con la variable objetivo.

#### üìå **Evaluaci√≥n**
Siempre es recomendable probar diferentes m√©todos de codificaci√≥n y medir su impacto en el rendimiento del modelo. Para esto, puedes usar:

- **M√©tricas apropiadas** en un conjunto de validaci√≥n.
- **Validaci√≥n cruzada** para evaluar la robustez del m√©todo.

#### üìå **Consistencia entre Train y Test**
Es fundamental aplicar la **misma codificaci√≥n** a los datos de entrenamiento y a los de prueba/nuevos datos de predicci√≥n. Esto significa:

1. **Ajustar (`fit`)** el codificador solo con los datos de entrenamiento.
2. **Usar ese codificador ya ajustado** para transformar (`transform`) los datos de entrenamiento y prueba.
3. **Mantener las mismas columnas** en ambos conjuntos.

#### üìå **Manejo de Categor√≠as Nuevas**
Cuando en los datos de prueba aparece una categor√≠a que **no estaba en el entrenamiento**, se deben tomar medidas para evitar errores.

‚úÖ **Soluciones seg√∫n el m√©todo de codificaci√≥n:**

- **`pandas.get_dummies`**  
  - Si aplicas `pd.get_dummies(df_test, ...)` separadamente, no crear√° una columna para la nueva categor√≠a.  
  - Para asegurar consistencia, puedes:  
    - **Unir `train` y `test` antes de codificar**, luego separarlos.  
    - **Usar `reindex` despu√©s de `get_dummies` en el conjunto de prueba**, asegurando que tenga las mismas columnas que `train`, llenando valores faltantes con `0`.  

- **`scikit-learn` Encoders**  
  - Tienen par√°metros como `handle_unknown`:  
    - **`handle_unknown='ignore'`**: Ignora categor√≠as nuevas (las filas tendr√°n ceros en columnas dummy).  
    - **`handle_unknown='error'`**: Lanza un error si hay categor√≠as desconocidas.  

- **`OrdinalEncoder`**  
  - Puede asignar un valor especial (`-1` o `np.nan`) para categor√≠as nuevas. Luego, es necesario manejar estos valores (por ejemplo, con imputaci√≥n).  

- **`TargetEncoder`**  
  - Puede asignar un valor por defecto, como la **media global de la variable objetivo**.  

In [None]:
# Art√≠culo que pueden consultar: https://datos.ninja/tutorial/como-codificar-variables-categoricas/