<img src="Local\imgs\U1\banner_fcd.jpg" alt="banner" width="1100"  height="150">

# <span style="color:black;"><strong>Transformar Variables Categ√≥ricas</strong></span>  
---
<p align="right">
  <a href="https://colab.research.google.com/github/mariabda2/intro_data_2025/blob/main/FCD_U4_transformar_categoricas.ipynb?clone=true" target="_blank">
    <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab"/>
  </a>
</p>

## <span style="color:#2F749F;"><strong>üéØ Objetivos de aprendizaje</strong></span>

‚úÖ **Comprender** la importancia de la **transformaci√≥n de variables categ√≥ricas** en el preprocesamiento de datos, y su efecto sobre los modelos estad√≠sticos y de aprendizaje autom√°tico.  

‚úÖ **Distinguir** las principales **estrategias de codificaci√≥n** (ordinal, one-hot, binaria y basada en frecuencia) y sus aplicaciones seg√∫n la naturaleza de la variable y el modelo a emplear.  

‚úÖ **Aplicar adecuadamente** m√©todos de **codificaci√≥n de variables categ√≥ricas** utilizando librer√≠as de Python, garantizando la coherencia entre los conjuntos de entrenamiento y prueba.  

‚úÖ **Evaluar** el impacto de las **transformaciones categ√≥ricas** en el rendimiento de los modelos y la interpretabilidad de los resultados, justificando la elecci√≥n de cada t√©cnica en funci√≥n del contexto anal√≠tico.  


# <span style="color:#2F749F;"><strong>Introducci√≥n</strong></span>

La **transformaci√≥n de variables categ√≥ricas** constituye una etapa esencial del **preprocesamiento de datos**, orientada a convertir informaci√≥n **no num√©rica** en **representaciones num√©ricas** que los algoritmos estad√≠sticos o de aprendizaje autom√°tico puedan procesar. Este paso es crucial porque la mayor√≠a de los modelos computacionales requieren entradas num√©ricas para estimar relaciones y patrones de forma efectiva ([Han, Kamber, & Pei, 2022](https://doi.org/10.1016/C2020-0-01861-6); [G√©ron, 2023](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/)).

Las variables categ√≥ricas pueden representar **niveles, clases o etiquetas** (por ejemplo, *g√©nero*, *regi√≥n*, *tipo de producto*), y su tratamiento inadecuado puede generar **errores de interpretaci√≥n**, **sobreajuste** o p√©rdida de **informaci√≥n sem√°ntica**. Por ello, las t√©cnicas de **codificaci√≥n** buscan traducir estas categor√≠as en n√∫meros sin alterar la naturaleza de la informaci√≥n que representan.

Entre las estrategias m√°s utilizadas se encuentran la **codificaci√≥n ordinal** (para variables con jerarqu√≠a), la **codificaci√≥n one-hot** (para variables nominales), la **codificaci√≥n binaria**, y las **codificaciones basadas en frecuencia o probabilidad condicional**, seleccionadas seg√∫n el tipo de variable y el modelo anal√≠tico.

<div style="background-color:#e8f4fd; padding:15px; border-radius:8px; font-size:17px;"> 

<b>El objetivo de la transformaci√≥n de variables categ√≥ricas es optimizar la calidad anal√≠tica de los datos en t√©rminos de:</b>

- **Compatibilidad:** adaptar las categor√≠as a los requerimientos de los modelos num√©ricos.  
- **Interpretabilidad:** mantener la coherencia sem√°ntica entre las etiquetas originales y los valores transformados.  
- **Eficiencia:** reducir la dimensionalidad y el costo computacional de los modelos.  
- **Generalizaci√≥n:** evitar la sobre-representaci√≥n de categor√≠as raras o poco frecuentes.  
- **Consistencia:** asegurar que la misma codificaci√≥n se aplique en los conjuntos de entrenamiento y prueba.  

</div>

En s√≠ntesis, la **transformaci√≥n de variables categ√≥ricas** garantiza que la informaci√≥n cualitativa se incorpore de forma **coherente y eficiente** a los modelos predictivos, fortaleciendo la **validez estad√≠stica** y la **capacidad explicativa** de los an√°lisis.

# <span style="color:black;"><strong>1. One-Hot Encoding</strong></span> 

Convierte cada categor√≠a en una nueva columna binaria (0 o 1) que indica su presencia o ausencia.  Es apropiada para variables **nominales sin orden** (por ejemplo, *color: rojo, azul, verde*)  ([Pedregosa et al., 2011](https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html)).

<p align="center">
    <img src="Local\imgs\U4\one-hot.png" alt="one-hot" width="700"  height=300">
</p>

Imagen tomada de [datagy](https://datagy.io/sklearn-one-hot-encode/).

In [32]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Paso 1: Crear un DataFrame con variables categ√≥ricas y num√©ricas
df = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul', 'Verde', 'Rojo', 'Azul'],
    'Tama√±o': ['Grande', 'Peque√±o', 'Mediano', 'Grande', 'Mediano', 'Peque√±o', 'Grande', 'Mediano'],
    'Precio': [100, 150, np.nan, 130, np.nan, 160, 120, np.nan]
})

print("Datos originales con valores faltantes:")
print(df)

# Mostrar categor√≠as √∫nicas por variable categ√≥rica
print("\nCategor√≠as √∫nicas en cada variable categ√≥rica:")
for col in ['Color', 'Tama√±o']:
    print(f"- {col}: {df[col].unique().tolist()}")

# Imputar valores faltantes en 'Precio' con la media
df_imputado = df.copy()
df_imputado['Precio'] = df_imputado['Precio'].fillna(df_imputado['Precio'].mean())

Datos originales con valores faltantes:
   Color   Tama√±o  Precio
0   Rojo   Grande   100.0
1   Azul  Peque√±o   150.0
2  Verde  Mediano     NaN
3   Rojo   Grande   130.0
4   Azul  Mediano     NaN
5  Verde  Peque√±o   160.0
6   Rojo   Grande   120.0
7   Azul  Mediano     NaN

Categor√≠as √∫nicas en cada variable categ√≥rica:
- Color: ['Rojo', 'Azul', 'Verde']
- Tama√±o: ['Grande', 'Peque√±o', 'Mediano']


In [None]:
# Aplicar One-Hot Encoding antes de imputar
df_onehot_original = pd.get_dummies(df, columns=['Color', 'Tama√±o'])
print("\nOne-Hot Encoding aplicado a datos originales (con NaN en 'Precio'):")
print(df_onehot_original)


One-Hot Encoding aplicado a datos originales (con NaN en 'Precio'):
   Precio  Color_Azul  Color_Rojo  Color_Verde  Tama√±o_Grande  Tama√±o_Mediano  \
0   100.0       False        True        False           True           False   
1   150.0        True       False        False          False           False   
2     NaN       False       False         True          False            True   
3   130.0       False        True        False           True           False   
4     NaN        True       False        False          False            True   
5   160.0       False       False         True          False           False   
6   120.0       False        True        False           True           False   
7     NaN        True       False        False          False            True   

   Tama√±o_Peque√±o  
0           False  
1            True  
2           False  
3           False  
4           False  
5            True  
6           False  
7           False  


In [6]:
#  Aplicar OneHotEncoder de sklearn
encoder = OneHotEncoder(sparse_output=False)

# Codificar variables categ√≥ricas
categoricas = df_imputado[['Color', 'Tama√±o']]
onehot_array = encoder.fit_transform(categoricas)

# Crear DataFrame con nombres de columnas
onehot_columns = encoder.get_feature_names_out(['Color', 'Tama√±o'])
df_onehot = pd.DataFrame(onehot_array, columns=onehot_columns)

# Combinar con columna num√©rica imputada
df_final = pd.concat([df_imputado[['Precio']], df_onehot], axis=1)

print("\nDatos codificados con OneHotEncoder de sklearn:")
print(df_final)


Datos codificados con OneHotEncoder de sklearn:
   Precio  Color_Azul  Color_Rojo  Color_Verde  Tama√±o_Grande  Tama√±o_Mediano  \
0   100.0         0.0         1.0          0.0            1.0             0.0   
1   150.0         1.0         0.0          0.0            0.0             0.0   
2   132.0         0.0         0.0          1.0            0.0             1.0   
3   130.0         0.0         1.0          0.0            1.0             0.0   
4   132.0         1.0         0.0          0.0            0.0             1.0   
5   160.0         0.0         0.0          1.0            0.0             0.0   
6   120.0         0.0         1.0          0.0            1.0             0.0   
7   132.0         1.0         0.0          0.0            0.0             1.0   

   Tama√±o_Peque√±o  
0             0.0  
1             1.0  
2             0.0  
3             0.0  
4             0.0  
5             1.0  
6             0.0  
7             0.0  



<p align="center">
    <img src="Local\imgs\U4\get-dummies.png" alt="get-dummies" width="700"  height=300">
</p>

<p align="center">
    <img src="Local\imgs\U4\oneHotEncoder.png" alt="get-dummies" width="700"  height=300">
</p>

Imagen tomada de [albertum.medium](https://albertum.medium.com/preprocessing-onehotencoder-vs-pandas-get-dummies-3de1f3d77dcc).

<div style="background-color:#fff9c4; padding:15px; border-radius:8px; font-size:17px;"> 
<b>Comparaci√≥n:</b>

| Aspecto                         | `pd.get_dummies()`                                                                 | `OneHotEncoder` (scikit-learn)                                                   |
|----------------------------------|-------------------------------------------------------------------------------------|----------------------------------------------------------------------------------|
| **Uso principal**               | Transformaci√≥n r√°pida para an√°lisis exploratorio o modelos simples.                | Codificaci√≥n estructurada para pipelines de *machine learning*.                 |
| **Salida**                      | `DataFrame` de pandas con nombres de columnas legibles.                            | Matriz NumPy o `sparse matrix` (por defecto).                                   |
| **Ventajas**                    | - F√°cil de usar.<br>- Ideal para visualizaci√≥n.<br>- Codifica directamente en el DataFrame. | - Compatible con `ColumnTransformer` y pipelines.<br>- Maneja categor√≠as desconocidas con `handle_unknown='ignore'`.<br>- Permite definir orden y categor√≠as. |
| **Desventajas**                | - No maneja categor√≠as nuevas en producci√≥n.<br>- No se integra directamente en pipelines.<br>- Elimina la primera categor√≠a solo si se indica. | - Requiere conversi√≥n a `DataFrame` para visualizaci√≥n.<br>- No conserva columnas originales.<br>- Puede ser menos intuitivo para principiantes. |
| **Control de columnas eliminadas** | Usa `drop_first=True` para eliminar la primera categor√≠a (orden alfab√©tico).       | Usa `drop='first'` y puedes definir el orden con `categories=[...]`.            |
| **Recomendaci√≥n**              | Ideal para an√°lisis exploratorio y modelos simples con pandas.                     | Recomendado para producci√≥n y modelos complejos con scikit-learn.               |

</div>


# <span style="color:black;"><strong>2. Ordinal Encoding</strong></span>
 
Asigna un n√∫mero entero a cada categor√≠a respetando un **orden jer√°rquico o secuencial**, por ejemplo, *bajo < medio < alto*. Es adecuada para variables **ordinales** ([James, Witten, Hastie, & Tibshirani, 2021](https://doi.org/10.1007/978-1-0716-1418-1)).

<p align="center">
    <img src="Local\imgs\U4\ordinal-encoding.jpg" alt="ordinal-encoding" width="700"  height=300">
</p>

Imagen tomada de [blog.dailydoseofds](https://blog.dailydoseofds.com/p/7-must-know-techniques-for-encoding).

In [None]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

# Crear un DataFrame con una variable categ√≥rica ordinal
df = pd.DataFrame({
    'Tama√±o': ['Peque√±o', 'Mediano', 'Grande', 'Mediano', 'Grande', 'Peque√±o', 'Grande', 'Mediano']
})

print("Datos originales:")
print(df)

# Mostrar categor√≠as √∫nicas y su conteo
conteo_categorias = df['Tama√±o'].value_counts()
print("\nConteo de categor√≠as en 'Tama√±o':")
print(conteo_categorias)

print(f"\nN√∫mero total de categor√≠as √∫nicas: {df['Tama√±o'].nunique()}")

Datos originales:
    Tama√±o
0  Peque√±o
1  Mediano
2   Grande
3  Mediano
4   Grande
5  Peque√±o
6   Grande
7  Mediano

Conteo de categor√≠as en 'Tama√±o':
Tama√±o
Mediano    3
Grande     3
Peque√±o    2
Name: count, dtype: int64

N√∫mero total de categor√≠as √∫nicas: 3


In [20]:
# Aplicar OrdinalEncoder con orden definido
encoder = OrdinalEncoder(categories=[['Peque√±o', 'Mediano', 'Grande']])
df_encoded = encoder.fit_transform(df)

# Convertir a DataFrame para visualizaci√≥n
df_ordinal = pd.DataFrame(df_encoded, columns=['Tama√±o_codificado'])

# Combinar con original para comparaci√≥n
df_comparado = pd.concat([df, df_ordinal], axis=1)

print("\nDatos despu√©s de aplicar Ordinal Encoding:")
print(df_comparado)


Datos despu√©s de aplicar Ordinal Encoding:
    Tama√±o  Tama√±o_codificado
0  Peque√±o                0.0
1  Mediano                1.0
2   Grande                2.0
3  Mediano                1.0
4   Grande                2.0
5  Peque√±o                0.0
6   Grande                2.0
7  Mediano                1.0


In [31]:
df = pd.DataFrame({
    'Tama√±o': ['Peque√±o', 'Mediano', 'Grande'],
    'Nivel': ['Bajo', 'Medio', 'Alto']
})

print(" Datos originales:")
print(df)

ordenes = [['Peque√±o', 'Mediano', 'Grande'], ['Bajo', 'Medio', 'Alto']]
encoder = OrdinalEncoder(categories=ordenes)
df_encoded = encoder.fit_transform(df)

print("\n Datos codificados con OrdinalEncoder:")
print(df_encoded)

 Datos originales:
    Tama√±o  Nivel
0  Peque√±o   Bajo
1  Mediano  Medio
2   Grande   Alto

 Datos codificados con OrdinalEncoder:
[[0. 0.]
 [1. 1.]
 [2. 2.]]


<div style="background-color:#fff9c4; padding:15px; border-radius:8px; font-size:17px;">

### **Ventajas**
- Conserva el **orden l√≥gico** entre categor√≠as (por ejemplo: *Peque√±o < Mediano < Grande*).  
- √ötil para **modelos que interpretan relaciones ordinales** (como √°rboles de decisi√≥n).  
- **Simple de implementar** y **eficiente en espacio**.



### **Desventajas**
- **No adecuado** para variables categ√≥ricas **sin orden** (como colores o marcas).  
- Algunos modelos pueden interpretar las **diferencias num√©ricas como proporcionales**, lo que induce error si el orden no implica distancia real.



### **Recomendaci√≥n**
- Usar **Ordinal Encoding** solo cuando las categor√≠as tienen un **orden natural**.  
- Para variables **nominales (sin orden)**, utilizar **One-Hot Encoding**.
</div>


# <span style="color:black;"><strong>3. Label Encoding</strong></span> 

Transforma cada categor√≠a de una variable en un valor num√©rico entero √∫nico, asignando un n√∫mero distinto a cada etiqueta. Este m√©todo es apropiado para variables ordinales o aquellas en las que el modelo pueda interpretar una relaci√≥n entre los valores codificados. No se recomienda para variables nominales sin orden, ya que puede inducir relaciones num√©ricas inexistentes entre las categor√≠as  ([Pedregosa et al., 2011](https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html)).

<p align="center">
    <img src="Local\imgs\U4\label-encoding.jpg" alt="label-encoding" width="700"  height=300">
</p>

Imagen tomada de [blog.dailydoseofds](https://blog.dailydoseofds.com/p/7-must-know-techniques-for-encoding).

In [21]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Crear un DataFrame con una variable categ√≥rica
df = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul', 'Verde', 'Rojo', 'Azul']
})

print("Datos originales:")
print(df)

# Mostrar categor√≠as √∫nicas y su conteo
conteo_categorias = df['Color'].value_counts()
print("\nConteo de categor√≠as en 'Color':")
print(conteo_categorias)

print(f"\nN√∫mero total de categor√≠as √∫nicas: {df['Color'].nunique()}")



Datos originales:
   Color
0   Rojo
1   Azul
2  Verde
3   Rojo
4   Azul
5  Verde
6   Rojo
7   Azul

Conteo de categor√≠as en 'Color':
Color
Rojo     3
Azul     3
Verde    2
Name: count, dtype: int64

N√∫mero total de categor√≠as √∫nicas: 3


In [22]:

# Aplicar LabelEncoder
encoder = LabelEncoder()
df_encoded = encoder.fit_transform(df['Color'])

# Convertir a DataFrame para visualizaci√≥n
df_label = pd.DataFrame(df_encoded, columns=['Color_codificado'])

# Combinar con original para comparaci√≥n
df_comparado = pd.concat([df, df_label], axis=1)

print("\nDatos despu√©s de aplicar Label Encoding:")
print(df_comparado)


Datos despu√©s de aplicar Label Encoding:
   Color  Color_codificado
0   Rojo                 1
1   Azul                 0
2  Verde                 2
3   Rojo                 1
4   Azul                 0
5  Verde                 2
6   Rojo                 1
7   Azul                 0


In [23]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Crear un DataFrame con varias columnas categ√≥ricas
df = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul'],
    'Tama√±o': ['Grande', 'Peque√±o', 'Mediano', 'Grande', 'Mediano'],
    'Forma': ['Circular', 'Cuadrado', 'Triangular', 'Circular', 'Triangular']
})

print("Datos originales:")
print(df)

# Aplicar LabelEncoder a cada columna categ√≥rica
label_encoders = {}
df_encoded = df.copy()

for col in df.columns:
    le = LabelEncoder()
    df_encoded[col] = le.fit_transform(df[col])
    label_encoders[col] = le  # Guardar el encoder si se necesita revertir luego

print("\nDatos codificados con Label Encoding:")
print(df_encoded)


Datos originales:
   Color   Tama√±o       Forma
0   Rojo   Grande    Circular
1   Azul  Peque√±o    Cuadrado
2  Verde  Mediano  Triangular
3   Rojo   Grande    Circular
4   Azul  Mediano  Triangular

Datos codificados con Label Encoding:
   Color  Tama√±o  Forma
0      1       0      0
1      0       2      1
2      2       1      2
3      1       0      0
4      0       1      2


<div style="background-color:#fff9c4; padding:15px; border-radius:8px; font-size:17px;"> 
<b></b>

### Caracter√≠sticas de Label Encoding (`LabelEncoder`)

| Aspecto                         | Descripci√≥n                                                                 |
|----------------------------------|------------------------------------------------------------------------------|
| **Uso principal**               | Asignar un n√∫mero entero a cada categor√≠a de una variable.                  |
| **Tipo de codificaci√≥n**        | Codificaci√≥n ordinal (impl√≠cita), aunque no respeta orden sem√°ntico.        |
| **Salida**                      | Array NumPy de enteros (0, 1, 2, ...).                                       |
| **Ventajas**                    | - Simple y r√°pido.<br>- √ötil para variables con muchas categor√≠as.<br>- Compatible con modelos que aceptan enteros. |
| **Desventajas**                 | - Introduce orden artificial entre categor√≠as.<br>- No adecuado para variables nominales.<br>- Puede inducir sesgo en modelos lineales. |
| **Manejo de m√∫ltiples columnas**| Requiere aplicar `LabelEncoder` por separado a cada columna.                |
| **Manejo de valores desconocidos** | No los admite por defecto; genera error si aparecen nuevas categor√≠as.     |
| **Recomendaci√≥n**              | √ösalo solo si las categor√≠as tienen un orden l√≥gico o si el modelo lo permite. |

</div>


In [25]:
# Revertir los valores codificados a sus etiquetas originales
df_decoded = df_encoded.copy()
for col in df_decoded.columns:
    le = label_encoders[col]
    df_decoded[col] = le.inverse_transform(df_decoded[col])

print("\nDatos revertidos a sus etiquetas originales:")
print(df_decoded)


Datos revertidos a sus etiquetas originales:
   Color   Tama√±o       Forma
0   Rojo   Grande    Circular
1   Azul  Peque√±o    Cuadrado
2  Verde  Mediano  Triangular
3   Rojo   Grande    Circular
4   Azul  Mediano  Triangular


<div style="background-color:#fff9c4; padding:15px; border-radius:8px; font-size:17px;"> 
<b></b>

### **Revertir la codificaci√≥n**

| T√©cnica             | Tipo de codificaci√≥n | L√≠nea de c√≥digo para revertir              |
|---------------------|----------------------|--------------------------------------------|
| `LabelEncoder`      | Nominal (entero)     | `LabelEncoder.inverse_transform()`         |
| `OrdinalEncoder`    | Ordinal (entero)     | `OrdinalEncoder.inverse_transform()`       |
| `OneHotEncoder`     | Nominal (binario)    | `OneHotEncoder.inverse_transform()`        |
| `pd.get_dummies()`  | Nominal (binario)    | *No disponible directamente*               |

</div>


# <span style="color:black;"><strong>4. Count Enconding</strong></span> 

Sustituye cada categor√≠a por su **frecuencia de aparici√≥n** o su **proporci√≥n en el conjunto de datos**, conservando informaci√≥n sobre su relevancia o representatividad.  
Se utiliza cuando existen **muchas categor√≠as** o clases desbalanceadas.

<p align="center">
    <img src="Local\imgs\U4\count-encoding.jpg" alt="count-encoding" width="700"  height=300">
</p>

Imagen tomada de [blog.dailydoseofds](https://blog.dailydoseofds.com/p/7-must-know-techniques-for-encoding).

In [37]:
# DataFrame 
df = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul', 'Rojo'],
    'Forma': ['Circular', 'Cuadrado', 'Triangular', 'Circular', 'Triangular', 'Cuadrado']
})

print("Datos originales:")
print(df)

# Aplicar Count Encoding a cada columna categ√≥rica
df_count = df.copy()
for col in df_count.columns:
    counts = df_count[col].value_counts()
    df_count[col + '_count'] = df_count[col].map(counts)
    print(f"\n Count Encoding para '{col}':")
    print(df_count[[col, col + '_count']])

Datos originales:
   Color       Forma
0   Rojo    Circular
1   Azul    Cuadrado
2  Verde  Triangular
3   Rojo    Circular
4   Azul  Triangular
5   Rojo    Cuadrado

 Count Encoding para 'Color':
   Color  Color_count
0   Rojo            3
1   Azul            2
2  Verde            1
3   Rojo            3
4   Azul            2
5   Rojo            3

 Count Encoding para 'Forma':
        Forma  Forma_count
0    Circular            2
1    Cuadrado            2
2  Triangular            2
3    Circular            2
4  Triangular            2
5    Cuadrado            2


In [38]:
print("\n DataFrame final con Count Encoding:")
print(df_count)


 DataFrame final con Count Encoding:
   Color       Forma  Color_count  Forma_count
0   Rojo    Circular            3            2
1   Azul    Cuadrado            2            2
2  Verde  Triangular            1            2
3   Rojo    Circular            3            2
4   Azul  Triangular            2            2
5   Rojo    Cuadrado            3            2


In [40]:
import category_encoders as ce

encoder = ce.CountEncoder()
df_encoded = encoder.fit_transform(df)

print(df_encoded)


   Color  Forma
0      3      2
1      2      2
2      1      2
3      3      2
4      2      2
5      3      2


<div style="background-color:#fff9c4; padding:15px; border-radius:8px; font-size:17px;"> 
<b></b>

| Aspecto       | Detalle                                                                 |
|---------------|-------------------------------------------------------------------------|
| **Ventajas**  | - F√°cil de implementar con `pandas` o `category_encoders`.<br>- Reduce la dimensionalidad comparado con One-Hot Encoding.<br>- Funciona bien con modelos basados en √°rboles como Random Forest o XGBoost.<br>- No introduce orden artificial como Label Encoding. |
| **Desventajas** | - Puede inducir sesgo si las frecuencias est√°n correlacionadas con la variable objetivo.<br>- No es interpretable directamente (los valores no representan magnitudes reales).<br>- No maneja bien categor√≠as nuevas si no se actualiza el mapeo.<br>- No es adecuado para modelos lineales sin normalizaci√≥n. |              |

</div>


# <span style="color:black;"><strong>5. Binary Encoding</strong></span>

El **Binary Encoding** es una t√©cnica que combina las ventajas de *Label Encoding* y *One-Hot Encoding* para representar variables categ√≥ricas de manera **m√°s compacta y eficiente**.  
Cada categor√≠a se transforma primero en un n√∫mero entero y luego en su **equivalente binario**, donde cada bit se distribuye en columnas separadas.

Este m√©todo es especialmente √∫til cuando existen **muchas categor√≠as √∫nicas**, ya que **reduce la dimensionalidad** del conjunto de datos sin perder completamente la informaci√≥n de las categor√≠as originales.  
Se aplica con frecuencia en **modelos de aprendizaje autom√°tico tradicionales** que requieren **entradas num√©ricas compactas** o en contextos donde *One-Hot Encoding* resulta ineficiente ([G√©ron, 2023](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/)).


<p align="center">
    <img src="Local\imgs\U4\binary.jpg" alt="binary" width="700"  height=300">
</p>

Imagen tomada de [blog.dailydoseofds](https://blog.dailydoseofds.com/p/7-must-know-techniques-for-encoding).

In [41]:
import pandas as pd
import category_encoders as ce

# Dataframe
df = pd.DataFrame({
    'Color': ['green', 'red', 'black', 'orange']
})

print(" Datos originales:")
print(df)

# Aplicar Binary Encoding
encoder = ce.BinaryEncoder(cols=['Color'])
df_encoded = encoder.fit_transform(df)

print("\n Datos codificados con Binary Encoding:")
print(df_encoded)


 Datos originales:
    Color
0   green
1     red
2   black
3  orange

 Datos codificados con Binary Encoding:
   Color_0  Color_1  Color_2
0        0        0        1
1        0        1        0
2        0        1        1
3        1        0        0


In [46]:
# DataFrame
df = pd.DataFrame({
    'Color': ['green', 'red', 'black', 'orange'],
    'Forma': ['circle', 'square', 'triangle', 'circle']
})

print("Datos originales:")
print(df)

# Aplicar Binary Encoding a m√∫ltiples columnas
encoder = ce.BinaryEncoder(cols=['Color', 'Forma'])
df_encoded = encoder.fit_transform(df)

print("\nDatos codificados con Binary Encoding:")
print(df_encoded)


Datos originales:
    Color     Forma
0   green    circle
1     red    square
2   black  triangle
3  orange    circle

Datos codificados con Binary Encoding:
   Color_0  Color_1  Color_2  Forma_0  Forma_1
0        0        0        1        0        1
1        0        1        0        1        0
2        0        1        1        1        1
3        1        0        0        0        1


# <span style="color:black;"><strong>6. Embeddings Categ√≥ricos</strong></span>

En entornos de **aprendizaje profundo**, las categor√≠as pueden representarse mediante **vectores densos** que capturan relaciones sem√°nticas entre ellas.  
Este enfoque se usa ampliamente en **procesamiento del lenguaje natural (NLP)** y **sistemas de recomendaci√≥n** ([G√©ron, 2023](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/)).

<p align="center">
    <img src="Local\imgs\U4\one_hot_hot_dog_embedding.png" alt="one_hot_hot_dog_embedding" width="700"  height=300">
</p>

Imagen tomada de [blog.dailydoseofds](https://developers.google.com/machine-learning/crash-course/embeddings/obtaining-embeddings?hl=es-419).

In [50]:
import torch
import torch.nn as nn

# Supongamos que tenemos 4 colores: green, red, black, orange
# Asignamos un √≠ndice entero a cada uno
color_to_index = {'green': 0, 'red': 1, 'black': 2, 'orange': 3}
color_indices = torch.tensor([color_to_index[c] for c in ['green', 'red', 'black', 'orange']])

# Creamos una capa de embedding: 4 categor√≠as ‚Üí vectores de dimensi√≥n 3
embedding_layer = nn.Embedding(num_embeddings=4, embedding_dim=3)

# Obtenemos los embeddings
embedded_colors = embedding_layer(color_indices)

print("√çndices de colores:", color_indices)
print("Embeddings generados:")
print(embedded_colors)


√çndices de colores: tensor([0, 1, 2, 3])
Embeddings generados:
tensor([[ 0.1628, -1.1315,  0.0254],
        [-1.2718,  0.7218, -1.6844],
        [-0.4428,  0.5568,  0.6037],
        [-0.8426, -0.7367,  0.1369]], grad_fn=<EmbeddingBackward0>)


In [51]:
# Datos
color_vocab = {'green': 0, 'red': 1, 'black': 2, 'orange': 3}
shape_vocab = {'circle': 0, 'square': 1, 'triangle': 2}

# Simulamos un batch de 4 ejemplos
color_input = torch.tensor([color_vocab[c] for c in ['green', 'red', 'black', 'orange']])
shape_input = torch.tensor([shape_vocab[s] for s in ['circle', 'square', 'triangle', 'circle']])

# Capas de embedding para cada variable
color_embedding = nn.Embedding(num_embeddings=4, embedding_dim=3)
shape_embedding = nn.Embedding(num_embeddings=3, embedding_dim=2)

# Aplicar embeddings
color_embedded = color_embedding(color_input)
shape_embedded = shape_embedding(shape_input)

# Concatenar los embeddings
combined = torch.cat([color_embedded, shape_embedded], dim=1)

print(" Embedding de Color:")
print(color_embedded)

print("\n Embedding de Forma:")
print(shape_embedded)

print("\n Embedding combinado:")
print(combined)


 Embedding de Color:
tensor([[-0.6649, -0.9860, -0.2435],
        [-1.4977, -1.1300,  0.2240],
        [ 0.7493, -0.3895,  0.9163],
        [ 0.8433, -0.2881, -0.9913]], grad_fn=<EmbeddingBackward0>)

 Embedding de Forma:
tensor([[-0.9036,  0.8219],
        [ 1.3459,  0.7084],
        [-1.2374,  0.5422],
        [-0.9036,  0.8219]], grad_fn=<EmbeddingBackward0>)

 Embedding combinado:
tensor([[-0.6649, -0.9860, -0.2435, -0.9036,  0.8219],
        [-1.4977, -1.1300,  0.2240,  1.3459,  0.7084],
        [ 0.7493, -0.3895,  0.9163, -1.2374,  0.5422],
        [ 0.8433, -0.2881, -0.9913, -0.9036,  0.8219]], grad_fn=<CatBackward0>)


<div style="background-color:#fff9c4; padding:15px; border-radius:8px; font-size:17px;"> 
<b></b>

| Aspecto                         | Descripci√≥n                                                                 |
|----------------------------------|------------------------------------------------------------------------------|
| **Uso principal**               | Representar categor√≠as como vectores densos de n√∫meros reales.              |
| **Tipo de codificaci√≥n**        | Aprendida durante el entrenamiento; no fija como One-Hot o Label Encoding.  |
| **Salida**                      | Matriz de vectores (por ejemplo, cada categor√≠a ‚Üí vector de dimensi√≥n 3, 4, etc.). |
| **Ventajas**                    | - Captura relaciones sem√°nticas entre categor√≠as.<br>- Reduce dimensionalidad.<br>- Escalable para miles de categor√≠as.<br>- Ideal para redes neuronales y modelos tabulares profundos. |
| **Desventajas**                 | - Requiere entrenamiento supervisado.<br>- No interpretable directamente.<br>- No compatible con modelos cl√°sicos como √°rboles o regresi√≥n lineal sin adaptaci√≥n. |
| **Manejo de m√∫ltiples columnas**| Se necesita una capa de embedding por cada variable categ√≥rica.             |
| **Manejo de valores desconocidos** | Puede manejarse con un √≠ndice especial (por ejemplo, "unknown" o padding).  |
| **Recomendaci√≥n**              | √ösalo en modelos de deep learning cuando hay muchas categor√≠as o relaciones complejas. |


</div>

# <span style="color:black;"><strong>Comparaci√≥n</strong></span>

| Caracter√≠stica                  | Label Encoding                        | One-Hot Encoding                          | Embeddings Categ√≥ricos                     |
|----------------------------------|----------------------------------------|--------------------------------------------|---------------------------------------------|
| **Tipo de salida**              | Entero por categor√≠a (0, 1, 2...)      | Vector binario (una columna por categor√≠a) | Vector denso de n√∫meros reales              |
| **Dimensi√≥n generada**          | 1 columna                              | n columnas (n = n√∫mero de categor√≠as)       | T√∫ defines la dimensi√≥n (ej. 3, 4, 8...)     |
| **Captura relaciones sem√°nticas** | ‚ùå No                                   | ‚ùå No                                       | ‚úÖ S√≠ (aprendidas durante entrenamiento)     |
| **Adecuado para modelos cl√°sicos** | ‚úÖ S√≠                                   | ‚úÖ S√≠                                       | ‚ùå No (requiere redes neuronales)            |
| **Escalabilidad con muchas categor√≠as** | ‚úÖ Buena                             | ‚ùå Mala (genera m√°s columnas)               | ‚úÖ Excelente                                 |
| **Interpretabilidad**           | ‚úÖ F√°cil                                | ‚úÖ F√°cil                                    | ‚ùå Dif√≠cil                                   |
| **Orden impl√≠cito**             | ‚úÖ S√≠ (aunque puede ser artificial)     | ‚ùå No                                       | ‚ùå No                                        |
| **Uso t√≠pico**                  | √Årboles, regresi√≥n lineal              | √Årboles, regresi√≥n, redes simples           | Deep learning tabular, NLP, recomendadores  |
