# 🧪 Preprocesamiento con OneHotEncoder
#### Datos categóricos nominales

One-Hot Encoder es una técnica utilizada en aprendizaje automático para convertir variables categóricas, especialmente las de tipo nominal, en una representación numérica que sea adecuada para su uso en algoritmos de aprendizaje automático. Las variables categóricas de tipo nominal son aquellas que no tienen un orden inherente entre sus categorías, como colores, género o países.

**La idea detrás del One-Hot Encoder es crear una nueva columna binaria (0 o 1) para cada categoría única en la variable categórica original**. Estas nuevas columnas binarias se llaman "dummy variables". Cada fila en el conjunto de datos tendrá un valor de 1 en la columna correspondiente a la categoría a la que pertenece y 0 en todas las demás columnas. Esto permite que los algoritmos de aprendizaje automático interpreten las categorías como características numéricas independientes.

In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

In [2]:
# Crear un DataFrame de ejemplo
data = {'Color': ['Rojo', 'Verde', 'Azul', 'Rojo', 'Verde','Rojo']}
df = pd.DataFrame(data)

In [3]:
# Crear una instancia del OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)

In [4]:
# Ajustar el encoder a los datos y transformar la columna 'Color'
encoded_data = encoder.fit_transform(df[['Color']])

In [5]:
# Crear un DataFrame con las nuevas columnas binarias
encoded_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out(['Color']))

In [6]:
# Mostrar el DataFrame resultante
encoded_df = encoded_df.astype(int) # lo pase a int, el original es float
encoded_df

Unnamed: 0,Color_Azul,Color_Rojo,Color_Verde
0,0,1,0
1,0,0,1
2,1,0,0
3,0,1,0
4,0,0,1
5,0,1,0
