In [101]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

from category_encoders import BinaryEncoder


In [102]:
data = {'talla': ['S', 'M', 'L', 'XL', 'M', 'S', 'L'], 'color': ['rojo', 'verde', 'azul', 'amarillo', 'rojo', 'verde', 'azul'], 'precio': [10.1, 13.5, 15.3, 20.9, 13.5, 10.1, 15.3], 'item_id': [1, 2, 3, 4, 2, 1, 3]}
df = pd.DataFrame(data)
df

Unnamed: 0,talla,color,precio,item_id
0,S,rojo,10.1,1
1,M,verde,13.5,2
2,L,azul,15.3,3
3,XL,amarillo,20.9,4
4,M,rojo,13.5,2
5,S,verde,10.1,1
6,L,azul,15.3,3


In [103]:
df.dtypes

talla       object
color       object
precio     float64
item_id      int64
dtype: object

# Ordinal Encoder

Codificacion con orden de las categorias

In [104]:
# Definir el orden de las categorías
categorias = [['S', 'M', 'L', 'XL']]

# Uso de OrdinalEncoder
oe = OrdinalEncoder(categories=categorias)
df_encoded = oe.fit_transform(df[['talla']])

df_encoded


array([[0.],
       [1.],
       [2.],
       [3.],
       [1.],
       [0.],
       [2.]])

Al no especificar el orden de las categorias, se ordenan de acuerdo a su aparicion en los datos como se hace con LabelEncoder (son iguales)

In [105]:
enc = OrdinalEncoder()
df_encoded = enc.fit_transform(df["color"].values.reshape(-1, 1))
df_encoded

array([[2.],
       [3.],
       [1.],
       [0.],
       [2.],
       [3.],
       [1.]])

multiples columnas

In [106]:
df_encoded = enc.fit_transform(df)
df_encoded

array([[2., 2., 0., 0.],
       [1., 3., 1., 1.],
       [0., 1., 2., 2.],
       [3., 0., 3., 3.],
       [1., 2., 1., 1.],
       [2., 3., 0., 0.],
       [0., 1., 2., 2.]])

# Label Encoder

In [107]:
le = LabelEncoder()
df_encoded = le.fit_transform(df['color'])
df_encoded


array([2, 3, 1, 0, 2, 3, 1])

# OneHotEncoder

Sí, `get_dummies` de `pandas` y `OneHotEncoder` de `scikit-learn` son similares en que ambos convierten variables categóricas en un formato de codificación one-hot. La principal diferencia es que `get_dummies` devuelve un DataFrame de pandas con tipos de datos booleanos (0 y 1), mientras que `OneHotEncoder` retorna una matriz con tipos de datos enteros.

En la codificación one-hot, una de las columnas puede ser deducida de las demás. Esto se conoce como la **"trampa de la variable ficticia"** y puede ser problemática en algunos tipos de análisis. Para evitar esto, puedes optar por eliminar una de las columnas codificadas.

En ambos casos, se elimina la primera columna codificada para evitar la redundancia. Recuerda que esta práctica puede no ser necesaria en todos los casos, dependiendo del tipo de análisis que estés realizando. Por ejemplo, en muchos modelos de machine learning, esta redundancia no es un problema y puede omitirse el paso de eliminar una columna.

In [108]:
# Aplicar One-Hot Encoding
df_encoded = pd.get_dummies(df, columns=['color']) # drop_first=True
df_encoded

Unnamed: 0,talla,precio,item_id,color_amarillo,color_azul,color_rojo,color_verde
0,S,10.1,1,False,False,True,False
1,M,13.5,2,False,False,False,True
2,L,15.3,3,False,True,False,False
3,XL,20.9,4,True,False,False,False
4,M,13.5,2,False,False,True,False
5,S,10.1,1,False,False,False,True
6,L,15.3,3,False,True,False,False


In [109]:
# Crear un OneHotEncoder
encoder = OneHotEncoder() # drop='first'

# Ajustar el encoder
encoder.fit(df[['color']])
encoder.categories_ # Muestra las categorias que se han encontrado y el orden de codificación

[array(['amarillo', 'azul', 'rojo', 'verde'], dtype=object)]

In [110]:
# Transformar los datos
encoder.transform(df[['color']]).toarray()

array([[0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 1., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 1., 0., 0.]])

In [111]:

# Crear un DataFrame con los datos transformados
df_encoded = pd.DataFrame(encoder.transform(df[['color']]).toarray(), columns=encoder.categories_[0])
df_encoded

Unnamed: 0,amarillo,azul,rojo,verde
0,0.0,0.0,1.0,0.0
1,0.0,0.0,0.0,1.0
2,0.0,1.0,0.0,0.0
3,1.0,0.0,0.0,0.0
4,0.0,0.0,1.0,0.0
5,0.0,0.0,0.0,1.0
6,0.0,1.0,0.0,0.0


# Binary encoding

In [112]:
be = BinaryEncoder()

df_encoded = be.fit_transform(df['color'])
df_encoded

Unnamed: 0,color_0,color_1,color_2
0,0,0,1
1,0,1,0
2,0,1,1
3,1,0,0
4,0,0,1
5,0,1,0
6,0,1,1
