### Transformaciones de Variables Categóricas

In [53]:
import pandas as pd

df = pd.DataFrame(data={
    'edad': [20, 30, 40, 50],
    'genero': ['Masculino', 'Masculino', 'Femenino', 'Femenino'],   
    'clase': ['Primera', 'Segunda', 'Segunda','Tercera',]
})

df

Unnamed: 0,edad,genero,clase
0,20,Masculino,Primera
1,30,Masculino,Segunda
2,40,Femenino,Segunda
3,50,Femenino,Tercera


<hr>


# <a name="M1">1. Codificación Binaria</a>


* Vamos a transformar la variable genero a una variable binaria.


* Esto lo podemos hacer con la clase **"LabelBinarizer()"** de scikit-learn de la siguiente manera:

In [54]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
df['genero_binario'] = lb.fit_transform(df['genero'])
df[['genero', 'genero_binario']]

Unnamed: 0,genero,genero_binario
0,Masculino,1
1,Masculino,1
2,Femenino,0
3,Femenino,0


<hr>


# <a name="M2">2. Codificación One Hot Encode</a>



In [55]:
from sklearn.preprocessing import OneHotEncoder

In [56]:
ohe = OneHotEncoder(drop='first')
x = df[['clase']].values
x_one_hot = ohe.fit_transform(x).toarray()
x_one_hot

array([[0., 0.],
       [1., 0.],
       [1., 0.],
       [0., 1.]])

In [57]:
df_one_hot = pd.DataFrame(x_one_hot, columns = ["clase_"+str(int(i)) for i in range(x_one_hot.shape[1])])
df_all = pd.concat([df, df_one_hot], axis=1)
df_all

Unnamed: 0,edad,genero,clase,genero_binario,clase_0,clase_1
0,20,Masculino,Primera,1,0.0,0.0
1,30,Masculino,Segunda,1,1.0,0.0
2,40,Femenino,Segunda,0,1.0,0.0
3,50,Femenino,Tercera,0,0.0,1.0


La "trampa de las variables dummy" es un problema que puede ocurrir cuando utilizamos variables categóricas en un modelo de regresión lineal (u otros modelos) y las convertimos en variables dummy o indicadoras. Las variables dummy se utilizan para transformar una variable categórica en varias columnas binarias (0 o 1), permitiendo que los modelos de regresión trabajen con variables que no son numéricas.

¿Qué es una variable dummy?
Cuando tienes una variable categórica (como "color" con valores "rojo", "verde", y "azul"), necesitas transformarla en varias columnas para que el modelo pueda procesarlas. Esto se hace con variables dummy. Si "color" tiene tres valores, las variables dummy se verían así:

"rojo" → (1, 0, 0)
"verde" → (0, 1, 0)
"azul" → (0, 0, 1)

#### ¿Por qué eliminar una categoría?

Esto evita que haya redundancia entre las variables. Por ejemplo, si ya sabes que una fila no pertenece a las clases "Segunda" ni "Tercera", automáticamente sabes que pertenece a "Primera". Esto soluciona el problema de la multicolinealidad, mejorando la estabilidad del modelo.

### Codificación One Hot Encode en Pandas


* Esta transformación también nos la permite hacer la librería de Pandas de la siguiente manera:

In [58]:
import pandas as pd


df_encoded = pd.get_dummies(df, columns=['clase'], drop_first=True)

# Mostrar el DataFrame con las nuevas columnas
df_encoded


Unnamed: 0,edad,genero,genero_binario,clase_Segunda,clase_Tercera
0,20,Masculino,1,0,0
1,30,Masculino,1,1,0
2,40,Femenino,0,1,0
3,50,Femenino,0,0,1


<hr>



# <a name="M3">3. Variables con un orden natural</a>




In [59]:
df = pd.DataFrame({
    'nombre': ['Juan', 'María', 'Luis', 'Ana'],
    'nivel_educativo': ['Primaria', 'Posgrado', 'Secundaria', 'Pregrado']
})



In [60]:
# Definir el orden correcto de las categorías
orden_nivel_educativo = ['Primaria', 'Secundaria', 'Pregrado', 'Posgrado']

# Convertir la columna 'nivel_educativo' en una variable categórica con el orden definido
df['nivel_educativo'] = pd.Categorical(df['nivel_educativo'], categories=orden_nivel_educativo, ordered=True)

# Mapear las categorías al número correspondiente según su orden
df['nivel_educativo_encoded'] = df['nivel_educativo'].cat.codes

# Mostrar el DataFrame con la columna codificada
df

Unnamed: 0,nombre,nivel_educativo,nivel_educativo_encoded
0,Juan,Primaria,0
1,María,Posgrado,3
2,Luis,Secundaria,1
3,Ana,Pregrado,2
