## Variables Dummy

Son columnas binarias (0 o 1) que representan las distintas categorías de una variable categórica. Se utilizan comúnmente en modelos de machine learning que no pueden trabajar directamente con datos categóricos.

## Evitar la trampa de la multicolinealidad

Cuando se generan variables dummy, es importante recordar que si una columna es 0, las demás serán 1. Por eso, es recomendable eliminar una de las columnas dummy para evitar la multicolinealidad, lo que puede afectar los resultados de los modelos de regresión.

In [4]:
import pandas as pd

In [5]:
data = {
    'vehiculo': ['Auto', 'Camioneta', 'Moto', 'Camion', 'Auto'],
    'color': ['Rojo', 'Azul', 'Negro', 'Blanco', 'Rojo'],
    'precio': [20000, 30000, 15000, 40000, 18000],
    'ventas': [150, 120, 130, 60, 180]
}

df = pd.DataFrame(data)
display(df)

Unnamed: 0,vehiculo,color,precio,ventas
0,Auto,Rojo,20000,150
1,Camioneta,Azul,30000,120
2,Moto,Negro,15000,130
3,Camion,Blanco,40000,60
4,Auto,Rojo,18000,180


In [6]:
df_dummies = pd.get_dummies(df, columns=['vehiculo', 'color'])
display(df_dummies)

Unnamed: 0,precio,ventas,vehiculo_Auto,vehiculo_Camion,vehiculo_Camioneta,vehiculo_Moto,color_Azul,color_Blanco,color_Negro,color_Rojo
0,20000,150,True,False,False,False,False,False,False,True
1,30000,120,False,False,True,False,True,False,False,False
2,15000,130,False,False,False,True,False,False,True,False
3,40000,60,False,True,False,False,False,True,False,False
4,18000,180,True,False,False,False,False,False,False,True


In [7]:
df_dummies_drop = pd.get_dummies(df, columns=['vehiculo', 'color'], drop_first=True)
display(df_dummies_drop)

Unnamed: 0,precio,ventas,vehiculo_Camion,vehiculo_Camioneta,vehiculo_Moto,color_Blanco,color_Negro,color_Rojo
0,20000,150,False,False,False,False,False,True
1,30000,120,False,True,False,False,False,False
2,15000,130,False,False,True,False,True,False
3,40000,60,True,False,False,True,False,False
4,18000,180,False,False,False,False,False,True
