In [14]:
import pandas as pd 

## VARIABES DUMMY
Las variables dummy son variables binarias (solo toman valores 0 o 1) que se crean para representar categorías de una variable categórica en forma numérica. Se usan para que los modelos estadísticos y de machine learning puedan trabajar con datos categóricos.

Por ejemplo, si tienes una columna "Color" con valores "rojo", "azul" y "verde", puedes crear tres variables dummy:

Color	rojo	azul	verde
rojo	1	0	0
azul	0	1	0
verde	0	0	1
En pandas, puedes generarlas fácilmente con pd.get_dummies().
Son muy útiles para análisis estadístico y machine learning.

Para evitar la trampa de la multicolinealidad al crear variables dummy, debes eliminar una de las columnas dummy (por ejemplo, dejar solo n-1 columnas si tienes n categorías). Así evitas que las variables sean linealmente dependientes.

En pandas, puedes hacerlo con el parámetro drop_first=True en pd.get_dummies():

Esto elimina la primera categoría y evita la trampa de la multicolinealidad en modelos estadísticos y de machine learning.


In [15]:
data = {
    'Vehiculo': ['Auto', 'Moto', 'Auto', 'Camioneta', 'Camión'],
    'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul'],
    'Precio': [20000, 15000, 500, 30000, 40000],
    'Ventas': [150, 200, 300, 100, 80]
    
}

df = pd.DataFrame(data)
display(df)

Unnamed: 0,Vehiculo,Color,Precio,Ventas
0,Auto,Rojo,20000,150
1,Moto,Azul,15000,200
2,Auto,Verde,500,300
3,Camioneta,Rojo,30000,100
4,Camión,Azul,40000,80


In [None]:
# Crear variables dummy
# El parámetro drop_first=True en pd.get_dummies() significa que se elimina la primera categoría de cada variable categórica al crear las variables dummy.
# Esto se hace para evitar la trampa de la multicolinealidad: si tienes n categorías, solo necesitas n-1 columnas dummy, porque la columna que falta se puede deducir de las demás.
# Por ejemplo, si tienes las categorías "Rojo", "Azul" y "Verde", con drop_first=True solo se crean columnas para "Azul" y "Verde". Si ambas son 0, significa que es "Rojo".

df_dummies = pd.get_dummies(df, columns=['Vehiculo', 'Color'])
display(df_dummies)

Unnamed: 0,Precio,Ventas,Vehiculo_Auto,Vehiculo_Camioneta,Vehiculo_Camión,Vehiculo_Moto,Color_Azul,Color_Rojo,Color_Verde
0,20000,150,True,False,False,False,False,True,False
1,15000,200,False,False,False,True,True,False,False
2,500,300,True,False,False,False,False,False,True
3,30000,100,False,True,False,False,False,True,False
4,40000,80,False,False,True,False,True,False,False


In [20]:
df_dummies = pd.get_dummies(df, columns=['Vehiculo', 'Color'], drop_first=True)
display(df_dummies)

Unnamed: 0,Precio,Ventas,Vehiculo_Camioneta,Vehiculo_Camión,Vehiculo_Moto,Color_Rojo,Color_Verde
0,20000,150,False,False,False,True,False
1,15000,200,False,False,True,False,False
2,500,300,False,False,False,False,True
3,30000,100,True,False,False,True,False
4,40000,80,False,True,False,False,False
