# Variables Dummy: qué son y su uso con variables categóricas

Texto brindado por `ChatGPT`:

## Multicolinealidad y Variables Dummy

### ¿Qué es la multicolinealidad?

La **multicolinealidad** ocurre cuando dos o más variables independientes están **altamente correlacionadas** entre sí. Esto significa que una variable puede predecir a la otra sin ningún error. Este problema es común en modelos de regresión y puede afectar la precisión y estabilidad del modelo.

#### Relación lineal perfecta

Una **relación lineal perfecta** entre dos variables significa que una puede ser predicha a partir de la otra con exactitud. En términos simples, si tienes una variable $X$, puedes calcular la otra variable $Y$ sin error con una fórmula lineal como:

$Y = a \cdot X + b$

Cuando las variables están correlacionadas perfectamente, no es necesario mantener ambas, ya que una ya te da toda la información que necesitas sobre la otra.

## ¿Cómo se relaciona la multicolinealidad con las variables dummy?

Las variables **dummy** son una forma de representar variables categóricas. Cuando transformas una variable categórica en varias columnas binarias (0 o 1), puedes introducir multicolinealidad si no manejas adecuadamente las variables.

### Ejemplo de transformación a dummy

Supón que tienes una variable categórica llamada **"Color"** con tres categorías: **Rojo**, **Azul**, y **Verde**. Si la transformas en variables dummy, obtienes algo como esto:

| Color   | Color_Rojo | Color_Azul | Color_Verde |
|---------|------------|------------|-------------|
| Rojo    | 1          | 0          | 0           |
| Azul    | 0          | 1          | 0           |
| Verde   | 0          | 0          | 1           |
| Rojo    | 1          | 0          | 0           |
| Azul    | 0          | 1          | 0           |

En este caso, se han creado tres columnas dummy (una para cada categoría). 

### ¿Por qué suman 1 en cada fila?

Este es un punto clave. En cada fila, solo **una** de las columnas dummy puede ser 1, porque cada fila representa un color único. Si sabes que **`Color_Rojo = 1`**, sabes que **`Color_Azul = 0`** y **`Color_Verde = 0`**, y viceversa.

El hecho de que sumen 1 en cada fila es una propiedad inherente de las variables dummy para representar categorías mutuamente excluyentes. Este es el punto donde puede surgir la multicolinealidad.

### La relación lineal perfecta entre las columnas dummy

Cuando las columnas dummy suman 1, existe una relación determinista entre ellas. Es decir, **si conoces el valor de una columna**, puedes deducir el valor de las otras. Este comportamiento genera **relación lineal perfecta**, lo que lleva a la multicolinealidad.

#### Ejemplo matemático simple

Imagina que tienes las columnas **`Color_Rojo`** y **`Color_Azul`**:

\[
Color\_Rojo + Color\_Azul + Color\_Verde = 1
\]

Si sabes el valor de una columna dummy, puedes determinar exactamente el valor de las otras dos:

- Si **`Color_Rojo = 1`**, entonces **`Color_Azul = 0`** y **`Color_Verde = 0`**.
- Si **`Color_Azul = 1`**, entonces **`Color_Rojo = 0`** y **`Color_Verde = 0`**.
- Si **`Color_Verde = 1`**, entonces **`Color_Rojo = 0`** y **`Color_Azul = 0`**.

Esto implica que las columnas **`Color_Rojo`**, **`Color_Azul`**, y **`Color_Verde`** están **altamente correlacionadas** entre sí.

## ¿Por qué esto es un problema?

Si dejas todas las columnas dummy en tu modelo de regresión, el modelo **no podrá estimar correctamente el impacto de cada categoría** porque hay **información redundante**, y las variables independientes resultan no ser tan independientes entre sí, por el hecho de que una se puede inferir de la/s otra/s. 

### Impacto de la multicolinealidad:
1. **Inestabilidad en los coeficientes**: Los coeficientes de las variables correlacionadas pueden ser **inestables**, lo que dificulta la interpretación.
2. **Sobreajuste (overfitting)**: El modelo podría ajustarse demasiado a los datos de entrenamiento y no generalizar bien a nuevos datos.
3. **Dificultad en la interpretación**: Es complicado entender el impacto de cada variable, porque las variables están **diciendo lo mismo**.

## Solución a la multicolinealidad con variables dummy

La forma estándar de evitar la multicolinealidad al usar variables dummy es **eliminar una de las columnas dummy**. Al hacer esto, el modelo ya no tendrá redundancia y podrá estimar correctamente el impacto de las otras variables.

Básicamente se debe aplicar que para $N$ categorías, debe haber $N - 1$ variables dummy binarias para evitar este problema de la multicolinealidad.

## Ejemplo con Python

Imagina que tienes un DataFrame `df` con una columna categórica **"Color"**. Vamos a convertirla en variables dummy y eliminar la primera columna para evitar la trampa dummy:

### Usando `pandas`

In [2]:
import pandas as pd

# DataFrame de ejemplo
df = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul']
})

# Crear variables dummy, eliminando la primera columna (trampa dummy)
df_dummies = pd.get_dummies(df['Color'], drop_first=True)

print(df_dummies)

    Rojo  Verde
0   True  False
1  False  False
2  False   True
3   True  False
4  False  False


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


### Usando `sklearn`

In [1]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Supongamos que tenemos los mismos datos
data = np.array(['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul']).reshape(-1, 1)

# Inicializar el codificador
encoder = OneHotEncoder(drop='first')

# Ajustar y transformar los datos
encoded_data = encoder.fit_transform(data).toarray()

print(encoded_data)


[[1. 0.]
 [0. 0.]
 [0. 1.]
 [1. 0.]
 [0. 0.]]
