# Multicolinealidad

En el tema 9 estuvimos viendo varios problemas que podíamos resolver usando regresión lineal. Por ejemplo:

- Nos ayuda a identificar asociaciones falsas.
- Nos ayuda a identificar relaciones enmascaradas.

Vimos que todo esto lo logramos incluyendo **más predictores** en la regresión, por lo que nos podríamos llevar la **falsa idea** de *agregar todo a la regresión y ver qué pasa*. Desafortunadamente, nuestro modelo no siempre nos dirá que pasa de forma correcta, y es porque le lanzamos preguntas incorrectas.

Por eso, en este tema estaremos viendo qué cosas *malas* pueden pasar cuando simplemente añadimos más predictores a nuestra regresión. Veremos tres dificultades:
- Multicolinealidad,
- Bias de post-tratamiento,
- Bias de colisión.

> **Objetivos:**
> - Entender el problema de multicolinealidad.


> **Referencias:**
> 
> - Statistical Rethinking: A Bayesian Course with Examples in R and Stan (2nd edition) - Richard McElreath.

## 1. Multicolinealidad

El caso más común es tener varios predictores para un modelo de regresión. Por ejemplo, en los datos de la leche en diferentes especies:

In [None]:
# Importar pandas


In [None]:
# Leer milk data


Observamos que para predecir el contenido energético, tenemos siete (7) posibles predictores. ¿Porqué no simplemente incluirlos todos?

El primer problema, y quizá el menos nocivo, que nos podemos encontrar es el de **multicolinealidad**. La multicolinealidad significa una asociación fuerte entre dos o más predictores.

> En muchos cursos y blogs, probablemente han visto/escuchado hablar de este tema, y es común como estrategia de selección de predictores, descartar variables altamente correlacionadas. Desde nuestro punto de vista, la pura correlación no importa. Lo que importa en realidad es la **asociación**, condicionada a las demás variables en el modelo.

La consecuencia de la multicolinealidad es que la distribución posterior nos sugerirá potencialmente que ninguna de las variables colineales se asocia realmente con la variable resultado, **incluso si todas estas variables están fuertemente asociadas con la variable resultado.**

Hablábamos de que este es quizá el problema menos nocivo, porque en realidad no es un problema. Simplemente es un reflejo de como funciona la regresión lineal. En realidad, en presencia de multicolinealidad, nuestro modelo será bueno haciendo predicciones. Lo que nos dará un poco más de dificultades es entender el modelo.

Veamos una simple simulación para entender esto:

In [None]:
# Importar scipy.stats norm & uniform


In [None]:
# Número de individuos

# Simulación de la altura del individuo ~ N(170, 10)

# Simulación de la proporción del tamaño de pierna ~ U(0.4, 0.5)

# Simulación de los tamaños de pierna = proporción + error
left_leg = leg_proportion * height + norm.rvs(size=n_ind, loc=0, scale=0.005)

# Dataframe


In [None]:
# Overview de los datos


Estos datos pretenden simular la altura de uan persona y el tamaño de ambas piernas. Se supone que el tamaño de las piernas es proporcional a la altura, pero cada pierna puede ser diferente de la otra por una pequeña cantidad.

Ahora, generemos un modelo para intentar predecir la altura usando los tamaños de ambas piernas como predictores. ¿Qué podríamos esperar?

- En promedio, la proporción del tamaño de piernas respecto a la altura es del 45% en estos datos simulados.
- Por tanto esperaríamos ver los coeficientes de regresión al rededor de $\frac{170}{170 \times 0.45} \approx 2.2$.

Veamos que pasa en su lugar:

In [None]:
# Importar pymc y arviz


In [None]:
# Modelo
with pm.Model() as height_model:
    a = pm.Normal("a", mu=1.7, sigma=2)
    bleft = pm.Normal("bl", mu=2, sigma=10)
    bright = pm.Normal("br", mu=2, sigma=10)
    sigma = pm.Exponential("sigma", 1)
    mu = a + bleft * left_leg + bright * right_leg
    height = pm.Normal(
        "height",
        mu=mu,
        sigma=sigma,
        observed=leg_data["height"]
    )
    idata_multicol = pm.sample(draws=100)

In [None]:
# Summary
az.summary(
    idata_multicol,
    kind="stats",
    hdi_prob=0.89,
    var_names=["a", "bl", "br", "sigma"]
)

In [None]:
# Plot forest
az.plot_forest(
    idata_multicol,
    var_names=["a", "br", "bl", "sigma"],
    combined=True,
    figsize=[5, 2],
    hdi_prob=0.89
)

Observamos que en la distribución posterior, tanto las medias como las desviaciones estándar no coinciden para nada con nuestra intuición.

Incluso, simulando nuevos datos, aunque observemos que los datos son relativamente similares, las posteriores cambian bastante.

Esto no quiere decir que nuestro modelo esté fallando. Simplemente, nos está entregando la posterior correspondiente a la pregunta que le hicimos. La pregunta es: *¿Cuál es el valor de conocer cada tamaño de la pierna, si ya conocemos el otro?*

Veamos un gráfico de dispersión de puntos de $bl$ vs. $br$, y la densidad de la suma $bl + br$:

In [None]:
# Dataframe con muestras de la posterior


In [None]:
# Importar pyplot


In [None]:
# Scatter plot


In [None]:
# KDE de suma de posteriores de br y bl


Observamos que la distribución posterior para estos parámetros está altamente **negativamente** correlacionada. Cuando $bl$ es grande, $br$ es pequeña y viceversa.

Obviamente, ambas variables contienen casi la misma información, por lo que si las incluimos ambas en un modelo, existirán prácticamente un número infinito de combinaciones de $bl$ y $br$ sobre la línea que vimos hace un momento, que producirán las mismas predicciones.

Una manera de entender este hecho, es considerar el caso extremo de incluir exactamente el mismo predictor dos veces:

$$
\begin{align}
\begin{array}{ccc}
y_i & \sim & \text{Normal}(\mu_i, \sigma) \\
\mu_i & = & \alpha + \beta_1 x_i + \beta_2 x_i
\end{array}
\end{align}
$$

Observamos que la última línea es equivalente a:

$$
\mu_i = \alpha + (\beta_1 + \beta_2) x_i.
$$

Acá observamos porqué los parámetros $\beta_1$ y $\beta_2$ están tan estrechamente correlacionados. Es imposible que uno por separado influencie a $\mu$; solo su suma, $\beta_1 + \beta_2$ puede hacerlo. Podemos ver esto en la densidad que estimamos.

Ahora, si ajustamos un modelo con una sola de las variables:

In [None]:
# Modelo
with pm.Model() as height_model_left:
    a = pm.Normal("a", mu=1.7, sigma=2)
    bleft = pm.Normal("bl", mu=2, sigma=10)
    sigma = pm.Exponential("sigma", 1)
    mu = a + bleft * left_leg
    height = pm.Normal(
        "height",
        mu=mu,
        sigma=sigma,
        observed=leg_data["height"]
    )
    idata_left = pm.sample(draws=100)

In [None]:
# Summary
az.summary(
    idata_left,
    kind="stats",
    hdi_prob=0.89,
    var_names=["a", "bl", "sigma"]
)

Observamos que el valor medio de este nuevo $bl$ coincide con el valor medio del $bl+br$ que estimamos en el modelo anterior.

Como conclusión, cuando dos predictores están fuertemente correlacionados, incluir ambos en el modelo puede resultar en confusión. La distribución posterior no va a estar mal, solamente será la respuesta a la pregunta que le hicimos: *¿Cuál es el valor de conocer cada predictor dado que conocemos los demás?*. Cabe decir que el modelo será bueno en cuanto a las predicciones, solamente no podremos interpretar la influencia de cada predictor.

## 2. Ejemplo con datos reales

El ejemplo de las piernas es bastante bueno para entender conceptos, sin embargo, resulta claro que no incluiríamos el tamaño de las dos piernas en un modelo para predecir la altura.

En un escenario real, es más complejo anticipar si dos predictores estarán correlacionados. Incluso predictores que en principio no relacionamos mentalmente, podrían inducir un efecto de multicolinealidad. Como vimos, el problema no está en las predicciones en sí, sino en las interpretaciones que hagamos del modelo.

In [None]:
milk_data.head()

En este ejemplo, nos concentraremos en los predictores correspondientes a:

* porcentaje de grasa
* porcentaje de lactosa

para modelar el contenido energético de la leche.

In [None]:
# Standardize function
def standardize(y: pd.Series) -> pd.Series:
    return (y - y.mean()) / y.std()

In [None]:
# Estandarizamos variables
milk_data["energy_std"] = standardize(milk_data["kcal.per.g"])
milk_data["fat_std"] = standardize(milk_data["perc.fat"])
milk_data["lactose_std"] = standardize(milk_data["perc.lactose"])

Comencemos con regresiones bivariadas:

In [None]:
# Modelo con la grasa
with pm.Model() as fat_model:
    a = pm.Normal("a", 0, 0.2)
    bfat = pm.Normal("bf", 0, 0.5)
    sigma = pm.Exponential("sigma", 1)

    mu = a + bfat * milk_data["fat_std"]
    k = pm.Normal(
        "energy",
        mu,
        sigma,
        observed=milk_data["energy_std"]
    )
    idata_fat = pm.sample()

In [None]:
# Modelo con la lactosa
with pm.Model() as lactose_model:
    a = pm.Normal("a", 0, 0.2)
    blac = pm.Normal("bl", 0, 0.5)
    sigma = pm.Exponential("sigma", 1)

    mu = a + blac * milk_data["lactose_std"]
    k = pm.Normal(
        "energy",
        mu,
        sigma,
        observed=milk_data["energy_std"]
    )
    idata_lactose = pm.sample()

In [None]:
az.summary(
    idata_fat,
    kind="stats",
    hdi_prob=0.89,
    var_names=["a", "bf", "sigma"]
)

In [None]:
az.summary(
    idata_lactose,
    kind="stats",
    hdi_prob=0.89,
    var_names=["a", "bl", "sigma"]
)

Podemos observar que las posteriores de $bf$ y $bl$ son casi un espejo. Ambas son posteriores estrechas, que yacen de un solo lado del cero, $bf$ en el lado positivo y $bl$ en el lado negativo.

Podríamos concluir que ambas variables son predictores "confiables" del contenido energético de la leche. Sin embargo, veamos que pasa con un modelo con ambos predictores:

In [None]:
# Modelo con ambas variables
with pm.Model() as full_model:
    a = pm.Normal("a", 0, 0.2)
    bfat = pm.Normal("bf", 0, 0.5)
    blac = pm.Normal("bl", 0, 0.5)
    sigma = pm.Exponential("sigma", 1)

    mu = a + blac * milk_data["lactose_std"] + bfat * milk_data["fat_std"]
    k = pm.Normal(
        "energy",
        mu,
        sigma,
        observed=milk_data["energy_std"]
    )
    idata_full = pm.sample()

In [None]:
# Summary
az.summary(
    idata_full,
    kind="stats",
    hdi_prob=0.89,
    var_names=["a", "bf", "bl", "sigma"]
)

Observamos que ahora, las medias de las posteriores de ambos parámetros se movieron hacia cero, e incluso sus desviaciones estándar casi se triplicaron.

Esto es un claro indicativo de que tanto el porcentaje de grasa como el porcentaje de lactosa contienen información similar resepecto al contenido energético de la leche.

In [None]:
import seaborn as sns

In [None]:
sns.pairplot(
    milk_data[["kcal.per.g", "perc.fat", "perc.lactose"]]
)   

Es decir, cualquiera de las dos puede ser un buen predictor para el contenido energético, pero una vez conoces una, incluir la otra en el modelo no es de mucha ayuda.

**¿Porqué sucede esto?**

Una vez hemos identificado la multicolinealidad, es importante entender qué es lo que la causa. En este ejemplo de la leche, lo que puede estar pasando es que hay un efecto de compensación de una variable con otra.

Si una especie amamanta recurrentemente, la leche tiende a ser "más líquida" y con menos contenido energético. Dicha leche es alta en azucar (lactosa). Por otra parte, si una especia amamanta de forma más esporádica, la leche necesita ser más alta en energía, para lo cual se necesita más grasa.

Esto implica el siguiente modelo:

In [None]:
from causalgraphicalmodels import CausalGraphicalModel
from daft import PGM

In [None]:
nodes = ["L", "D", "F", "K"]
edges = [("D", "L"), ("D", "F"), ("L", "K"), ("F", "K")]
dag1 = CausalGraphicalModel(nodes=nodes, edges=edges)
pgm1 = PGM()
coordinates = {"L": (0, 0), "D": (1, 0), "F": (2, 0), "K": (1, 1)}
for node in nodes:
    pgm1.add_node(node, node, *coordinates[node])
for edge in edges:
    pgm1.add_edge(*edge)
pgm1.render()
plt.gca().invert_yaxis()

Donde $D$ es una variable no observada que indica qué tan densa debe de ser la leche. Si pudiéramos medir $D$ o tener un modelo para ella, esto sería mejor a intentar diferentes regresiones para ver cuál es mejor.