#**Tratamiento de la multicolinealidad en una regresión**

La **multicolinealidad** en el análisis de regresión ocurre cuando dos o más variables predictoras están altamente correlacionadas entre sí, de modo que no brindan información única o independiente en el modelo de regresión.\
Para saber si existe multicolinealidad perfecta es suficiente con calcular el determinante de la matriz $(X^tX)$ y ver si es igual a cero. Esto no ocurre si queremos detectar la multicolinealidad aproximada(que las variables no sean linealmente independientes) o no perfecta.\
El **objetivo** es determinar si el grado de multicolinealidad tiene consecuencias negativas sobre nuestro análisis.\
En este esquema utilizaremos dos herramientas básicas para detectar la presencia de multicolinealidad o no.

*   Factor de Inflación de la Varianza.
*   Número de Condición(NC)



Para calcularlas, utilizaremos las librerías numpy, pandas y statsmodels.

# **Factor de Inflación de la Varianza (VIF)**


Si el grado de correlación entre variables es lo suficientemente alto, puede causar problemas al ajustar e interpretar el modelo de regresión .

La forma más común de detectar la multicolinealidad es utilizando el **factor de inflación de la varianza (VIF)**, que mide la correlación y la fuerza de la correlación entre las variables predictoras en un modelo de regresión.


*   $VIF=\frac{Var(\hat{B}_j)}{Var(\hat{B}_{jo})}= \frac{1}{(1-R^2_j)}
$


*   $Tolerancia=1-R^2_j$

donde $Var(\hat{B}_{jo})$ representa la varianza de la variable explicativa en el caso hipotético de que fuera ortogonal con el resto de variables explicativas(modelo ideal), en cuyo caso $R^2_{jo}=0$ (para que no haya multicolinealidad).



El valor de VIF comienza en 1 y no tiene límite superior. Una regla general para interpretar los VIF es la siguiente:


*   Un valor de 1 indica que no hay correlación entre una variable predictora dada y cualquier otra variable predictora en el modelo.
*   Un valor entre 1 y 4 indica una correlación moderada entre una variable predictora dada y otras variables predictoras en el modelo, pero esto a menudo no es lo suficientemente grave como para requerir atención.

*   Un valor mayor que 4 indica  que el grado de multicolinealidad presente en el modelo es preocupante. En este caso, las estimaciones de los coeficientes y los valores p en el resultado de la regresión probablemente no sean confiables.

Si $R^2_{j}$ es alto, $Var(\hat{B}_j)$ será alta. Entonces, $t_{exp}$ será baja, por lo que no rechazaríamos $H_0$, es aquí donde está el problema de multicolinealidad.

Finalmente, destacar que existe una aparente contradicción que se sustenta en que el VIF no detecta la relación de la constante con el resto de variables independientes mientras que el número de condición(NC) sí lo hace.





## *Ejemplo*

In [None]:
import pandas as pd
import numpy as np
from statsmodels.stats.outliers_influence import variance_inflation_factor

X_train = pd.DataFrame(np.random.standard_normal((20,15)), columns=[f"x{i}" for i
in range(15)])
vif=pd.DataFrame()
vif['VIF']=[variance_inflation_factor(X_train.values,i) for i in range(X_train.shape[1])]
vif['Predictors']=X_train.columns

print(vif)

          VIF Predictors
0    2.616103         x0
1    3.126974         x1
2    6.182713         x2
3    5.442437         x3
4    3.879028         x4
5    1.977315         x5
6    4.341102         x6
7   10.350489         x7
8    6.552275         x8
9   13.269630         x9
10   3.249546        x10
11  25.759691        x11
12   4.022593        x12
13  16.012262        x13
14   3.370031        x14


Aquellas variables con VIF mayor a 4 serán consideradas con multicolinealidad grave.

# **Número de Condición (NC)**

El **número de condición (NC)** detecta la multicolinealidad no esencial(debida a la relación de la constante con el resto de variables independientes) y esencial(debida a la relación entre las variables independientes excluida la constante).

 

El **NC** se define como: $K(X)= \sqrt(\frac{\xi_(max)}{\xi_(min})$\
Donde $\xi_(max)$ y $\xi_(min)$ son los autovalores máximo y mínimo de la matriz $(X^tX)$. Para Belsley, valores de K(X) entre 20 y 30 supone una multicolinealidad moderada y valores mayores a 30 una multicolinealidad grave.

La función **(linalg.cond (x, p=None)** es capaz de devolver el número de condición usando **una** de las siete normas diferentes, dependiendo del valor de p.
\
El número de condición de la forma en la que está hecho en este ejemplo es por la Norma de Frobenius(Fro). Esta norma se define como la raíz cuadrada de la suma de los cuadrados de los elementos de la matriz.(L2-norm).

$|x|=\sqrt(\sum_{k=1}^n|x_k|^2)$

## *Ejemplo*

In [None]:
from numpy import linalg as NC
x = np.array([[-1, 0, 1], [2, 1, 7], [1, 5, 3]])

NC.cond(x)

NC.cond(x, 'fro')

NC.cond(x, np.inf)

NC.cond(x, -np.inf)

NC.cond(x, 1)

NC.cond(x, -1)

NC.cond(x, 2)

NC.cond(x, -2)

min(NC.svd(x, compute_uv=False))*min(NC.svd(LA.inv(a), compute_uv=False))


0.8659889084589589

En este ejemplo, nuestro número de condición (NC) es de 0,86, por lo que nuestro modelo no tendría una multicolinealidad significativa. Tenemos que recordad que para que existiera una multicolinealidad grave debería de ser mayor a 30.