# VIF

이 부분은 정말 많이 써오고 오랫동안 공부해서 충분히 이해했지만, 이김에 다시 정리해보자.         
VIF 계산은 기본적으로 linear regression의 응용이다

-------------

$ R^2 = 1 - \frac{\text{SSR}}{\text{SST}} $

여기서:

- $ \text{SST} $ (총 제곱합, Total Sum of Squares): 종속 변수 \( y \)의 총 변동을 나타냅니다. 총 제곱합은 각 데이터 포인트의 관측값과 평균값 간의 차이를 제곱하여 합한 값입니다.

$ \text{SST} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $

- $ \text{SSR} $ (회귀 제곱합, Sum of Squares of Regression): 회귀 모델에 의해 설명되는 종속 변수 \( y \)의 변동을 나타냅니다. 회귀 제곱합은 각 데이터 포인트의 모델 예측값과 평균값 간의 차이를 제곱하여 합한 값입니다.

$ \text{SSR} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $

여기서:

- $ \hat{y}_i $는 회귀 모델의 예측값입니다.
- $ \bar{y} $는 종속 변수 $ y $의 평균값입니다.

따라서 $ R^2 $는 회귀 모델이 종속 변수의 변동 중에서 설명 가능한 비율을 나타내는 지표로, 분모가 SST(총 제곱합)이고 분자가 SSR(회귀 제곱합)입니다.


--------------

$ \text{VIF(독립 변수 } X_i) = \frac{1}{1 - R_{X_i}^2} $

여기서:

- $ \text{VIF(독립 변수 } X_i) $는 독립 변수 $ X_i $의 VIF 값을 나타냅니다.
- $ R_{X_i}^2 $는 독립 변수 $ X_i $를 나머지 독립 변수로 회귀한 $ R^2 $ 값입니다. 이 값은 $ X_i $를 다른 독립 변수들로 예측한 결과의 설명력을 나타냅니다.


--------------

위의 과정을 이해했다면 VIF는 SST/SSR 임을 알수있다.             
위의 과정을 완벽히 이해하기 위해선 뒤의 OLS에 대한 고찰이 필요하므로 지금은 그저,           
$R^2$가 클수록 설명력이 높아지고 이가 VIF값과 비례한다고 이해해두자.

### 실습

In [1]:
import pandas as pd
import pca
import numpy as np
D=pd.read_excel("https://data.hossam.kr/E04/diamonds.xlsx")
data=pd.DataFrame(D)
clarity_rank='FL>IF>VVS1>VVS2>VS1>VS2>SI1>SI2>I1>I2>I3'
clarity_rank=clarity_rank.split(">")
clarity_rank={y:len(clarity_rank)-x for x,y in enumerate(clarity_rank)}
numeric=['carat','x','y','z','depth','table']
target="price"
category={'cut',"clarity",'color'}

In [2]:
import statsmodels.api as sm

In [6]:
VIF=[]
for col in numeric:
    other=[x for x in numeric if x!=col]
    vif_ols=sm.OLS(endog=data[col],exog=data[other]).fit()
    r_2=vif_ols.rsquared
    VIF.append({'X':col,'VIF':1/(1-r_2)})

In [9]:
pd.DataFrame(VIF)

Unnamed: 0,X,VIF
0,carat,70.132799
1,x,1284.949828
2,y,530.998218
3,z,540.677349
4,depth,515.146274
5,table,500.595341


#### VIF 값이 5이상일 경우 다중공선성을 의심해야한다