In [1]:
# 다중공선성
# 독립변수들이 서로 거의 선형적으로 종속되어 있는 상태
# 예를 들어, 변수 A와 B가 거의 완벽히 비례한다면 둘 다 동시에 회귀식에 들어가면 문제가 생김
# 다중공선성이 있으면 회귀계수 추정이 불안정해지고, 해석이 어려워짐
# 분산이 커지고, 회귀계수의 신뢰구간이 넓어져서 통계적 유의성이 떨어질 수 있음

# 문제점
# 계수 추정치가 매우 불안정
# 예측 성능에는 큰 문제 없을 수도 있지만, 변수별 영향 해석이 어려움
# 모델의 해석력을 떨어뜨림

# 진단 방법
# VIF(분산팽창계수, Variance Inflation Factor)
# VIF가 10 이상이면 다중공선성이 높다고 판단
# 상관계수 행렬을 보고 독립변수들 간 강한 상관이 있는지 확인

# 해결방법
# AutoEncoder를 사용하여 차원을 줄인다. (비지도 신경망)
# 해당 변수를 제거한다.
# Lasso 모델을 사용한다. (일부 계수를 0으로 만들어서 변수 선택 효과가 있음.)

# 이상치 제거는 다중공선성과 무관. 변수 간의 상관관계를 없애지는 못함.

In [2]:
import numpy as np
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
import statsmodels.api as sm

# 샘플 데이터 생성
np.random.seed(0)
X1 = np.random.normal(0, 1, 100)
X2 = 3*X1 + np.random.normal(0, 0.1, 100)  # X1과 강한 선형관계
X3 = np.random.normal(0, 1, 100)

df = pd.DataFrame({'X1': X1, 'X2': X2, 'X3': X3})

# 상관계수 확인
print("상관계수 행렬:")
print(df.corr())

# VIF 계산 함수
def calculate_vif(df):
    vif_data = pd.DataFrame()
    vif_data["feature"] = df.columns
    vif_data["VIF"] = [variance_inflation_factor(df.values, i) for i in range(df.shape[1])]
    return vif_data

print("\nVIF 결과:")
print(calculate_vif(df))

# 간단한 회귀분석
X = sm.add_constant(df)
y = 2*X1 + 1.5*X3 + np.random.normal(0, 1, 100)  # 종속변수 생성

model = sm.OLS(y, X).fit()
print("\n회귀분석 결과 요약:")
print(model.summary())

상관계수 행렬:
          X1        X2        X3
X1  1.000000  0.999427  0.076116
X2  0.999427  1.000000  0.077692
X3  0.076116  0.077692  1.000000

VIF 결과:
  feature         VIF
0      X1  872.544357
1      X2  872.724327
2      X3    1.007086

회귀분석 결과 요약:
                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.888
Model:                            OLS   Adj. R-squared:                  0.885
Method:                 Least Squares   F-statistic:                     254.2
Date:                Sun, 22 Jun 2025   Prob (F-statistic):           1.58e-45
Time:                        20:11:42   Log-Likelihood:                -133.20
No. Observations:                 100   AIC:                             274.4
Df Residuals:                      96   BIC:                             284.8
Df Model:                           3                                         
Covariance Type:            nonrobust 

  return ptp(axis=axis, out=out, **kwargs)
