# 상관관계
- 상관관계가 높다는 것은 두 변수 간의 값이 서로 강하게 연관되어 변화할 때를 의미
- 상관계수: pandas 라이브러리에서 corr() 함수를 사용해 상관계수를 구할 수 있다.
- 상관행렬: pandas 라이브러리에서 corr() 함수를 사용해 상관계수를 구할 수 있다.
- 분산 팽창 계수: statsmodels 라이브러리의 variance_inflation_factor 함수를 사용하여 VIF를 계산할 수 있다.(보통 회귀 모델의 입력변수에 대해 VIF를 계산.), 필요시 VIF값을 가진 변수를 제거해 다중공선성을 해결

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 데이터프레임 생성
df = pd.DataFrame(data)

# 상관계수 계산
corr_matrix = df.corr()

# 히트맵 시각화
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm")
plt.show()


In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.preprocessing import StandardScaler

# 데이터를 스케일링하고 VIF 계산
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df)
vif = [variance_inflation_factor(X_scaled, i) for i in range(X_scaled.shape[1])]

# VIF 결과 보기
vif_data = pd.DataFrame({"Feature": df.columns, "VIF": vif})
print(vif_data)
