## 상관 행렬 계산

상관 행렬을 보며 상관 계수가 높은 column을 1개만 남기고 제거하여 ML시 효율적으로 train 할 수 있도록 함

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# CSV 파일 불러오기
df = pd.read_csv('processed_baseball_2021_encoding.csv')

# 상관행렬 계산 (숫자형 데이터만)
correlation_matrix = df.corr(numeric_only=True)

# 히트맵 시각화
plt.figure(figsize=(20, 15))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Correlation Matrix of Baseball Data')
plt.tight_layout()
plt.show()

## 다중공선성 계산

In [None]:
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

# CSV 파일 불러오기
df = pd.read_csv('processed_baseball_2021_encoding.csv')

# 숫자형 변수만 선택
numeric_df = df.select_dtypes(include=['float64', 'int64']).dropna()

# 상수항 추가
X = add_constant(numeric_df)

# VIF 계산
vif_data = pd.DataFrame()
vif_data['feature'] = X.columns
vif_data['VIF'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

# 결과 출력
print(vif_data)