In [4]:
import pandas as pd
import pickle
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score, KFold
from sklearn.metrics import mean_squared_error

# df_selected_05.pkl 파일 불러오기
with open('df_selected_05.pkl', 'rb') as f:
    df = pickle.load(f)

print("데이터프레임 로드 완료")
print(f"데이터프레임 형태: {df.shape}")
print(f"컬럼: {list(df.columns)}")

# X, y 분리 (SalePrice를 y로, 나머지를 X로)
y = df['SalePrice']
X = df.drop('SalePrice', axis=1)

print(f"\nX 형태: {X.shape}")
print(f"y 형태: {y.shape}")

# RandomForestRegressor 모델 생성
rf_model = RandomForestRegressor(random_state=42)

# KFold 교차검증 설정 (random_state로 재현가능성 보장)
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# 5-fold 교차검증으로 R² 스코어 계산
r2_scores = cross_val_score(rf_model, X, y, cv=kfold, scoring='r2')

# 5-fold 교차검증으로 RMSE 계산 (neg_mean_squared_error를 사용하고 루트를 씌움)
mse_scores = cross_val_score(rf_model, X, y, cv=kfold, scoring='neg_mean_squared_error')
rmse_scores = np.sqrt(-mse_scores)  # 음수를 양수로 변환 후 루트

# 평균과 표준편차 계산
r2_mean = r2_scores.mean()
r2_std = r2_scores.std()
rmse_mean = rmse_scores.mean()
rmse_std = rmse_scores.std()

# 결과 출력
print("\n=== 5-fold 교차 검증 결과 (수정됨) ===")
print(f"R² 평균: {r2_mean:.4f} (±{r2_std:.4f})")
print(f"RMSE 평균: {rmse_mean:.4f} (±{rmse_std:.4f})")
print()


데이터프레임 로드 완료
데이터프레임 형태: (1460, 16)
컬럼: ['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea', 'TotalBsmtSF', '1stFlrSF', 'TotRmsAbvGrd', 'EffectiveAge', 'Quality_x_Area', 'AvgRoomSize', 'IsNewBuild', 'TotalSF', 'GarageRatio', 'SalePrice', 'AboveGradeBath', 'BasementBath']

X 형태: (1460, 15)
y 형태: (1460,)

=== 5-fold 교차 검증 결과 (수정됨) ===
R² 평균: 0.8335 (±0.0475)
RMSE 평균: 0.1605 (±0.0183)

