In [29]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.impute import SimpleImputer

In [31]:
# 1. 데이터 불러오기 및 전처리
# 엑셀 파일 내 날짜 열은 1월 1일부터 12월 31일까지 있으므로 인덱스로 사용
data = pd.read_excel("test1.xlsx", index_col="Date")
target_col = "종묘"

# 휴관일 (관광객수가 0인 날)은 제거
data = data[data[target_col] != 0]

# 불필요한 열 제거 (예: 'Unnamed: 1' 같은 빈 열)
if 'Unnamed: 1' in data.columns:
    data = data.drop(columns=['Unnamed: 1'])

# 피처와 타깃 분리 (날짜 인덱스는 별도로 사용하지 않음)
X = data.drop(columns=[target_col])
y = data[target_col]

# 데이터 분할 (학습: 80%, 테스트: 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 결측치 처리: SimpleImputer를 사용해 평균값으로 대체
imputer = SimpleImputer(strategy='mean')
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)

In [33]:
# 2. 단일 랜덤포레스트 모델 학습
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)

In [35]:
# 3. 평가
pred_rf = rf_model.predict(X_test)
mse_rf = mean_squared_error(y_test, pred_rf)
mae_rf = mean_absolute_error(y_test, pred_rf)
r2_rf = r2_score(y_test, pred_rf)

print("RandomForest MSE:", mse_rf)
print("RandomForest MAE:", mae_rf)
print("RandomForest R²:", r2_rf)

RandomForest MSE: 699841.337363492
RandomForest MAE: 647.9611111111111
RandomForest R²: -0.4763014195227768
