# Lab #4 (Part 4): Optuna를 이용한 자전거 수요 예측 모델 최적화

지금까지 배운 Optuna를 사용하여 실제 데이터셋에 대한 회귀 모델의 성능을 극한까지 끌어올리는 실습을 진행해 보겠습니다.

**서울시 공공자전거(따릉이) 수요 데이터셋**을 사용하여 `XGBoost` 모델을 만들고, Optuna를 통해 최적의 하이퍼파라미터 조합을 탐색합니다.

### 과제 목표
1. `서울 따릉이` 데이터를 로드하고 기본적인 전처리를 수행합니다.
2. Optuna의 `objective` 함수를 정의하여 `XGBRegressor` 모델의 하이퍼파라미터를 튜닝합니다.
3. 최적화의 목표는 **RMSE (Root Mean Squared Error)를 최소화**하는 것입니다.
4. 최적화가 끝난 후, 결과를 분석하고 시각화를 통해 탐색 과정을 이해합니다.

In [None]:
# 필요한 라이브러리 임포트
import pandas as pd
import numpy as np
import xgboost as xgb
import optuna

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

# ---------------------------------------------------
# 1. 데이터 로드 및 준비 (Data Loading and Preparation)
# ---------------------------------------------------
# 데이터셋 경로
path = '../../datasets/ml/bike-sharing/SeoulBikeData.csv'

# 데이터 로드 (원본 데이터 인코딩이 'latin1'으로 되어있음)
df = pd.read_csv(path, encoding='cp949')

# 특성(X)과 타겟(y) 분리
# 'Date', 'Functioning Day' 컬럼은 분석에서 제외
# 'Rented Bike Count'가 타겟 변수
X = df.drop(columns=['Date', 'Rented Bike Count', 'Functioning Day'])
y = df['Rented Bike Count']

# 범주형 변수를 원-핫 인코딩으로 변환
X = pd.get_dummies(X, columns=['Seasons', 'Holiday'], drop_first=True)

print("데이터 준비 완료!")
print("X shape:", X.shape)
print("y shape:", y.shape)

### 2. Objective 함수 정의

XGBoost 회귀 모델(`xgb.XGBRegressor`)의 성능(RMSE)을 평가하고 반환하는 `objective` 함수를 작성합니다.

**튜닝할 하이퍼파라미터:**
- `n_estimators`: 트리의 개수 (100 ~ 2000)
- `max_depth`: 트리의 최대 깊이 (3 ~ 10)
- `learning_rate`: 학습률 (0.01 ~ 0.3, 로그 스케일)
- `subsample`: 각 트리를 훈련할 때 사용하는 데이터 샘플의 비율 (0.6 ~ 1.0)
- `colsample_bytree`: 각 트리를 훈련할 때 사용하는 피처(컬럼)의 비율 (0.6 ~ 1.0)
- `gamma`: 리프 노드를 추가적으로 분할하기 위한 최소 손실 감소 값 (0 ~ 5)

In [None]:
# [문제 1] Objective 함수를 정의하세요.
def objective(trial):
    # --- 하이퍼파라미터 탐색 공간 정의 ---
    params = {
       # 작성
    }
    
    # XGBoost 모델 생성
    model = ?
    
    # 3-Fold 교차 검증 설정
    kf = ?
    
    # 교차 검증 수행 (scoring='neg_root_mean_squared_error')
    scores = ?
    
    # 교차 검증 점수의 평균을 계산하고, RMSE를 반환 (scores는 음수 값이므로 양수로 변환)
    rmse = ?
    
    return rmse

### 3. 최적화 실행 및 결과 확인

In [None]:
# [문제 2] Optuna Study 객체를 생성하세요.
# RMSE를 '최소화'하는 것이 목표입니다.

# [문제 3] 최적화를 100번의 trial로 실행하세요.
# 시간이 오래 걸릴 수 있습니다. (50번으로 줄여서 테스트해도 좋습니다.)

# [문제 4] 최적화 결과를 출력하세요.

### 4. 결과 분석 및 시각화

In [None]:
# [문제 5] 최적화 과정을 보여주는 'Optimization History' 그래프를 그리세요.
from optuna.visualization import plot_optimization_history


In [None]:
# [문제 6] 하이퍼파라미터들의 중요도를 보여주는 'Parameter Importances' 그래프를 그리세요.
from optuna.visualization import plot_param_importances


### 🌟 [심화 문제] 결과 분석 및 해석

위에서 생성된 `Parameter Importances` 그래프를 보고, 서울 따릉이 수요 예측 모델의 성능에 가장 큰 영향을 미치는 하이퍼파라미터 상위 3개를 순서대로 나열하고, 그 이유를 자신만의 언어로 간단히 설명해보세요.

>자유롭게 작성하세요