### Hyper Parameter Tuning
- hyper parameter: 모델 설정과 관련해 직접 지정할 수 있는 매개변수
- model parameter: 회귀계수(가중치), 절편 등 모델의 학습 대상이 되는 변수

##### GridSearchCV

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

In [None]:
iris_input, iris_target = load_iris(return_X_y=True)

knn = KNeighborsClassifier()

params = {
    'n_neighbors': range(1, 13, 2), #1, 3, 5, 7, 9, 11

}
# 테스트할 파라미터 값 저장한 dict 생성

grid = GridSearchCV(knn, params, scoring='accuracy', cv=5)
# estimator: 검증에 사용할 모델 이름
# param_grid: 테스트할 때 하이퍼 파라미터로 넣을 것들(dict형으로)
# scoring: 평가 지표. accuracy, precision, recall, f1
# cv: 검증 반복 횟수

# X, y 데이터 들어가지 않음. GridSearchCV는 하이퍼 파라미터의 변화에 따라 검증 수행하므로

grid.fit(iris_input, iris_target)
# 데이터 학습

print('최적의 파라미터:', grid.best_params_)
print('최적의 모델 객체:', grid.best_estimator_)
# 최적 파라미터로 '학습'이 된 모델 객체 반환.(.score(), .predict() 가능) cross_validate와 다른 점임

print('최적화된 점수:', grid.best_score_)
# 교차 검증 실행한 것 중 가장 높은 점수. knn.score()와 다를 수 있음
grid

최적의 파라미터: {'n_neighbors': 7}
최적의 모델 객체: KNeighborsClassifier(n_neighbors=7)
최적화된 점수: 0.9800000000000001


0,1,2
,estimator,KNeighborsClassifier()
,param_grid,"{'n_neighbors': range(1, 13, 2)}"
,scoring,'accuracy'
,n_jobs,
,refit,True
,cv,5
,verbose,0
,pre_dispatch,'2*n_jobs'
,error_score,
,return_train_score,False

0,1,2
,n_neighbors,7
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


In [16]:
best_knn = grid.best_estimator_
# best_knn.fit(iris_input, iris_target)
best_knn.score(iris_input, iris_target)
best_knn.predict(iris_input)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

##### RandomSearchCV
- 하이퍼 파라미터의 값 목록이나 값의 범위를 제공하는데, 이 범위 중에 랜덤하게 값 뽑아내 최적의 하이퍼 파라미터 조합을 찾음
    - 탐색 범위가 넓을 때 '짧은 시간' 내 좋은 결과 얻을 수 있음
    - 랜덤하게 값을 추출해 계산하므로 전역 최적값 놓칠 수 있음

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# 모델 생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 생성
params = {
    'n_neighbors': range(1, 1000, 2)
}
rd_search = RandomizedSearchCV(knn, params, cv=5, n_iter=10, random_state=0)
# esimator: 검증할 모델 객체
# param_distribution: 하이퍼 파라미터 dictionary
# n_iter: 탐색할 최적의 하이퍼 파라미터 조합 개수. 기본값은 10.
        # 이 값이 클수록 오래 걸림 (탐색할 게 많으므로) 값이 낮을수록 최적 조합 찾을 가능성 저하
        # 딕셔너리로 넘긴 하이퍼 파라미터는 500개여도 열 번만 수행
rd_search.fit(iris_input, iris_target)

print('최적 파라미터:', rd_search.best_params_)
print('최적 모델 객체:', rd_search.best_estimator_)
print('최적화된 성능 점수:', rd_search.best_score_)
# 최적 파라미터: {'n_neighbors': 31}
# 최적 모델 객체: KNeighborsClassifier(n_neighbors=31)
# 최적화된 성능 점수: 0.9333333333333332

# 위의 n_neighbors = 7이 더 성능이 높음. 그러나 n_iters=10이므로 찾지 못했음

최적 파라미터: {'n_neighbors': 31}
최적 모델 객체: KNeighborsClassifier(n_neighbors=31)
최적화된 성능 점수: 0.9333333333333332


Traceback (most recent call last):
  File "c:\Users\Playdata\AppData\Local\anaconda3\envs\ml_env\Lib\site-packages\sklearn\model_selection\_validation.py", line 942, in _score
    scores = scorer(estimator, X_test, y_test, **score_params)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\Playdata\AppData\Local\anaconda3\envs\ml_env\Lib\site-packages\sklearn\metrics\_scorer.py", line 492, in __call__
    return estimator.score(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\Playdata\AppData\Local\anaconda3\envs\ml_env\Lib\site-packages\sklearn\neighbors\_classification.py", line 446, in score
    return super().score(X, y, sample_weight)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\Playdata\AppData\Local\anaconda3\envs\ml_env\Lib\site-packages\sklearn\base.py", line 548, in score
    return accuracy_score(y, self.predict(X), sample_weight=sample_weight)
                             ^^^^^^^^^^^^^^^
  File "c:\U

In [None]:
cv_dict = rd_search.cv_results_
cv_dict
# 어떤 하이퍼 파라미터 10개를 선정해서 검증했는지, 시간은 얼마나 걸렸는지 등을 딕셔너리 형태로 반환

{'mean_fit_time': array([0.00040092, 0.00040364, 0.00019975, 0.        , 0.0003994 ,
        0.00039592, 0.0006001 , 0.00020008, 0.00039988, 0.        ]),
 'std_fit_time': array([0.00049104, 0.00049439, 0.00039949, 0.        , 0.00048916,
        0.00048494, 0.00048998, 0.00040016, 0.00048975, 0.        ]),
 'mean_score_time': array([0.0007997 , 0.00040255, 0.00059772, 0.00059695, 0.00020008,
        0.0011694 , 0.00039988, 0.00039988, 0.00040011, 0.00100346]),
 'std_score_time': array([3.99854767e-04, 4.93270227e-04, 4.88259550e-04, 4.87443281e-04,
        4.00161743e-04, 3.29536409e-04, 4.89745640e-04, 4.89745664e-04,
        4.90037926e-04, 7.57165758e-06]),
 'param_n_neighbors': masked_array(data=[181, 509, 567, 891, 923, 31, 633, 979, 319, 307],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value=999999),
 'params': [{'n_neighbors': 181},
  {'n_neighbors': 509},
  {'n_neighbors': 567},
  {'n_neighbors': 

---
##### HyperOpt
- 자동 파라미터 튜닝 라이브러리 (알아서 최적 파라미터 찾아줌)
- 베이지안 정리 -> 베이지안 최적화 기법으로 사용
- 베이지안 최적화: 고비용의 black-box 함수를 최소화하기 위한 탐색 알고리즘. 최소한의 시도로 최적 값을 찾는 게 목표임

https://hyperopt.github.io/hyperopt/tutorials/01.BasicTutorial/#01-basic-tutorial

**hyper.hp클래스**
<table border="1">
  <thead>
    <tr>
      <th>함수명</th>
      <th>설명</th>
      <th>사용 방법</th>
      <th>예시 코드</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>hp.uniform</td>
      <td>연속적인 실수 값 샘플링</td>
      <td>hp.uniform(label, low, high)</td>
      <td><code>hp.uniform('learning_rate', 0.01, 0.1)</code></td>
    </tr>
    <tr>
      <td>hp.quniform</td>
      <td>연속적이지만 일정 간격(q)을 갖는 값 샘플링</td>
      <td>hp.quniform(label, low, high, q)</td>
      <td><code>hp.quniform('num_layers', 1, 5, 1)</code></td>
    </tr>
    <tr>
      <td>hp.loguniform</td>
      <td>로그 스케일로 분포된 실수 값 샘플링</td>
      <td>hp.loguniform(label, low, high)</td>
      <td><code>hp.loguniform('reg_param', -3, 0)</code></td>
    </tr>
    <tr>
      <td>hp.randint</td>
      <td>정수 값 샘플링</td>
      <td>hp.randint(label, upper)</td>
      <td><code>hp.randint('num_trees', 1, 100)</code></td>
    </tr>
    <tr>
      <td>hp.choice</td>
      <td>주어진 리스트 중 임의의 값 샘플링</td>
      <td>hp.choice(label, options)</td>
      <td><code>hp.choice('optimizer', ['adam', 'sgd', 'rmsprop'])</code></td>
    </tr>
    <tr>
      <td>hp.normal</td>
      <td>정규분포에서 값 샘플링</td>
      <td>hp.normal(label, mean, std)</td>
      <td><code>hp.normal('dropout_rate', 0.3, 0.05)</code></td>
    </tr>
    <tr>
      <td>hp.lognormal</td>
      <td>로그 정규분포에서 값 샘플링</td>
      <td>hp.lognormal(label, mean, std)</td>
      <td><code>hp.lognormal('scale', 0, 1)</code></td>
    </tr>
  </tbody>
</table>

In [1]:
!pip install hyperopt

Collecting hyperopt
  Downloading hyperopt-0.2.7-py2.py3-none-any.whl.metadata (1.7 kB)
Collecting networkx>=2.2 (from hyperopt)
  Downloading networkx-3.5-py3-none-any.whl.metadata (6.3 kB)
Collecting future (from hyperopt)
  Downloading future-1.0.0-py3-none-any.whl.metadata (4.0 kB)
Collecting tqdm (from hyperopt)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Collecting cloudpickle (from hyperopt)
  Downloading cloudpickle-3.1.1-py3-none-any.whl.metadata (7.1 kB)
Collecting py4j (from hyperopt)
  Downloading py4j-0.10.9.9-py2.py3-none-any.whl.metadata (1.3 kB)
Downloading hyperopt-0.2.7-py2.py3-none-any.whl (1.6 MB)
   ---------------------------------------- 0.0/1.6 MB ? eta -:--:--
   ---------------------------------------- 1.6/1.6 MB 16.9 MB/s  0:00:00
Downloading networkx-3.5-py3-none-any.whl (2.0 MB)
   ---------------------------------------- 0.0/2.0 MB ? eta -:--:--
   ---------------------------------------- 2.0/2.0 MB 118.2 MB/s  0:00:00
Downloading cloudpick

In [None]:
from hyperopt import hp

# 검색 공간
search_space = {
    'x': hp.quniform('x', -10, 10, 1),  # -10, -9, ... , 9, 10
    'y': hp.quniform('y', -15, 15, 1)
    # x, y는 num_layers(label) = 파라미터 명으로 들어가야 할 곳
    # 즉, 'x'의 value는 x라는 label로 -10~10까지 갖고 있음
}

In [11]:
import hyperopt

# 목적 함수 (최적화할 목표 함수) 생성
def objective(search_space):
    x = search_space['x']
    y = search_space['y']
    
    return {
        'loss': x**2 + 20 * y,
        'status': hyperopt.STATUS_OK
        # 평가가 성공적으로 수행이 되었는지 알려줌 (오류가 발생하지 않으면 STATUS OK 반환)
    } # x^2 + 20y (로스값) 다항식 함수 생성

In [None]:
from hyperopt import fmin, tpe, Trials

trials = Trials()
# 최적 하이퍼 파라미터를 탐색하는 과정을 저장하는 객체

best_var = fmin(
    fn=objective,           # 목적함수 만든 메서드 전달(로스 함수의 최솟값 찾아야 함)
    space=search_space,     # 검색 공간 (최솟값 찾아주는 공간)
    algo=tpe.suggest,       # 탐색할 때 tpe.suggest 알고리즘 사용
                                # tpe.suggest = 베이지안 최적화 적용
    max_evals=500,           # 목적 함수에서 최솟값 찾을 때 반복 횟수 500번
                                # 500개의 최솟값 찾는 게 아닌, 최솟값 찾기 시도를 500번 함
                                # x, y 파라미터 모두 검사하려면 600번
    trials = trials         # 탐색 과정 저장
)
# fmin(): 목적 함수의 최소값을 찾는 메서드
best_var
# 500번 수행 뒤 함수가 최솟값을 가질 때 x, y값 반환 (0, -15)

100%|██████████| 500/500 [00:05<00:00, 87.05trial/s, best loss: -300.0] 


{'x': np.float64(-0.0), 'y': np.float64(-15.0)}

In [None]:
# 탐색 과정에서 목적함수의 반환값을 저장 (loss함수값+실행 상태)
trials.results

# 각 loss함수값이 나왔을 때 x, y(하이퍼파라미터)에 넣은 값(500번 시도할 때 넣은 값)을 dict 형태로 저장
trials.vals

{'x': [np.float64(7.0),
  np.float64(1.0),
  np.float64(-8.0),
  np.float64(10.0),
  np.float64(-3.0),
  np.float64(-1.0),
  np.float64(2.0),
  np.float64(-0.0),
  np.float64(4.0),
  np.float64(2.0),
  np.float64(-3.0),
  np.float64(-4.0),
  np.float64(2.0),
  np.float64(2.0),
  np.float64(7.0),
  np.float64(-3.0),
  np.float64(-4.0),
  np.float64(-10.0),
  np.float64(-3.0),
  np.float64(-3.0),
  np.float64(-9.0),
  np.float64(-6.0),
  np.float64(-7.0),
  np.float64(-6.0),
  np.float64(-6.0),
  np.float64(-6.0),
  np.float64(-10.0),
  np.float64(-6.0),
  np.float64(-8.0),
  np.float64(-1.0),
  np.float64(-5.0),
  np.float64(-8.0),
  np.float64(-1.0),
  np.float64(4.0),
  np.float64(-1.0),
  np.float64(10.0),
  np.float64(7.0),
  np.float64(0.0),
  np.float64(4.0),
  np.float64(-2.0),
  np.float64(1.0),
  np.float64(6.0),
  np.float64(-2.0),
  np.float64(3.0),
  np.float64(1.0),
  np.float64(6.0),
  np.float64(-0.0),
  np.float64(-4.0),
  np.float64(9.0),
  np.float64(-2.0),
  np.float6

- hyperopt를 활용한 XGBoost 하이퍼 파라미터 튜닝

In [15]:
from xgboost import XGBClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score

In [None]:
data = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, random_state=42)

# 1. 검색 공간 생성
search_space = {
    'n_estimators': hp.quniform('n_estimators', 100, 500, 100),
    'max_depth':hp.quniform('max_depth', 3, 10, 1),
    'learning_rate':hp.uniform('learning_rate', 0.01, 0.2),     # 0.01 ~ 0.2. q(간격) 지정x, 연속적인 실수값을 임의로 고름
    'colsample_bytree':hp.uniform('colsample_bytree', 0.5, 1)
    # tree 생성할 때 사용할 '특성'의 샘플링 비율 조정
} # XGBoost에서 설정해줄 수 있는 하이퍼 파라미터 값을 저장

# 2. 목적 함수 생성
def xgb_objective(search_space):
    xgb_clf = XGBClassifier(
        n_estimators = int(search_space['n_estimators']),
        max_depth = int(search_space['max_depth']),
        # 위 두 개 하이퍼 파라미터는 정수로만 받을 수 있음. 형변환 필요

        learning_rate = search_space['learning_rate'],
        colsample_bytree = search_space['colsample_bytree']
        # 각 하이퍼 파라미터에 검색 공간 저장
    )
    mean_acc = cross_val_score(xgb_clf, X_train, y_train, scoring='accuracy', cv=3).mean()
    return {
        'loss': (-1) * mean_acc, # loss 함수 최솟값을 찾으므로 mean_acc 자체는 최댓값을 찾아야 함
        'status': hyperopt.STATUS_OK
    }

trials = Trials()

# 3. trials() + fmin()
best = fmin(
    fn=xgb_objective,
    space=search_space,
    algo=tpe.suggest,
    max_evals = 50,
    trials=trials
)
best
# best loss: -0.971830985915493 -> 97점 정도

  0%|          | 0/50 [00:00<?, ?trial/s, best loss=?]

100%|██████████| 50/50 [00:18<00:00,  2.70trial/s, best loss: -0.971830985915493] 


{'colsample_bytree': np.float64(0.5626517105133655),
 'learning_rate': np.float64(0.19986239480017942),
 'max_depth': np.float64(4.0),
 'n_estimators': np.float64(500.0)}

---
##### Optuna

trial 객체의 메서드에 의존해 수행함(샘플링함)

<table border="1">
    <thead>
        <tr>
            <th>함수명</th>
            <th>설명</th>
            <th>사용 방법</th>
            <th>예시 코드</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>suggest_uniform</td>
            <td>연속적인 실수 값 샘플링</td>
            <td>trial.suggest_uniform(name, low, high)</td>
            <td><code>trial.suggest_uniform('learning_rate', 0.01, 0.1)</code></td>
        </tr>
        <tr>
            <td>suggest_discrete_uniform</td>
            <td>연속적이지만 일정 간격(step)을 갖는 값 샘플링</td>
            <td>trial.suggest_discrete_uniform(name, low, high, step)</td>
            <td><code>trial.suggest_discrete_uniform('num_layers', 1, 5, 1)</code></td>
        </tr>
        <tr>
            <td>suggest_loguniform</td>
            <td>로그 스케일로 분포된 실수 값 샘플링</td>
            <td>trial.suggest_loguniform(name, low, high)</td>
            <td><code>trial.suggest_loguniform('reg_param', 1e-3, 1)</code></td>
        </tr>
        <tr>
            <td>suggest_int</td>
            <td>정수 값 샘플링</td>
            <td>trial.suggest_int(name, low, high, step)</td>
            <td><code>trial.suggest_int('num_trees', 1, 100)</code></td>
        </tr>
        <tr>
            <td>suggest_categorical</td>
            <td>주어진 리스트 중 임의의 값 샘플링</td>
            <td>trial.suggest_categorical(name, choices)</td>
            <td><code>trial.suggest_categorical('optimizer', ['adam', 'sgd', 'rmsprop'])</code></td>
        </tr>
        <tr>
            <td>suggest_float</td>
            <td>연속적인 실수 값 샘플링 (<code>step</code> 사용 가능)</td>
            <td>trial.suggest_float(name, low, high, step=None, log=False)</td>
            <td><code>trial.suggest_float('alpha', 0.1, 1.0, step=0.1)</code></td>
        </tr>
    </tbody>
</table>

In [2]:
!pip install optuna

Collecting optuna
  Downloading optuna-4.5.0-py3-none-any.whl.metadata (17 kB)
Collecting alembic>=1.5.0 (from optuna)
  Downloading alembic-1.16.5-py3-none-any.whl.metadata (7.3 kB)
Collecting colorlog (from optuna)
  Downloading colorlog-6.9.0-py3-none-any.whl.metadata (10 kB)
Collecting sqlalchemy>=1.4.2 (from optuna)
  Using cached sqlalchemy-2.0.43-cp312-cp312-win_amd64.whl.metadata (9.8 kB)
Collecting Mako (from alembic>=1.5.0->optuna)
  Downloading mako-1.3.10-py3-none-any.whl.metadata (2.9 kB)
Collecting greenlet>=1 (from sqlalchemy>=1.4.2->optuna)
  Using cached greenlet-3.2.4-cp312-cp312-win_amd64.whl.metadata (4.2 kB)
Downloading optuna-4.5.0-py3-none-any.whl (400 kB)
Downloading alembic-1.16.5-py3-none-any.whl (247 kB)
Using cached sqlalchemy-2.0.43-cp312-cp312-win_amd64.whl (2.1 MB)
Using cached greenlet-3.2.4-cp312-cp312-win_amd64.whl (299 kB)
Downloading colorlog-6.9.0-py3-none-any.whl (11 kB)
Downloading mako-1.3.10-py3-none-any.whl (78 kB)
Installing collected packages

In [31]:
import optuna

# 목적 함수 정의
def objective(trial):
    x=trial.suggest_uniform('x', -10, 10) # 'x'는 라벨명
    y=trial.suggest_uniform('y', -15, 15)

    return (x-3)**2 + (y+5)**2 # 임의의 loss함수 설정. 최솟값이 x=3, y=-5일 때로 나오는지 보면 됨

# 스터디 생성. = 최적화 과정을 관리하는 핵심 객체
# minimize: 최적화 시키는 것이, 반환되는 것이 return 함수를 최소화시키는('minimize') 방향으로 스터디를 할 것
study = optuna.create_study(direction='minimize')

# 최적화 실행
study.optimize(objective, n_trials=500)
# 차례로 목적 함수, 반복할 횟수(500번) 넘김
# (hyperopt의 fmin()은 best 최솟값을 반환함. 하지만 study.optimize는 반환 x)

# 결과 확인
print(study.best_value)
print(study.best_params)
# 3과 -5 근사치가 나옴!

[I 2025-09-25 16:06:06,112] A new study created in memory with name: no-name-8400c017-b239-469e-af11-11a17b710932
  x=trial.suggest_uniform('x', -10, 10) # 'x'는 라벨명
  y=trial.suggest_uniform('y', -15, 15)
[I 2025-09-25 16:06:06,112] Trial 0 finished with value: 52.62668740461417 and parameters: {'x': 2.8196848780349537, 'y': -12.252184075256563}. Best is trial 0 with value: 52.62668740461417.
[I 2025-09-25 16:06:06,112] Trial 1 finished with value: 7.379249330643109 and parameters: {'x': 3.4131306389045264, 'y': -7.684878471335611}. Best is trial 1 with value: 7.379249330643109.
[I 2025-09-25 16:06:06,117] Trial 2 finished with value: 49.25554566801907 and parameters: {'x': 4.110019216562534, 'y': 1.9298919909967545}. Best is trial 1 with value: 7.379249330643109.
[I 2025-09-25 16:06:06,120] Trial 3 finished with value: 89.76411280861431 and parameters: {'x': 8.656542684558815, 'y': -12.600502461441511}. Best is trial 1 with value: 7.379249330643109.
[I 2025-09-25 16:06:06,123] Trial 4

0.0045083209950914725
{'x': 2.99235703569182, 'y': -4.933292383555734}


In [None]:
import optuna.visualization as vis
import plotly

vis.plot_param_importances(study).show()
# 하이퍼 파라미터 중요도 시각화 내장 함수

In [None]:
vis.plot_optimization_history(study).show()
# x축은 500번 시도
# y축은 Objective Value

- Optuna를 활용한 XGBoost 하이퍼 파라미터 튜닝

In [None]:
# 1. 목적 함수 생성

def xgb_optuna_objective(trial):
    params = {
        'n_estimators' : trial.suggest_int('n_estimators', 100, 500, 100),
        'max_depth' : trial.suggest_int('max_depth', 3, 10, 1),
        'learning_rate' : trial.suggest_uniform('learning_rate', 0.01, 0.2),
        'colsample_bytree' : trial.suggest_uniform('colsample_bytree', 0.5, 1)
    }
    xgb_clf = XGBClassifier(
        **params # 딕셔너리 형태는 key값을 속성이름으로, 그 value값을 인자로 받음

        # n_estimators = trial.suggest_int('n_estimators', 100, 500, 100),
        # max_depth = trial.suggest_int('max_depth', 3, 10, 1),
        # learning_rate = trial.suggest_uniform('learning_rate', 0.02, 0.1),
        # colsample_bytree = trial.suggest_uniform('colsample_bytree', 0.5, 1)

        # 이것도 될듯??
    )

    mean_acc = cross_val_score(xgb_clf, X_train, y_train, scoring='accuracy', cv=3).mean()
    
    return mean_acc

# 2. study 객체 만들고 최적화
study = optuna.create_study(direction='maximize')
# hyperopt와 다르게 minimize 찾을 건지 maximize 찾을 건지 지정 가능
study.optimize(xgb_optuna_objective, n_trials=50)

# 결과 확인, 출력
print(study.best_value)
# 0.9741784037558686

print(study.best_params)
# {'n_estimators': 500, 'max_depth': 10, 'learning_rate': 0.18799187895664138, 'colsample_bytree': 0.5031793942770102}

[I 2025-09-25 16:36:44,224] A new study created in memory with name: no-name-4f64c071-2594-4dcf-a07a-9c928c033e82

suggest_int() got {'step'} as positional arguments but they were expected to be given as keyword arguments.
Positional arguments ['self', 'name', 'low', 'high', 'step', 'log'] in suggest_int() have been deprecated since v3.5.0. They will be replaced with the corresponding keyword arguments in v5.0.0, so please use the keyword specification instead. See https://github.com/optuna/optuna/releases/tag/v3.5.0 for details.


suggest_int() got {'step'} as positional arguments but they were expected to be given as keyword arguments.
Positional arguments ['self', 'name', 'low', 'high', 'step', 'log'] in suggest_int() have been deprecated since v3.5.0. They will be replaced with the corresponding keyword arguments in v5.0.0, so please use the keyword specification instead. See https://github.com/optuna/optuna/releases/tag/v3.5.0 for details.


suggest_uniform has been deprecated in 

0.9741784037558686
{'n_estimators': 500, 'max_depth': 10, 'learning_rate': 0.18799187895664138, 'colsample_bytree': 0.5031793942770102}


##### HyperOpt vs Optuna
- hyperopt
{'colsample_bytree': np.float64(0.5626517105133655),
 'learning_rate': np.float64(0.19986239480017942),
 'max_depth': np.float64(4.0),
 'n_estimators': np.float64(500.0)}

- optuna
 {'n_estimators': 500,
 'max_depth': 10,
 'learning_rate': 0.18799187895664138,
 'colsample_bytree': 0.5031793942770102}

In [None]:
from sklearn.metrics import accuracy_score

xgb_hpopt = XGBClassifier(
    n_estimators = 500,
    max_depth= 4,
    learning_rate = 0.2,
    colsample_bytree = 0.56
)

xgb_optuna = XGBClassifier(
    n_estimators = 500,
    max_depth = 10,
    learning_rate = 0.19,
    colsample_bytree = 0.50
)

xgb_hpopt.fit(X_train, y_train)
xgb_optuna.fit(X_train, y_train)

hpopt_pred = xgb_hpopt.predict(X_test)
optuna_pred = xgb_optuna.predict(X_test)

print(f'HyperOpt 최적 파라미터 적용: {accuracy_score(y_test, hpopt_pred)}')
print(f'Optuna 최적 파라미터 적용: {accuracy_score(y_test, optuna_pred)}')


HyperOpt 최적 파라미터 적용: 0.965034965034965
Optuna 최적 파라미터 적용: 0.958041958041958
