# Hyper Parameter Tuning
- hyper parameter: 모델 설정과 관련해 직접 지정할 수 있는 매개변수
- model parameter: 회귀계수(가중치), 절편 등 모델의 학습 대상이 되는 변수

### GridSearchCV


In [2]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

# 데이터 로드
iris_input, iris_target = load_iris(return_X_y=True)

# 모델 생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 값
params = {
    'n_neighbors': range(1, 13, 2)

}

# 첫 번째 인자: 모델
# 두 번째 인자: 테스트 할 파라미터 (딕셔너리)
# scoring: 평가 지표 (accuracy, precision, recall, f1)
# cv: 반복 횟수 (KFold 사용, StratifiedKFold 객체 전달 가능)
grid = GridSearchCV(knn, params, scoring='accuracy', cv=5)
grid.fit(iris_input, iris_target)

print('최적의 파라미터:', grid.best_params_)
print('최적화된 모델 객체:', grid.best_estimator_)
print('최적화된 점수:', grid.best_score_)

최적의 파라미터: {'n_neighbors': 7}
최적화된 모델 객체: KNeighborsClassifier(n_neighbors=7)
최적화된 점수: 0.9800000000000001


In [6]:
best_knn = grid.best_estimator_
best_knn.fit(iris_input, iris_target)
best_knn.score(iris_input, iris_target)

0.9733333333333334

### RandomSearchCV
- 하이퍼 파라미터의 값 목록이나 값의 범위를 제공하는데, 이 범위 중에 랜덤하게 값을 뽑아내 최적의 하이퍼 파라미터 조합을 찾는다.
    - 탐색범위가 넓을 때 짧은 시간 내에 좋은 결과를 얻을 수 있다.
    - 랜덤하게 값을 추출해 계산하므로, 전역 최적값을 놓칠 수 있다.

In [13]:
from sklearn.model_selection import RandomizedSearchCV

# 모델 생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 생성
params = {
    'n_neighbors': range(1, 100, 2)  
}

# n_iter: 탐색할 최적의 하이퍼 파라미터 조합 수 (기본값: 10)
#         값이 크면 시간이 오래 걸림 / 값이 작으면 좋은 조합을 찾을 가능성 저하
rd_search = RandomizedSearchCV(knn, params, cv=5, n_iter=10, random_state=0)
rd_search.fit(iris_input, iris_target)

print('최적의 파라미터:', rd_search.best_params_)
print('최적화된 모델 객체:', rd_search.best_estimator_)
print('최적화된 파라미터:', rd_search.best_score_)
rd_search.cv_results_

최적의 파라미터: {'n_neighbors': 5}
최적화된 모델 객체: KNeighborsClassifier()
최적화된 파라미터: 0.9733333333333334


{'mean_fit_time': array([0.00213451, 0.00148311, 0.00113363, 0.00073957, 0.00088325,
        0.00084624, 0.00073595, 0.00056086, 0.00091352, 0.00120234]),
 'std_fit_time': array([1.07011339e-03, 5.53965568e-04, 4.77025648e-04, 7.47286135e-05,
        1.11443240e-04, 1.07890200e-04, 1.08281876e-04, 7.36803062e-05,
        4.15464869e-04, 4.38836193e-04]),
 'mean_score_time': array([0.02144499, 0.00603199, 0.00366731, 0.00576982, 0.00403595,
        0.0037478 , 0.00173054, 0.00135336, 0.00635309, 0.00423179]),
 'std_score_time': array([0.02459496, 0.00201009, 0.00030425, 0.00568976, 0.00012878,
        0.00027153, 0.00034993, 0.00010212, 0.00557038, 0.00091731]),
 'param_n_neighbors': masked_array(data=[57, 23, 21, 83, 5, 55, 77, 63, 45, 9],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value=999999),
 'params': [{'n_neighbors': 57},
  {'n_neighbors': 23},
  {'n_neighbors': 21},
  {'n_neighbors': 83},
  {'n_nei