# Hyper Parameter Tuning
- hyper parameter: 모델 설정과 관련해 직접 지정할 수 있는 매개변수
- model parameter: 회귀계수(가중치), 절편 등 모델의 학습 대상이 되는 변수

최적의 파라미터를 찾는거기 때문에 cross_validation과 다르게 train_test_split을 하지 않고 모델을 수행함

### GridSearchCV

In [None]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

# 데이터 로드
iris_input, iris_target = load_iris(return_X_y=True)

# 모델 생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 값
params = {
    'n_neighbors': range(1,13,2)
}

# 첫 번째 인자: 모델
# 두 번째 인자: 테스트 할 파라미터 (딕셔너리)
# scoring: 평가 지표 (accuracy, precision, recall, f1)
# cv: 반복 횟수
grid = GridSearchCV(knn, params, scoring='accuracy', cv=5)
grid.fit(iris_input, iris_target)

print('최적의 파라미터: ', grid.best_params_)
print('최적의 모델 객체: ', grid.best_estimator_)
print('최적화된 점수: ', grid.best_score_)

최적의 파라미터:  {'n_neighbors': 7}
최적의 모델 객체:  KNeighborsClassifier(n_neighbors=7)
최적화된 점수:  0.9800000000000001


In [2]:
best_knn = grid.best_estimator_
best_knn.score(iris_input, iris_target)

0.9733333333333334

### RandomSearchCV
- 하이퍼 파라미터의 값 목록이나 값의 범위를 제공하는데, 이 범위 중에 랜덤하게 값을 뽑아내 최적의 하이퍼 파라미터 조합을 찾는다.
    - 탐색범위가 넓을 때 짧은 시간 내에 좋은 결과를 얻을 수 있다.
    - 랜덤하게 값을 추출해 계산하므로, 전역 최적값을 놓칠 수 있다.

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# 모델 생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 생성
params = {
    'n_neighbors': range(1,100,2) # RandomSearchCV는 랜덤하게 뽑아서 범위를 넓게 줘도 괜찮음 / but, GridSearchCV는 아님
}

# n_iter: 탐색할 최적의 하이퍼 파라미터 조합 수 (기본 값: 10)
#         값이 크면 시간이 오래 걸림 / 값이 작으면 좋은 조합을 찾을 가능성 저하
rd_search = RandomizedSearchCV(knn, params, cv=5, n_iter=10, random_state=0) 
rd_search.fit(iris_input, iris_target)

print('최적의 파라미터: ', rd_search.best_params_) # gridsearchcv에서는 최적의 파라미터로 7을 반환했지만 randomsearchcv에서는 5를 최적으로 뽑아냄
print('최적의 모델 객체: ', rd_search.best_estimator_)
print('최적화된 점수: ', rd_search.best_score_)
rd_search.cv_results_ # 탐색한 모든 조합에 대한 정보를 담고 있음

최적의 파라미터:  {'n_neighbors': 5}
최적의 모델 객체:  KNeighborsClassifier()
최적화된 점수:  0.9733333333333334


{'mean_fit_time': array([0.00059729, 0.0002027 , 0.00020003, 0.0002727 , 0.00086789,
        0.00039921, 0.        , 0.00080962, 0.00020046, 0.00059538]),
 'std_fit_time': array([0.00048769, 0.00040541, 0.00040007, 0.00039686, 0.00027139,
        0.00048893, 0.        , 0.00040494, 0.00040092, 0.00048618]),
 'mean_score_time': array([0.00200243, 0.00159798, 0.00199594, 0.00569096, 0.00120521,
        0.00185823, 0.00631213, 0.00512843, 0.00180297, 0.00131216]),
 'std_score_time': array([6.29411527e-04, 7.96373068e-04, 1.15228960e-05, 8.17630266e-04,
        3.87694621e-04, 4.43620985e-04, 7.55811956e-04, 1.21289702e-03,
        4.01567597e-04, 4.07567551e-04]),
 'param_n_neighbors': masked_array(data=[57, 23, 21, 83, 5, 55, 77, 63, 45, 9],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value=999999),
 'params': [{'n_neighbors': 57},
  {'n_neighbors': 23},
  {'n_neighbors': 21},
  {'n_neighbors': 83},
  {'n_nei