# Hyper Parameter Tuning
- hyper parameter : 모델 설정과 관련해 직접 지정할 수 있는 매개변수
- model parameter : 회귀계수(가중치), 절편 등 모델의 학습 대상이 되는 변수

### GridSearchCV

In [30]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

# 데이터 로드 
iris_input, iris_target = load_iris(return_X_y=True)

# 모델 생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 값
params = {
    'n_neighbors': range(1, 13, 2),
}

# 첫 번쩨 인자: 모델
# 두 번쩨 인자: 데트스 할 파라미터 (딕셔너리)
# scoring: 평가 지표 (accuracy, precision, recall, f1)
# cv: 반복 횟수
grid = GridSearchCV(knn, params, scoring='accuracy', cv=5)
grid.fit(iris_input, iris_target)

print("최적의 파라미터:", grid.best_params_)
print("최적의 모델 객체:", grid.best_estimator_)
print("최적회된 점수:", grid.best_score_)

최적의 파라미터: {'n_neighbors': 7}
최적의 모델 객체: KNeighborsClassifier(n_neighbors=7)
최적회된 점수: 0.9800000000000001


In [31]:
best_knn = grid.best_estimator_
best_knn.fit(iris_input, iris_target)
best_knn.score(iris_input, iris_target)

0.9733333333333334

### RandomSearchCV
- 하이퍼 파라미터의 값 목록이나 값의 범위를 제공하는데, 이 범위 중에 랜덤하게 값을 뽑아내 최적의 하이퍼 파라미터 조합을 찾는다
    - 탐색 범위가 넓을 때 짧은 시간 내에 좋은 결과를 얻을 수 있다.
    - 랜덤하게 값을 추출해 계산하므로, 전역 최적값을 놓칠 수 있다.

In [51]:
from sklearn.model_selection import RandomizedSearchCV

# 모델 생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 생성
params = {
    'n_neighbors': range(1, 100, 2)
}

# n_iter: 탐색할 최적의 하이퍼 파라미터 조합 수 (기본값: 10) 값이 크면 시간이 오래 걸림, 값이 작으면 좋은 조합을 찾을 가능성 저하
rd_search = RandomizedSearchCV(knn, params, cv=5, n_iter=10, random_state=0)
rd_search.fit(iris_input, iris_target)

print("최적의 파라미터:", rd_search.best_params_)
print("최적의 모델 객체:", rd_search.best_estimator_)
print("최적회된 점수:", rd_search.best_score_)
rd_search.cv_results_

최적의 파라미터: {'n_neighbors': 5}
최적의 모델 객체: KNeighborsClassifier()
최적회된 점수: 0.9733333333333334


{'mean_fit_time': array([0.00049849, 0.00035334, 0.00031004, 0.00019741, 0.00039988,
        0.00025601, 0.00021653, 0.00020027, 0.00026498, 0.00022898]),
 'std_fit_time': array([1.97860555e-04, 1.38164420e-04, 6.85552880e-05, 1.68877115e-05,
        2.40187113e-04, 2.81658632e-05, 2.16020390e-05, 2.02310492e-05,
        4.56143034e-05, 2.07687627e-05]),
 'mean_score_time': array([0.00194736, 0.00133886, 0.00109129, 0.00091672, 0.00143204,
        0.00111513, 0.00130959, 0.0020215 , 0.00106001, 0.00089626]),
 'std_score_time': array([6.80842472e-04, 2.87057736e-04, 1.01633497e-04, 1.46928145e-04,
        5.45483444e-04, 8.23038616e-05, 4.24039716e-04, 2.19390998e-03,
        1.18403957e-04, 3.18812625e-05]),
 'param_n_neighbors': masked_array(data=[57, 23, 21, 83, 5, 55, 77, 63, 45, 9],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value=999999),
 'params': [{'n_neighbors': 57},
  {'n_neighbors': 23},
  {'n_n