In [14]:
import warnings
warnings.filterwarnings('ignore')

# Hyper Parameter Tuning
- hyper parameter: 모델설정과 관련해 직접 지정가능한 매개변수
- model parameter: 가중치, 절편 등 모델의 학습 대상이 되는 변수

### GridSearchCV

In [None]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

iris_input, iris_target = load_iris(return_X_y = True)

knn = KNeighborsClassifier()

params={
    'n_neighbors': range(1, 13, 2)
}

# 첫번째 인자: 모델
# 두번째 인자: 테스트 할 파라미터 (딕셔너리)
# scoring: 평가지표(accuracy, precision, recall, f1)
# cv: 반복횟수
grid = GridSearchCV(knn, params, scoring='accuracy', cv=5)
grid.fit(iris_input, iris_target)
print("최적의 파라미터: ", grid.best_params_)
print("최적화된 모델 객체: ", grid.best_estimator_)
print("최적화된 점수: ", grid.best_score_)

최적의 파라미터:  {'n_neighbors': 7}
최적화된 모델 객체:  KNeighborsClassifier(n_neighbors=7)
최적화된 점수:  0.9800000000000001


In [11]:
best_knn = grid.best_estimator_
best_knn.fit(iris_input, iris_target)
best_knn.score(iris_input, iris_target)

0.9733333333333334

###RandomSearchCV
- 하이퍼파라미터의 값 목록이나 값의 범위를 제공하는데, 이 범위 중에서 랜덤하게 값을 뽑아내 최적의 하이퍼파라미터 조합을 찾는다.
    - 탐색 범위가 넓을 때 짧은 시간 내에 좋은 결과를 얻을 수 있다.
    - 랜덤하게 값을 추출해 계산하므로, 전역 최적값을 놓칠 수 있다.

In [19]:
from sklearn.model_selection import RandomizedSearchCV

# 모델생성
knn = KNeighborsClassifier()

# 테스트할 파라미터 생성
params = {
    'n_neighbors': range(1, 1000, 2)
}

# n_iter: 탐색할 최적의 하이퍼 파라미터 조합 수
rd_search = RandomizedSearchCV(knn, params, cv=5, n_iter=10, random_state=0)
rd_search.fit(iris_input, iris_target)

print("최적의 모델: ", rd_search.best_estimator_)
print("최적의 파라미터: ", rd_search.best_params_)
print("최적의 점수: ", rd_search.best_score_)
rd_search.cv_results_

최적의 모델:  KNeighborsClassifier(n_neighbors=31)
최적의 파라미터:  {'n_neighbors': 31}
최적의 점수:  0.9333333333333332


{'mean_fit_time': array([2.00033188e-04, 2.03418732e-04, 6.91413879e-05, 2.00080872e-04,
        0.00000000e+00, 3.98492813e-04, 2.00176239e-04, 3.99684906e-04,
        1.99842453e-04, 0.00000000e+00]),
 'std_fit_time': array([0.00040007, 0.00040684, 0.00013828, 0.00040016, 0.        ,
        0.00048806, 0.00040035, 0.00048951, 0.00039968, 0.        ]),
 'mean_score_time': array([0.00039978, 0.00040021, 0.00080051, 0.00040383, 0.00046668,
        0.00100169, 0.00079966, 0.00039988, 0.00040083, 0.00100365]),
 'std_score_time': array([4.89628932e-04, 4.90154913e-04, 4.00432293e-04, 4.94634389e-04,
        4.57863886e-04, 3.01050074e-06, 3.99831781e-04, 4.89747126e-04,
        4.90915524e-04, 7.73682065e-06]),
 'param_n_neighbors': masked_array(data=[181, 509, 567, 891, 923, 31, 633, 979, 319, 307],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value=999999),
 'params': [{'n_neighbors': 181},
  {'n_neighbors': 