안녕하세요! 데이크루 1기로 활동 중인 sssssun입니다!

지금까지 매주 sklearn으로 하는 머신러닝의 기초, 데이터 스케일링, 교차검증에 대해 포스해왔습니다.

이번주는 **하이퍼 파라미터 튜닝**에 대해 공부해보았는데요.

그 중, 이번 포스팅에서는 sklearn의 하이퍼 파라미터 튜닝 모듈로 가장 유명한 **GridSearchCV** 와 **RandomSearchCV** 를 다뤄보겠습니다.

### **하이퍼 파라미터**

먼저, 하이퍼 파라미터에 대해 알아야겠죠?

머신러닝에서 하이퍼 파라미터란 간단하게 말해 <U>사용자의 입력값, 즉 우리가 설정 가능한 입력값</U>이라고 이해할 수 있습니다.

사용할 데이터에 따라 가장 적합한 모델, 그리고 그 모델의 하이퍼 파라미터값이 다릅니다.

즉, 만능의 모델, 만능의 파라미터값은 없다는 말이 되겠죠 ,,,

그래서 데이터마다 좋은 파라미터 입력값을 하나하나 찾아주는 작업이 필요한데, 이를 **하이퍼 파라미터 튜닝**이라고 합니다.

예를 들어서, 'K-최근접 이웃 알고리즘(KNN)'에서는 거리가 가까운 몇 개의 데이터를 참고할 것인지를 의미하는 'k'값을 설정할 수 있습니다. 

즉, 여기서 k가 하이퍼 파라미터가 되는 것인데 k를 3으로도 해보고, 5로도 해보고, 10으로도 해 본 다음 그 가운데 가장 좋은 k를 찾는 과정이 하이퍼 파라미터 튜닝이 되는 것이죠. 

**직접 입력값을 하나하나 넣고 결과를 도출해보기 전까지는 어떤 입력값이 좋을 지 전혀 예측할 수 없습니다.**


따라서, 머신러닝 모델을 만들 때마다 파라미터가 굉장히 많고, 어떤 값을 넣어줘야할지 고민하게 되는데요 ...

이럴 때 사용할 수 있는 모듈이 바로  **GridSearchCV** 입니다!


### **GridSearchCV**

sklearn의 모듈 GridSearchCV는 머신러닝 알고리즘에 사용되는 하이퍼 파라미터를 입력해 학습을 하고 측정을 하면서 가장 좋은 파라미터를 알려줍니다.


따라서 **실험 하려는 하이퍼파라미터와 값 범위를 지정**하기만 하면 GridSearchCV는
교차 검증을 사용하여 하이퍼파라미터 값의 가능한 모든 조합을 수행합니다.

GridSearchCV 에 목표로하는 하이퍼 파라미터 별로 리스트를 만들어 딕셔너리 형태로 파라미터 셋을 입력해주면 됩니다.

의사결정나무 알고리즘을 활용한 iris dataset의 분류 모델으로 사용법을 알아보겠습니다.

필요한 라이브러리들을 import 해주었습니다.

In [2]:
import sklearn
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [7]:
import warnings
warnings.filterwarnings('ignore')

데이터셋을 불러와서 훈련 데이터셋과 테스트 데이터셋으로 나눠줍니다.

의사결정나무 알고리즘도 객체 지정해주었습니다.

In [10]:
iris = load_iris()
label = iris.target
data = iris.data

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=1)

In [11]:
dt_clf = DecisionTreeClassifier(random_state=1)
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
accuracy = accuracy_score(y_test, pred)
print('예측 정확도 : {0:.4f}'.format(accuracy))

예측 정확도 : 0.9556


하이퍼 파라미터 튜닝 전의 정확도는 0.9556 이네요.

의사결정나무의 하이퍼 파라미터들을 출력해보았습니다.

In [6]:
print('\nDecisionTreeClassifier 하이퍼 파라미터:\n', dt_clf.get_params())


DecisionTreeClassifier 하이퍼 파라미터:
 {'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'gini', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'random_state': 1, 'splitter': 'best'}


그중 우리가 의사결정나무에서 최적의 값을 찾아낼 파라매터들은 다음과 같습니다.

- **criterion** : 분할 성능 측정 기능

- **min_samples_split** : 노드를 분할하기 위한 최소한의 샘플 데이터수로, 과적합을 제어하는데 주로 사용함. 작게 설정할 수록 분할 노드가 많아져 과적합 가능성이 높아짐.

- **max_depth** : 트리의 최대 깊이, 깊이가 깊어지면 과적합될 수 있음.

- **max_features** : 최적의 분할을 위해 고려할 최대 feature 개수 (default = None : 데이터 세트의 모든 피처를 사용)

- **min_samples_leaf** : 리프노드가 되기 위해 필요한 최소한의 샘플 데이터수 (과적합 제어 용도), 작게 설정 필요

- **max_leaf_nodes** : 리프노드의 최대 개수

파라미터별로 리스트를 만들어주었고, 파라미터 세트를 딕셔너리로 만들어주었습니다.

In [12]:
param_grid = {
    'criterion':['gini','entropy'], 
    'max_depth':[None,2,3,4,5,6], 
    'max_leaf_nodes':[None,2,3,4,5,6,7], 
    'min_samples_split':[2,3,4,5,6], 
    'min_samples_leaf':[1,2,3], 
    'max_features':[None,'sqrt','log2',3,4,5]
    }

GridSearchCV의 사용법을 알아볼까요?


**GridSearchCV 의 인자들**

- **estimator** : 보통 알고리즘을 객체로 만들어 넣어준다.

- **param_grid** : 튜닝을 위한 대상 파라미터, 사용될 파라미터를 딕셔너리 형태로 넣어준다.

- **scoring** : 예측 성능을 측정할 평가 방법을 넣는다. 분류 알고리즘일 때는, 'accuracy', 'f1',  회귀 알고리즘일 때는 'neg_mean_squared_error', 'r2' 등을 넣을 수 있다.

- **cv** : 교차 검증에서 몇개로 분할되는지 지정한다.(정수로 넣어주면 K겹 교차검증이 되고, KFold(k) 이런식으로 넣어주어도 무방 // default 값은 cv=3)

- **refit** : True로 하면 최적의 하이퍼 파라미터를 찾아서 estimator를 재학습시킨다. (default 값이 True임)

GridSearchCV 에서 cv=3을 넣어주어 5겹 교차검증을 해주었고, scoring 에는 accuracy 로 설정해주었습니다.

그리고 객체 지정을 해서 학습을 해주었습니다.



In [31]:
grid_search = GridSearchCV(dt_clf, param_grid = param_grid, cv = 5, scoring = 'accuracy', refit=True)
grid_search.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=1),
             param_grid={'criterion': ['gini', 'entropy'],
                         'max_depth': [None, 2, 3, 4, 5, 6],
                         'max_features': [None, 'sqrt', 'log2', 3, 4, 5],
                         'max_leaf_nodes': [None, 2, 3, 4, 5, 6, 7],
                         'min_samples_leaf': [1, 2, 3],
                         'min_samples_split': [2, 3, 4, 5, 6]},
             scoring='accuracy')

이제 가장 최적 하이퍼 파라미터들의 값, 최고 평균 정확도 수치를 확인해보겠습니다.

- **GridSearchCV객체.best_params_** : 최적 하이퍼 파라미터 조합

- **GridSearchCV객체.best_score_** : 최고 평균 정확도 수치

In [24]:
print('best parameters : ', grid_search.best_params_)
print('best score : ', round(grid_search.best_score_, 4))

best parameters :  {'criterion': 'gini', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_samples_leaf': 1, 'min_samples_split': 2}
best score :  0.9524


GridSearchCV 는 입력한 하이퍼 파라미터값들을 순차적으로 변경하며 학습과 평가를 수행합니다.

그리고, cv_results_ 라는 속성에 딕셔너리의 기록하게 되는데, 우리는 좀더 편하게 보기 위해 데이터프레임으로 바꾸어주었습니다.

In [20]:
df = pd.DataFrame(grid_search.cv_results_)
df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_criterion,param_max_depth,param_max_features,param_max_leaf_nodes,param_min_samples_leaf,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.000818,0.000135,0.000296,0.000039,gini,,,,1,2,"{'criterion': 'gini', 'max_depth': None, 'max_...",1.0,0.952381,1.0,0.952381,0.857143,0.952381,0.052164,1
1,0.000727,0.000016,0.000289,0.000036,gini,,,,1,3,"{'criterion': 'gini', 'max_depth': None, 'max_...",1.0,0.952381,1.0,0.952381,0.857143,0.952381,0.052164,1
2,0.000738,0.000027,0.000272,0.000009,gini,,,,1,4,"{'criterion': 'gini', 'max_depth': None, 'max_...",1.0,0.952381,1.0,0.952381,0.857143,0.952381,0.052164,1
3,0.000723,0.000011,0.000267,0.000010,gini,,,,1,5,"{'criterion': 'gini', 'max_depth': None, 'max_...",1.0,0.952381,1.0,0.952381,0.857143,0.952381,0.052164,1
4,0.000723,0.000009,0.000269,0.000013,gini,,,,1,6,"{'criterion': 'gini', 'max_depth': None, 'max_...",1.0,0.952381,1.0,0.952381,0.857143,0.952381,0.052164,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7555,0.000618,0.000013,0.000000,0.000000,entropy,6,5,7,3,2,"{'criterion': 'entropy', 'max_depth': 6, 'max_...",,,,,,,,6374
7556,0.000620,0.000047,0.000000,0.000000,entropy,6,5,7,3,3,"{'criterion': 'entropy', 'max_depth': 6, 'max_...",,,,,,,,6375
7557,0.000614,0.000025,0.000000,0.000000,entropy,6,5,7,3,4,"{'criterion': 'entropy', 'max_depth': 6, 'max_...",,,,,,,,6376
7558,0.000587,0.000014,0.000000,0.000000,entropy,6,5,7,3,5,"{'criterion': 'entropy', 'max_depth': 6, 'max_...",,,,,,,,7355


하이퍼 파라미터의 값이 변화함에 따라 테스트 스코어가 달라지는 것을 볼 수 있네요.

마지막으로 **GridSearchCV객체.best_estimator_** 는 GridSearchCV의 refit으로 이미 학습이 된 estimator 반환합니다.

따라서 best_estimator_는 이미 최적 하이퍼 파라미터를 적용하여 학습이 된 상태이죠.

정확도를 출력해보겠습니다.

In [30]:
estimator = grid_search.best_estimator_

pred = estimator.predict(X_test)
print('score: ', round(accuracy_score(y_test,pred), 4))

score:  0.9556


0.9556 이 나오는 것을 확인할 수 있습니다.

GridSearchCV 는 하이퍼 파라미터를 하나하나 적용 및 학습하여 최적의 파라미터 조합을 찾아주기 때문에 편리하긴 하지만,, 단점은 시간이 정말 오래걸린다는 것입니다.

저는 6개의 하이퍼 파라미터를 갖고 코드를 돌렸는데, 1분 넘게 소요되었어요,

따라서 파라미터가 많을수록, 리스트에 경우를 더 많이 추가할수록 검증해야하는 조합이 늘어나기 때문에 시간이 정말 오래걸립니다ㅠㅠ

### **RandomizedSearchCV**

GridSearch의 단점을 보완할 수 있는 sklearn의 다른 하이퍼 파라미터 튜닝 방법을 소개해보겠습니다.

**RandomizedSearchCV는** GridSearch 와 동일한 방식으로 사용하지만 모든 조합을 다 시도하지는 않고, 각 반복마다 임의의 값만 대입해 지정한 횟수만큼 평가합니다.

즉, 몇 번 학습과 평가를 반복할 것인지 **시도의 수를 우리가 설정할 수 있기 때문에 비교적 시간이 적게 걸립니다**.


RandomizedSearchCV 가 사용하는 인자들은 GridSearchCV와 거의 동일하지만, **n_iter** 라는 인자가 추가되었고 param_grid 대신 **param_distributions** 를 사용합니다.


- **param_distributions** : 튜닝을 위한 대상 파라미터, 사용될 파라미터를 딕셔너리 형태로 넣어준다.

- **n_iter** : 파라미터 검색 횟수


n_iter 의 default는 **10** 이며, RandomizedSearchCV 는 우리가 n_iter에 지정한 횟수만큼만 조합을 반복하여 평가하게 됩니다.


GridSearchCV와 동일한 데이터셋, 모델, 파라미터를 이용하였습니다.

In [33]:
from sklearn.model_selection import RandomizedSearchCV

dt_clf = DecisionTreeClassifier(random_state=1)

param_dist = {
    'criterion':['gini','entropy'], 
    'max_depth':[None,2,3,4,5,6], 
    'max_leaf_nodes':[None,2,3,4,5,6,7], 
    'min_samples_split':[2,3,4,5,6], 
    'min_samples_leaf':[1,2,3], 
    'max_features':[None,'sqrt','log2',3,4,5]
    }

사용법은 위에 말했던 두가지 인자 빼고는 전부 동일합니다.

저는 50번 랜덤한 파라메터의 조합으로 학습과 평가를 반복하도록 설정했습니다.

In [38]:
rand_search = RandomizedSearchCV(dt_clf, param_distributions = param_dist, n_iter = 50, cv = 5, scoring = 'accuracy', refit=True)
rand_search.fit(X_train, y_train)

RandomizedSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=1),
                   n_iter=50,
                   param_distributions={'criterion': ['gini', 'entropy'],
                                        'max_depth': [None, 2, 3, 4, 5, 6],
                                        'max_features': [None, 'sqrt', 'log2',
                                                         3, 4, 5],
                                        'max_leaf_nodes': [None, 2, 3, 4, 5, 6,
                                                           7],
                                        'min_samples_leaf': [1, 2, 3],
                                        'min_samples_split': [2, 3, 4, 5, 6]},
                   scoring='accuracy')

0초가 걸렸습니다..ㅎㅎㅎ

GridSearchCV와 동일한 방법으로 최적 파라미터 조합과 최고 성능을 출력해볼 수 있습니다.

In [35]:
print('best parameters : ', rand_search.best_params_)
print('best score : ', round(rand_search.best_score_, 4))

best parameters :  {'min_samples_split': 3, 'min_samples_leaf': 3, 'max_leaf_nodes': 6, 'max_features': None, 'max_depth': 6, 'criterion': 'gini'}
best score :  0.9524


GridSearchCV와 최적 파라미터 조합은 다르지만 점수는 동일하네요!

마찬가지로, cv_results_ 를 이용해 데이터 프레임으로 만들어볼 수 있습니다.

In [37]:
df = pd.DataFrame(rand_search.cv_results_)
df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_min_samples_split,param_min_samples_leaf,param_max_leaf_nodes,param_max_features,param_max_depth,param_criterion,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.001346,0.000206,0.000511,4.2e-05,3,2,5.0,log2,6.0,gini,"{'min_samples_split': 3, 'min_samples_leaf': 2...",0.952381,0.952381,0.904762,0.904762,0.952381,0.933333,0.023328,13
1,0.001055,4.3e-05,0.0,0.0,5,1,4.0,5,2.0,gini,"{'min_samples_split': 5, 'min_samples_leaf': 1...",,,,,,,,49
2,0.001287,6.9e-05,0.000564,0.00011,2,3,2.0,log2,5.0,entropy,"{'min_samples_split': 2, 'min_samples_leaf': 3...",0.714286,0.714286,0.714286,0.666667,0.666667,0.695238,0.023328,33
3,0.001293,5.5e-05,0.000514,1.6e-05,6,3,4.0,sqrt,2.0,entropy,"{'min_samples_split': 6, 'min_samples_leaf': 3...",0.952381,0.809524,0.904762,0.904762,0.952381,0.904762,0.052164,25
4,0.001377,0.000195,0.000512,2.7e-05,3,3,6.0,,6.0,gini,"{'min_samples_split': 3, 'min_samples_leaf': 3...",1.0,0.952381,1.0,0.952381,0.857143,0.952381,0.052164,1
5,0.001178,7.6e-05,0.0,0.0,6,2,3.0,5,3.0,gini,"{'min_samples_split': 6, 'min_samples_leaf': 2...",,,,,,,,45
6,0.001267,4.9e-05,0.000529,1.6e-05,2,3,2.0,,3.0,gini,"{'min_samples_split': 2, 'min_samples_leaf': 3...",0.714286,0.714286,0.714286,0.666667,0.666667,0.695238,0.023328,33
7,0.001227,1.8e-05,0.000512,2.7e-05,4,2,2.0,log2,3.0,gini,"{'min_samples_split': 4, 'min_samples_leaf': 2...",0.714286,0.714286,0.714286,0.666667,0.666667,0.695238,0.023328,33
8,0.001362,0.000255,0.0009,0.000868,4,3,5.0,log2,,gini,"{'min_samples_split': 4, 'min_samples_leaf': 3...",1.0,0.952381,0.857143,0.904762,0.952381,0.933333,0.048562,13
9,0.001913,0.00051,0.000621,0.000102,3,1,,sqrt,4.0,entropy,"{'min_samples_split': 3, 'min_samples_leaf': 1...",0.857143,0.809524,0.904762,0.904762,0.857143,0.866667,0.035635,31


GridSearchCV는 행의 개수가 7560개였는데, RandomSearchCV는 행의 개수가 50개네요. 

시간은 현저히 차이가 나는데 점수는 동일했습니다.

이렇게, sklearn으로 할 수 있는 두가지 하이퍼 파라미터 튜닝 방법에 대해 알아보았습니다.

테스트 해보고자하는 파라미터가 적다면 GridSearchCV가 확실한 검증 방법이 되겠지만, 파라미터가 많다면 RandomSearchCV가 효율적인 방법이 될 것 같아요!

읽어주셔서 감사합니다:)
