## 하이퍼 파라미터 튜닝

### 하이퍼 파라미터 튜닝 크게나누면 4가지
1. Grid Search : params를 주고 그리드 모양으로 모두 서치
2. Random Search : 그리드 서치를 랜덤하게 한다.
3. Bayesian Optimization
4. 수동 튜닝

### 하이퍼 파라미터 튜닝의 주요 이슈

<img src=https://blog.kakaocdn.net/dn/cJ0vQo/btrCjFlBrse/Siw2SOMxqgGbuzKQPRAd31/img.png width=1200>

- Gradient Boosting 기반 알고리즘은 튜닝 해야 할 하이퍼 파라미터 개수가 많고, 번위가 넓어서 가능한 개별 경우의 수가 너무 많음.
- 이러한 경우의 수가 많은 경우 데이터가 크면 하이퍼 파라미터 튜닝 수행이 너무 오래 걸림.

-> 주어진 경우의수만 다해보기보단. 성능이 좋아지는 방향으로 최소의 시도를 통해, 좋은 성능의 모델을 뽑아내는것 -> 베이지안 최적화

## 베이지안 최적화

<img src=https://blog.kakaocdn.net/dn/b9Fvq7/btrCkf06S1J/feMCpi5DhoXxwMsYuuRff1/img.png width=1200>

### 베이지안 최적화 수행 단계 4스텝

<img src=https://blog.kakaocdn.net/dn/cpSpoB/btrCkgyS1hR/CgOS8GJEMCvkFk2u9Buej1/img.png width1200>

### 베이지안 최적화를 구현한 주요 패키지
1. HyperOpt: 
2. Bayesian optimization: 
3. Optuna: 

### HyperOpt를 통한 최적화 예시

<img src=https://blog.kakaocdn.net/dn/mjYYx/btrCebrvgeD/7wRIsVYkCpFMcxHX4TgxB1/img.png width=1200>

**구성 요소 3가지**
1. Search Space : 입력값 범위. x와 y의 입력값 범위를 준다.
2. 목적 함수 : 블랙박스 함수. 내부가 어떻게 돌아가는지 모르고 입력값에 대한 반환값을 알 수 있는 함수
3. 목적 함수 반환 최소값 유추 예시 -> **fmin**함수가 핵심
-> objective_func함수에 search_space 범위의 입력값을 넣었을 때, max_evlas번 반복하며 베이지안 최적화로 최소값 유추하는 예시.

    여기선 5번 반복하며 최소값 64.080 찾음

<img src=https://blog.kakaocdn.net/dn/bykjOu/btrCiQOCfIV/flkFRV5K2U8XFNLSn6aGO1/img.png width=1200>

### 베이지안 최적화 개요와 HyperOpt 사용법

In [1]:
import hyperopt
print(hyperopt.__version__)

0.2.7


In [2]:
# !pip install hyperopt==0.2.7

In [45]:
from hyperopt import hp
print(type(hp.quniform('x',-10, 10, 1)))

# x는 -10 ~ 10 까지 1간격을 가지고, y는 -15 ~ 15까지 1간격을 가지는 입력 변수.
# x : -10, -9, ... 9, 10    /    y: -15, -14, ... 14, 15
search_space = {'x': hp.quniform('x', -10, 10, 1), 'y': hp.quniform('y', -15, 15, 1) }
search_space

<class 'hyperopt.pyll.base.Apply'>


{'x': <hyperopt.pyll.base.Apply at 0x12a756640>,
 'y': <hyperopt.pyll.base.Apply at 0x12a756460>}

In [47]:
from hyperopt import STATUS_OK
STATUS_OK

'ok'

In [50]:
# 목적 함수 생성
# : 입력 변수 검색 범위를 갖는 딕셔너리 search_space(x,y)를 받고, x^2 - 20y 값을 반환
def objective_func(search_space):
    x = search_space['x'] # <hyperopt.pyll.base.Apply at 0x12a756640>
    y = search_space['y'] # <hyperopt.pyll.base.Apply at 0x12a756460>
    retval = x**2 - 20*y
    return retval # return {'loss':retval, 'status':STATUS_OK} 해도 된다.

#### HyperOpt에서 베이지안최적화를 진행하는 함수는 fmin

In [55]:
from hyperopt import fmin, tpe, Trials
import numpy as np

# 최적화 과정의 결과값을 저장한 Tirals 객체 생성
trial_val = Trials()

# fmin을 활용해 목적 함수의 최소값 찾기
# 인자
## fn: 목적함수, space: 탐색영역
## algo: search algorithm. 여기서 tpe.suggest를 사용 (Tree Parzen Estimator: SMBO(순차 모델 기반 최적화) 접근 방식)
## max_evals: 반복 횟수
## trials=trial_val : max_evals만큼 수행한 입력값과 결과값을 trail_val에 저장
## rstate : random_state. 여기선 정수 말고, 아래처럼 np.random.default_rng(seed=정수) 형태를 사용.
## => 경험적으로는 rstate를 따로 설정하지 않는게 성능이 더 좋은 경향.
best_01 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest, max_evals=5,
              trials=trial_val, rstate=np.random.default_rng(seed=0))
print(f"best: {best_01}")

100%|██████████| 5/5 [00:00<00:00, 556.42trial/s, best loss: -224.0]
best: {'x': -4.0, 'y': 12.0}


In [56]:
trial_val = Trials()

# max_evals를 20회로 늘려서 재테스트 -> 성능이 더 좋아진다.
best_02 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest, max_evals=20
               , trials=trial_val, rstate=np.random.default_rng(seed=0))
print('best:', best_02)

100%|██████████| 20/20 [00:00<00:00, 941.08trial/s, best loss: -296.0]
best: {'x': 2.0, 'y': 15.0}


In [57]:
trial_val

<hyperopt.base.Trials at 0x12a41a820>

#### Trials(): HyperOpt 수행, 입력 값들과 목적 함수 반환값 보기

In [61]:
# fmin( )에 인자로 들어가는 Trials 객체의 results 속성에 파이썬 리스트로 목적 함수 반환값들이 저장됨.
# 리스트(results) 내부의 개별 원소는 {'loss':함수 반환값, 'status':반환 상태값}와 같은 딕셔너리.
print(trial_val.results[:3])

[{'loss': -64.0, 'status': 'ok'}, {'loss': -184.0, 'status': 'ok'}, {'loss': 56.0, 'status': 'ok'}]


In [73]:
# Trials 객체의 vals 속성에 {'입력변수명': 개별 수행시 입력된 값들의 리스트} 형태로 저장.
print(trial_val.vals)

{'x': [-6.0, -4.0, 4.0, -4.0, 9.0, 2.0, 10.0, -9.0, -8.0, -0.0, -0.0, 1.0, 9.0, 6.0, 9.0, 2.0, -2.0, -4.0, 7.0, -0.0], 'y': [5.0, 10.0, -2.0, 12.0, 1.0, 15.0, 7.0, -10.0, 0.0, -5.0, -3.0, 2.0, 4.0, 10.0, 3.0, 3.0, -14.0, -8.0, 11.0, -0.0]}


In [74]:
import pandas as pd

In [80]:
# results에서 loss key값에 해당하는 value들을 추출하여 리스트로
losses = [d['loss'] for d in trial_val.results]
print(losses[:5])

[-64.0, -184.0, 56.0, -224.0, 61.0]


#### Trials() 결과 데이터프레임으로 보기좋게

In [99]:
# DataFrame으로 생성
## trial_val.vals 딕셔너리와 {'losses':losses} 딕셔너리 합치기
sum_dict = dict(trial_val.vals,**{'losses':losses})
result_df = pd.DataFrame(sum_dict)

# DataFrame으로 생성 (강의 버전)
# result_df = pd.DataFrame({'x': trial_val.vals['x'],'y': trial_val.vals['y'],'losses': losses})
result_df.sort_values('losses').head(5)

Unnamed: 0,x,y,losses
5,2.0,15.0,-296.0
3,-4.0,12.0,-224.0
1,-4.0,10.0,-184.0
18,7.0,11.0,-171.0
13,6.0,10.0,-164.0


## HyperOpt를 XGBoost 하이퍼 파라미터 튜닝에 적용

<img src=https://blog.kakaocdn.net/dn/n1vi8/btrCKj3iHGe/yIL55y3g6bdCHqbiW94W3K/img.png width=1200>

### 위스콘신 breast cancer

In [133]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

dataset = load_breast_cancer()

cancer_df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
cancer_df['target']= dataset.target
X_features = cancer_df.iloc[:, :-1]
y_label = cancer_df.iloc[:, -1]

# 전체 데이터 중 80%는 학습용 데이터, 20%는 테스트용 데이터 추출
X_train, X_test, y_train, y_test=train_test_split(X_features, y_label,
                                         test_size=0.2, random_state=156 )

# 학습 데이터를 다시 학습과 검증 데이터로 분리 
X_tr, X_val, y_tr, y_val= train_test_split(X_train, y_train,
                                         test_size=0.1, random_state=156 )

![](./hyperopt.png)

#### 하이퍼파라미터 범위 설정

In [138]:
from hyperopt import hp
# max_depth는 5에서 20까지 1간격. mind_child_weight는 1에서 2까지 1간격
# colsample_bytree는 0.5~1 사이 정규분포 랜덤값, learning_rate는 0.01~0.2 사이 정규분포 랜덤값.
# hp.uniform: 정의된 범위 내에서 (정규분포로)랜덤 숫자 추출. (실수반환)
# hp.quniform: 정의된 범위 내에서 마지막 숫자만큼의 간격을 두어 숫자 추출. (실수반환)
xgb_search_space = {
    'max_depth' : hp.quniform('max_depth', 5, 20, 1),
    'min_child_weight': hp.quniform('min_child_weight', 1, 2, 1), # child가 되는데 필요한 최소 가중치의 합
    'learning_rate': hp.uniform('learning_rate', 0.01, 0.2),
    'colsample_bytree': hp.uniform('colsample_bytree', 0.5, 1) # 각 트리마다의 feature 샘플링 비율
                    }

#### 베이지안 최적화 (tpe)

In [161]:
from sklearn.model_selection import cross_val_score
from xgboost import XGBClassifier
from hyperopt import STATUS_OK, fmin, tpe, Trials

def objective_func(search_space):
    xgb_clf = XGBClassifier(n_estimators=100, max_depth=int(search_space['max_depth']), # search_space는 실수 -> int필요하면 변환
                            min_child_weight=int(search_space['min_child_weight']), # child가 되는데 필요한 최솟 가중치
                            learning_rate=search_space['learning_rate'],
                            colsample_bytree=search_space['colsample_bytree'], # 각 트리마다의 feature 샘플링 비율
                            eval_metric='logloss')
    acc = cross_val_score(xgb_clf, X_train, y_train, scoring='accuracy', cv=3)
    # accuracy는 cv=3 개수만큼 리스트로 나오며, fmin은 최소값을 찾으므로 -1 곱하기
    return {'loss':-1*np.mean(acc), 'status': STATUS_OK}

trial_val = Trials()

best = fmin(fn=objective_func, space=xgb_search_space, algo=tpe.suggest,
            max_evals=50, trials=trial_val#, rstate=np.random.default_rng(seed=9)
           )
print(f"best: {best}")

100%|██████████| 50/50 [00:28<00:00,  1.76trial/s, best loss: -0.9692401533635412]
best: {'colsample_bytree': 0.5592831707286887, 'learning_rate': 0.16914775026625828, 'max_depth': 6.0, 'min_child_weight': 2.0}


rstate seed=9로 준 경우

    100%|██████████| 50/50 [00:27<00:00,  1.80trial/s, best loss: -0.9692401533635412]
    best: {'colsample_bytree': 0.548301545497125, 'learning_rate': 0.1840281762576621, 'max_depth': 18.0, 'min_child_weight': 2.0}
    
    colsample_bytree: 0.5483, learning_rate: 0.1840, max_depth: 18, min_child_weight: 2

#### 최적 하이퍼파라미터 출력

In [162]:
# best일때의 하이퍼파라미터 출력
print(f"colsample_bytree: {best['colsample_bytree']:.4f}, learning_rate: {best['learning_rate']:.4f}, \
max_depth: {int(best['max_depth'])}, min_child_weight: {int(best['min_child_weight'])}")

colsample_bytree: 0.5593, learning_rate: 0.1691, max_depth: 6, min_child_weight: 2


#### 최적 하이퍼파라미터일 때, 성능평가

In [163]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

def get_clf_eval(y_test, pred=None, pred_proba=None):
    conf_mat = confusion_matrix(y_test, pred)
    acc = accuracy_score(y_test, pred)
    prec = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)
    f1 = f1_score(y_test, pred)
    roc_auc = roc_auc_score(y_test, pred)
    print(f"오차 행렬(Confusion Matrix)\n{conf_mat}")
    print(f"정확도: {acc:.2%}, 정밀도: {prec:.2%}, 재현율: {recall:.2%}, F1: {f1:.4f}, AUC: {roc_auc:.4f}")

In [164]:
xgb_wrapper = XGBClassifier(n_estimators=400, learning_rate=round(best['learning_rate'],5),
                           max_depth=int(best['max_depth']), min_child_weight=int(best['min_child_weight']),
                           colsample_bytree=round(best['colsample_bytree'],5))
evals = [(X_tr,y_tr), (X_val, y_val)]
xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric='logloss',
               eval_set=evals, verbose=True)
pred = xgb_wrapper.predict(X_test)
pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1] # 1일 확률값만

get_clf_eval(y_test, preds, pred_proba)

[0]	validation_0-logloss:0.55566	validation_1-logloss:0.59434
[1]	validation_0-logloss:0.45744	validation_1-logloss:0.53568
[2]	validation_0-logloss:0.38341	validation_1-logloss:0.49885
[3]	validation_0-logloss:0.32623	validation_1-logloss:0.46641
[4]	validation_0-logloss:0.27993	validation_1-logloss:0.42616
[5]	validation_0-logloss:0.24363	validation_1-logloss:0.40360
[6]	validation_0-logloss:0.21137	validation_1-logloss:0.37811
[7]	validation_0-logloss:0.18540	validation_1-logloss:0.35944
[8]	validation_0-logloss:0.16201	validation_1-logloss:0.34360
[9]	validation_0-logloss:0.14320	validation_1-logloss:0.32869
[10]	validation_0-logloss:0.12853	validation_1-logloss:0.31805
[11]	validation_0-logloss:0.11572	validation_1-logloss:0.31450
[12]	validation_0-logloss:0.10397	validation_1-logloss:0.31169
[13]	validation_0-logloss:0.09339	validation_1-logloss:0.30227
[14]	validation_0-logloss:0.08594	validation_1-logloss:0.29402
[15]	validation_0-logloss:0.07875	validation_1-logloss:0.29246
[1

[130]	validation_0-logloss:0.01468	validation_1-logloss:0.24161
[131]	validation_0-logloss:0.01464	validation_1-logloss:0.24222
[132]	validation_0-logloss:0.01460	validation_1-logloss:0.24200
[133]	validation_0-logloss:0.01456	validation_1-logloss:0.24230
[134]	validation_0-logloss:0.01452	validation_1-logloss:0.24202
[135]	validation_0-logloss:0.01448	validation_1-logloss:0.24124
[136]	validation_0-logloss:0.01444	validation_1-logloss:0.24189
[137]	validation_0-logloss:0.01440	validation_1-logloss:0.24172
[138]	validation_0-logloss:0.01435	validation_1-logloss:0.24356
[139]	validation_0-logloss:0.01431	validation_1-logloss:0.24181
[140]	validation_0-logloss:0.01427	validation_1-logloss:0.24213
[141]	validation_0-logloss:0.01423	validation_1-logloss:0.24155
[142]	validation_0-logloss:0.01420	validation_1-logloss:0.24139
[143]	validation_0-logloss:0.01416	validation_1-logloss:0.24313
[144]	validation_0-logloss:0.01412	validation_1-logloss:0.24275
[145]	validation_0-logloss:0.01409	valid

In [165]:
losses=[d['loss'] for d in trial_val.results]
## 내 df 만들기
result_dict = dict(trial_val.vals, **{'losses':losses})
result_df = pd.DataFrame(result_dict)

## 강의에서 df 만들기
# result_df = pd.DataFrame({'max_depth': trial_val.vals['max_depth'],
#                           'min_child_weight': trial_val.vals['min_child_weight'],
#                           'colsample_bytree': trial_val.vals['colsample_bytree'],
#                           'learning_rate': trial_val.vals['learning_rate'],
#                           'losses': losses
#                          }
#                         )

result_df.sort_values('losses').head(5)

Unnamed: 0,colsample_bytree,learning_rate,max_depth,min_child_weight,losses
44,0.559283,0.169148,6.0,2.0,-0.96924
49,0.524788,0.114782,5.0,2.0,-0.967076
33,0.626205,0.1972,20.0,2.0,-0.967047
48,0.523249,0.167108,7.0,2.0,-0.967047
36,0.644208,0.17426,10.0,2.0,-0.967033
