<a href="https://colab.research.google.com/github/sinheechan/ML/blob/main/%EB%B2%A0%EC%9D%B4%EC%A7%80%EC%95%88_%EC%B5%9C%EC%A0%81%ED%99%94_%ED%95%98%EC%9D%B4%ED%8D%BC%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0_%ED%8A%9C%EB%8B%9D_%EC%8B%A4%EC%8A%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. 초기 설정

In [19]:
pip install hyperopt



In [20]:
import hyperopt

print(hyperopt.__version__)

0.2.7


## 2. 데이터셋 생성

- -10 ~ 10까지 1간격을 가지는 입력 변수 x와
- -15 ~ 15까지 1간격으로 입력 변수 y 설정한다

In [21]:
from hyperopt import hp

search_space = {'x': hp.quniform('x', -10, 10, 1), 'y': hp.quniform('y', -15, 15, 1) }
print(search_space['x'], search_space['y'])

0 float
1   hyperopt_param
2     Literal{x}
3     quniform
4       Literal{-10}
5       Literal{10}
6       Literal{1} 0 float
1   hyperopt_param
2     Literal{y}
3     quniform
4       Literal{-15}
5       Literal{15}
6       Literal{1}


- 목적 함수를 생성한다.
- 변숫값과 변수 검색 공간을 가지는 딕셔너리를 인자로 받고, 특정 값을 반환하는 역할을 한다.

In [22]:
from hyperopt import STATUS_OK

# 목적 함수를 생성. 변숫값과 변수 검색 공간을 가지는 딕셔너리를 인자로 받고, 특정 값을 반환
def objective_func(search_space):
    x = search_space['x']
    y = search_space['y']
    retval = x**2 - 20*y

    return retval

## 3. 머신러닝 적용하기

- Hyperopt를 사용하여 주어진 목적 함수(objective_func)를 최소화하는 최적의 하이퍼파라미터 조합을 찾는다.

In [23]:
from hyperopt import fmin, tpe, Trials
import numpy as np

# 입력 결괏값을 저장한 Trials 객체값 생성.
trial_val = Trials()

# 목적 함수의 최솟값을 반환하는 최적 입력 변숫값을 5번의 입력값 시도(max_evals=5)로 찾아냄.
best_01 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest, max_evals=5
               , trials=trial_val, rstate=np.random.default_rng(seed=0))

print('best:', best_01)

100%|██████████| 5/5 [00:00<00:00, 623.61trial/s, best loss: -224.0]
best: {'x': -4.0, 'y': 12.0}


- 위 결과로 {'x': -4.0, 'y': 12.0} 값이 최적의 파라미터 조합임을 확인했다.

- 추가적으로, 이전 과정을 반복하되
- max_evals 매개변수를 20회로 증가시켜서 하이퍼파라미터 최적화를 보다 더 많은 시도로 진행한다.

In [24]:
trial_val = Trials()

# max_evals를 20회로 늘려서 재테스트
best_02 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest, max_evals=20
               , trials=trial_val, rstate=np.random.default_rng(seed=0))
print('best:', best_02)

100%|██████████| 20/20 [00:00<00:00, 700.09trial/s, best loss: -296.0]
best: {'x': 2.0, 'y': 15.0}


위 결과는 이전과 다르게 {'x': 2.0, 'y': 15.0} 값이 최적의 파라미터 조합으로 출력되었다.

- fmin( )에 인자로 들어가는 Trials 객체의 result 속성에 파이썬 리스트로 목적 함수 반환값들이 저장된다.
- 이 과정으로 최적화 과정에서 각 시도에 대한 정보를 살펴볼 수 있다.
- 리스트 내부의 개별 원소는 {'loss':함수 반환값, 'status':반환 상태값} 와 같은 딕셔너리 형태이다.

In [25]:
print(trial_val.results)

[{'loss': -64.0, 'status': 'ok'}, {'loss': -184.0, 'status': 'ok'}, {'loss': 56.0, 'status': 'ok'}, {'loss': -224.0, 'status': 'ok'}, {'loss': 61.0, 'status': 'ok'}, {'loss': -296.0, 'status': 'ok'}, {'loss': -40.0, 'status': 'ok'}, {'loss': 281.0, 'status': 'ok'}, {'loss': 64.0, 'status': 'ok'}, {'loss': 100.0, 'status': 'ok'}, {'loss': 60.0, 'status': 'ok'}, {'loss': -39.0, 'status': 'ok'}, {'loss': 1.0, 'status': 'ok'}, {'loss': -164.0, 'status': 'ok'}, {'loss': 21.0, 'status': 'ok'}, {'loss': -56.0, 'status': 'ok'}, {'loss': 284.0, 'status': 'ok'}, {'loss': 176.0, 'status': 'ok'}, {'loss': -171.0, 'status': 'ok'}, {'loss': 0.0, 'status': 'ok'}]


- 실험에서 사용된 각 하이퍼파라미터에 대한 값의 추적한다.
- Trials 객체의 vals 속성에 {'입력변수명':개별 수행 시마다 입력된 값 리스트} 형태로 저장됨.

In [26]:
print(trial_val.vals)

{'x': [-6.0, -4.0, 4.0, -4.0, 9.0, 2.0, 10.0, -9.0, -8.0, -0.0, -0.0, 1.0, 9.0, 6.0, 9.0, 2.0, -2.0, -4.0, 7.0, -0.0], 'y': [5.0, 10.0, -2.0, 12.0, 1.0, 15.0, 7.0, -10.0, 0.0, -5.0, -3.0, 2.0, 4.0, 10.0, 3.0, 3.0, -14.0, -8.0, 11.0, -0.0]}


앞서 출력한 trial_val.results 값과 trial_val.vals 값을 데이터프레임 형태로 결합한다.

In [27]:
import pandas as pd

losses = [loss_dict['loss'] for loss_dict in trial_val.results]

result_df = pd.DataFrame({'x': trial_val.vals['x'], 'y': trial_val.vals['y'], 'losses': losses})
result_df

Unnamed: 0,x,y,losses
0,-6.0,5.0,-64.0
1,-4.0,10.0,-184.0
2,4.0,-2.0,56.0
3,-4.0,12.0,-224.0
4,9.0,1.0,61.0
5,2.0,15.0,-296.0
6,10.0,7.0,-40.0
7,-9.0,-10.0,281.0
8,-8.0,0.0,64.0
9,-0.0,-5.0,100.0


## 4. 실습 예제

- HyperOpt를 이용한 XGBoost 하이퍼 파라미터 최적화 과정을 진행한다.

In [28]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

dataset = load_breast_cancer()

cancer_df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
cancer_df['target']= dataset.target
X_features = cancer_df.iloc[:, :-1]
y_label = cancer_df.iloc[:, -1]

- 전체 데이터 중 80%는 학습용 데이터, 20%는 테스트용 데이터 추출한다.
- 그리고 앞에서 추출한 학습 데이터를 다시 학습과 검증 데이터로 분리한다.

In [29]:
X_train, X_test, y_train, y_test=train_test_split(X_features, y_label, test_size=0.2, random_state=156 )

X_tr, X_val, y_tr, y_val= train_test_split(X_train, y_train, test_size=0.1, random_state=156 )

- XG boost의 하이퍼파라미터의 탐색 범위를 지정한다.


- max_depth는 5에서 20까지 1간격으로, min_child_weight는 1에서 2까지 1간격으로
- colsample_bytree는 0.5에서 1사이, learning_rate는 0.01에서 0.2 사이 정규 분포된 값으로 검색.

In [30]:
from hyperopt import hp

xgb_search_space = {'max_depth': hp.quniform('max_depth', 5, 20, 1),
                    'min_child_weight': hp.quniform('min_child_weight', 1, 2, 1),
                    'learning_rate': hp.uniform('learning_rate', 0.01, 0.2),
                    'colsample_bytree': hp.uniform('colsample_bytree', 0.5, 1),
                   }

- XGBoost 모델의 하이퍼파라미터를 최적화한다.
- 주어진 하이퍼파라미터 조합에 대해 교차 검증을 수행하여 정확도를 계산하고, 이를 최소화하는 방향으로 함수를 생성한다.

In [31]:
from sklearn.model_selection import cross_val_score
from xgboost import XGBClassifier
from hyperopt import STATUS_OK

# fmin()에서 입력된 search_space 값으로 입력된 모든 값은 실수형임.
# XGBClassifier의 정수형 하이퍼 파라미터는 정수형 변환을 해줘야 함.
# 정확도는 높을수록 더 좋은 수치임. -1 * 정확도를 곱해서 큰 정확도 값일수록 최소가 되도록 변환

def objective_func(search_space):
    # 수행 시간 절약을 위해 nestimators는 100으로 축소
    xgb_clf = XGBClassifier(n_estimators=100, max_depth=int(search_space['max_depth']),
                            min_child_weight=int(search_space['min_child_weight']),
                            learning_rate=search_space['learning_rate'],
                            colsample_bytree=search_space['colsample_bytree'],
                            eval_metric='logloss')
    accuracy = cross_val_score(xgb_clf, X_train, y_train, scoring='accuracy', cv=3)

    # accuracy는 cv=3 개수만큼 roc-auc 결과를 리스트로 가짐. 이를 평균해서 반환하되 -1을 곱함.
    return {'loss':-1 * np.mean(accuracy), 'status': STATUS_OK}


- Hyperopt를 사용하여 XGBoost 모델의 하이퍼파라미터를 최적화한 후 결과를 출력한다.

In [32]:
from hyperopt import fmin, tpe, Trials #tpe: Tree-structured Parzen Estimator Hyperopt가 하이퍼파라미터 공간에서 다음에 검색할 위치에 대해 정보에 입각한 결정을 내리기 위해 사용하는 베이지안 최적화 알고리즘의 한 유형

trial_val = Trials()
best = fmin(fn=objective_func,
            space=xgb_search_space,
            algo=tpe.suggest,
            max_evals=50, # 최대 반복 횟수를 지정합니다.
            trials=trial_val, rstate=np.random.default_rng(seed=9))

print('best:', best)


100%|██████████| 50/50 [00:53<00:00,  1.06s/trial, best loss: -0.967047170907401]
best: {'colsample_bytree': 0.548301545497125, 'learning_rate': 0.1840281762576621, 'max_depth': 18.0, 'min_child_weight': 2.0}


- best 변수에 저장된 최적의 하이퍼파라미터를 보기 적절한 형식으로 출력한다.

In [33]:
print('colsample_bytree:{0}, learning_rate:{1}, max_depth:{2}, min_child_weight:{3}'.format(
    round(best['colsample_bytree'], 5), round(best['learning_rate'], 5),
    int(best['max_depth']), int(best['min_child_weight'])))

colsample_bytree:0.5483, learning_rate:0.18403, max_depth:18, min_child_weight:2


- 주어진 테스트 데이터셋과 예측값을 기반으로 다양한 평가 지표를 계산하고 출력한다.

In [36]:
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score

def get_clf_eval(y_test, pred=None, pred_proba=None):
    confusion = confusion_matrix( y_test, pred)
    accuracy = accuracy_score(y_test , pred)
    precision = precision_score(y_test , pred)
    recall = recall_score(y_test , pred)
    f1 = f1_score(y_test,pred)
    # ROC-AUC 추가
    roc_auc = roc_auc_score(y_test, pred_proba)
    print('오차 행렬')
    print(confusion)
    # ROC-AUC print 추가
    print('정확도: {0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f},\
    F1: {3:.4f}, AUC:{4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

-  XGBoost 분류기를 초기화하고 훈련한 후에 테스트 데이터에 대한 예측을 수행하고, 분류 모델의 성능을 평가한다.

In [35]:
xgb_wrapper = XGBClassifier(n_estimators=400,
                            learning_rate=round(best['learning_rate'], 5),
                            max_depth=int(best['max_depth']),
                            min_child_weight=int(best['min_child_weight']),
                            colsample_bytree=round(best['colsample_bytree'], 5)
                           )

evals = [(X_tr, y_tr), (X_val, y_val)]
xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric='logloss',
                eval_set=evals, verbose=True)

preds = xgb_wrapper.predict(X_test)
pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1]

get_clf_eval(y_test, preds, pred_proba)

[0]	validation_0-logloss:0.52464	validation_1-logloss:0.55510
[1]	validation_0-logloss:0.42441	validation_1-logloss:0.48641
[2]	validation_0-logloss:0.35023	validation_1-logloss:0.43336
[3]	validation_0-logloss:0.29341	validation_1-logloss:0.39157
[4]	validation_0-logloss:0.24995	validation_1-logloss:0.35869
[5]	validation_0-logloss:0.21406	validation_1-logloss:0.33711
[6]	validation_0-logloss:0.18467	validation_1-logloss:0.32415
[7]	validation_0-logloss:0.16291	validation_1-logloss:0.30830
[8]	validation_0-logloss:0.14352	validation_1-logloss:0.29894
[9]	validation_0-logloss:0.12620	validation_1-logloss:0.27850
[10]	validation_0-logloss:0.11240	validation_1-logloss:0.27026
[11]	validation_0-logloss:0.10142	validation_1-logloss:0.26501
[12]	validation_0-logloss:0.09186	validation_1-logloss:0.26248
[13]	validation_0-logloss:0.08452	validation_1-logloss:0.25936
[14]	validation_0-logloss:0.07803	validation_1-logloss:0.26213
[15]	validation_0-logloss:0.07128	validation_1-logloss:0.25470
[1