In [1]:
!pip install hyperopt

Collecting hyperopt
  Downloading hyperopt-0.2.7-py2.py3-none-any.whl (1.6 MB)
     ---------------------------------------- 1.6/1.6 MB 9.1 MB/s eta 0:00:00
Collecting py4j
  Downloading py4j-0.10.9.7-py2.py3-none-any.whl (200 kB)
     ------------------------------------- 200.5/200.5 kB 12.7 MB/s eta 0:00:00
Installing collected packages: py4j, hyperopt
Successfully installed hyperopt-0.2.7 py4j-0.10.9.7


In [None]:
!python.exe -m pip 

### HyperOpt 라이브러리의 주요 함수와 개념

- fmin: 이 함수는 최적화 과정을 수행하는 주요 함수입니다. 이 함수는 목표 함수(fn), 검색 공간(space), 최적화 알고리즘(algo), 그리고 최대 평가 횟수(max_evals) 등을 인자로 받습니다. 이 함수는 최적의 하이퍼파라미터 설정을 찾기 위해 주어진 알고리즘을 사용하여 검색 공간을 탐색하고, 각 설정에 대해 목표 함수를 평가합니다.

- tpe: 이것은 Tree-structured Parzen Estimator(TPE) 알고리즘을 나타내며, HyperOpt에서 사용할 수 있는 최적화 알고리즘 중 하나입니다. TPE는 베이지안 최적화 알고리즘의 한 종류로, 이전의 평가 결과를 기반으로 하여 다음에 테스트할 하이퍼파라미터를 선택합니다. 이렇게 하면 더 좋은 결과를 내는 하이퍼파라미터의 영역을 더 자주 탐색하게 됩니다.

- hp: 이것은 HyperOpt의 검색 공간을 정의하는 데 사용되는 함수들을 담고 있는 모듈입니다. 예를 들어, hp.uniform('x', 0, 1)은 0과 1 사이에서 균일하게 분포한 실수 값을 가지는 'x'라는 하이퍼파라미터를 정의합니다. 다른 함수로는 hp.choice (여러 선택 사항 중 하나를 선택), hp.normal (정규 분포에서 값을 선택) 등이 있습니다.

- STATUS_OK: 이것은 목표 함수가 성공적으로 완료되었음을 나타내는 상태 코드입니다. 목표 함수는 손실값과 상태 코드를 포함하는 딕셔너리를 반환해야 합니다. 이 상태 코드는 HyperOpt가 평가를 제대로 수행했는지 판단하는 데 사용됩니다. 만약 다른 값을 반환하면, HyperOpt는 해당 평가가 실패했다고 판단하고, 해당 설정을 더 이상 탐색하지 않습니다.

### Tree-structured Parzen Estimator (TPE)
- 하이퍼파라미터 최적화를 위한 알고리즘 중 하나입니다. Bayesian optimization의 한 종류로, 하이퍼파라미터의 새로운 조합을 선택하는 방법으로 주로 사용됩니다.

- TPE 알고리즘의 핵심 아이디어는 과거의 평가 결과를 기반으로 하이퍼파라미터의 좋은 값과 나쁜 값에 대한 확률 모델을 구축하고, 이 모델을 사용하여 다음에 시도할 하이퍼파라미터 값을 선택하는 것입니다.

- TPE는 이를 위해 두 개의 확률 분포 l(x)와 g(x)를 사용합니다. 여기서 x는 하이퍼파라미터를 의미하며, l(x)는 과거의 좋은 하이퍼파라미터 값들에 대한 분포를 나타내고, g(x)는 모든 과거의 하이퍼파라미터 값들에 대한 분포를 나타냅니다.

- 이 두 분포를 이용해 새로운 하이퍼파라미터 값 x를 선택할 때, l(x)/g(x)가 큰 값, 즉 과거의 좋은 하이퍼파라미터 값들에 더 가까운 값을 선택합니다.

- 이런 방식으로, TPE는 점점 더 좋은 하이퍼파라미터 값을 찾아가는 탐색 과정을 수행합니다. 이는 전통적인 Grid Search나 Random Search에 비해 효율적이며, 보다 적은 평가로 좋은 하이퍼파라미터 값을 찾을 수 있게 합니다.

### make_classification 함수 매개변수

- n_samples: 생성할 샘플의 개수를 지정합니다. 기본값은 100입니다.
- n_features: 독립 변수의 개수를 지정합니다. 기본값은 20입니다.
- n_informative: 종속 변수와 관련된 독립 변수의 수를 지정합니다. 기본값은 2입니다.
- n_redundant: 다른 독립 변수의 선형 조합으로 생성된 독립 변수의 수를 지정합니다. 기본값은 2입니다.
- n_classes: 생성할 클래스(또는 레이블)의 개수를 지정합니다. 기본값은 2입니다.

이 함수는 X와 y의 두 개의 배열을 반환합니다. X는 n_samples x n_features 크기의 2차원 배열로, 독립 변수를 포함하고 있습니다. y는 n_samples 크기의 1차원 배열로, 각 샘플의 클래스 레이블을 포함하고 있습니다.

In [2]:
# 1000개의 샘플, 10개의 독립 변수, 그리고 2개의 클래스로 구성된 가상 데이터셋을 생성
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=1000, n_features=10, n_classes=2)

In [3]:
# make_classification 함수는 sklearn.datasets 모듈의 일부로, 분류 문제에 사용할 수 있는 가상 데이터셋을 생성하는데 사용
from hyperopt import fmin, tpe, hp, STATUS_OK
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# 데이터 생성
X, y = make_classification()

# HyperOpt에 의해 최적화될 목표 함수를 정의합니다.
# 이 함수는 손실값을 반환하며, 손실값이 최소가 된느 하이퍼파라미터를 찾는 것이 목표입니다.
def objective(args):
    # 모델 설정
    # C는 규제의 역수로, C값이 작을수록 규제가 강하며 C값이 클수록 규제가 약해집니다.
    # Logistic Regression 모델을 초기화하고, HyperOpt가 최적화할 하이퍼파라미터 C를 설정합니다.
    model = LogisticRegression(C=args["C"])
    
    # 모델 검증
    # 5-fold 교차 검증을 수행하고, 평균 정확돌르 계산
    score = cross_val_score(model, X, y, cv=5).mean()
    
    # 손실값 계산 (분류 문제에서는 정확도를 사용하므로 1 - 정확도를 반환)
    # 분류 문제에서는 정확도를 사용하므로, 손실값을 1 - 정확도로 계산
    loss = 1 - score
    # 손실값과 상태 코드를 반환합니다.
    return {'loss': loss, 'status': STATUS_OK}

# 검색 공간 정의
# 최적화할 하이퍼파라미터인 C의 범위를 정의합니다.
space = {
    'C': hp.loguniform('C', -5, 0),
}

# 최적화 실행
# TPE 알고리즘을 사용하여 목표 함술르 최적화하고,
# 최적의 하이퍼파라미터를 찾습니다. 최대 100회의 평가를 수행합니다.
best = fmin(fn=objective, space=space, algo=tpe.suggest, max_evals=100)

print(best)

100%|█████████████████████████████████████████████| 100/100 [00:01<00:00, 52.80trial/s, best loss: 0.09000000000000008]
{'C': 0.019212137070514446}


## HyperOpt 사용법
- 입력 변수명과 입력값의 검색 공간 설정
- 목적 함수의 설정
- 목적 함수의 반환 최솟값을 가지는 최적 입력값을 유추

In [4]:
from hyperopt import hp

# -10 ~ 10까지 1간격을 가지는 입력 변수 x와 -15 ~ 15까지 1간격으로 입력 변수 y설정.
# hp.quniform(label, low, high, q) 함수는 low와 high 사이에서 일정 간격 q
search_space = {'x': hp.quniform('x', -10, 10, 1), 'y':hp.quniform('y', -15, 15, 1)}

In [5]:
from hyperopt import STATUS_OK

# 목적 함수를 생성. 변숫값과 변수 검색 공간을 가지는 딕셔너리를 인자로 받고, 특정 값을 반환
# search_space는 하이퍼파라미터의 조합을 나타내는 딕셔너리 입니다. 이 딕셔너리는 'x'와 'y'라는
# 두 개의 키를 가지고 있습니다. 이 두 키는 각각 목표 함수에서 사용될 두 개의 변수를 나타냅니다.
def objective_func(search_space):
    x = search_space['x']
    y = search_space['y']
    retval = x**2 - 20*y # retval이라는 변수에 목표 함수의 식을 계산한 결과를 저장
    
    return retval

In [6]:
from hyperopt import fmin, tpe, Trials
import numpy as np

# 입력 결과값을 저장한 Trials 객체값 생성.
trial_val = Trials()

# 목적 함수의 최소값을 반환하는 최적 입력 변수값을 5번의 입력값 시도(max_evals=5)로 찾아냄.
best_01 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest, max_evals=5,
              trials=trial_val, rstate=np.random.default_rng(seed=0))

100%|█████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 833.76trial/s, best loss: -224.0]


In [7]:
trial_val = Trials()

# max_evals를 20회로 늘려서 재테스트
best_02 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest, max_evals=20,
              trials=trial_val, rstate=np.random.default_rng(seed=0))
print('best:',best_02)

100%|███████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 833.07trial/s, best loss: -296.0]
best: {'x': 2.0, 'y': 15.0}


In [8]:
# fmin()에 인자로 들어가는 Trials 객체의 result 속성에 파이썬 리스트로 목적 함수 반환값들이 저장됨
# 리스트 내부의 개별 원소는 {'loss': 함수 반환값, 'status': 반환 상태값}와 같은 딕셔너리임.
print(trial_val.results)

[{'loss': -64.0, 'status': 'ok'}, {'loss': -184.0, 'status': 'ok'}, {'loss': 56.0, 'status': 'ok'}, {'loss': -224.0, 'status': 'ok'}, {'loss': 61.0, 'status': 'ok'}, {'loss': -296.0, 'status': 'ok'}, {'loss': -40.0, 'status': 'ok'}, {'loss': 281.0, 'status': 'ok'}, {'loss': 64.0, 'status': 'ok'}, {'loss': 100.0, 'status': 'ok'}, {'loss': 60.0, 'status': 'ok'}, {'loss': -39.0, 'status': 'ok'}, {'loss': 1.0, 'status': 'ok'}, {'loss': -164.0, 'status': 'ok'}, {'loss': 21.0, 'status': 'ok'}, {'loss': -56.0, 'status': 'ok'}, {'loss': 284.0, 'status': 'ok'}, {'loss': 176.0, 'status': 'ok'}, {'loss': -171.0, 'status': 'ok'}, {'loss': 0.0, 'status': 'ok'}]


In [9]:
# Trials 객체의 vals 속성에 {'입력변수명':개별 수행 시마다 입력된 값 리스트}형태로 저장됨.
print(trial_val.vals)

{'x': [-6.0, -4.0, 4.0, -4.0, 9.0, 2.0, 10.0, -9.0, -8.0, -0.0, -0.0, 1.0, 9.0, 6.0, 9.0, 2.0, -2.0, -4.0, 7.0, -0.0], 'y': [5.0, 10.0, -2.0, 12.0, 1.0, 15.0, 7.0, -10.0, 0.0, -5.0, -3.0, 2.0, 4.0, 10.0, 3.0, 3.0, -14.0, -8.0, 11.0, -0.0]}


In [None]:
import pandas as pd

# results에서 loss 키값에 해당하는 밸류들을 추출하여 list로 생성.
losses = [loss_dict]

# DataFrame으로 생성
result_df = pd.DataFrame({'x': trial_val.va})
result_df

### HyperOpt를 이용한 XGBoost 하이퍼 파라미터 최적화

#### 과제2_0523. 위스콘신 유방암 데이터 세트를 로딩해서 XGBooster 알고리즘으로 모델링 및 평가를 수행하세요. 단 HyperOpt를 이용해서 하이퍼파라미터를 최적화하세요.

In [2]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

dataset = load_breast_cancer()

cancer_df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
cancer_df['target']=dataset.target
X_features = cancer_df.iloc[:,:-1]
y_label = cancer_df.iloc[:,-1]

In [3]:
# 전체 데이터 중 80%는 학습용 데이터, 20%는 테스트용 데이터 추출
X_train, X_test, y_train, y_test = train_test_split(X_features, y_label, test_size=0.2, random_state=156)

# 앞에서 추출한 학습 데이터를 다시 학습과 검증 데이터로 분리
X_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train, test_size=0.1, random_state=156)

In [5]:
from hyperopt import hp

# max_depth는 5에서 20까지 1간격으로, min_child_weight는 1에서 2까지 1간격으로
# colsample_bytree는 0.5에서 1사이, learning_rate는 0.01에서 0.2 사이 정규 분포된 값으로 검색.
xgb_search_space = {'max_depth':hp.quniform('max_depth', 5, 20, 1),
                   'min_child_weight': hp.quniform('min_child_weight', 1, 2, 1),
                   'learning_rate': hp.uniform('learning_rate', 0.01, 0.2),
                   'colsample_bytree': hp.uniform('colsample_bytree', 0.5, 1),
                   }

In [15]:
from sklearn.model_selection import cross_val_score
from xgboost import XGBClassifier
from hyperopt import STATUS_OK

# fmin()에서 입력된 search_space 값으로 입력된 모든 값은 실수형임.
# XGBClassifier의 정수형 하이퍼 파라미터는 정수형 변환을 해줘야 함.
# 정확도는 높을수록 더 좋은 수치임. -1 * 정확도를 곱해서 큰 정확도 값일수록 최소가 되도록 변환
def objective_func(search_space):
    # 수행 시간 절약을 위해 nestimators는 100으로 축소
    xgb_clf = XGBClassifier(n_estimators=100, max_depth=int(search_space['max_depth']),
                           min_child_weight=int(search_space['min_child_weight']),
                           learning_rate=search_space['learning_rate'], # 개별 트리를 학습할 때만다 두
                           eval_metric='logloss')
    accuracy = cross_val_score(xgb_clf, X_train, y_train, scoring='accuracy', cv=3)
    
    # accuracy는 cv=3 개수만큼 roc-auc 결과를 리스트로 가짐. 이를 평균해서 반환하되 -1을 곱함.
    return {'loss':-1 * np.mean(accuracy), 'status': STATUS_OK}

In [16]:
from hyperopt import fmin, tpe, Trials

trial_val = Trials()
best = fmin(fn=objective_func,
           space=xgb_search_space,
           algo=tpe.suggest,
           max_evals=50, # 최대 반복 횟수를 지정합니다.
           trials=trial_val, rstate=np.random.default_rng(seed=9))
print('best:',best)

100%|███████████████████████████████████████████████| 50/50 [00:13<00:00,  3.81trial/s, best loss: -0.9604827466016034]
best: {'colsample_bytree': 0.7767383218403126, 'learning_rate': 0.08962397914323136, 'max_depth': 7.0, 'min_child_weight': 2.0}


In [17]:
print('colsample_bytree:{0}, learning_rate:{1}, max_depth:{2}, min_child_weight:{3}'.format(
    round(best['colsample_bytree'],5), round(best['learning_rate'],5),
    int(best['max_depth']), int(best['min_child_weight'])))

colsample_bytree:0.77674, learning_rate:0.08962, max_depth:7, min_child_weight:2


In [22]:
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score

def get_clf_eval(y_test, pred=None, pred_proba=None):
    confusion = confusion_matrix(y_test, pred)
    accuracy = accuracy_score(y_test, pred)
    precistion = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)
    f1 = f1()
    # ROC-AUC 추가
    roc_auc = roc_auc_score(y_test, pred_proba)
    print('오차 행렬')
    print(confusion)
    # ROC-AUC print추가
    print('정확도 : {0:.4f}, 정밀도:{1:.4f}, 재현율: {2:.4f},\
          F1: {3:.4f}, AUC: {4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

In [18]:
xgb_wrapper = XGBClassifier(n_estimators=400,
                           learning_rate=round(best['learning_rate'],5),
                           max_depth=int(best['max_depth']),
                           min_chile_weight=int(best['min_child_weight']),
                           colsample_bytree=round(best['colsample_bytree'],5)
                           )

evals = [(X_tr, y_tr), (X_val, y_val)]
xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric='logloss',
               eval_set=evals, verbose=True)

preds = xgb_wrapper.predict(X_test)
pred_proba = xgb_wrapper.predict_proba(X_test)[:,1]

get_clf_eval(y_test, preds, pred_proba)

Parameters: { "min_chile_weight" } are not used.

[0]	validation_0-logloss:0.61682	validation_1-logloss:0.63724
[1]	validation_0-logloss:0.55214	validation_1-logloss:0.59030
[2]	validation_0-logloss:0.49727	validation_1-logloss:0.55482
[3]	validation_0-logloss:0.45082	validation_1-logloss:0.52620
[4]	validation_0-logloss:0.40833	validation_1-logloss:0.50155
[5]	validation_0-logloss:0.37025	validation_1-logloss:0.47081
[6]	validation_0-logloss:0.33803	validation_1-logloss:0.44542
[7]	validation_0-logloss:0.30969	validation_1-logloss:0.42250
[8]	validation_0-logloss:0.28387	validation_1-logloss:0.41138
[9]	validation_0-logloss:0.26053	validation_1-logloss:0.39277
[10]	validation_0-logloss:0.23890	validation_1-logloss:0.37658
[11]	validation_0-logloss:0.22056	validation_1-logloss:0.36342
[12]	validation_0-logloss:0.20319	validation_1-logloss:0.35202
[13]	validation_0-logloss:0.18754	validation_1-logloss:0.33996
[14]	validation_0-logloss:0.17397	validation_1-logloss:0.32914
[15]	validation

NameError: name 'get_clf_eval' is not defined