## 하이퍼파라미터란 무엇인가요?

- 하이퍼파라미터는 데이터 과학자가 기계 학습 모델 훈련을 관리하는 데 사용하는 외부 구성 변수입니다. 
- 때때로 모델 하이퍼파라미터라고 부르며, 하이퍼파라미터는 모델을 훈련하기 전에 수동으로 설정됩니다. 하이퍼파라미터는 파라미터와는 다르며, 데이터 과학자에 의해 설정되는 것이 아닌 학습 프로세스 중에 자동으로 파생되는 내부 파라미터입니다.

- 하이퍼파라미터의 예로는 신경망의 노드 및 계층 수와 의사 결정 트리의 분기 수가 있습니다. 
- 하이퍼파라미터는 모델 아키텍처, 학습 속도 및 모델 복잡성과 같은 주요 기능을 결정합니다.

## 하이퍼파라미터 튜닝이 중요한 이유는 무엇인가요?
- 하이퍼파라미터는 모델 구조, 기능 및 성능을 직접 제어합니다. 
- 하이퍼파라미터 튜닝을 사용하면 데이터 과학자가 최적의 결과를 위해 모델 성능을 조정할 수 있습니다. 
- 이 프로세스는 기계 학습의 필수적인 부분이며, 성공을 위해서는 적절한 하이퍼파라미터 값을 선택하는 것이 중요합니다.
- 예를 들어 모델의 학습 속도를 하이퍼파라미터로 사용한다고 가정합니다. 
- 값이 너무 높으면 모델이 차선의 결과로 너무 빨리 수렴할 수 있습니다. 
- 반면에 비율이 너무 낮으면 훈련이 너무 오래 걸리고 결과가 수렴되지 않을 수 있습니다. 
- 하이퍼파라미터를 적절하고 균형 있게 선택하면 정확한 모델과 우수한 모델 성능을 얻을 수 있습니다.

## 하이퍼파라미터 튜닝 기법에는 어떤 것이 있나요?
- 수많은 하이퍼파라미터 튜닝 알고리즘이 존재하지만, 
- 가장 일반적으로 사용되는 유형은 베이지안 최적화(Bayesian optimization), 
- 그리드 서치(grid search) 및 랜덤 서치(randomized search)입니다.

### 베이지안 최적화(Bayesian optimization)
- 베이지안 최적화(Bayesian optimization)는 베이즈 정리(Bayes’ theorem)에 기반한 기법이며, 현재 지식과 관련된 이벤트가 발생할 확률을 설명합니다. 
- 하이퍼파라미터 최적화에 적용될 경우, 알고리즘은 특정 지표를 최적화하는 하이퍼파라미터 세트에서 확률 모델을 빌드합니다. 
- 회귀 분석을 사용하여 최상의 하이퍼파라미터 세트를 반복적으로 선택합니다.

### 그리드 서치(Grid search)
- 그리드 서치(Grid search)를 통해, 하이퍼파라미터 목록과 성능 지표를 지정하면 알고리즘이 가능한 모든 조합을 통해 작동하여 가장 적합한 것을 결정합니다. 
- 그리드 서치(Grid search)는 훌륭하게 작동하지만 상대적으로 지루하고 계산 집약적입니다. 
- 많은 수의 하이퍼파라미터가 있는 경우 특히 그러합니다.

### 랜덤 서치(Random search)
- 그리드 서치(Grid search)와 유사한 원리를 기반으로 하지만 랜덤 서치(Random search)는 각 반복에서 무작위로 하이퍼파라미터 그룹을 선택합니다. 
- 상대적으로 적은 수의 하이퍼파라미터가 주로 모델 결과를 결정할 때 훌륭하게 작동합니다.

## 참고자료 

https://velog.io/@gangjoo/ML-%EB%B6%84%EB%A5%98-%EB%B2%A0%EC%9D%B4%EC%A7%80%EC%95%88-%EC%B5%9C%EC%A0%81%ED%99%94-Bayesian-Optimization



## 베이지안 최적화가 필요한 순간

- 가능한 최소의 시도로 최적의 답을 찾아야 할 경우 (ex: 금고 털기)
- 개별 시도가 너무 많은 시간/자원이 필요할 때


## 베이지안 최적화

- 미지의 함수가 반환하는 값의 최소 또는 최댓값을 만드는 최적해를 짧은 반복을 통해 찾아내는 최적화 방식
- 새로운 데이터를 입력 받았을 때 최적 함수를 예측하는 사후 모델을 개선해 나가면서 최적 함수를 도출
- 대체 모델(Surrogate Model)과 획득 함수로 구성
- 대체 모델은 획득 함수로부터 최적 입력 값을 추천 받은 뒤 이를 기반으로 최적 함수 모델을 개선
- ㅡ획득 함수는 개선된 대체 모델을 기반으로 다시 최적 입력 값을 계산

## Bayesian Optimization에서 사전 정보를 바탕으로 탐색하기 위해선 다음과 같은 정보가 필요하다.

### 어떻게 모델 내에서 사전 정보를 학습하고 자동적으로 업데이트할까?
- 정답: Surrogate Model
- 기존 입력값(x1, f(x1)), (x2, f(x2)), ... , (xt, f(xt))들을 바탕으로, 미지의 목적 함수 f의 형태에 대한 확률적인 추정을 하는 모델
### 수집한 사전 정보를 바탕으로 어떤 기준으로 다음 탐색값을 찾을까?
- 정답: Acquisition Function
- Surrogate Model이 목적 함수에 대해 확률적으로 추정한 결과를 바탕으로, 바로 다음 번에 탐색할 입력값 후보를 추천해 주는 함수
최적값일 가능성이 높은 값 = Surrogate Model에서 함수값이 큰 값 아직 Surrogate Model에서의 추정이 불확실한 값 = Surrogate Model에서 표준편차가 큰 값

In [19]:
import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

In [23]:
data.shape

(506, 13)

In [22]:
target.shape

(506,)

In [25]:
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

In [26]:
X_train, X_val, y_train, y_val = train_test_split(data, target, test_size=0.2)

In [38]:
# 학습 데이터를 다시 학습과 검증 데이터로 분리 
X_tr, X_val, y_tr, y_val= train_test_split(X_train, y_train,
                                         test_size=0.1, random_state=156 )

## 베이지안 최적화를 구현한 주요 패키지

- HyperOpt
- Bayesian optimization
- Optuna

In [8]:
from xgboost import XGBClassifier
from bayes_opt import BayesianOptimization

In [27]:
# 목적 함수 생성
def xgb_eval(learning_rate, max_depth, output = 'score'):
    params = {
        # n_estimators 값은 100으로 고정
        'n_estimators': 100,
        # 호출 시, 실수형 값들이 들어오므로 정수형 하이퍼 파라미터는 정수형으로 변경해줘야 함
        'learning_rate': learning_rate,
        'max_depth': int(round(max_depth))
    }
    
    xgb = XGBRegressor(**params, random_state = 1021)
    
    # Cross Validation
    neg_mse_scores = cross_val_score(xgb, X_train, y_train,
                                     scoring = 'neg_mean_squared_error',
                                     cv = 3)
    rmse_scores = np.sqrt(-1 * neg_mse_scores)
    mean_rmse = np.mean(rmse_scores)
    
    return -mean_rmse # BayesianOptimization의 maximize()를 사용하기 위해, RMSE 값을 음수로 반환

In [28]:
# 하이퍼 파라미터 입력 범위 설정
xgb_bayes_params = {
    'learning_rate': (0.01, 0.2),
    'max_depth': (6, 12)
}


In [31]:
# 베이지안 최적화
model_bayes = BayesianOptimization(f = xgb_eval, pbounds = xgb_bayes_params, random_state = 1021)


In [32]:
# 목적 함수가 최대가 되는 최적해를 찾기
model_bayes.maximize(init_points = 5, n_iter = 25)

|   iter    |  target   | learni... | max_depth |
-------------------------------------------------
| [0m1        [0m | [0m-3.657   [0m | [0m0.1431   [0m | [0m11.23    [0m |
| [95m2        [0m | [95m-3.641   [0m | [95m0.1465   [0m | [95m7.336    [0m |
| [0m3        [0m | [0m-3.663   [0m | [0m0.1762   [0m | [0m7.155    [0m |
| [95m4        [0m | [95m-3.624   [0m | [95m0.1504   [0m | [95m8.572    [0m |
| [0m5        [0m | [0m-3.653   [0m | [0m0.04045  [0m | [0m10.27    [0m |
| [0m6        [0m | [0m-3.627   [0m | [0m0.1139   [0m | [0m8.845    [0m |
| [0m7        [0m | [0m-9.853   [0m | [0m0.01     [0m | [0m8.675    [0m |
| [0m8        [0m | [0m-3.654   [0m | [0m0.1984   [0m | [0m11.99    [0m |
| [95m9        [0m | [95m-3.596   [0m | [95m0.04637  [0m | [95m9.314    [0m |
| [95m10       [0m | [95m-3.589   [0m | [95m0.06001  [0m | [95m11.82    [0m |
| [0m11       [0m | [0m-3.97    [0m | [0m0.02909  [0m | [

In [33]:
# 최종 도출된 최적해 확인
model_bayes.max

{'target': -3.5455349803280307,
 'params': {'learning_rate': 0.07923518190785042,
  'max_depth': 10.712207237356235}}

# 2. hyperopt 최적화 

### 참고자료 
https://velog.io/@gangjoo/ML-%EB%B6%84%EB%A5%98-%EB%B2%A0%EC%9D%B4%EC%A7%80%EC%95%88-%EC%B5%9C%EC%A0%81%ED%99%94-Bayesian-Optimization

In [47]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')


In [48]:
dataset = load_breast_cancer()

cancer_df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
cancer_df['target']= dataset.target
X_features = cancer_df.iloc[:, :-1]
y_label = cancer_df.iloc[:, -1]

In [49]:
# 전체 데이터 중 80%는 학습용 데이터, 20%는 테스트용 데이터 추출
X_train, X_test, y_train, y_test=train_test_split(X_features, y_label,
                                         test_size=0.2, random_state=156 )

# 학습 데이터를 다시 학습과 검증 데이터로 분리 
X_tr, X_val, y_tr, y_val= train_test_split(X_train, y_train,
                                         test_size=0.1, random_state=156 )

## Search Space 설정

- max_depth:5에서 20까지 1간격
- min_child_weight는 1에서 2까지 1간격으로
- colsample_bytree: 0.5에서 1사이
- learning_rate는 0.01에서 0.2사이 정규 분포된 값으로 검색

- quniform: 정수형 값을 반환할 때 사용 (start, stop(포함), step)
- uniform: 최솟값부터 최댓값까지 정규분포 검색 공간 설정
- loguniform: exp(uniform(low,high)) 값 반환

In [42]:
from hyperopt import hp

xgb_search_space = {'max_depth': hp.quniform('max_depth', 5, 20, 1),
                    'min_child_weight': hp.quniform('min_child_weight', 1, 2, 1),
                    'learning_rate': hp.uniform('learning_rate', 0.01, 0.2),
                    'colsample_bytree': hp.uniform('colsample_bytree', 0.5, 1)
               }

## 목적 함수를 설정함



In [43]:
from hyperopt import STATUS_OK

def objective_func(search_space):
    # 수행 시간 절약을 위해 n_estimators는 100으로 축소
    xgb_clf = XGBClassifier(n_estimators=100, max_depth=int(search_space['max_depth']),
                            min_child_weight=int(search_space['min_child_weight']),
                            learning_rate=search_space['learning_rate'],
                            colsample_bytree=search_space['colsample_bytree'], 
                            eval_metric='logloss')
    
    accuracy = cross_val_score(xgb_clf, X_train, y_train, scoring='accuracy', cv=3)
        
    return {'loss':-1 * np.mean(accuracy), 'status': STATUS_OK}

## 베이지안 최적화 진행
- trial_val 객체는 아래에서 구조를 뜯어보기로 함
- fmin함수를 이용해서 최적화 진행
- tpe는 최적화 방식 중 하나 (가우시안 최적화, ... 등)
- rstate 실제로는 안 써주는 게 더 성능이 좋다고 함 (여기서는 결과값 고정을 위해 써줌)
- max_evals = 5 만큼 돌면서 최적값 찾기

In [44]:
from hyperopt import fmin, tpe, Trials

trial_val = Trials()
best = fmin(fn=objective_func,
            space=xgb_search_space,
            algo=tpe.suggest,
            max_evals=50,
            trials=trial_val, rstate=np.random.default_rng(seed=9))
print('best:', best)

100%|████████| 50/50 [00:09<00:00,  5.51trial/s, best loss: -0.9692401533635412]
best: {'colsample_bytree': 0.548301545497125, 'learning_rate': 0.1840281762576621, 'max_depth': 18.0, 'min_child_weight': 2.0}


In [50]:
best

{'colsample_bytree': 0.548301545497125,
 'learning_rate': 0.1840281762576621,
 'max_depth': 18.0,
 'min_child_weight': 2.0}

## 여러 평가 지표를 출력하는 함수 get_clf_eval 만듦

In [45]:
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score

def get_clf_eval(y_test, pred=None, pred_proba=None):
    confusion = confusion_matrix( y_test, pred)
    accuracy = accuracy_score(y_test , pred)
    precision = precision_score(y_test , pred)
    recall = recall_score(y_test , pred)
    f1 = f1_score(y_test,pred)
    roc_auc = roc_auc_score(y_test, pred_proba)
    print('오차 행렬')
    print(confusion)
    print('정확도: {0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f},\
    F1: {3:.4f}, AUC:{4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

### 뽑은 최적의 파라미터들로 XGBClassifier에 넣어서 fit() 함
n_esimators=400으로 설정하고 early_stopping_rounds=50 설정
평가지표까지 출력

In [46]:
xgb_wrapper = XGBClassifier(n_estimators=400, learning_rate=round(best['learning_rate'], 5), 
                            max_depth=int(best['max_depth']), min_child_weight=int(best['min_child_weight']),
                            colsample_bytree=round(best['colsample_bytree'], 5)
                           )

evals = [(X_tr, y_tr), (X_val, y_val)]
xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric='logloss', 
                eval_set=evals, verbose=True)

preds = xgb_wrapper.predict(X_test)
pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1]

get_clf_eval(y_test, preds, pred_proba)

[0]	validation_0-logloss:0.54472	validation_1-logloss:0.58675
[1]	validation_0-logloss:0.44155	validation_1-logloss:0.52577
[2]	validation_0-logloss:0.36542	validation_1-logloss:0.48906
[3]	validation_0-logloss:0.30756	validation_1-logloss:0.45704
[4]	validation_0-logloss:0.26142	validation_1-logloss:0.41671
[5]	validation_0-logloss:0.22616	validation_1-logloss:0.39605
[6]	validation_0-logloss:0.19465	validation_1-logloss:0.37095
[7]	validation_0-logloss:0.16951	validation_1-logloss:0.36066
[8]	validation_0-logloss:0.14718	validation_1-logloss:0.34686
[9]	validation_0-logloss:0.13006	validation_1-logloss:0.33716
[10]	validation_0-logloss:0.11635	validation_1-logloss:0.32332
[11]	validation_0-logloss:0.10455	validation_1-logloss:0.32074
[12]	validation_0-logloss:0.09388	validation_1-logloss:0.31916
[13]	validation_0-logloss:0.08434	validation_1-logloss:0.30987
[14]	validation_0-logloss:0.07702	validation_1-logloss:0.30469
[15]	validation_0-logloss:0.07144	validation_1-logloss:0.30293
[1