# HyperOpt
베이지안 최적화 기반의 하이퍼파라미터 튜닝 라이브러리

In [1]:
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
%pip install hyperopt

Note: you may need to restart the kernel to use updated packages.


## 베이지안 최적화 개요


베이지안 확률은 **새로운 정보를 바탕으로 기존 믿음을 갱신하는 접근 방식**이다.


기본적으로 확률을 사건에 대한 **신뢰도** 또는 **믿음의 정도**로 해석하며, 새로운 증거가 추가될 때마다 이를 반영해 확률을 업데이트한다.




**베이지안 확률의 핵심 개념**


1. **사전 확률 (Prior Probability)**: 새로운 정보를 반영하기 전, 사건에 대해 미리 알고 있는 확률이다. 이 확률은 기존의 지식이나 데이터에 기반하여 설정된다.
2. **가능도 (Likelihood)**: 새로운 정보가 주어졌을 때, 그 정보가 특정 사건과 얼마나 관련 있는지를 나타낸다.
3. **사후 확률 (Posterior Probability)**: 새로운 정보를 반영한 후, 사건에 대한 확률이다. 베이즈 정리를 통해 계산된다.




**베이즈 정리**




$
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
$


여기서,
- $P(A)$는 사건 A의 **사전 확률**
- $P(B|A)$는 사건 A가 일어났을 때 사건 B가 일어날 **가능도**
- $P(A|B)$는 사건 B가 일어났을 때 사건 A가 일어날 **사후 확률**




**간단한 예시**


어떤 병에 걸렸을 확률이 1%이고, 해당 병을 감지하는 테스트가 있다. 이 테스트는 실제로 병이 있을 때 99% 정확도로 감지하지만, 병이 없을 때에도 5%의 확률로 잘못된 양성 반응을 보인다. 테스트 결과가 양성일 때, 실제로 병에 걸렸을 확률을 구해보자.


* 사전확률: $P(\text{병}) = 0.01$ (병에 걸렸을 사전 확률)
* 사전확률: $P(\text{비병}) = 1 - 0.01 = 0.99$
* 가능도: $P(\text{양성}|\text{병}) = 0.99$ (참 양성률)
* 가능도: $P(\text{양성}|\text{비병}) = 0.05$ (위양성률)


**베이즈 정리를 적용:**


$$
P(\text{병}|\text{양성}) = \frac{P(\text{양성}|\text{병}) \cdot P(\text{병})}{P(\text{양성})}
$$


여기서 $P(\text{양성})$는 모든 경우에서 양성이 나올 확률이며, 다음과 같이 계산한다:


$$
P(\text{양성}) = P(\text{양성}|\text{병}) \cdot P(\text{병}) + P(\text{양성}|\text{비병}) \cdot P(\text{비병})
$$


$$
= (0.99 \cdot 0.01) + (0.05 \cdot 0.99) = 0.0099 + 0.0495 = 0.0594
$$


**최종계산:**


$$
P(\text{병}|\text{양성}) = \frac{0.99 \cdot 0.01}{0.0594} = \frac{0.0099}{0.0594} ≈ 0.1667
$$


**테스트 결과가 양성일 때 실제로 병에 걸렸을 확률은 약 16.67%이다.**


위 계산을 통해 구해진 결과가 새로운 사후 확률이 된다. 이처럼, **베이지안 확률은 기존 정보와 새로운 정보를 결합하여 확률을 갱신한다.**


이처럼 질병의 **희귀성(사전 확률)** 과 **검사의 위양성률**이 높을수록, 양성 반응이 나와도 실제 병일 확률은 낮을 수 있다는 것이 **베이지안 확률의 핵심 인사이트**이다.








**베이징안 정리와 베이지안 최적화 비교**




| 항목          | 베이지안 정리                                                              | 베이지안 최적화                                          |                        |                                     |
| ----------- | -------------------------------------------------------------------- | ------------------------------------------------- | ---------------------- | ----------------------------------- |
| **정의**      | 새로운 증거가 주어졌을 때 확률을 갱신하는 수학 공식                                        | 고비용의 black-box 함수를 최대화/최소화하기 위한 탐색 알고리즘           |                        |                                     |
| **목적**      | 어떤 사건이 발생할 확률을 업데이트                                                  | 최소한의 시도로 최적 값을 찾기                                 |                        |                                     |
| **핵심 아이디어** | 기존 신념(사전확률 prior)을 새로운 데이터(증거 evidence)를 바탕으로 업데이트 → 사후확률(posterior) | 이전 실험 데이터를 바탕으로 함수를 추정하고, 그 추정을 바탕으로 다음 실험 위치를 정함 |                        |                                     |
| **수식**      | $P(A \| B) = \frac{P(B \| A) \cdot P(A)}{P(B)}$ | 수식 자체는 없지만 **가우시안 프로세스 + 획득함수**를 이용 |
| **예시**      | 질병 검사 결과로 환자가 실제로 병에 걸렸을 확률 계산                                       | 실험 5번만에 최적 하이퍼파라미터를 찾기                            |                        |                                     |


## HyperOpt


https://hyperopt.github.io/hyperopt/






<img src="https://miro.medium.com/v2/resize:fit:828/format:webp/1*yVYgXhaWbtMi6CwGRQGk4w.gif" width="500px">


이미지출처: https://towardsdatascience.com/hyperopt-demystified-3e14006eb6fa




베이지안 확률에 기반을 두고 있는 최적화 기법


베이지안 확률이 새로운 데이터를 기반으로 사후 확률을 개선해 나가듯이, 베이지안 최적화는 새로운 데이터를 입력받았을 때, 최적 함수를 예측하는 사후 모델을 개선해 나가며 최적 함수 모델을 만들어 낸다.


**베이지안 최적화의 주요 요소**
- 목표 함수 (Objective Function): 최적화하려는 함수. 일반적으로 $\text{f}(x)$ 로 표현되며, 이 함수의 값을 알고 싶지만 직접 계산하기 어려운 경우가 많다.
- 확률 모델 (Probabilistic Model): 목표 함수의 분포를 나타내는 모델. 보통 가우시안 프로세스(Gaussian Process)를 사용하여 목표 함수의 분포를 추정한다. 이 모델은 목표 함수의 특정 지점에서의 값을 예측할 수 있다.
- 획득 함수 (Acquisition Function): 다음 샘플링 지점을 결정하는 함수. 확률 모델을 기반으로 목표 함수의 최대값을 효율적으로 찾기 위해 사용하는 함수이다. 보통 Expected Improvement (EI), Probability of Improvement (PI), Upper Confidence Bound (UCB) 등이 사용된다.


**베이지안 최적화 과정**
1. 초기 샘플링 (Initial Sampling): 목표 함수의 일부 지점을 임의로 선택하여 샘플링을 수행하고, 각 지점의 목표 함수 값을 계산한다.
2. 확률 모델 생성 (Probabilistic Model Creation): 초기 샘플링 결과를 바탕으로 가우시안 프로세스와 같은 확률 모델을 생성한다.
3. 획득 함수 계산 (Calculate Acquisition Function): 확률 모델을 이용해 획득 함수를 계산하여 다음 샘플링 지점을 결정한다.
4. 새로운 샘플링 및 모델 업데이트 (New Sampling and Model Update): 획득 함수에 의해 선택된 지점에서 목표 함수 값을 계산하고, 이 결과를 확률 모델에 반영하여 업데이트한다.
5. 반복 (Repeat): 최적화 목표가 달성되거나 반복 횟수가 지정된 한계에 도달할 때까지 위 과정을 반복한다.

### search_space
최적화하고자 하는 하이퍼파라미터의 후보군

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
from hyperopt import hp
search_space = {
    'a' : hp.quniform('a', -3, 3, 1), # -3~3사이에 1간격의 숫자 /range안됨 hp에서 꺼내서 써야함
    'b' : hp.choice('b', ['가', '나', '다']),
    'c' : hp.normal('c', 0, 1), # 평균 0, 표준편차 1 정규분포에서 추출
    'd' : hp.uniform('d', 0, 1), # 0~1 사이의 균등분포에서 추출
}

  import pkg_resources


In [4]:
from hyperopt.pyll.stochastic import sample

for _ in range(10):
    sam_values = sample(search_space)
    print(f'a={sam_values["a"]}, b={sam_values["b"]}, c={sam_values["c"]}, d={sam_values["d"]}')

a=-1.0, b=다, c=-0.39709140514035296, d=0.7960875044103051
a=-1.0, b=나, c=-1.7436882017448656, d=0.14006936203463616
a=-0.0, b=가, c=0.08508653774852042, d=0.8217720272914019
a=-1.0, b=가, c=0.07300985489566485, d=0.730191341806336
a=-0.0, b=다, c=-0.49032921555057324, d=0.10050007113502557
a=-1.0, b=나, c=0.10303983574287331, d=0.44397194109866034
a=-1.0, b=나, c=1.1585487449740821, d=0.3391180887610238
a=-3.0, b=나, c=-1.647423742387987, d=0.7684138854075807
a=-0.0, b=나, c=0.47656569995963466, d=0.6268619439004387
a=1.0, b=나, c=0.45862280324037835, d=0.08028607619544015


### iris + RandomForestClassifier

In [5]:
# 데이터 준비

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True, as_frame=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)



In [6]:
from hyperopt import Trials, fmin, tpe
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier


# 테스트할 파라미터 목록
# 왜이렇게 변수로 담았냐?
n_estimators_vals = [100, 500, 1000]
max_depth_vals = [None, 5, 10]
min_samples_vals = [2, 5, 10]
min_samples_leaf_vals = [1, 2, 4]

search_space = {                                # 이중에서 랜덤으로 골라서 씀 == 처음에는 랜덤                                                에 가깝다가 성능이 좋았던 하이퍼파라미터 값을 더                                                 자주 선택하게 된다. 단순 랜덤 XXXXXX
    'n_estimators' : hp.choice('n_estimators',n_estimators_vals),
    'max_depth' : hp.choice('max_depth', max_depth_vals),
    'min_samples_split' : hp.choice('min_samples_split', min_samples_vals),
    'min_samples_leaf' : hp.choice('min_samples_leaf',min_samples_leaf_vals),
}

# 목적함수 : 최적화 대상 => 하이퍼 파라미터의 최적의 값을 찾는 게 목적인데 그걸 목적 함수의 값을 가지고 테스트한다.
def objective(params):
    # 모델 학습
    model = RandomForestClassifier(
        random_state=42,
        **params, # 딕셔너리를 'unpacking 연산'으로 받아옴
    )

    model.fit(X_train, y_train)


    # 예측
    y_pred = model.predict(X_test)

    # 손실값(정확도)
    return -1 * accuracy_score(y_test, y_pred) # 우리는 최소값을 찾기 때문에 -1을 곱해준다.

# HyperOpt 객체 생성
# - fmin 함수 : 베이지안 최적화 수행 함수 -> 최적화된 결과 반환
# - tpe : 목적함수의 최적화를 달성할 알고리즘
# - objective : 목적함수
# - trials : 수행과정을 기록할 객체

trials = Trials()

best_result = fmin(
    fn=objective,       # 목적함수
    space=search_space, # 검색공간
    algo=tpe.suggest,   # 최적화 알고리즘
    trials=trials,      # 기록용 객체
    max_evals=50,       # 최대 평가함수
    rstate = np.random.default_rng(42) # 난수생성기객체
)
best_result





100%|██████████| 50/50 [00:41<00:00,  1.20trial/s, best loss: -0.9666666666666667]


{'max_depth': np.int64(1),
 'min_samples_leaf': np.int64(1),
 'min_samples_split': np.int64(2),
 'n_estimators': np.int64(0)}

In [7]:
#trials
#trials.vals #시도한 파라미터 목록
# trials.results # 회차별 목적함수의 반환값

trials_df = pd.DataFrame({
    'max_depth' : trials.vals['max_depth'],
    'n_estimators' : trials.vals['n_estimators'],
    'min_samples_split' : trials.vals['min_samples_split'],
    'min_samples_leaf' : trials.vals['min_samples_leaf'],
    'loss' : [result['loss'] for result in trials.results],
})

In [8]:
# 찾아낸 하이퍼 파라미터를 적용해서 모덿 학습/평가/예측

"""
{'max_depth': np.int64(1),
 'min_samples_leaf': np.int64(1),
 'min_samples_split': np.int64(2),
 'n_estimators': np.int64(0)}

"""


max_depth = max_depth_vals[best_result['max_depth']]
min_samples_split = min_samples_leaf_vals[best_result['min_samples_split']]
min_samples_leaf = min_samples_leaf_vals[best_result['min_samples_leaf']]
n_estimators = n_estimators_vals[best_result['n_estimators']]

model = RandomForestClassifier(
    random_state=42,
    n_estimators=n_estimators, # 테스트 해 본 것 중에 가장 좋은 것
    max_depth=max_depth,
    min_samples_split=min_samples_split,
    min_samples_leaf=min_samples_leaf,
)

model.fit(X_train, y_train)



0,1,2
,n_estimators,100
,criterion,'gini'
,max_depth,5
,min_samples_split,4
,min_samples_leaf,2
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [9]:
# 평가
print(f'Train acc : {model.score(X_train, y_train)}')
print(f'Test acc : {model.score(X_test, y_test)}')


Train acc : 0.9833333333333333
Test acc : 0.9666666666666667
