In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

## 베이지안 최적화 기반의 HyperOpt를 이용한 하이퍼파라미터 튜닝

### 베이지안 최적화

- 베이지안 확률에 기반으로 두는 최적화 기법
    - 베이지안 확률 : 새로운 사건의 관측이나 새로운 샘플 데이터 기반으로 사후 확률을 개선
- 새로운 데이터를 입력받았을 때 최적 함수를 예측하는 사후 모델을 개선해 나가면서 최적 함수 모델을 만들어 감
- 최적화 구성 요소
    - 대체 모델(surrogate model)
    - 획득 함수(acquisition function)
- 대체 모델은 획득 함수로부터 최적 함수를 예측할 수 있는 입력값을 추천받은 후 이를 기반으로 최적 함수 모델을 개선, 획득 함수는 개선된 대체 모델을 기반으로 최적 입력값을 계산하는 프로세스

### 베이지안 최적화 단계

- 1단계 : 랜덤하게 하이퍼파라미터들을 샘플링하고 성능 결과 관측

![image.png](attachment:e1239832-da7a-4320-a843-0d375c549b54.png)

- 2단계: 관측된 값을 기반으로 대체 모델은 최적 함수를 추정

![image.png](attachment:d5c78a15-8e50-4d3d-8c10-72bcb9b3c288.png)

- 3단계 : 추정된 최적 함수를 기반으로 획득 함수는 다음으로 관측할 하이퍼파라미터 값 계산
    - 이전의 최적 관측값보다 더 큰 최대값을 가질 가능성이 높은 지점을 찾아 대체 모델에 전달

![image.png](attachment:a7cd7e5c-fb64-4e62-9382-2ae68133e367.png)

- 4단계 : 획득 함수로 부터 전달된 하이퍼파라미터를 수행하여 관측된 값을 기반으로 대체 모델 갱신, 최적 함수 예측 추정

![image.png](attachment:27c7e645-53af-491d-b1fd-2c90431e03b2.png)

- 3단계와 4단계를 특정 횟수만큼 반복하여 대체 모델의 불확실성이 개선되고 점차 정확한 최적함수 추정

### HyperOpt 사용하기

- 베이지안 최적화 패키지 중 하나
    - HyperOpt, Bayesian Optimization, Optuna 등
- https://github.com/hyperopt/hyperopt
- https://hyperopt.github.io/hyperopt/

#### HyperOpt 설치

In [35]:
!pip install xgboost

Defaulting to user installation because normal site-packages is not writeable
Collecting xgboost
  Downloading xgboost-2.0.3-py3-none-win_amd64.whl.metadata (2.0 kB)
Downloading xgboost-2.0.3-py3-none-win_amd64.whl (99.8 MB)
   ---------------------------------------- 0.0/99.8 MB ? eta -:--:--
   ---------------------------------------- 0.8/99.8 MB 17.2 MB/s eta 0:00:06
    --------------------------------------- 1.4/99.8 MB 12.4 MB/s eta 0:00:08
    --------------------------------------- 2.2/99.8 MB 14.2 MB/s eta 0:00:07
    --------------------------------------- 2.3/99.8 MB 11.2 MB/s eta 0:00:09
    --------------------------------------- 2.4/99.8 MB 9.0 MB/s eta 0:00:11
    --------------------------------------- 2.5/99.8 MB 7.8 MB/s eta 0:00:13
   - -------------------------------------- 2.7/99.8 MB 6.7 MB/s eta 0:00:15
   - -------------------------------------- 4.0/99.8 MB 8.5 MB/s eta 0:00:12
   -- ------------------------------------- 5.5/99.8 MB 10.6 MB/s eta 0:00:09
   --- 

In [2]:
!pip install hyperopt

Defaulting to user installation because normal site-packages is not writeable
Collecting hyperopt
  Downloading hyperopt-0.2.7-py2.py3-none-any.whl.metadata (1.7 kB)
Collecting py4j (from hyperopt)
  Downloading py4j-0.10.9.7-py2.py3-none-any.whl.metadata (1.5 kB)
Downloading hyperopt-0.2.7-py2.py3-none-any.whl (1.6 MB)
   ---------------------------------------- 0.0/1.6 MB ? eta -:--:--
   -------------------------------- ------- 1.3/1.6 MB 41.6 MB/s eta 0:00:01
   ---------------------------------------- 1.6/1.6 MB 33.5 MB/s eta 0:00:00
Downloading py4j-0.10.9.7-py2.py3-none-any.whl (200 kB)
   ---------------------------------------- 0.0/200.5 kB ? eta -:--:--
   ---------------------------------------- 200.5/200.5 kB 6.1 MB/s eta 0:00:00
Installing collected packages: py4j, hyperopt
Successfully installed hyperopt-0.2.7 py4j-0.10.9.7




#### HyperOpt 기본 사용

- 입력 변수명과 입력값의 **검색 공간(Search space) 설정**
- **목적 함수(Objective Function) 설정**
- 목적 함수의 반환 최솟값을 가지는 최적 입력값 유추(**fmin()** 함수)
    - 목적 함수 반환값이 최댓값이 아니라 최솟값을 가짐

In [3]:
import hyperopt

hyperopt.__version__

'0.2.7'

#### 1) 검색 공간(Search space) 설정

In [31]:
# -10 ~ 10까지 1씩 움직이게
from hyperopt import hp

search_space = {'x':hp.quniform('x',-10,10,1),'y':hp.quniform('y',-15,15,1)}

In [5]:
search_space

{'x': <hyperopt.pyll.base.Apply at 0x229b52f1ed0>,
 'y': <hyperopt.pyll.base.Apply at 0x229b52f2310>}

In [7]:
print(search_space['x'])

0 float
1   hyperopt_param
2     Literal{x}
3     quniform
4       Literal{-10}
5       Literal{10}
6       Literal{1}


검색 공간 제공하는 대표적인 함수들
- hp.quniform(label, low, high, q) : label로 지정된 입력값 변수 검색 공간을 최솟값 low에서 최댓값 high까지 q 간격으로 설정
- hp.uniform(label, low, high) : low에서 high까지 설정
- hp.randint(label, upper) : 0 부터 upper까지 랜덤한 정수값으로 설정
- hp.loguniform(label, low, high) : exp(uniform(low,high)) 값을 반환
- hp.normal(label, mu, sigma) : mu와 sigma를 갖는 정규분포 값으로 설정
- hp.choice(label, options) : 검색 값이 문자열 또는 문자열과 숫자가 섞여 있을 경우 설정
    - options는 리스트나 튜플 형태로 제공
    - 예. hp.choice('tree_criterion',['gini','entropy']) : tree_criterion의 값을 'gini'와 'entropy'로 설정하여 입력

#### 2) 목적 함수 생성

- 목적 함수는 변수값과 검색 공간을 갖는 딕셔너리를 인수(argument)로 받고, 특정 값을 반환(return)하는 구조로 만들어야 함
- 목적 함수의 반환값은 숫자형 단일값 외에도 딕셔너리 형태 가능
    - {'loss': retval, 'status' : STATUS_OK}와 같이 loss와 status 키 값을 설정해서 반환해야 함

In [12]:
from hyperopt import STATUS_OK

def objective_func(search_space):
    x= search_space['x']
    y= search_space['y']
    retval = x**2 - 20*y

    return retval

#### 3) 목적함수의 반환값이 최소가 될 수 있는 최적의 입력값 찾기 : fmin() 이용

```python
fmin(fn, space, algo, max_evals, trials, rstate)
```

- fn : 목적 함수
- space : 검색 공간 딕셔너리
- algo : 베이지안 최적화 적용 알고리즘. 기본값은 'tpe.suggest'(TPE:Tree of Parzen Estimator)
- max_evals : 최적 입력값을 찾기 위한 입력값 시도 회수
- trials : 최적 입력값을 찾기 위해 시도한 입력값 및 해당 입력값의 목적 함수 반환값 결과를 저장하는데 사용, Trial 클래스를 객체로 생성한 변수명을 입력함
- rstate : fmin()을 수행할 때마다 동일한 결과값을 가질 수 있도록 설정하는 random seed 값
    - 일반적인 정수형 값을 넣지 않음
    - 0.2.7 버전의 경우 np.random.default_rng() 함수 인자로 seed값을 입력함
    - HyperOpt 버전에 따라 rstate인자값이 다름

In [20]:
# 목적함수를 검색공간에 따라 max_evals 만큼 시도하여 최적 입력값 찾기
from hyperopt import fmin, tpe, Trials

trial_val = Trials()
best01 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest,
     max_evals=5, trials=trial_val, rstate=np.random.default_rng(seed=0))

print(f'best:{best01}')

100%|█████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 185.68trial/s, best loss: -224.0]
best:{'x': -4.0, 'y': 12.0}


In [16]:
# best loss -> best인자들로 했을 때의 값
(-4)**2 - 20*12

-224

- max_evals=20 으로 지정하여 재테스트

In [22]:
# max_evals -> 입력값 시도 회수
trial_val = Trials()
best02 = fmin(fn=objective_func, space=search_space, algo=tpe.suggest,
     max_evals=20, trials=trial_val, rstate=np.random.default_rng(seed=0))

print(f'best:{best02}')

100%|███████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 238.08trial/s, best loss: -296.0]
best:{'x': 2.0, 'y': 15.0}


In [18]:
(-2)**2 - 20*15

-296

In [19]:
# 시도 결과들
trial_val.results

[{'loss': -64.0, 'status': 'ok'},
 {'loss': -184.0, 'status': 'ok'},
 {'loss': 56.0, 'status': 'ok'},
 {'loss': -224.0, 'status': 'ok'},
 {'loss': 61.0, 'status': 'ok'},
 {'loss': -296.0, 'status': 'ok'},
 {'loss': -40.0, 'status': 'ok'},
 {'loss': 281.0, 'status': 'ok'},
 {'loss': 64.0, 'status': 'ok'},
 {'loss': 100.0, 'status': 'ok'},
 {'loss': 60.0, 'status': 'ok'},
 {'loss': -39.0, 'status': 'ok'},
 {'loss': 1.0, 'status': 'ok'},
 {'loss': -164.0, 'status': 'ok'},
 {'loss': 21.0, 'status': 'ok'},
 {'loss': -56.0, 'status': 'ok'},
 {'loss': 284.0, 'status': 'ok'},
 {'loss': 176.0, 'status': 'ok'},
 {'loss': -171.0, 'status': 'ok'},
 {'loss': 0.0, 'status': 'ok'}]

- trial_val 값을 데이터프레임으로

In [24]:
# 설정한 search_space의 값안에서 random으로 들어가 있다.
print(trial_val.vals)

{'x': [-6.0, -4.0, 4.0, -4.0, 9.0, 2.0, 10.0, -9.0, -8.0, -0.0, -0.0, 1.0, 9.0, 6.0, 9.0, 2.0, -2.0, -4.0, 7.0, -0.0], 'y': [5.0, 10.0, -2.0, 12.0, 1.0, 15.0, 7.0, -10.0, 0.0, -5.0, -3.0, 2.0, 4.0, 10.0, 3.0, 3.0, -14.0, -8.0, 11.0, -0.0]}


- 'loss': 모델의 성능을 나타내는 지표로 사용
    - 모델의 성능을 평가하는 데 사용되는 손실 함수(loss function)의 값이 이 'loss'에 해당
    - Hyperopt는 이 'loss' 값을 최소화하는 방향으로 하이퍼파라미터를 조정하며 최적의 조합을 찾는다.
    - loss는 낮을 수록 성능이 좋다

In [25]:
losses = [loss_dict['loss'] for loss_dict in trial_val.results]
result_df = pd.DataFrame({'x':trial_val.vals['x'], 'y':trial_val.vals['y'],
             'loss':losses})
result_df

Unnamed: 0,x,y,loss
0,-6.0,5.0,-64.0
1,-4.0,10.0,-184.0
2,4.0,-2.0,56.0
3,-4.0,12.0,-224.0
4,9.0,1.0,61.0
5,2.0,15.0,-296.0
6,10.0,7.0,-40.0
7,-9.0,-10.0,281.0
8,-8.0,0.0,64.0
9,-0.0,-5.0,100.0


### HyperOpt를 이용한 XGBoost 하이퍼 파라미터 최적화

예제 데이터 : 유방암 데이터

In [26]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score

In [28]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score, precision_recall_curve, roc_curve, classification_report

# 이진 분류 모델의 성능지표
def get_eval_score(test_y, pred, pred_proba_c1= None):
    
    # 혼동행렬(오차행렬)
    confusion = confusion_matrix(test_y, pred)
    # 정밀도(precision)
    precision = precision_score(test_y, pred)
    # 정확도(accuracy_score)
    accuracy = accuracy_score(test_y, pred)
    # 재현율(recall)
    recall = recall_score(test_y, pred)
    # F1 score
    f1 = f1_score(test_y, pred)
    # G-measure -> 정밀도와 재현율의 기하평균 -> np.sqrt(recall_socre*precision_score)
    g = np.sqrt(recall_score(test_y, pred)*precision_score(test_y, pred))

    print(f'confusion matrix:\n{confusion}\n')
    print(f'accuracy: {accuracy:.4f}, precision: {precision:.4f}, recall: {recall:.4f}',end=' ')
    print(f'F1: {f1:.4f}, G: {g:.4f}')
    if pred_proba_c1 is not None:
        auc = roc_auc_score(test_y, pred_proba_c1)
        print(f'auc: {auc:.4f}')

def plot_importance_top(clf, feature_names,top_n=None):
    importances = pd.Series(clf.feature_importances_, index = feature_names)
    sort_ = importances.sort_values(ascending= False)

    if top_n:
        top_ftr = sort_[:top_n]
        top = 'Top' + str(top_n)
    else:
        top_ftr = sort_
        top = 'All'

    sns.barplot(x=top_ftr, y= top_ftr.index)
    plt.title('Feature Importances')
    plt.show()

#### 데이터 준비

#### 검색 공간 설정

In [29]:
def ready_cancer_train_test_data(test_size=0.2, random_state=0):
    cancer = load_breast_cancer()
    x_train, x_test,y_train, y_test = train_test_split(cancer.data, cancer.target,
                                                      test_size=test_size,
                                                      random_state=random_state)
    return x_train, x_test,y_train, y_test

In [30]:
# 전체 데이터의 20%를 테스트 데이터로 
x_train, x_test,y_train, y_test = ready_cancer_train_test_data(test_size=0.2,
                                                              random_state=156)

# 전체 80% 데이터를 학습데이터로 90%, 검증용으로 10%
x_tr, x_val, y_tr, y_val = train_test_split(x_train, y_train,
                                           test_size=0.1,
                                           random_state=156)

#### 검색 공간 설정

In [33]:
xgb_search_space = {'max_depth': hp.quniform('max_depth',5,20,1),
               'min_child_weight':hp.quniform('min_child_weight',1,2,1),
                    'learning_rate':hp.uniform('learning_rate',0.01,0.2),
               'colsample_bytree':hp.uniform('colsample_bytree',0.5,1)}

#### 목적 함수 설정

- 유의사항
    - 검색공간에서 **목적함수로 입력되는 인수는 실수형 값** 이므로 이들을 XGBoostClassifier의 하이퍼파라미터값으로 설정할 때는 **정수형으로 형변환** 해야 함
    - 목적함수는 최솟값을 반환할 수 있도록 최적화하므로 좋은 성능지표를 나타내기 위해 -1을 곱해야 함
        - 정확도는 높을수록 더 좋은 수치이므 정확도에 -1을 곱해서 큰 정확도일수록 최소가 되도록 반환함
        - 회귀의 MAE, RMSE는 작을수록 좋으므로 반환 시 -1 곱해줄 필요 없음

- Logloss: 로그 손실 함수는 주로 분류 문제에서 모델의 성능을 평가하는 데 사용되는 지표 / 모델이 예측한 확률이 실제 클래스와 얼마나 일치하는지 평가
    - 특히 XGBoost와 같은 기계 학습 모델에서 자주 사용
    - Logloss는 실제 클래스와 예측 확률 간의 차이를 측정하며, 값이 작을수록 모델의 예측이 실제 값과 가깝다는 것을 의미
    - ex) 실제로 클래스 1인 경우에 모델이 클래스 1일 확률을 높게 예측할수록 Logloss 값이 낮아진다.

In [40]:
# quniform은 실수형으로 반환하기 때문에 int()를 해야한다.
from xgboost import XGBClassifier
def objective_func(search_space):
    xgb_clf = XGBClassifier(n_estimators=100,
                            max_depth= int(search_space['max_depth']),
               min_child_weight= int(search_space['min_child_weight']),
                    learning_rate=search_space['learning_rate'],
               colsample_bytree=search_space['colsample_bytree'],
                           eval_metric='logloss')
    accuracy = cross_val_score(xgb_clf, x_train, y_train, cv=3, scoring='accuracy')
    
    # accuracy는 높을수록 좋은 성능인 것인데 loss는 낮을 수록 좋은 것이어서 * (-1) 진행
    return {'loss': -1*np.mean(accuracy), 'status':STATUS_OK}

#### fmin()을 이용해 최적 하이퍼파라미터 도출

In [42]:
trial_val = Trials()

best = fmin(fn=objective_func, space=xgb_search_space,algo=tpe.suggest,
           max_evals= 50,trials= trial_val,rstate= np.random.default_rng(seed=9))
print(f'best: {best}')

100%|███████████████████████████████████████████████| 50/50 [00:31<00:00,  1.57trial/s, best loss: -0.9670616939700244]
best: {'colsample_bytree': 0.684441779397407, 'learning_rate': 0.1475201153968472, 'max_depth': 9.0, 'min_child_weight': 2.0}


- 추출된 최적 하이퍼파라미터 출력

In [44]:
print(f"colsample_bytree: {best['colsample_bytree']:.4f}")
print(f"learning_rate: {best['learning_rate']:.4f}")
print(f"max_depth: {int(best['max_depth'])}")
print(f"min_child_weight: {int(best['min_child_weight'])}")

colsample_bytree: 0.6844
learning_rate: 0.1475
max_depth: 9
min_child_weight: 2


In [46]:
print(trial_val.results)

[{'loss': -0.9495033112582781, 'status': 'ok'}, {'loss': -0.9626757290577438, 'status': 'ok'}, {'loss': -0.9582607180202162, 'status': 'ok'}, {'loss': -0.9560677355640758, 'status': 'ok'}, {'loss': -0.9604537004763566, 'status': 'ok'}, {'loss': -0.9560677355640758, 'status': 'ok'}, {'loss': -0.9582897641454631, 'status': 'ok'}, {'loss': -0.9626757290577438, 'status': 'ok'}, {'loss': -0.9670616939700244, 'status': 'ok'}, {'loss': -0.951710816777042, 'status': 'ok'}, {'loss': -0.9626612059951203, 'status': 'ok'}, {'loss': -0.9560677355640758, 'status': 'ok'}, {'loss': -0.9538747531079353, 'status': 'ok'}, {'loss': -0.9494887881956547, 'status': 'ok'}, {'loss': -0.9494887881956547, 'status': 'ok'}, {'loss': -0.9560967816893227, 'status': 'ok'}, {'loss': -0.9539037992331822, 'status': 'ok'}, {'loss': -0.967047170907401, 'status': 'ok'}, {'loss': -0.9604682235389799, 'status': 'ok'}, {'loss': -0.9582752410828395, 'status': 'ok'}, {'loss': -0.951681770651795, 'status': 'ok'}, {'loss': -0.956

In [48]:
print(trial_val.vals)

{'colsample_bytree': [0.5852347138193622, 0.7271863641855161, 0.9599446282177103, 0.9500116932342133, 0.6743364060621724, 0.8637740285716389, 0.9575208672481308, 0.6950178418953206, 0.684441779397407, 0.5921156978948783, 0.6147984356971752, 0.7767383218403126, 0.5147724605153474, 0.949782533600956, 0.9261209894715933, 0.5709901136927109, 0.8845494605701275, 0.548301545497125, 0.9102783821000844, 0.5325012994457242, 0.80149759472642, 0.648908772378641, 0.6367020408228946, 0.8192565612703796, 0.5002497540707213, 0.7319606539288339, 0.7353919668768841, 0.7016489823136868, 0.8363185199730034, 0.7642073553696206, 0.7047305439711022, 0.653042382452429, 0.7392284213371005, 0.788450872772408, 0.9911472256957599, 0.6182845365693357, 0.6706543033876351, 0.8574281310906519, 0.712264986785167, 0.6778112718243235, 0.7517115578060516, 0.6137848314978328, 0.5762044777254803, 0.8155808943270774, 0.5963165813199583, 0.7588122431653944, 0.778702561022892, 0.8694840955782016, 0.9012475444347265, 0.722642

In [52]:
acc = [loss_dict['loss']*(-1) for loss_dict in trial_val.results]
result_df = pd.DataFrame(trial_val.vals)
result_df['accuracy'] = acc
result_df

Unnamed: 0,colsample_bytree,learning_rate,max_depth,min_child_weight,accuracy
0,0.585235,0.033688,19.0,2.0,0.949503
1,0.727186,0.105956,5.0,2.0,0.962676
2,0.959945,0.154804,6.0,2.0,0.958261
3,0.950012,0.120686,6.0,2.0,0.956068
4,0.674336,0.142392,16.0,2.0,0.960454
5,0.863774,0.106579,8.0,2.0,0.956068
6,0.957521,0.079111,14.0,2.0,0.95829
7,0.695018,0.095213,19.0,2.0,0.962676
8,0.684442,0.14752,9.0,2.0,0.967062
9,0.592116,0.081179,8.0,1.0,0.951711


In [53]:
best

{'colsample_bytree': 0.684441779397407,
 'learning_rate': 0.1475201153968472,
 'max_depth': 9.0,
 'min_child_weight': 2.0}

#### 최적 하이퍼파라미터들을 이용하여 재학습/성능평가

In [56]:
xgb_best_clf = XGBClassifier(n_estimators=100,
                            max_depth= int(best['max_depth']),
               min_child_weight= int(best['min_child_weight']),
                    learning_rate=round(best['learning_rate'],5),
               colsample_bytree=round(best['colsample_bytree'],5))
xgb_best_clf.fit(x_tr, y_tr, early_stopping_rounds=50,
                eval_metric='logloss', eval_set=[(x_tr,y_tr),(x_val, y_val)],
                verbose=True) 

y_pred = xgb_best_clf.predict(x_test)
y_pred_proba = xgb_best_clf.predict_proba(x_test)[:,1]
get_eval_score(y_test, y_pred, y_pred_proba)

[0]	validation_0-logloss:0.55271	validation_1-logloss:0.58669
[1]	validation_0-logloss:0.46532	validation_1-logloss:0.52479
[2]	validation_0-logloss:0.39616	validation_1-logloss:0.46923
[3]	validation_0-logloss:0.34165	validation_1-logloss:0.42858
[4]	validation_0-logloss:0.29745	validation_1-logloss:0.39483
[5]	validation_0-logloss:0.25934	validation_1-logloss:0.36657
[6]	validation_0-logloss:0.22862	validation_1-logloss:0.35072
[7]	validation_0-logloss:0.20367	validation_1-logloss:0.33159
[8]	validation_0-logloss:0.18239	validation_1-logloss:0.32347
[9]	validation_0-logloss:0.16291	validation_1-logloss:0.30890
[10]	validation_0-logloss:0.14780	validation_1-logloss:0.30568
[11]	validation_0-logloss:0.13390	validation_1-logloss:0.29906
[12]	validation_0-logloss:0.12276	validation_1-logloss:0.28876
[13]	validation_0-logloss:0.11289	validation_1-logloss:0.28343
[14]	validation_0-logloss:0.10346	validation_1-logloss:0.27987
[15]	validation_0-logloss:0.09554	validation_1-logloss:0.27622
[1

----

### BOOSTING 정리

- GBM: 트리 기반의 학습 알고리즘들을 순차적으로 학습시켜 가면서, 이전 트리의 오류를 보완해 나가는 방식으로 작동
    - GBM은 높은 예측 성능을 제공하지만, 시간이 많이 걸리고, 과적합(Overfitting)에 취약할 수 있으며, 파라미터 튜닝이 어렵다는 단점이 있다.

- LightGBM: 기존 GBM 대비 학습 시간이 매우 짧고 메모리 사용량도 적다.
    - LightGBM은 트리가 깊어지는 대신 가로로 확장되는 리프 중심 트리(Leaf-wise tree) 구조를 사용
    - 이 방식은 불균형 데이터에 대해 더 나은 성능을 제공할 수 있지만, 너무 작은 데이터셋에서는 과적합의 위험이 있다.
    - 카테고리형 특성을 자동으로 변환하고 최적화할 수 있다는 장점이 있다.

- XGBoost: GBM을 기반으로 하지만, 고성능과 고속을 목표로 한다.
    - 학습 속도가 매우 빠르고 과적합 방지를 위한 규제가 포함되어 있어 GBM 대비 성능이 좋다.
    - 결측값 처리, 트리 가지치기(Pruning), 교차 검증, 사용자 정의 최적화 목표 및 평가 기준 등 다양한 기능을 제공
    - 대용량 데이터셋 처리에 적합하며, 세밀한 파라미터 튜닝을 통해 높은 성능을 달성할 수 있다.

- 결론
    - GBM: 부스팅 기법의 기본적인 형태를 제공하며, 높은 성능을 달성할 수 있지만, 계산 비용이 높고 사용이 복잡
    - LightGBM: 속도와 메모리 사용량에서 큰 이점을 제공하며, 대규모 데이터셋과 고차원 데이터에 효과적, 하지만 작은 데이터셋에는 과적합 유의
    - XGBoost: 고성능과 속도를 모두 제공하며, 광범위한 기능과 세밀한 파라미터 튜닝을 통해 다양한 데이터셋에 적용할 수 있다. 과적합 방지와 대용량 데이터 처리 능력이 뛰어나다.