# How to Optimize

1. 우선 각 hyperparameter 의 의미를 파악한다. 

2. regularization 관련 / learning rate 관련 / tree 수 관련 등의 변수를 구분짓는다.

3. default 설정에서의 loss 를 관찰하고 그것을 기준으로 삼는다.

4. 각 값들을 넣어보면서 default 보다 좋은설정이 언제 나오는지 관찰한다. 이때에 큰 범주로 나눈 값들은 같이 변경하도록 한다.

    ex) regulerization 을 넣어보고싶은 경우 관련 변수를 같이 조절하고, 비교가 되는 모델에서는 regularization 을 쓰지 않는다. 

    ex) reg 를 넣었을떄 좋은 값이 나왔다면 그 경우 reg 가 부족한것이므로 reg 를 더 올리면서 확인해본다..... 처럼 의미가 비슷한거끼리는 같이 영향이 상쇄되지 않게 조절해줍시다.

5. 4번에서 어느정도 안정화가 되면, 그 값들을 범위를 설정하고, 베이지안 optimization 을 실행해본다. 

In [160]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import metrics # 모델평가시 이용

In [161]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
california = fetch_california_housing()
X = pd.DataFrame(california.data, columns=california.feature_names)
y = pd.DataFrame(california.target,columns=["Target"])
df = pd.concat([X, y], axis=1)
df.tail()
y = california.target

In [113]:
# dataset train/test set 으로 나누기
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)

# Random Forest (회귀)

## 파라미터 범위 설정

In [144]:
bayes_params = {
    'min_samples_split' : (2,100),
    'min_samples_leaf' : (1,100),
    'max_depth': (1, 10),}

In [145]:
from sklearn.ensemble import RandomForestRegressor
rf_model=RandomForestRegressor()

## 평가 함수 정의

In [146]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score
import numpy as np

# 우선 우리가 tuning 하고 싶은 값들을 받고, 그에따라서 tuning 이 되게 조절해봅시다.
# 우선 max_depth, min_samples_split, min_samples_leaf 를 이용한다고 해 봅시다.
def ran_mse_eval(max_depth,
                min_samples_split,
                min_samples_leaf,):
    # 여기에서는 우리가 조절해야할 파라미터들을 dic 형태로 정의합니다.
    params = {
        "n_estimators": 100 , # 굳이 parameter grid 로 찾고싶지는 않지만 ,default 값이 아니라 다른값을 주고싶을떄 이렇게 200으로 고정해서 하고싶다고 합시다!
        'max_depth': int(round(max_depth)), # 이 때에 정수값이 들어가야하는 경우가 있는데요, 그 떄에는 int(round 로 처리를 해주어야 합니다.
        'min_samples_split' : int(round(min_samples_split)),
        'min_samples_leaf' : int(round(min_samples_leaf))}
    print("params:", params)  # 어떤 파라미터를 사용하였는지 print 하게 해서 학습과정을 지켜보도록 해요~
    rf_model = RandomForestRegressor(**params) # 우리의 모델을 정의합니다.
    
    # 여기서 result 를 뽑아내기 위해서는 2가지 경우가 있습니다! 
    
    # 1. y_val/ x_val 을 나누어서 평가하는 경우
    #rf_model.fit(X_train, y_train) # 먼저 train 에 학습시킨 후
    #valid_proba = rf_model.predict(X_val) # X_val 에 대해서 예측하고
    #result = -1 * mean_squared_error(y_val, valid_proba) # 그에 따른 mse 스코어를 구합니다.
    
    # 하지만 위 같은 경우.. 뭔가 결과가 y_val/ x_val 에 과적합될 수도 있을거같아서 
    # 2. 그냥 X_train/ y_train 의 cv 값을 하게되면 더 좋아보인다! 
    cv_value = cross_val_score(rf_model, X_train, y_train, cv=5, scoring='neg_mean_squared_error') # 이떄 scoring 은 주최측에서 정한 값을 넣어야 게엣죠오?
    result = np.mean(cv_value) # cv_value 는 list 형태로 나오게 되니까!
    return result # 이 result 값이 커지게 베이지안optimization 이 학습하게 됩니다.

    print('mse:', result)  # 그 값을 도출 print 해서 잘 학습하고 있는지 (줄여지는 방향으로) 알 아 보아요~

## Optimization

BayesianOptimization 객체를 생성합니다. 
이때 생성 인자로 앞에서 만든 평가함수 lgb_roc_eval 함수와 튜닝할 하이퍼 파라미터의 범위값을 설정한 딕셔너리 변수인 bayes_params를 입력합니다.

In [147]:
from bayes_opt import BayesianOptimization
# 객체를 형성한다
BO_rf = BayesianOptimization(ran_mse_eval, bayes_params, random_state=0)

이제 입력받은 평가함수에 튜닝할 하이퍼 파라미터의 값을 반복적으로 입력하여 최적 하이퍼 파라미터를 튜닝할 준비가 되었습니다. 
BayesianOptimization객체에서 maximize()메소드를 호출하면 이를 수행할 수 있습니다. 

In [148]:
BO_rf.maximize(init_points=5, n_iter=10) 
# 우리의 object function 을 maximize! 하려 한다. 그래서 위에서 return 을 negative mse 를 쓴 것이다.
# 최적 파라미터 도출 작업을 n_iter 만큼 반복하여 수행합니다!
# init_points = 첫 시작지점의 score 를 5개 돌려서 알아보는것.

|   iter    |  target   | max_depth | min_sa... | min_sa... |
-------------------------------------------------------------
params: {'n_estimators': 100, 'max_depth': 6, 'min_samples_split': 61, 'min_samples_leaf': 72}
| [0m 1       [0m | [0m-0.4154  [0m | [0m 5.939   [0m | [0m 71.8    [0m | [0m 61.07   [0m |
params: {'n_estimators': 100, 'max_depth': 6, 'min_samples_split': 65, 'min_samples_leaf': 43}
| [95m 2       [0m | [95m-0.4083  [0m | [95m 5.904   [0m | [95m 42.94   [0m | [95m 65.3    [0m |
params: {'n_estimators': 100, 'max_depth': 5, 'min_samples_split': 96, 'min_samples_leaf': 89}
| [0m 3       [0m | [0m-0.4525  [0m | [0m 4.938   [0m | [0m 89.29   [0m | [0m 96.44   [0m |
params: {'n_estimators': 100, 'max_depth': 4, 'min_samples_split': 54, 'min_samples_leaf': 79}
| [0m 4       [0m | [0m-0.5054  [0m | [0m 4.451   [0m | [0m 79.38   [0m | [0m 53.83   [0m |
params: {'n_estimators': 100, 'max_depth': 6, 'min_samples_split': 9, 'min_samples_

KeyboardInterrupt: 

In [None]:
# BayesianOptimization 객체의 res 속성은 하이퍼 파라미터 튜닝을 하는 과정에서의 metric 값과 그때의 하이퍼 파라미터 값을 가지고 있음. 

In [None]:
#BO_rf.res 

BayesianOptimization 객체의 max 속성은 최고 높은 성능 Metric를 가질때의 하이퍼 파라미터 값을 가지고 있음.

In [None]:
BO_rf.max
# 이떄에 우리는 아래 값들을 반올림 해서(int(round)) 사용했음을 기억하세요!
# 즉 max depth = 5 , min_sample_leaf = 3 , min_samples_split = 6 이 됩니다. # 이는 실행마다 달라지니까 주의하세용

## 최종 평가!

In [126]:
from sklearn.metrics import mean_squared_error

max_params = BO_rf.max['params']
max_params['min_samples_leaf'] = int(round(max_params['min_samples_leaf']))
max_params['min_samples_split'] = int(round(max_params['min_samples_split']))
model_rf = RandomForestRegressor(n_estimators=100, **max_params)
model_rf.fit(X_train, y_train)
y_pred = model_rf.predict(X_test)
score = mean_squared_error(y_pred,y_test)

print('mse score : {0:.4f}'.format(score))

mse score : 9.2232


## 비교 모델

확실히... 그냥 search 보다는 우수한 성능을 보여주고있네요.

In [127]:
from sklearn.ensemble import RandomForestRegressor
model =  RandomForestRegressor(n_estimators=100)
# scoring 은 default 이므로 model 의 자체 scoring 으로 들어간다. 
# n_estimator = 500 클수록 좋으나 내 컴퓨터가 버티질 못할듯.
model.fit(X_train,y_train)

RandomForestRegressor()

In [128]:
y_pred = model.predict(X_test)
print ("MSE :", metrics.mean_squared_error(y_test, y_pred))
print('R_squared :',model.score(X_test, y_test)) 

MSE : 9.294654162671725
R_squared : 0.13772978443488426


# XGBboost (회귀)

2-1. 일반 파라메터


(중요)booster: 어떤 부스터 구조를 쓸지 결정한다. 이것은 gbtree, gblinear, dart가 있다.

(중요)n_eastimator : This is how many subtrees h will be trained.

nthread: 몇 개의 쓰레드를 동시에 처리하도록 할지 결정한다. 디폴트는 “가능한 한 많이”.

num_feature: feature 차원의 숫자를 정해야 하는 경우 옵션을 세팅한다. 디폴트는 “가능한 한 많이.”


2-2. 부스팅 파라메터


(중요)learning_rate: learning rate다. 트리에 가지가 많을수록 과적합하기 쉽다. 각 트리마다 가중치를 주어 부스팅 과정에 과적합이 일어나지 않도록 한다

gamma: 정보 획득(Information Gain)에서 -r로 표현한 바 있다. 이것이 커지면, 트리 깊이가 줄어들어 보수적인 모델이 된다. 디폴트 값은 0이다

(중요)max_depth: 한 트리의 maximum depth. 숫자를 키울수록 모델의 복잡도가 커진다. 작을수록 과적합 방지 . 디폴트는 6. 

lambda(L2 reg-form): L2 Regularization Form에 달리는 weights이다. 숫자가 클수록 보수적인 모델이 된다

(중요)alpha(L1 reg-form): L1 Regularization Form weights다. 숫자가 클수록 과적합 방지


2-3. 학습 과정 파라메터

objective: 목적 함수다. reg:linear(linear-regression), binary:logistic(binary-logistic classification), count:poisson(count data poison regression) 등 다양하다

eval_metric: 모델의 평가 함수를 조정하는 함수다. rmse(root mean square error), logloss(log-likelihood), map(mean average precision) 등, 해당 데이터의 특성에 맞게 평가 함수를 조정한다



2-4. 커맨드 라인 파라메터
num_rounds: boosting 라운드를 결정한다. 랜덤 하게 생성되는 모델이니만큼 이 수가 적당히 큰 게 좋다. epoch 옵션과 동일하다

내 생각에 tuning 할때에는 중요 하다고 생각되는 것들을 신경쓰는게 좋아보인다.
- 1. booster : 부스터 구조를 잘 골라서 잘 나오는것을 우선 선별한다.
- 2. n_eastimator : 이 경우도 클수록 tree 가 많아져서 학습이 느려진다. 미리 선별해서 기억하는게 좋을듯하다.
- 3. learning rate(트리간 가중치) / maxdepth(트리의 구조) / alpha(트리의 leaf 제한) 세개를 적절히 써서 잘 조절한다.
- 4. 이제 어느정도 확정된 값을 가지고 어떻게 조절할지 감을 잡은 후에 colab 으로 Baysian 을 돌리면 될거같다!

In [149]:
import xgboost as xgb
from xgboost.sklearn import XGBRegressor
XGBRegressor()

XGBRegressor(base_score=None, booster=None, colsample_bylevel=None,
             colsample_bynode=None, colsample_bytree=None, gamma=None,
             gpu_id=None, importance_type='gain', interaction_constraints=None,
             learning_rate=None, max_delta_step=None, max_depth=None,
             min_child_weight=None, missing=nan, monotone_constraints=None,
             n_estimators=100, n_jobs=None, num_parallel_tree=None,
             random_state=None, reg_alpha=None, reg_lambda=None,
             scale_pos_weight=None, subsample=None, tree_method=None,
             validate_parameters=None, verbosity=None)

## 파라미터 범위설정

In [150]:
bayes_params = {'n_estimators' : (100,300), # 트리의 갯수
                'learning_rate' : (0.05,0.15), # learning rate
                'max_depth': (9, 14), # 커질수록 복잡한 모델 (과적합 방지)
                'reg_alpha': (0, 0.2), # leaves 에 대한 l1 규제의 계수이므로 클수록 규제
                'colsample_bytree' :(0.85, 1.0)} # tree 에 사용되는 변수갯수 지정. 

## 평가 custom loss 정의

In [151]:
# 어떤 경우는 우리가 평가하고자 하는 loss 가 없을 수 있다.

In [152]:
from sklearn.metrics import make_scorer
import numpy as np

def mape(y_true, y_predict):
    # Note this blows up if y_true = 0
    # Ignore for demo -- in some sense an unsolvable
    # problem with MAPE as an error metric 
    # 하지만 y_true 가 0 인경우는 없으므로 안심하라구!
    y_true = np.array(y_true)
    y_predict = np.array(y_predict)
    return np.abs((y_true - y_predict)/y_true).mean()

mape_scorer = make_scorer(mape, greater_is_better=False) 
# greater is better 이 false 이므로 neg 값이 나오게 된다. 

## 평가 함수 정의

In [153]:
import xgboost as xgb
from xgboost.sklearn import XGBRegressor
from sklearn.model_selection import cross_val_score
import numpy as np

# 우선 우리가 tuning 하고 싶은 값들을 받고, 그에따라서 tuning 이 되게 조절해봅시다.
# 우선 max_depth, min_samples_split, min_samples_leaf 를 이용한다고 해 봅시다.
def ran_mape_eval(n_estimators,
                  learning_rate,
                 max_depth,
                 reg_alpha,
                 colsample_bytree):
    # 여기에서는 우리가 조절해야할 파라미터들을 dic 형태로 정의합니다.
    params = {
        "n_estimators": int(round(n_estimators)) ,
        'learning_rate': learning_rate,
        'max_depth': int(round(max_depth)), # 이 때에 정수값이 들어가야하는 경우가 있는데요, 그 떄에는 int(round 로 처리를 해주어야 합니다.
        'reg_alpha' : reg_alpha,
        'colsample_bytree' : colsample_bytree}
    print("params:", params)  # 어떤 파라미터를 사용하였는지 print 하게 해서 학습과정을 지켜보도록 해요~
    xgb_model = XGBRegressor(**params) # 우리의 모델을 정의합니다.
    
    # 여기서 result 를 뽑아내기 위해서는 2가지 경우가 있습니다! 
    
    # 1. y_val/ x_val 을 나누어서 평가하는 경우
    #rf_model.fit(X_train, y_train) # 먼저 train 에 학습시킨 후
    #valid_proba = rf_model.predict(X_val) # X_val 에 대해서 예측하고
    #result = -1 * mean_squared_error(y_val, valid_proba) # 그에 따른 mse 스코어를 구합니다.
    
    # 하지만 위 같은 경우.. 뭔가 결과가 y_val/ x_val 에 과적합될 수도 있을거같아서 
    # 2. 그냥 X_train/ y_train 의 cv 값을 하게되면 더 좋아보인다! 
    cv_value = cross_val_score(xgb_model, X_train, y_train, cv=3, scoring = mape_scorer) # 이떄 scoring 은 우리가 위에서 정의한 평가함수를 썻다.
    result = np.mean(cv_value) # cv_value 는 list 형태로 나오게 되니까!
    return result # 이 result 값이 커지게 베이지안optimization 이 학습하게 됩니다.

    print('mape:', result)  # 그 값을 도출 print 해서 잘 학습하고 있는지 (줄여지는 방향으로) 알 아 보아요~

## Optimization

BayesianOptimization 객체를 생성합니다. 
이때 생성 인자로 앞에서 만든 평가함수 lgb_roc_eval 함수와 튜닝할 하이퍼 파라미터의 범위값을 설정한 딕셔너리 변수인 bayes_params를 입력합니다.

In [154]:
from bayes_opt import BayesianOptimization
# 객체를 형성한다
BO_rf = BayesianOptimization(ran_mape_eval, bayes_params, random_state=0)

이제 입력받은 평가함수에 튜닝할 하이퍼 파라미터의 값을 반복적으로 입력하여 최적 하이퍼 파라미터를 튜닝할 준비가 되었습니다. 
BayesianOptimization객체에서 maximize()메소드를 호출하면 이를 수행할 수 있습니다. 

In [155]:
BO_rf.maximize(init_points=5, n_iter=20) 
# 우리의 object function 을 maximize! 하려 한다. 그래서 위에서 return 을 negative mse 를 쓴 것이다.
# 최적 파라미터 도출 작업을 n_iter 만큼 반복하여 수행합니다!
# init_points = 첫 시작지점의 score 를 5개 돌려서 알아보는것.

|   iter    |  target   | colsam... | learni... | max_depth | n_esti... | reg_alpha |
-------------------------------------------------------------------------------------
params: {'n_estimators': 209, 'learning_rate': 0.12151893663724195, 'max_depth': 12, 'reg_alpha': 0.08473095986778095, 'colsample_bytree': 0.9323220255890987}
| [0m 1       [0m | [0m-0.1702  [0m | [0m 0.9323  [0m | [0m 0.1215  [0m | [0m 12.01   [0m | [0m 209.0   [0m | [0m 0.08473 [0m |
params: {'n_estimators': 293, 'learning_rate': 0.09375872112626925, 'max_depth': 13, 'reg_alpha': 0.07668830376515555, 'colsample_bytree': 0.9468841169599984}
| [95m 2       [0m | [95m-0.1696  [0m | [95m 0.9469  [0m | [95m 0.09376 [0m | [95m 13.46   [0m | [95m 292.7   [0m | [95m 0.07669 [0m |
params: {'n_estimators': 285, 'learning_rate': 0.10288949197529045, 'max_depth': 12, 'reg_alpha': 0.014207211639577388, 'colsample_bytree': 0.9687587557123997}


KeyboardInterrupt: 

In [136]:
# BayesianOptimization 객체의 res 속성은 하이퍼 파라미터 튜닝을 하는 과정에서의 metric 값과 그때의 하이퍼 파라미터 값을 가지고 있음. 

In [137]:
#BO_rf.res 

BayesianOptimization 객체의 max 속성은 최고 높은 성능 Metric를 가질때의 하이퍼 파라미터 값을 가지고 있음.

In [156]:
BO_rf.max
# 이떄에 우리는 아래 값들을 반올림 해서(int(round)) 사용했음을 기억하세요!
# 즉 max depth = 5 , min_sample_leaf = 3 , min_samples_split = 6 이 됩니다. # 이는 실행마다 달라지니까 주의하세용

{'target': -0.16956449547695998,
 'params': {'colsample_bytree': 0.9468841169599984,
  'learning_rate': 0.09375872112626925,
  'max_depth': 13.458865003910399,
  'n_estimators': 292.73255210020585,
  'reg_alpha': 0.07668830376515555}}

## 최종 평가!

In [157]:
max_params = BO_rf.max['params']
max_params['max_depth'] = int(round(max_params['max_depth']))
max_params['n_estimators'] = int(round(max_params['n_estimators']))

model_xgb = XGBRegressor(**max_params)
model_xgb.fit(X_train, y_train)
y_pred = model_xgb.predict(X_test)
score = mape(y_pred,y_test)

print('mape score : {0:.4f}'.format(score))

mape score : 0.1508


## 비교모델

In [158]:
from sklearn.ensemble import RandomForestRegressor
model = XGBRegressor()
model.fit(X_train,y_train)

XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,
             importance_type='gain', interaction_constraints='',
             learning_rate=0.300000012, max_delta_step=0, max_depth=6,
             min_child_weight=1, missing=nan, monotone_constraints='()',
             n_estimators=100, n_jobs=0, num_parallel_tree=1, random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
             tree_method='exact', validate_parameters=1, verbosity=None)

In [159]:
y_pred = model.predict(X_test)
print ("MAPE :", mape(y_test, y_pred))

MAPE : 0.17614545366526785


# Light LGB(회귀)

## 파라미터 범위설정

In [None]:
LGBMRegressor()

In [178]:
bayes_params ={ 
    'learning_rate': (0.05,0.2),
    'n_estimators' : (50,250),
    'max_depth': (12,24), # 트리의 깊이
    'num_leaves': (30,40), 
    'feature_fraction': (0.7,0.99), # 트리를 만들떄 얼마나 feaure 를 랜덤으로 선택할지
    'bagging_fraction': (0.6,0.9), # 배깅의 비율
    'bagging_freq':(1,3)} # 베깅을 얼마나 진행할지 

## 평가 custom loss 정의

In [179]:
# 어떤 경우는 우리가 평가하고자 하는 loss 가 없을 수 있다.

In [180]:
from sklearn.metrics import make_scorer
import numpy as np

def mape(y_true, y_predict):
    # Note this blows up if y_true = 0
    # Ignore for demo -- in some sense an unsolvable
    # problem with MAPE as an error metric 
    # 하지만 y_true 가 0 인경우는 없으므로 안심하라구!
    y_true = np.array(y_true)
    y_predict = np.array(y_predict)
    return np.abs((y_true - y_predict)/y_true).mean()

mape_scorer = make_scorer(mape, greater_is_better=False) 
# greater is better 이 false 이므로 neg 값이 나오게 된다. 
# 즉 MAPE SCORE 는 -mape 가 나와요~

## 평가 함수 정의

In [181]:
#만일 shuffle 이 제대로 안되어있어서 걱정된다면 이렇게 k fold 로 shuffle 시켜주세요 ^^
#from sklearn.model_selection import KFold
#kfold = KFold(n_splits=5, shuffle=True, random_state=2)
#cross_val_score(lgb_model, X_train, y_train, cv=kfold, scoring = mape_scorer)

In [188]:
from lightgbm import LGBMRegressor
import lightgbm as lgb
from sklearn.model_selection import cross_val_score

def lgb_mape_eval(learning_rate,
                  n_estimators,
                 max_depth,
                 num_leaves,
                 feature_fraction,
                 bagging_fraction,
                 bagging_freq,
                 ):
    # 하이퍼 파라미터를 튜닝하기 위해 , 이게 제대로! 학습이 되고있는지 판단하기 위해 모델을 학습/ 평가하고 이에 따른 평가 지표를 반환하는 형식이 된다.
    params = {
        'learning_rate': learning_rate,
        'max_depth': int(round(max_depth)), # 트리의 깊이
        'num_leaves': int(round(num_leaves)), 
        'feature_fraction': feature_fraction, # 트리를 만들떄 얼마나 feaure 를 랜덤으로 선택할지
        'bagging_fraction': bagging_fraction, # 배깅의 비율
        'bagging_freq': int(round(bagging_freq)), # 베깅을 얼마나 진행할지
        'n_estimators' : int(round(n_estimators))
    }    

    print("params:", params)  # 어 떤 파라미터를 사용하였는지
    lgb_model = LGBMRegressor(**params) # 모델! 
    cv_value = cross_val_score(lgb_model, X_train, y_train, cv=5, scoring = mape_scorer)
    
    result = np.mean(cv_value) 
    # cv_value 는 list 형태로 나오게 됩니다. (각 cv 마다의 score 값.)
    return result 
    # 이 result 값이 커지게 베이지안optimization 이 학습하게 됩니다.

    print('accuracy :', result)  # 그 값을 도출 print 해서 잘 학습하고 있는지 (줄여지는 방향으로) 알 아 보아요~    return roc_preds

## Optimization

BayesianOptimization 객체를 생성합니다. 
이때 생성 인자로 앞에서 만든 평가함수 lgb_roc_eval 함수와 튜닝할 하이퍼 파라미터의 범위값을 설정한 딕셔너리 변수인 bayes_params를 입력합니다.

In [189]:
from bayes_opt import BayesianOptimization
# 객체를 형성한다
BO_rf = BayesianOptimization(lgb_mape_eval, bayes_params, random_state=0)

이제 입력받은 평가함수에 튜닝할 하이퍼 파라미터의 값을 반복적으로 입력하여 최적 하이퍼 파라미터를 튜닝할 준비가 되었습니다. 
BayesianOptimization객체에서 maximize()메소드를 호출하면 이를 수행할 수 있습니다. 

In [190]:
BO_rf.maximize(init_points=5, n_iter=10) 
# 우리의 object function 을 maximize! 하려 한다. 그래서 위에서 return 을 negative mse 를 쓴 것이다.
# 최적 파라미터 도출 작업을 n_iter 만큼 반복하여 수행합니다!
# init_points = 첫 시작지점의 score 를 5개 돌려서 알아보는것.

|   iter    |  target   | baggin... | baggin... | featur... | learni... | max_depth | n_esti... | num_le... |
-------------------------------------------------------------------------------------------------------------
params: {'learning_rate': 0.13173247744953454, 'max_depth': 17, 'num_leaves': 34, 'feature_fraction': 0.8748013790607767, 'bagging_fraction': 0.7646440511781974, 'bagging_freq': 2, 'n_estimators': 179}
| [0m 1       [0m | [0m-0.1706  [0m | [0m 0.7646  [0m | [0m 2.43    [0m | [0m 0.8748  [0m | [0m 0.1317  [0m | [0m 17.08   [0m | [0m 179.2   [0m | [0m 34.38   [0m |
params: {'learning_rate': 0.1687587557123997, 'max_depth': 18, 'num_leaves': 39, 'feature_fraction': 0.8111980404594755, 'bagging_fraction': 0.867531900234624, 'bagging_freq': 3, 'n_estimators': 164}
| [95m 2       [0m | [95m-0.1704  [0m | [95m 0.8675  [0m | [95m 2.927   [0m | [95m 0.8112  [0m | [95m 0.1688  [0m | [95m 18.35   [0m | [95m 163.6   [0m | [95m 39.26   [0m |
param

In [191]:
# BayesianOptimization 객체의 res 속성은 하이퍼 파라미터 튜닝을 하는 과정에서의 metric 값과 그때의 하이퍼 파라미터 값을 가지고 있음. 

In [192]:
#BO_rf.res 

BayesianOptimization 객체의 max 속성은 최고 높은 성능 Metric를 가질때의 하이퍼 파라미터 값을 가지고 있음.

In [193]:
BO_rf.max
# 이떄에 우리는 아래 값들을 반올림 해서(int(round)) 사용했음을 기억하세요!
# 즉 max depth = 5 , min_sample_leaf = 3 , min_samples_split = 6 이 됩니다. # 이는 실행마다 달라지니까 주의하세용

{'target': -0.16873401068694988,
 'params': {'bagging_fraction': 0.8925919669634644,
  'bagging_freq': 2.5776214962985264,
  'feature_fraction': 0.9371506430319936,
  'learning_rate': 0.09375052437923304,
  'max_depth': 23.46023058263993,
  'n_estimators': 173.5539900082939,
  'num_leaves': 38.75618804607675}}

## 최종 평가!

In [194]:
max_params = BO_rf.max['params']
max_params['max_depth'] = int(round(max_params['max_depth']))
max_params['num_leaves'] = int(round(max_params['num_leaves']))
max_params['bagging_freq']=int(round(max_params['bagging_freq']))
max_params['n_estimators']=int(round(max_params['n_estimators']))

In [195]:
lgb_model = LGBMRegressor(**max_params)
lgb_model.fit(X_train, y_train)
y_pred = lgb_model.predict(X_test)
score = mape(y_test,y_pred)

print('mape : {0:.4f}'.format(score))

mape : 0.1692


## 비교모델

In [196]:
lgb_model = LGBMRegressor()
lgb_model.fit(X_train, y_train) 
y_pred = lgb_model.predict(X_test)
score = mape(y_pred,y_test)

print('mape : {0:.4f}'.format(score))

# 조정값이 많아서 걍 DEFAULT 가 이긴모습... 
# 의외로 DEFAULT 이기기 쉽지않아요

mape : 0.1600


# Light LGB ( 분류 )

In [44]:
from sklearn.datasets import fetch_covtype
covtype = fetch_covtype()

In [45]:
X = pd.DataFrame(covtype.data, 
                  columns=["x{:02d}".format(i + 1) for i in range(covtype.data.shape[1])],
                  dtype=int)
y = covtype.target

In [46]:
X

Unnamed: 0,x01,x02,x03,x04,x05,x06,x07,x08,x09,x10,...,x45,x46,x47,x48,x49,x50,x51,x52,x53,x54
0,2596,51,3,258,0,510,221,232,148,6279,...,0,0,0,0,0,0,0,0,0,0
1,2590,56,2,212,-6,390,220,235,151,6225,...,0,0,0,0,0,0,0,0,0,0
2,2804,139,9,268,65,3180,234,238,135,6121,...,0,0,0,0,0,0,0,0,0,0
3,2785,155,18,242,118,3090,238,238,122,6211,...,0,0,0,0,0,0,0,0,0,0
4,2595,45,2,153,-1,391,220,234,150,6172,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
581007,2396,153,20,85,17,108,240,237,118,837,...,0,0,0,0,0,0,0,0,0,0
581008,2391,152,19,67,12,95,240,237,119,845,...,0,0,0,0,0,0,0,0,0,0
581009,2386,159,17,60,7,90,236,241,130,854,...,0,0,0,0,0,0,0,0,0,0
581010,2384,170,15,60,5,90,230,245,143,864,...,0,0,0,0,0,0,0,0,0,0


In [51]:
X = X.iloc[0:5000,:]
y = y[0:5000]

In [53]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

## 파라미터 범위 설정

In [55]:
bayes_params = {
    'num_leaves': (24, 45), # 범위값으로 인식하게 된다!
    'colsample_bytree':(0.5, 1),  
    'subsample': (0.5, 1),
    'max_depth': (4, 12),
    'reg_alpha': (0, 0.5),
    'reg_lambda': (0, 0.5), 
    'min_split_gain': (0.001, 0.1),
    'min_child_weight':(5, 50)
}

테스트 해볼 하이퍼 파라미터의 범위 값을 설정하였으면 BaysianOptimization에서 호출하여 모델을 최적화하는 함수를 만들어 보겠습니다.

해당 함수는 BaysianOptimization에서 하이퍼 파라미터를 튜닝하기 위해 호출되면 제대로 튜닝이 되고 있는지를 판단하기 위해서 모델을 학습/평가하고 이에 따른 평가 지표를 반환하는 형식으로 만들어집니다. 이 평가 함수는 BayesianOptimization 객체에서 파라미터를 변경하면서 호출되므로 함수의 인자로 앞에서 딕셔너리로 설정된 파라미터들을 가지게 됩니다.  

## 평가 함수 정의

In [84]:
from lightgbm import LGBMClassifier
from sklearn.metrics import roc_auc_score

def lgb_acc_eval(num_leaves, 
                 colsample_bytree,
                 subsample, 
                 max_depth, 
                 reg_alpha, 
                 reg_lambda, 
                 min_split_gain, 
                 min_child_weight):
    # 하이퍼 파라미터를 튜닝하기 위해 , 이게 제대로! 학습이 되고있는지 판단하기 위해 모델을 학습/ 평가하고 이에 따른 평가 지표를 반환하는 형식이 된다.
    params = {
        "n_estimator":200,
        "learning_rate":0.02,
        'num_leaves': int(round(num_leaves)), # 이 값은 정수형을 return 받아야 하므로! round/ int 를 차례로 받는다.
        'colsample_bytree': colsample_bytree, 
        'subsample': subsample,
        'max_depth': int(round(max_depth)),
        'reg_alpha': reg_alpha,
        'reg_lambda': reg_lambda, 
        'min_split_gain': min_split_gain,
        'min_child_weight': min_child_weight,
        'verbosity': -1
    }
    print("params:", params)  # 어 떤 파라미터를 사용하였는지
    lgb_model = LGBMClassifier(**params) # 모델! 
    cv_value = cross_val_score(lgb_model, X_train, y_train, cv=5, scoring='accuracy')
    
    result = np.mean(cv_value) # cv_value 는 list 형태로 나오게 되니까!
    return result # 이 result 값이 커지게 베이지안optimization 이 학습하게 됩니다.

    print('accuracy :', result)  # 그 값을 도출 print 해서 잘 학습하고 있는지 (줄여지는 방향으로) 알 아 보아요~    return roc_preds

## Optimization

In [85]:
from bayes_opt import BayesianOptimization
# 객체를 형성한다
BO_lgb = BayesianOptimization(lgb_acc_eval, bayes_params, random_state=0)

In [86]:
BO_lgb.maximize(init_points=5, n_iter=10)

|   iter    |  target   | colsam... | max_depth | min_ch... | min_sp... | num_le... | reg_alpha | reg_la... | subsample |
-------------------------------------------------------------------------------------------------------------------------
params: {'n_estimator': 200, 'learning_rate': 0.02, 'num_leaves': 33, 'colsample_bytree': 0.7744067519636624, 'subsample': 0.9458865003910399, 'max_depth': 10, 'reg_alpha': 0.32294705653332806, 'reg_lambda': 0.21879360563134626, 'min_split_gain': 0.05494343511669279, 'min_child_weight': 32.12435192322397, 'verbosity': -1}
| [0m 1       [0m | [0m 0.7729  [0m | [0m 0.7744  [0m | [0m 9.722   [0m | [0m 32.12   [0m | [0m 0.05494 [0m | [0m 32.9    [0m | [0m 0.3229  [0m | [0m 0.2188  [0m | [0m 0.9459  [0m |
params: {'n_estimator': 200, 'learning_rate': 0.02, 'num_leaves': 36, 'colsample_bytree': 0.9818313802505146, 'subsample': 0.5435646498507704, 'max_depth': 7, 'reg_alpha': 0.4627983191463305, 'reg_lambda': 0.03551802909894347, 'mi

In [87]:
# BayesianOptimization 객체의 res 속성은 하이퍼 파라미터 튜닝을 하는 과정에서의 metric 값과 그때의 하이퍼 파라미터 값을 가지고 있음. 

In [88]:
BO_lgb.res

[{'target': 0.7728571428571429,
  'params': {'colsample_bytree': 0.7744067519636624,
   'max_depth': 9.721514930979357,
   'min_child_weight': 32.12435192322397,
   'min_split_gain': 0.05494343511669279,
   'num_leaves': 32.896750786116996,
   'reg_alpha': 0.32294705653332806,
   'reg_lambda': 0.21879360563134626,
   'subsample': 0.9458865003910399}},
 {'target': 0.7648571428571429,
  'params': {'colsample_bytree': 0.9818313802505146,
   'max_depth': 7.067532150606222,
   'min_child_weight': 40.627626713719906,
   'min_split_gain': 0.05336059705553755,
   'num_leaves': 35.92893578297258,
   'reg_alpha': 0.4627983191463305,
   'reg_lambda': 0.03551802909894347,
   'subsample': 0.5435646498507704}},
 {'target': 0.7594285714285715,
  'params': {'colsample_bytree': 0.5101091987201629,
   'max_depth': 10.660958764383505,
   'min_child_weight': 40.01705379274327,
   'min_split_gain': 0.08713120267643511,
   'num_leaves': 44.55098518688804,
   'reg_alpha': 0.3995792821083618,
   'reg_lambda':

BayesianOptimization 객체의 max 속성은 최고 높은 성능 Metric를 가질때의 하이퍼 파라미터 값을 가지고 있음.

In [79]:
BO_lgb.max

{'target': 0.8274285714285714,
 'params': {'colsample_bytree': 0.5,
  'max_depth': 12.0,
  'min_child_weight': 6.153818666923531,
  'min_split_gain': 0.1,
  'num_leaves': 45.0,
  'reg_alpha': 0.0,
  'reg_lambda': 0.0,
  'subsample': 1.0}}

## 최종 평가

In [90]:
from sklearn.metrics import accuracy_score

max_params = BO_rf.max['params']
max_params['min_samples_leaf'] = int(round(max_params['min_samples_leaf']))
max_params['min_samples_split'] = int(round(max_params['min_samples_split']))
max_params['max_depth'] = int(max_params['max_depth'])
lgb_model = LGBMClassifier(n_estimators=200,learning_rate=0.2, **max_params)
lgb_model.fit(X_train, y_train) # train 을 전체로 해서 더 높은가바..
y_pred = lgb_model.predict(X_test)
score = accuracy_score(y_pred,y_test)

print('accuracy : {0:.4f}'.format(score))

mse score : 0.8713


# Catboost

In [None]:
def catboost_eval(bagging_temperature ,
                  depth , 
                  learning_rate ,
                  min_data_in_leaf , 
                  max_leaves , 
                  l2_leaf_reg , 
                  border_count):
    n_splits=5
    skf = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=RANDOM_STATE)
    f1 = []
    predict = None
    params = {}
    params['iterations'] = 1000
    params['custom_loss'] = 'TotalF1'
    params['eval_metric'] = 'TotalF1'
    params['random_seed'] = 1234
    params['learning_rate'] = learning_rate
    params['min_data_in_leaf'] = int(round(min_data_in_leaf))
    params['depth'] = int(round(depth))
    #params['max_leaves'] = int(round(max_leaves))
    #params['l2_leaf_reg'] = int(round(l2_leaf_reg))
    params['border_count'] = int(round(border_count))
    params['bagging_temperature'] = int(round(bagging_temperature))
    X , y = catX_train.values , caty_train
    for tr_ind, val_ind in skf.split(X , y):
        X_train = X[tr_ind]
        y_train = y[tr_ind]
        X_valid = X[val_ind]
        y_valid = y[val_ind]
        ## https://catboost.ai/docs/concepts/python-reference_catboost_eval-metrics.html
        clf = CatBoostClassifier(**params , 
                                 task_type = "GPU" , 
                                 leaf_estimation_iterations = 10,
                                 use_best_model=True,
                                 od_type="Iter",
                                 logging_level='Silent',
                                )
        clf.fit(X_train, 
                y_train,
                cat_features=cat_features,
                eval_set=(X_valid, y_valid),
                verbose = False ,
        )
        
        y_pred = clf.predict(X_valid)
        
        f1_value = f1_score(y_valid.astype(int) ,
                            y_pred.astype(int)  ,
                            average='weighted')
        f1.append(f1_value)
    return sum(f1)/n_splits

## min_data_in_leaf , max_leaves , 추가 하니 먼가 잘 안됨.
catBO = BayesianOptimization(catboost_eval,
                             {'bagging_temperature': (0, 1000),
                              'depth': (5, 8.99) ,
                              "learning_rate" : (0.001,0.1) , 
                              "min_data_in_leaf" : (1,6) , 
                              'max_leaves' : (200,200)  ,
                              'l2_leaf_reg': (100, 100)  ,
                              'border_count': (5, 255) ,
                             },
                             random_state=0)
init_round=5
opt_round = 10
catBO.maximize(init_points=init_round, n_iter=opt_round)




### 변수 중요도 시각화
import seaborn as sns
sns.set(rc={'figure.figsize':(11.7,8.27)})
cat_feature_imp = pd.DataFrame([CatBoost.feature_names_ , CatBoost.feature_importances_]).T
cat_feature_imp.columns = ["feature","varimp"]
cat_feature_imp = cat_feature_imp.sort_values(by="varimp", ascending = False)
sns.barplot(y="feature", x="varimp",data = cat_feature_imp, )
plt.show()