## 목차
1. [분류와 회귀](#분류와-회귀)  
    1.1. [분류](#분류)  
    1.2. [회귀](#회귀)  
2. [분류 평가지표](#분류-평가지표)  
    2.1. [오차 행렬(confusion matrix)](#오차-행렬confusion-matrix)  
    2.2. [로그 손실](#로그-손실)  
    2.3. [ROC 곡선과 AUC](#ROC-곡선과-AUC)  
3. [데이터 인코딩](#데이터-인코딩)  
    3.1. [레이블 인코딩](#레이블-인코딩)  
    3.2. [오디널 인코딩](#오디널-인코딩)  
    3.3. [원핫 인코딩](#원핫-인코딩)  
4. [피쳐 스케일링](#피쳐-스케일링)  
    4.1. [min-max 정규화(normalization)](#min-max-정규화normalization)  
    4.2. [표준화(standardization)](#표준화standardization)  
5. [교차 검증](#교차-검증)  
    5.1. [K 폴드 교차 검증](#K-폴드-교차-검증)  
    5.2. [층화 K 폴드 교차 검증](#층화-K-폴드-교차-검증)  
6. [주요 머신러닝 모델](#주요-머신러닝-모델)  
    6.1. [선형 회귀 모델](#선형-회귀-모델)  
    6.2. [로지스틱 회귀 모델](#로지스틱-회귀-모델)  
    6.3. [결정 트리](#결정-트리)  
    6.4. [앙상블 학습](#앙상블-학습)  
    6.5. [랜덤 포레스트](#랜덤-포레스트)  
    6.6. [XGBoost](#XGBoost)  
    6.7. [LightGBM](#LightGBM)  
7. [하이퍼 파라미터 최적화](#하이퍼-파라미터-최적화)  
    7.1. [그리드서치](#그리드서치)  
    7.2. [랜덤서치](#랜덤서치)  
    7.3. [베이지안 최적화](#베이지안-최적화) 

<a name="분류와-회귀"></a>
# 분류와 회귀

캐글 경진대회는 대부분 분류나 회귀 문제를 다룬다. 타깃값이 범주형 데이터면 분류문제, 수치형이면 회귀 문제이다.

<a name="분류"></a>
## 분류
책의 내용을 피처, IT 도서을 타깃을 비유함. 책을 분류하는 방법에 대한 설명

### 5.1.1 분류
이진 분류(binary clasification) : 타깃값이 2개인 분류
다중 분류(multicalss classification) : 타깃값이 3개 이상인 분류

### 5.1.2 회귀
독립변수(independent variable) : 영향을 미치는 변수
종속변수(dependent variable) : 영향을 받는 변수
회귀란 독립변수와 종속변수 간 관계를 모델링하는 방법이다.

선형회귀(simple linear regression) : y = ax + b
다중 선형회귀(multiple linear regression) : y = ax + by + c

### 자주 사용하는 회귀 평가지표
- MAE : 평균절대오차
- MSE : 평균제곱오차
- RMSE : 평균제곱근 오차
- MSLE : Mean Squared Log Error
- RMSLE : Root Mean Squared Log Error
- R^2 : 결정계수

RMSE vs. RMSLE
1. 아웃라이어에 강건하다. : 이상치 또는 아웃라이어가 있더라도 값의 변동폭이 크지 않다.
2. 상대적 Error 측정 : 상대적 및 절대적 차이에 의해 RMSE는 변화하지만, RMSLE은 예측값과 실제값의 상대적 error를 측정한다.
 - 단, RMSLE의 한계는 예시로 돈 관련 문제에 적용할 때 1억과 100억의 오차와 1원과 100원의 오차 의미가 퇴색하게 된다.
3. Under Estimation에 큰 패널티를 부여한다.
 - RMSLE는 over estimation보다 under estimation에 더 큰 패널티를 부여한다. 즉, 예측값이 실제보다 작을 때 더 큰 패널티를 부여한다.  
 - 예를 배달에서 30분이 걸린다고 했는데 20분이 걸리는건 문제가 없지만, 20분이 걸린다고 했는데 30분이 걸린다면 문제가 있다고 볼 수 있다.  

|평가지표|수식|설명|
|--|--|--|
|MAE|$${1 \over N} \sum_{i=1}^N\|y_i - \hat{y_i}\|$$||
|MSE|$${1 \over N} \sum_{i=1}^N(y_i - \hat{y_i})^2$$||
|RMSE|$$\sqrt{{1 \over N} \sum_{i=1}^N(y_i - \hat{y_i})^2}$$||
|MSLE|$${1 \over N} \sum_{i=1}^N(log(y_i+1)-log(\hat{y_i}+1))^2$$|$$-\infty$$를 방지하기 위하여 log에 +1을 취함|
|RMSLE|$$\sqrt{{1 \over N} \sum_{i=1}^N(log(y_i+1)-log(\hat{y_i}+1))^2}$$|$$-\infty$$를 방지하기 위하여 log에 +1을 취함|
|$$R^2$$|$$ \hat{\sigma}^2 \over {\sigma}^2$$|1에 근첩하는게 정확도가 높음|  


<a name="회귀"></a>
## 회귀

In [1]:
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_squared_log_error, r2_score

true = np.array([1,2,3,4,5,7,8,6,4,4,3])
pred = np.array([1,2,3,4,5,7,2,6,4,7,3])

MAE = mean_absolute_error(true, pred)
MSE = mean_squared_error(true, pred)
RMSE = np.sqrt(MSE)
MSLE = mean_squared_log_error(true, pred)
RMSLE = np.sqrt(MSLE)
R2 = r2_score(true, pred)

print(f'MAE:\t {MAE:.4f}')
print(f'MSE:\t {MSE:.4f}')
print(f'RMSE:\t {RMSE:.4f}')
print(f'MSLE:\t {MSLE:.4f}')
print(f'RMSLE:\t {RMSLE:.4f}')
print(f'R2:\t {R2:.4f}')

MAE:	 0.8182
MSE:	 4.0909
RMSE:	 2.0226
MSLE:	 0.1298
RMSLE:	 0.3603
R2:	 -0.0185


<a name="분류-평가지표"></a>
# 분류 평가지표

<a name="오차-행렬confusion-matrix"></a>
## 오차 행렬(confusion matrix)

<table>
  <tbody>
    <tr>
      <td></td>
      <td></td>
      <td>predict</td>
    </tr>
    <tr>
      <td></td>
      <td></td>
      <td>positive</td>
      <td>negative</td>
    </tr>
    <tr>
      <td rowspan="2">real</td>
      <td>positive</td>
      <td>TP</td>
      <td>FN</td>
    </tr>
    <tr>
      <td>negative</td>
      <td>FP</td>
      <td>TN</td>
    </tr>
  </tbody>
</table>

참 양성(True Positive, TP) : 양성으로 정답을 맞춘 경우  
참 음성(True Negative, TN) : 음성으로 정답을 맞춘 경우  
거짓 양성(False Positive, FP) : 양성으로 못 맞춘 경우  
거짓 음성(False Negative, TN) : 음성으로 못 맞춘 경우  

오차 행렬을 활용한 지표는 정확도, 정밀도, 재현율, F1 점수가 있다.  

* 정확도(accuracy) : 정확도는 잘 쓰이지 않는다.  
전체에서 True가 차지하는 비율  
(*모델의 우수성을 따질때 잘 사용하지 않음)  
$${TP+TN}\over{TP+TN+FP+FN}$$

* 정밀도(precision) : 정밀도는 음성을 양성으로 잘못 판단하면 문제가 발생하는 경우에 사용한다. 검출하기 원하는 상태를 보통 양성으로 정한다. 즉, 문제가 되는 상태를 양성, 정상인 상태를 음성이라고 본다.  
Positive predict중의 True가 차지하는 비율  
(*실제 negative가 positive로 측정되는것이 critical할때 사용)  
$${TP}\over{TP+FP}$$

* 재현율(recall)(TPR) : 양성을 음성으로 잘못 판단하면 준제가 되는 경우에 사용한다.(예, 암진단)
positive real중의 True가 차지하는 비율  
(*실제 positive가 negative로 측정되는것이 critical할때 사용)  
$${TP}\over{TP+FN}$$

* F1 점수(F1 score)  
정밀도와 재현율의 조화평균으로 편중되지않은 균등한 모델을 만들때 사용  
$${2}\over{{{1} \over {precision}}+{{1} \over {recall}}}$$

<br/>


<a name="로그-손실"></a>
## 로그 손실

타겟을 확률적으로 예측시 사용되는 모델(0에 가까울 수록 좋음)  
$$logloss = -{{1}\over{N}}\sum_{i=1}^N(y_ilog(\hat{y_i})+(1-y_i)log(1-\hat{y_i}))$$

<a name="ROC-곡선과-AUC"></a>
## ROC 곡선과 AUC
- ROC(Receiver Operating Characteristic)곡선은 참 양성 비율(TPR)에 대한 거짓 양성 비율(FPR)곡선이다.  
- AUC(Area Under the Curve)는 ROC 곡선 아래 면적을 의미한다.  

로그손실과 같이 예측값이 확률일때 사용하게 된다.  
$$TNR = {TN}\over{FP+TN}$$
$$FPR = 1 - TNR$$  

TNR은 특이도(specificity)라고도 불린다.
<center>
  <img
    src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/13/Roc_curve.svg/512px-Roc_curve.svg.png"
    width="350"
    height="400"
  />
</center>

<br/><br/>

<a name="데이터-인코딩"></a>
# 데이터 인코딩

대표적인 데이터 인코딩에서는 **레이블 인코딩**과 **원-핫 인코딩**이 있다.  

<a name="레이블-인코딩"></a>
## 레이블 인코딩  

레이블 인코딩을 적용하면 원본 데이터의 값에 사전순으로 번호를 매깁니다.  

In [2]:
from sklearn.preprocessing import LabelEncoder

fruits = ['banana', 'berry', 'blueberry']

label_encoder = LabelEncoder()
fruits_label_encoded = label_encoder.fit_transform(fruits)

print('레이블 인코딩 적용 후 데이터:', fruits_label_encoded)

레이블 인코딩 적용 후 데이터: [0 1 2]


<a name="오디널-인코딩"></a>
## 오디널 인코딩  
범주형 데이터를 숫자로 1대1 매칭해주는 방법(고차원 데이터)  
데이터간의 상관관계가 있을 때 사용  

<a name="원핫-인코딩"></a>
## 원핫 인코딩  
범주형 데이터 value수 만큼 feature를 늘려서 해당하면 1 아니면 0을 나타냄  
메모리를 아끼기 위해서 Compressed spares row로 변환됨  
데이터간의 상관관계가 없을 때 사용  

In [12]:
from sklearn.preprocessing import OneHotEncoder

fruits = ['banana', 'berry', 'blueberry']

# 레이블 인코더, 원-핫 인코더 생성
label_encoder = LabelEncoder()
onehot_encoder = OneHotEncoder()

# 레이블 인코딩 적용(문자 데이터 -> 숫자 데이터)
fruits_onehot_encoded = label_encoder.fit_transform(fruits)

# 원-핫 인코딩 적용
# reshape의 -1 값은 다른 인자 값에 따라 의존적으로 변화는 값을 의미한다.  
fruits_onehot_encoded = onehot_encoder.fit_transform(fruits_label_encoded.reshape(-1,1))

print('원-핫 인코딩 적용 후 데이터: \n', fruits_onehot_encoded.toarray())

# -----------------------------------

원-핫 인코딩 적용 후 데이터: 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [13]:
import pandas as pd
pd.get_dummies(fruits)

Unnamed: 0,banana,berry,blueberry
0,True,False,False
1,False,True,False
2,False,False,True


<a name="피쳐-스케일링"></a>
# 피쳐 스케일링  

피쳐들마다 범위가 다르기때문에 범위를 조절하는 기법  
단, 트리 기반 모델(랜덤 포레시트, XGBoost, LightGBM 등)은 피처 스케일링이 필요 없다.  
트리 기반 모델은 데이터의 크기보다는 대소 관계에 영향을 받기 때문이다. 피처 스케일링을 하더라도 데이터의 대소 관계에는 변함이 없다.  

<a name="min-max-정규화normalization"></a>
## min-max 정규화(normalization)  

0~1의 범위의 값으로 수치를 변화시키는것을 의미하며 아래의 식으로 변환됨  
(outlier에 취약함)  
$$x_{scaled} = {{x-x_{min}} \over {x_{max}-x_{min}}}$$
fit, transform을 따로 할때 음수 발현가능

In [14]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

height_weight_dict = {'키': [1.7, 1.5, 1.8], '몸무게': [75, 55, 60]}
df = pd.DataFrame(height_weight_dict, index=['광일', '혜성', '덕수'])

scaler = MinMaxScaler()
scaler.fit(df) # df 데이터에서 min max를 사용하여 동작
df_scaled = scaler.transform(df) # 여기서는 예시로 df를 했지만 다른 데이터를 입력하면 앞에서 사용한 min max를 적용하는 부분
# 예시
# df_scaled2 = scaler.transform(df2)
# df_scaled3 = scaler.transform(df3)

print(df)
print(df_scaled)

      키  몸무게
광일  1.7   75
혜성  1.5   55
덕수  1.8   60
[[0.66666667 1.        ]
 [0.         0.        ]
 [1.         0.25      ]]


<a name="표준화standardization"></a>
## 표준화(standardization)  

평균이 0, 분산이 1이 되게 피쳐를 조정(정규분포를 따르는 데이터는 표준화 스케일링을 적용하는게 좋다.)
$$x_{scaled} = {{x-\hat{x}}\over{\sigma}}$$

In [15]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

height_weight_dict = {'키': [1.7, 1.5, 1.8], '몸무게': [75, 55, 60]}
df = pd.DataFrame(height_weight_dict, index=['광일', '혜성', '덕수'])

scaler = StandardScaler()
scaler.fit(df)
df_scaled = scaler.transform(df)

print(df)
print(df_scaled)

      키  몸무게
광일  1.7   75
혜성  1.5   55
덕수  1.8   60
[[ 0.26726124  1.37281295]
 [-1.33630621 -0.98058068]
 [ 1.06904497 -0.39223227]]


<a name="교차-검증"></a>
# 교차 검증  

모델의 성능을 검증하는 방법으로 아래의 문제해결을 위해 사용됨  
* 과적합  
훈련, 테스트 데이터셋이 고정되면 과적합 가능성이 높아짐
* 명확한 성능확인  
경진대회에서는 제출제한 횟수, 실제에서는 실제데이터 적용의 문제로 명확하게 성능확인이 힘들 수 있음

<a name="K-폴드-교차-검증"></a>
## K 폴드 교차 검증

In [None]:
import numpy as np
from sklearn.model_selection import KFold

data = np.array([0,1,2,3,4,5,6,7,8,9])

folds = KFold(n_splits=5, shuffle=True)

for train, valid in folds.split(data):
    print(train, valid)

<a name="층화-K-폴드-교차-검증"></a>
## 층화 K 폴드 교차 검증

In [None]:
import numpy as np
import seaborn as sns
from sklearn.model_selection import StratifiedKFold

data = np.array([0,1,2,3,4,5,6,7,8,9])
iris = sns.load_dataset('iris')

folds = StratifiedKFold(n_splits=5, shuffle=True)

for train, valid in folds.split(iris, iris['species']):
    print(train, valid)

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.model_selection import StratifiedKFold

data = np.array([0,1,2,3,4,5,6,7,8,9])
iris = sns.load_dataset('iris')
y = iris['species']
iris = iris.drop(columns="species")
print(y)
folds = StratifiedKFold(n_splits=5, shuffle=True)

for train, valid in folds.split(iris, y):
    print(train, valid)

<a name="주요-머신러닝-모델"></a>
# 주요 머신러닝 모델

<a name="선형-회귀-모델"></a>
## 선형 회귀 모델

In [None]:
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

w0 = 5
w1 = 2
noise = np.random.randn(100, 1)

x = 4* np.random.rand(100, 1)
y = w1*x+w0+noise
plt.scatter(x,y)

In [None]:
from sklearn.linear_model import LinearRegression

linear_reg_model = LinearRegression()
linear_reg_model.fit(x,y)

print('w0 : ', linear_reg_model.intercept_)
print('w1 : ', linear_reg_model.coef_)

In [None]:
y_pred = linear_reg_model.predict(x)

plt.scatter(x,y)
plt.plot(x,y_pred)

<a name="로지스틱-회귀-모델"></a>
## 로지스틱 회귀 모델

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer

breast_cancer = load_breast_cancer()
df = pd.DataFrame(data=breast_cancer.data, columns=breast_cancer.feature_names)
df["label"] = breast_cancer.target
print(df)

from sklearn.model_selection import train_test_split

# Step1) train / test 으로 나누기
train, test = train_test_split(df, test_size=0.2, random_state=0)

In [None]:
from sklearn.metrics import accuracy_score


# 모델 만들기
majority_class = train["label"].mode()[0]

# 기준모델의 정확도 계산을 위한 데이터 생성
y_pred = [majority_class] * len(test)

# validation 데이터셋에 대한 정확도 확인
print("최빈 클래스: ", majority_class)
print("validation 데이터셋 정확도: ", accuracy_score(test["label"], y_pred))

In [None]:
from sklearn.linear_model import LogisticRegression

y_train = train['label']
X_train = train.drop(columns='label')
y_test = test['label']
X_test = test.drop(columns='label')

# 모델 생성 및 학습 시키기
logistic = LogisticRegression(max_iter=5000) # iter 초과시 증가
logistic.fit(X_train, y_train)

# 결과 확인
print("validation 데이터셋 정확도", logistic.score(X_test, y_test))
print("validation 데이터셋의 타겟 확률", logistic.predict_proba(X_test))

<a name="결정-트리"></a>
## 결정 트리

* criterion : 불순도 측정 지표 [default : 'gini', 'entropy']
* max_depth : 트리 최대 깊이 [default : None]
    * min_samples_split과 같은 옵션이 없으면 기본으로 불순도 0까지 분할
* min_samples_split : 노드 분할에 필요한 최소 데이터수 [default : 2]
    * 정수형, 실수형(비율) 사용가능
* min_samples_leaf : 말단 노드가 되기 위한 최소 데이터수 [default : 1]
    * 정수형, 실수형(비율) 사용가능
* max_features : 분할에 사용할 피쳐수 [default : None]
    * 정수형, 실수형(비율) 사용가능
    * 'auto', 'sqrt', 'log2' 사용가능

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

breast_cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(breast_cancer['data'],
                                breast_cancer['target'],
                                stratify=breast_cancer['target'],
                                test_size=0.2,
                                random_state=0
                                )
                    
decisiontree = DecisionTreeClassifier(random_state=0)
decisiontree.fit(X_train, y_train)

accuracy = decisiontree.score(X_test, y_test)

print(f'결정 트리 정확도 : {accuracy:.3f}')

<a name="앙상블-학습"></a>
## 앙상블 학습 

In [None]:
import pandas as pd

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


#load dataset
cancer_dataset = load_breast_cancer()

# cancer_dataset 그냥 찍어보니 이상하게 나옴.. dataframe화 해줘야 헸음. 
cancer_dataset_df = pd.DataFrame(cancer_dataset.data, columns=cancer_dataset.feature_names)
cancer_dataset_df.head()


# dataset split
X_train, X_test, y_train, y_test = train_test_split(cancer_dataset.data, cancer_dataset.target, test_size=0.2, random_state=121)


#weak learners: logistic regression, KNN
logistic_regression = LogisticRegression()
KNN = KNeighborsClassifier()

#votinng ensemble with these two weak learners
voting_ensemble = VotingClassifier(estimators=[("LogisticRegression", logistic_regression), ("KNN", KNN)],
                                  voting = 'soft')


# voting_ensemble model train/val/test
voting_ensemble.fit(X_train, y_train)
y_pred = voting_ensemble.predict(X_test)

print("voting 분류기 정확도 {0:.4f}".format(accuracy_score(y_test, y_pred)))

<a name="랜덤-포레스트"></a>
## 랜덤 포레스트

* n_estimators : 랜덤 포레스트에 사용될 트리의 수  [default : 100]
* criterion : 불순도 측정 지표 [default : 'gini', 'entropy']
* max_depth : 트리 최대 깊이 [default : None]
    * min_samples_split과 같은 옵션이 없으면 기본으로 불순도 0까지 분할
* min_samples_split : 노드 분할에 필요한 최소 데이터수 [default : 2]
    * 정수형, 실수형(비율) 사용가능
* min_samples_leaf : 말단 노드가 되기 위한 최소 데이터수 [default : 1]
    * 정수형, 실수형(비율) 사용가능
* max_features : 분할에 사용할 피쳐수 [default : None]
    * 정수형, 실수형(비율) 사용가능
    * 'auto', 'sqrt', 'log2' 사용가능

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

breast_cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(breast_cancer['data'],
                                breast_cancer['target'],
                                stratify=breast_cancer['target'],
                                test_size=0.2,
                                random_state=0
                                )
                    
decisiontree = RandomForestClassifier(random_state=0)
decisiontree.fit(X_train, y_train)

accuracy = decisiontree.score(X_test, y_test)

print(f'결정 트리 정확도 : {accuracy:.3f}')



<a name="XGBoost"></a>
## XGBoost

for XGBoost() class
* booster : 부스팅 알고리즘 [default : 'gbtree', 'dart', 'gblinear']
    * gblinear : 선형 모델(성능 하)
    * dart : 드롭아웃 적용한 gbtree
* objective : 훈련 목적 [default : 'reg:squarederror']
    * 회귀에서 'reg:squarederror'
    * 확룰성 이진분류에서 'binary:logistic'
    * softmax 사용 다중분류에서 'multi:softmax'
    * 확률값을 구하는 다중분류에서 'multi:softprob'
* eta : 학습률(단계별 가중치) [default : 0.3, 0~1, normally 0.001~0.1]
* max_depth : 트리의 최대 깊이 [default : 6, normally 3~10]
* subsample : 개별 트리에 사용할 데이터 샘플링 비율 [default : 1, normally 0.6~1]
* colsample_bytree : 트리 훈련에 사용하는 피쳐 샘플링 비율 [default : 1, normally 0.6~1]
* alpha : L1(lasso) 규제 값 [default : 0]
* reg_lambda : L2(Ridge) 규제 값 [default : 1]
* gamma(min_split_loss) : leaf node가 분할 하기위한 최소 loss[default : 0, 0~$\infty$]
* min_child_weight : 과적합 방지 값 [default : 1, 0~$\infty$]
* scale_pos_weight : 불균형 데이터 가중치 조정 값 [default : 1]
    * 주로 $음성타깃 \over 양성타깃$ 으로 설정
    
for train() method
* params : dict type 하이퍼 파라미터 목록
* dtrain : 훈련 데이터셋
* num_boost_round : 부스팅 반복 횟수 [default : 10]
    * 성능, 과적합, 시간의 상관관계가 있음
* evals : 검증용 데이터 셋 [default : []]
* feval : 검증용 평가지표 evals사용시 활용 [default : None]
* maximize : feval이 높은게 좋은가? [True, False]
* early_stopping_rounds : 조기종료 옵션 [default : None, int]
    * eta가 크면 줄이고 작으면 키움
    * evals가 필요함
    * 옵션의 숫자만큼 반복하고 다음번으로 반복한 결과와 비교해 성능이 감소하면 종료
* verbose_eval : 성능 점수 로그 설정 [default : True, False, int]
    * 설정된 횟수만큼 반복후 성능지표를 보여줌

<a name="LightGBM"></a>
## LightGBM

for LightGBM() class
* boosting_type : 부스팅 알고리즘 [default : 'gbdt', 'dart', 'goss','rf]
    * g
* objective : 훈련 목적 [default : 'regression']
    * 회귀에서 'regression'
    * 이진분류에서 'binary'
    * 다중분류에서 'multiclass'
* learning_rate(eta) : 학습률(단계별 가중치) [default : ]
* num_leaves : leaf node 갯수 커지면 과적합 위험 [default : 31]
* max_depth : 트리의 최대 깊이 [default : -1]
* bagging_fraction(subsample) : 개별 트리에 사용할 데이터 샘플링 비율 [default : not 0]
    * g
* feature_fraction(colsample_bytree) : 트리 훈련에 사용하는 피쳐 샘플링 비율 [default : ]
    * g
* lambda_l1(reg_alpha) : L1(lasso) 규제 값 [default : 0]
* lambda_l2(reg_lambda) : L2(Ridge) 규제 값 [default : 0]
* min_child_samples : leaf node가 되기위한 최소 데이터 수 [default : 20]
* min_child_weight : 과적합 방지 값 [default : $1e^{-3}$, 0~$\infty$]
* bagging_freq : 배깅 수행 빈도 [default : 0]
    * 몇번의 iter 마다 배깅을 할지 결정
* force_row_wise : 메모리 효율 증가 [default : False, True]

for train() method
* params : dict type 하이퍼 파라미터 목록
* train_set : 훈련 데이터셋
* num_boost_round : 부스팅 반복 횟수 [default : 10]
    * 성능, 과적합, 시간의 상관관계가 있음
* valid_sets : 검증용 데이터 셋 [default : None]
* feval : 검증용 평가지표 evals사용시 활용 [default : None]
* categorical_feature : 범주형 데이터 지정옵션
* early_stopping_rounds : 조기종료 옵션 [default : None, int]
    * eta가 크면 줄이고 작으면 키움
    * evals가 필요함
    * 옵션의 숫자만큼 반복하고 다음번으로 반복한 결과와 비교해 성능이 감소하면 종료
* verbose_eval : 성능 점수 로그 설정 [default : True, False, int]
    * 설정된 횟수만큼 반복후 성능지표를 보여줌

<a name="하이퍼-파라미터-최적화"></a>
# 하이퍼 파라미터 최적화

<a name="그리드서치"></a>
## 그리드서치

<a name="랜덤서치"></a>
## 랜덤서치

<a name="베이지안-최적화"></a>
## 베이지안 최적화

* init_points : 랜덤 탐색의 스텝 횟수
* n_iter : 베이지안 실행 횟수

In [None]:
!pip install bayesian-optimization

param_bounds = {'max_depth': (4, 8),
'subsample': (0.6, 0.9),
'colsample_bytree': (0.7, 1.0),
'min_child_weight': (5, 7),
'gamma': (8, 11),
'reg_alpha': (7, 9),
'reg_lambda': (1.1, 1.5)}


from sklearn.metrics import roc_auc_score

def eval_function(max_depth, subsample, colsample_bytree, min_child_weight, gamma, reg_alpha, reg_lambda):
  param_bounds = {'max_depth': max_depth,
                  'subsample': subsample,
                  'colsample_bytree': colsample_bytree,
                  'min_child_weight': min_child_weight,
                  'gamma': gamma,
                  'reg_alpha': reg_alpha,
                  'reg_lambda': reg_lambda}
  xgb_model = xgb.train(params=params, dtrain=train, num_boost_round=2000, evals=[(valid, 'valid')], maximize=True, early_stopping_round=200)
  best_iter = xgb_model.best_iteration
  preds = xgb_model.predict(valid, iteration_range=(0, best_iter))
  score = roc_auc_score(y_valid, preds)

  return score

from bayes_opt import BayesianOptimization

optimizer = BayesianOptimization(f=eval_function, pbounds=param_bounds)

optimizer.maximize(init_points=3, n_iter=10)

max_params = optimzier.max['params']