# LightGBM

## LightGBM 장단점
- XGB보다도 학습에 걸리는 시간이 훨씬 적으며 메모리 사용량도 상대적으로 적다
- 카테고리형 피쳐를 자동 변환하고, 예측 성능 역시 XGB와 큰 차이가 없다.
- 데이터의 갯수가 적을 경우 과적합이 발생하기쉽다.
- 적은 데이터의 갯수의 기준은 LightGBM공식문서에서 10000건 이하라고 기술함.

## 트리 기반 알고리즘 특징
- 기존의 대부분 트리 기반 알고리즘은 트리의 깊이를 효과적으로 줄이기 위한 균형 트리 분할(Level Wise)방식을 사용
- 최대한 균형 잡힌 트리를 유지하면서 분할하기 때문에 깊이가 최소화되며 과대적합에 보다 강한 구조를 가진다.
- 하지만 균형을 맞추기 위한 시간이 오래 걸리는 단점이 있다.

## LightGBM 특징
- LightGBM은 일반 GBM 계열의 트리 분할 방법과 다르게 리프 중심 트리 분할(Leaf Wise)방식을 사용
- 트리의 균형을 맞추지 않고 최대손실값(max delta loss)을 가지는 리프 노드를 지속적으로 분할하여 깊이가 증가하고 비대칭적인 트리 생성
- 이렇게 생성된 트리는 학습을 반복할수록 결국은 균형 트리 분할방식보다 예측 오류손실을 최소화 할 수 있다는 것이 LightGBM의 구현 사상이다.

# 라이브러리 로딩

In [1]:
import numpy as np  # 넘파이
import pandas as pd  # 판다스
import seaborn as sns  # 시본
import matplotlib as mpl
import matplotlib.pyplot as plt  # matplotlib
from IPython.display import Image

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
%matplotlib inline
%config InlineBackend.figure_foramt = 'retina'
# 자동완성 속도 증가
%config Completer.use_jedi = False
# 한글 깨짐 해결
plt.rc('font', family='D2coding')
mpl.rc('axes', unicode_minus=False)

# 데이터 로딩과 데이터 분리

In [22]:
from lightgbm import LGBMClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()
df = pd.DataFrame(cancer.data, columns=cancer.feature_names)

df['target'] = cancer.target
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

In [23]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=156)
evals = [(X_test, y_test)]

lgbm = LGBMClassifier(n_estimators=4000)
lgbm.fit(X_train, y_train, early_stopping_rounds=100,
         eval_metric='logloss', eval_set=evals, verbose=True)

[1]	valid_0's binary_logloss: 0.565079
Training until validation scores don't improve for 100 rounds
[2]	valid_0's binary_logloss: 0.507451
[3]	valid_0's binary_logloss: 0.458489
[4]	valid_0's binary_logloss: 0.417481
[5]	valid_0's binary_logloss: 0.385507
[6]	valid_0's binary_logloss: 0.355773
[7]	valid_0's binary_logloss: 0.329587
[8]	valid_0's binary_logloss: 0.308478
[9]	valid_0's binary_logloss: 0.285395
[10]	valid_0's binary_logloss: 0.267055
[11]	valid_0's binary_logloss: 0.252013
[12]	valid_0's binary_logloss: 0.237018
[13]	valid_0's binary_logloss: 0.224756
[14]	valid_0's binary_logloss: 0.213383
[15]	valid_0's binary_logloss: 0.203058
[16]	valid_0's binary_logloss: 0.194015
[17]	valid_0's binary_logloss: 0.186412
[18]	valid_0's binary_logloss: 0.179108
[19]	valid_0's binary_logloss: 0.174004
[20]	valid_0's binary_logloss: 0.167155
[21]	valid_0's binary_logloss: 0.162494
[22]	valid_0's binary_logloss: 0.156886
[23]	valid_0's binary_logloss: 0.152855
[24]	valid_0's binary_loglo

LGBMClassifier(n_estimators=4000)