# LightGBM
##  LIghtGBM 장단점

- XGB보다도 학습에 걸리는 시간이 훨씬 적으며 메모리 사용량도 상재거으로 적다
- 카테고리형 피처를 자동 반환하고, 예측 성능 역시 XGB와 큰 차이가 없다
- 테이터가 적은 경우 과적합이 발생하기 쉽다.
- 적은 데이터의 갯수에 대한 기본은 애매하지만 LightGBM의 공식문서에 10,00건 이하라고 술하였다.

## 트리기반 알고리즘 특징

- 기존의 대부분 트리 기반 알고리즘은 트리의 깊이를 효과적으로 줄이기 위한 균형 트리 분할(Level Wise) 방식을 사용한다.
- 최대한 균형 잡힌 트리를 유지하면서 분할하기 때문에 깊이가 최소화되며 과대적합에 보다 강한 구조를 가진다.
- 하지만 균형을 맞추기 위한 시간이 오래 걸리는 단점이 있다.


## LightBGM 특징

- LightGBM은 일반 GBM 계열의 트리 분할 방법과 다르게 리프 중심 트리 분할(leaf Wise) 방식을 사용한다.
- 트리의 균형을 맞추지 않고 최대 손실값(max delta loss)을 가지는 리프 노드를 지속적으로 분할하여 깊이가 증가하고 비대칭적인 트리를 생성한다.
- 이렇게 생성된 트리는 학습을 반복할수록 결국은 균형 트리 분할 방식보다 예측 오류손실을 최소화 할 수 있는 것이 LightGBM의 구현 사상이다.

## 필수 라이브러리

In [3]:
import numpy as np
import pandas as pd

import matplotlib as mpl
import matplotlib.pyplot as plt

import warnings
%matplotlib inline
%config Inlinebackend.figure_format = 'retina'

# 한글 폰트 설정
mpl.rc('font', family='malgun gothic')

# 시각화 차트에 음수설정
mpl.rc('axes', unicode_minus = False)

# 오류경고
warnings.filterwarnings('ignore')



import seaborn as sns

# 차트 스타일지정     글꼴                    음수처리                        눈금
sns.set(font = 'malgun ghthic', rc={'axes.unicode_minus':False}, style = 'darkgrid')
plt.rc('figure', figsize=(10, 8))

In [4]:
import xgboost as xgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# 데이터 로딩과 훈련세트와 테스트세트분리

In [13]:
from lightgbm import LGBMClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

X, y = load_breast_cancer(True)

print(X.shape)
print(y.shape)

(569, 30)
(569,)


In [16]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=156)

In [23]:
evals = [(X_test, y_test)]

# 학습
lgbm = LGBMClassifier(n_estimators = 4000) # 4천번 
lgbm.fit(X_train, y_train, early_stopping_rounds = 100, #100번 돌림
         eval_metric='logloss', eval_set=evals, verbose=True)
#            모델이름                 ?              ?


[1]	valid_0's binary_logloss: 0.565079
Training until validation scores don't improve for 100 rounds
[2]	valid_0's binary_logloss: 0.507451
[3]	valid_0's binary_logloss: 0.458489
[4]	valid_0's binary_logloss: 0.417481
[5]	valid_0's binary_logloss: 0.385507
[6]	valid_0's binary_logloss: 0.355773
[7]	valid_0's binary_logloss: 0.329587
[8]	valid_0's binary_logloss: 0.308478
[9]	valid_0's binary_logloss: 0.285395
[10]	valid_0's binary_logloss: 0.267055
[11]	valid_0's binary_logloss: 0.252013
[12]	valid_0's binary_logloss: 0.237018
[13]	valid_0's binary_logloss: 0.224756
[14]	valid_0's binary_logloss: 0.213383
[15]	valid_0's binary_logloss: 0.203058
[16]	valid_0's binary_logloss: 0.194015
[17]	valid_0's binary_logloss: 0.186412
[18]	valid_0's binary_logloss: 0.179108
[19]	valid_0's binary_logloss: 0.174004
[20]	valid_0's binary_logloss: 0.167155
[21]	valid_0's binary_logloss: 0.162494
[22]	valid_0's binary_logloss: 0.156886
[23]	valid_0's binary_logloss: 0.152855
[24]	valid_0's binary_loglo

LGBMClassifier(n_estimators=4000)

## 예측과 평가

In [29]:
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score, confusion_matrix

pred = lgbm.predict(X_test)

In [31]:
# 정확도
accuracy_score(y_test, pred)

0.956140350877193

In [32]:
# 정밀도
precision = precision_score(y_test, pred)
precision

0.95

In [34]:
# 재현율
recall = recall_score(y_test, pred)
recall

0.987012987012987

In [35]:
# F1 score
f1 = f1_score(y_test, pred)
f1

0.9681528662420381

In [38]:
lgbm.predict_proba(X_test)

array([[0.39485527, 0.60514473],
       [0.99252022, 0.00747978],
       [0.05648676, 0.94351324],
       [0.85690433, 0.14309567],
       [0.02333051, 0.97666949],
       [0.00410411, 0.99589589],
       [0.00536267, 0.99463733],
       [0.00966208, 0.99033792],
       [0.00650967, 0.99349033],
       [0.99345374, 0.00654626],
       [0.99248594, 0.00751406],
       [0.99361128, 0.00638872],
       [0.00439053, 0.99560947],
       [0.0045107 , 0.9954893 ],
       [0.00643345, 0.99356655],
       [0.03321847, 0.96678153],
       [0.04364786, 0.95635214],
       [0.00526462, 0.99473538],
       [0.00616807, 0.99383193],
       [0.00406726, 0.99593274],
       [0.99222844, 0.00777156],
       [0.4123405 , 0.5876595 ],
       [0.99343436, 0.00656564],
       [0.00361161, 0.99638839],
       [0.99405678, 0.00594322],
       [0.18473164, 0.81526836],
       [0.98525975, 0.01474025],
       [0.99412841, 0.00587159],
       [0.00622959, 0.99377041],
       [0.9757635 , 0.0242365 ],
       [0.