# 트리의 앙상블
* 앙상블: 여러개의 모델의 결과를 통합

## 랜덤 포레스트 (Random Forest)

![image.png](attachment:image.png)
* 결정트리 모델에서는 모든 데이터셋을 사용하여 트리를 구성 => 일반적으로 과대적합되어 훈련셋의 결과가 지나치게 높음
* 랜덤 포레스트는 트리를 랜덤하게 만들어서 결정트리의 숲(기본값: 100개)을 만드는 구조
* 성능을 낮추는 중복데이터를 허용하는 무작위한 트리를 생성하여 과대적합되는 것을 억제

![image.png](attachment:image.png)
* 부트스트랩 샘플
 - 훈련세트의 갯수와 동일하게 개수의 데이터 셋을 구성하나 중복 데이터셋을 허용
 - 훈련세트와 동일하지 않게 다양하게 구성되나 중복을 허용하기 때문에 훈련세트에 최적화된 성능을 보이지 않는다.
* 결정트리 훈련한 결과는 각각의 트리에서 예측한 확률을 트리개수로 나눔
* 트리분할을 할 때는 특성개수의 제곱근개수 만큼 특성을 활용하여 자식노드를 생성함. 
 - 균등하게 분할하기 위한 불순도의 개념

![image.png](attachment:image.png)
* Decision Tree는 모든 데이터셋을 사용하여 노드를 분할 할 때 최적의 조건으로 노드를 분할함
* Random Forest는 보다 적은 데이터셋으로 랜덤하게 트리를 구성하여 수행결과를 투표형식으로 포레스트에서 가장 많이 예측한 값으로 결정

![image.png](attachment:image.png)

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

wine = pd.read_csv('https://bit.ly/wine_csv_data')

data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

In [2]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9973541965122431 0.8905151032797809


In [3]:
rf.fit(train_input, train_target)
# feature_importances_ => 정답을 맞추는데 어떤 특성이 가장 많은 기여를 했느냐 (중요!*********)
# '화이트분석' 이라고도 말한다.
print(rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


In [4]:
# OOB: 랜덤포레스트를 구성할 때 랜덤하게 데이터셋을 구성하는데 이 때 사용하지 않는 데이터 샘플을 
rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)

rf.fit(train_input, train_target)
print(rf.oob_score_)

0.8934000384837406


## 엑스트라트리
* 랜덤포레스트와 유사한 알고리즘 

In [5]:
from sklearn.ensemble import ExtraTreesClassifier

et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9974503966084433 0.8887848893166506


In [6]:
et.fit(train_input, train_target)
print(et.feature_importances_)

[0.20183568 0.52242907 0.27573525]


## 히스토그램 기반 부스팅

In [7]:
# 사이킷런 1.0 버전 아래에서는 다음 라인의 주석을 해제하고 실행하세요.
# from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9321723946453317 0.8801241948619236


# 고성능 부스팅 모델

## 그레이디언트 부스팅
* 앙상블모델 중 일반적으로 성능이 높은 모델
* 분류일 경우 로지스틱 손실함수, 선형회귀일 경우 평균제곱오차 손실함수를 사용하여 손실값이 최적일때까지 트리를 추가하는 방식

In [8]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.8881086892152563 0.8720430147331015


In [9]:
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9464595437171814 0.8780082549788999


In [10]:
gb.fit(train_input, train_target)
print(gb.feature_importances_)

[0.15853457 0.68010884 0.1613566 ]


In [11]:
# 사이킷런 1.0 버전 아래에서는 다음 라인의 주석을 해제하고 실행하세요.
# from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9321723946453317 0.8801241948619236


# XGBoost

In [13]:
from xgboost import XGBClassifier

xgb = XGBClassifier(tree_method='hist', random_state=42)
scores = cross_validate(xgb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9555033709953124 0.8799326275264677


# LightGBM

In [15]:
from lightgbm import LGBMClassifier

lgb = LGBMClassifier(random_state=42)
scores = cross_validate(lgb, train_input, train_target, return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.935828414851749 0.8801251203079884
