# 05-3 트리의 앙상블

## 정형 데이터와 비정형 데이터

랜덤 포레스트에 대해 배우기 전에 잠시 우리가 다루었던 데이터를 되돌아 보겠습니다. 4장까지는 생선의 길이, 높이, 무게 등을 데이터로 사용했습니다. 이 데이터는 CSV 파일에 가지런히 정리되어 있었죠.

이런 형태의 데이터를 **정형 데이터**structured data라고 부릅니다. 쉽게 말해 어떤 구조로 되어 있다는 뜻이죠.

이와 반대되는 데이터를 **비정형 데이터**unstructured data라고 부릅니다.

지금까지 배운 머신러닝 알고리즘은 정형 데이터에 잘 맞습니다. 그중에 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이 **앙상블 학습**ensemble learning입니다. 이 알고리즘은 대부분 결정 트리를 기반으로 만들어져 있습니다. 바로 이 절에서 배울 알고리즘들이 앙상블 학습에 속합니다.

그럼 비정형 데이터에는 어떤 알고리즘을 사용해야 할까요? 바로 7장에서 배울 신경망 알고리즘입니다. 비정형 데이터는 규칙성을 찾기 어려워 전통적인 머신러닝 방법으로는 모델을 만들기 까다롭습니다. 하지만 신경망 알고리즘의 놀라운 발전 덕분에 사진을 인식하고 텍스트를 이해하는 모델을 만들 수 있죠.

## 랜덤 포레스트

앙상블 학습의 대표 주자 중 하나로 안정적인 성능 덕분에 널리 사용되고 있습니다. 앙상블 학습을 적용할 때 가장 먼저 랜덤 포레스트를 시도해 보길 권합니다.

랜덤 포레스트는 결정 트리를 랜덤하게 만들어 결정 트리(나무)의 숲을 만듭니다. 그리고 각 결정 트리의 예측을 사용해 최종 예측을 만듭니다.

먼저 랜덤 포레스트는 각 트리를 훈련하기 위한 데이터를 랜덤하게 만드는데, 이 데이터를 만드는 방법이 독특합니다. 우리가 입력한 훈련 데이터에서 랜덤하게 샘플을 추출하여 훈련 데이터를 만듭니다. 이때 한 샘플이 중복되어 추출될 수도 있습니다.

예를 들어 1000개의 샘플이 들어있는 가방에서 100개의 샘플을 뽑는다면 먼저 1개를 뽑고, 뽑았던 1개를 다시 가방에 넣습니다. 이런 식으로 계속해서 100개를 가방에서 뽑으면 중복된 샘플을 뽑을 수 있습니다. 이렇게 만들어진 샘플을 **부트스트랩 샘플**bootstrap sample이라고 부릅니다. 기본적으로 부트스트랩 샘플은 훈련 세트의 크기와 같게 만듭니다. 1000개의 샘플이 들어있는 가방에서 중복하여 1000개의 샘플을 뽑습니다.

또한 각 노드를 분할할 때 전체 특성 중에서 일부 특성을 무작위로 고른 다음 이 중에서 최선의 분할을 찾습니다. 분류 모델인 RandomForestClassifier는 기본적으로 전체 특성 개수의 제곱근만큼의 특성을 선택합니다. 즉 4개의 특성이 있다면 노드마다 2개를 랜덤하게 선택하여 사용합니다. 다만 회귀 모델인 RandomForestRegressor는 전체 특성을 사용합니다.

![image.png](attachment:image.png)

사이킷런의 랜덤 포레스트는 기본적으로 100개의 결정 트리를 이런 방식으로 훈련합니다. 그다음 분류일 때는 각 트리의 클래스별 확률을 평균하여 가장 높은 확률을 가진 클래스를 예측으로 삼습니다. 회귀일 때는 단순히 각 트리의 예측을 평균합니다.

랜덤 포레스트는 랜덤하게 선택한 샘플과 특성을 사용하기 때문에 훈련 세트에 과대적합되는 것을 막아주고 검증 세트와 테스트 세트에서 안정적인 성능을 얻을 수 있습니다. 종종 기본 매개변수 설정 만으로도 아주 좋은 결과를 냅니다.

그럼 사이킷런의 RandomForestClassifier 클래스를 화이트 와인을 분류하는 문제에 적용해 보죠.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
wine = pd.read_csv('https://bit.ly/wine_csv_data')
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()
train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

cross_validate() 함수를 사용해 교차 검증을 수행해 보겠습니다. RandomForestClassifier는 기본적으로 100개의 결정 트리를 사용하므로 n_jobs 매개변수를 -1로 지정하여 모든 CPU 코어를 사용하는 것이 좋습니다. cross_validate() 함수의 n_jobs 매개변수도 -1로 지정하여 최대한 병렬로 교차 검증을 수행하겠습니다. 또 return_train_score 매개변수를 True로 지정하면 검증 점수뿐만 아니라 훈련 세트에 대한 점수도 같이 반환합니다. 훈련 세트와 검증 세트의 점수를 비교하면 과대적합을 파악하는 데 용이합니다(return_train_score 매개변수의 기본값은 False입니다).

In [3]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9973541965122431, 0.8905151032797809)

출력된 결과를 보면 훈련 세트에 다소과대적합된 것 같습니다. 여기에서는 알고리즘을 조사하는 것이 목적이므로 매개변수를 더 조정하지 않도록 하겠습니다.

랜덤 포레스트는 결정 트리의 앙상블이기 때문에 DecisionTreeClassifier가 제공하는 중요한 매개변수를 모두 제공합니다. 또한 결정 트리의 큰 장점 중 하나인 특성 중요도를 계산합니다. 랜덤 포레스트의 특성 중요도는 각 결정 트리의 특성 중요도를 취합한 것입니다. 앞의 랜덤 포레스트 모델을 훈련 세트에 훈련한 후 특성 중요도를 출력해 보겠습니다.

In [4]:
rf.fit(train_input, train_target)
rf.feature_importances_

array([0.23167441, 0.50039841, 0.26792718])

이 결과를 앞의 1절 '결정 트리'에서 만든 특성 중요도(234쪽)와 비교해 보세요. 결정 트리에서 특성 중요도는 다음과 같았습니다.

```[0.12345626 0.86862934 0.0079144]```

각각 [알코올 도수, 당도, pH]였는데, 두 번째 특성인 당도의 중요도가 감소하고 알코올 도수와 pH 특성의 중요도가 조금 상승했습니다. 이런 이유는 랜덤 포레스트가 특성의 일부를 랜덤하게 선택하여 결정 트리를 훈련하기 때문입니다. 그 결과 하나의 특성에 과도하게 집중하지 않고 좀 더 많은 특성이 훈련에 기여하라 기회를 얻습니다. 이는 과대적합을 줄이고 일반화 성능을 높이는데 도움이 됩니다.

RandomForestClassifier에는 재미있는 기능이 하나 더 있는데, 자체적으로 모델을 평가하는 점수를 얻을 수 있습니다. 랜덤 포레스트는 훈련 세트에서 중복을 허용하여 부트스트랩 샘플을 만들어 결정 트리를 훈련한다고 했습니다. 이때 부트스트랩 샘플에 포함되지 않고 남는 샘플이 있습니다. 이런 샘플을 OOB(out of bag) 샘플이라고 합니다. 이 남는 샘플을 사용하여 부트스트랩 샘플로 훈련한 결정 트리를 평가할 수 있습니다. 마치 검증 세트으 역할을 하는 거죠!

이 점수를 얻으려면 RandomForestClassifier 클래스의 oob_score 매개변수를 True로 지정해야 합니다(이 매개변수의 기본값은 False입니다). 이렇게 하면 랜덤 포레스트는 각 결정 트리의 OOB 점수를 평균하여 출력합니다. oob_score=True로 지정하고 모델을 훈련하여 OOB 점수를 출력해 보겠습니다.

In [5]:
rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)
rf.fit(train_input, train_target)
rf.oob_score_

0.8934000384837406

교차 검증에서 얻은 점수와 매우 비슷한 결과를 얻었습니다. OOB 점수를 사용하면 교차 검증을 대신할 수 있어서 결과적으로 훈련 세트에 더 많은 샘플을 사용할 수 있습니다.

## 엑스트라 트리

**엑스트라 트리**Extra Tree는 랜덤 포레스트와 매우 비슷하게 동작합니다. 기본적으로 100개의 결정 트리를 훈련합니다. 랜덤 포레스트와 동일하게 결정 트리가 제공하는 대부분의 매개변수를 지원합니다. 또한 전체 특성 중에 일부 특성을 랜덤하게 선택하여 노드를 분할하는 데 사용합니다.

랜덤 포레스트와 엑스트라 트리의 차이점은 부트스트랩 샘플을 사용하지 않는다는 점입니다. 즉 각 결정 트리를 만들 때 전체 훈련 세트를 사용합니다. 대신 노드를 분할할 때 가장 좋은 분할을 찾는 것이 아니라 무작위로 분할합니다! 2절의 확인 문제에서 DecisionTreeClassifier의 splitter 매개변수를 'random'으로 지정했는데요. 엑스트라 트리가 사용하는 결정 트리가 바로 splitter='random'인 결정 트리입니다.

하나의 결정 트리에서 특성을 무작위로 분할한다면 성능이 낮아지겠지만 많은 트리를 앙상블 하기 때문에 과대적합을 막고 검증 세트의 점수를 높이는 효과가 있습니다. 사이킷런에서 제공하는 엑스트라 트리는 ExtraTreesClassifier입니다. 이 모델의 교차 검증 점수를 확인해 보죠.

In [6]:
from sklearn.ensemble import ExtraTreesClassifier
et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, train_input, train_target, return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9974503966084433, 0.8887848893166506)

랜덤 포레스트와 비슷한 결과를 얻었습니다. 이 예제는 특성이 많지 않아 두 모델의 차이가 크지 않습니다. 보통 엑스트라 트리가 무작위성이 좀 더 크기 때문에 랜덤 포레스트보다 더 많은 결정 트리를 훈련해야 합니다. 하지만 랜덤하게 노드를 분할하기 때문에 빠른 계산 속도가 엑스트라 트리의 장점입니다.

엑스트라 트리도 랜덤 포레스트와 마찬가지로 특성 중요도를 제공합니다. 순서는 [알코올 도수, 당도, pH]인데, 결과를 보면 엑스트라 트리도 결정 트리보다 당도에 대한 의존성이 작습니다.

In [7]:
et.fit(train_input, train_target)
et.feature_importances_

array([0.20183568, 0.52242907, 0.27573525])

엑스트라 트리의 회귀 버전은 ExtraTreesRegressor 클래스입니다.

다음에는 이 둘과 다른 방식을 사용하는 앙상블 학습을 알아보겠습니다.

## 그레이디언트 부스팅

깊이가 얕은 결정 트리를 사용하여 이전 트리의 오차를 보완하는 방식으로 앙상블 하는 방법입니다. 사이킷런의 GradientBoostingClassifier는 기본적으로 깊이가 3인 결정 트리를 100개 사용합니다. 깊이가 얕은 결정 트리를 사용하기 때문에 과대적합이 강하고 일반적으로 높은 일반화 성능을 기대할 수 있습니다.

4장에서 배웠던 경사 하강법(200쪽)을 사용하여 트리를 앙상블에 추가합니다. 분류에서는 로지스틱 손실 함수를 사용하고 회귀에서는 평균 제곱 오차 함수를 사용합니다.

4장에서 경사 하강법은 손실 함수를 산으로 정의하고 가장 낮은 곳을 찾아 내려오는 과정으로 설명 했습니다. 이때 가장 낮은 곳을 찾아 내려오는 방법은 모델의 가중치와 절편을 조금씩 바꾸는 것입니다. 그레이디언트 부스팅은 결정 트리를 계속 추가하면서 가장 낮은 곳을 찾아 이동합니다. 혹시 4장에서 손실 함수의 낮은 곳으로 천천히 조금씩 이동해야 한다고 말한 것을 기억하나요? 그레이디언트 부스팅도 마찬가지입니다. 그래서 깊이가 얕은 트리를 사용하는 거죠! 또 학습률 매개변수로 속도를 조절합니다.

사이킷런에서 제공하는 GradientBoostingClassifier를 사용해 와인 데이터셋의 교차 검증 점수를 확인해 보죠.

In [8]:
from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.8881086892152563, 0.8720430147331015)

거의 과대적합이 되지 않습니다. 그레이디언트 부스팅은 결정 트리의 개수를 늘려도 과대적합에 매우 강합니다. 학습률을 증가시키고 트리의 개수를 늘리면 조금 더 성능이 향상될 수 있습니다.

In [10]:
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9464595437171814, 0.8780082549788999)

결정 트리 개수를 500개로 5배나 늘렸지만 과대적합을 잘 억제하고 있습니다. 학습률 learning_rate의 기본값은 0.1입니다. 그레이디언트 부스팅도 특성 중요도를 제공합니다. 결과에서 볼수 있듯이 그레이디언트 부스팅이 랜덤 포레스트보다 일부 특성(당도)에 더 집중합니다.

In [11]:
gb.fit(train_input, train_target)
gb.feature_importances_

array([0.15872278, 0.68011572, 0.16116151])

재미있는 매개변수가 하나 있습니다. 트리 훈련에 사용할 훈련 세트의 비율을 정하는 subsample입니다. 이 매개변수의 기본값은 1.0으로 전체 훈련 세트를 사용합니다. 하지만 subsample이 1보다 작으면 훈련 세트의 일부를 사용합니다. 이는 마치 경사 하강법 단계마다 일부 샘플을 랜덤하게 선택하여 진행하는 확률적 경사 하강법이나 미니배치 경사 하강법과 비슷합니다.

일반적으로 그레이디언트 부스팅이 랜덤 포레스트보다 조금 더 높은 성능을 얻을 수 있습니다. 하지만 순서대로 트리를 추가하기 때문에 훈련 속도가 느립니다. 즉 GradientBoostingClassifier에는 n_jobs 매개변수가 없습니다. 그레이디언트 부스팅의 회귀 버전은 GradientBoostingRegressor입니다. 그레이디언트 부스팅의 속도와 성능을 더욱 개선한 것이 다음이 살펴볼 히스토그램 기반 그레이디언트 부스팅입니다.

## 히스토그램 기반 그레이디언트 부스팅

**히스토그램 기반 그레이디언트 부스팅**Histogram-based Gradient Boosting은 정형 데이터를 다루는 머신러닝 알고리즘 중에 가장 인기가 높은 알고리즘입니다. 히스토그램 기반 그레이디언트 부스팅은 먼저 입력 특성을 256개의 구간으로 나눕니다. 따라서 노드를 분할할 때 최적의 분할을 매우 빠르게 찾을 수 있습니다. 히스토그램 기반 그레이디언트 부스팅은 256개의 구간 중에서 하나를 떼어놓고 누락된 값을 위해서 사용합니다. 따라서 입력에 누락된 특성이 있더라도 이를 따로 전처리할 필요가 없죠!

사이킷런의 히스토그램 기반 그레이디언트 부스팅 클래스는 HistGradientBoostingClassifier입니다. 일반적으로 HistGradientBoostingClassifier는 기본 매개변수에서 안정적인 성능을 얻을 수 있습니다. HistGradientBoostingClassifier에는 트리의 개수를 지정하는데 n_estimators 대신에 부스팅 반복 횟수를 지정하는 max_iter를 사용합니다. 성능을 높이려면 max_iter 매개변수를 테스트해 보세요.

그럼 와인 데이터셋에 HistGradientBoostingClassifier 클래스를 적용해 보죠.

In [13]:
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier
hgb = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb, train_input, train_target, return_train_score=True)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9321723946453317, 0.8801241948619236)

과대적합을 잘 억제하면서 그레이디언트 부스팅보다 조금 더 높은 성능을 제공합니다. 특성 중요도를 확인해 보죠.

히스토그램 기반 그레이디언트 부스팅의 특성 중요도를 계산하기 위해 permutation_importance() 함수를 사용하겠습늬다. 이 함수는 특성을 하나씩 랜덤하게 섞어서 모델의 성능이 변화하는지 관찰하여 어떤 특성이 중요한지를 계산합니다. 훈련 세트 뿐만 아니라 테스트 세트에도 적용할 수 있고 사이킷런에서 제공하는 추정기 모델에 모두 사용할 수 있습니다.

먼저 히스토그램 기반 그레이디언트 부스팅 모델을 훈련하고 훈련 세트에서 특성 중요도를 계산해 보겠습니다. n_repeats 매개변수는 랜덤하게 섞을 횟수를 지정합니다. 여기서는 10으로 지정하겠습니다. 기본값은 5입니다.

In [14]:
from sklearn.inspection import permutation_importance

hgb.fit(train_input, train_target)
result = permutation_importance(hgb, train_input, train_target, n_repeats=10, random_state=42, n_jobs=-1)
result.importances_mean

array([0.08876275, 0.23438522, 0.08027708])

permutation_importance() 함수가 반환하는 객체는 반복하여 얻은 특성 중요도(importances), 평균(importances_mean), 표준 편차(importances_std)를 담고 있습니다. 평균을 출력해 보면 랜덤 포레스트와 비슷한 비율임을 알 수 있습니다. 이번에는 테스트 세트에서 특성 중요도를 계산해 보겠습니다.

In [15]:
result = permutation_importance(hgb, test_input, test_target, n_repeats=10, random_state=42, n_jobs=-1)
result.importances_mean

array([0.05969231, 0.20238462, 0.049     ])

테스트 세트의 결과를 보면 그레이디언트 부스팅과 비슷하게 조금 더 당도에 집중하고 있다는 것을 알 수 있습니다.

HistGradientBoostingClassifier를 사용해 테스트 세트에서의 성능을 최종적으로 확인해보죠.

In [16]:
hgb.score(test_input, test_target)

0.8723076923076923

테스트 세트에서는 약 87% 정확도를 얻었습니다. 실전에 투입하면 성능은 이보다는 조금 더 낮을 것입니다. 앙상블 모델은 확실히 단일 결정 트리보다 좋은 결과를 얻을 수 있군요! (2절 랜덤 서치 테스트 정확도 86%)

사이킷런 말고도 그레이디언트 부스팅 알고리즘을 구현한 라이브러리가 여럿 있습니다.

가장 대표적인 라이브러리는 XGBoost입니다. tree_method 매개변수를 'hist'로 지정하면 히스토그램 기반 그레이디언트 부스팅을 사용할 수 있습니다. 그럼 XGBoost를 사용해 와인 데이터의 교차 검증 점수를 확인해 보겠습니다.

In [19]:
from xgboost import XGBClassifier
xgb = XGBClassifier(tree_method='hist', random_state=42)
scores = cross_validate(xgb, train_input, train_target, return_train_score=True)
np.mean(scores['train_score']), np.mean(scores['test_score'])














(0.9555033709953124, 0.8799326275264677)

사실 사이킷런의 히스토그램 기반 그레이디언트 부스팅이 LightGBM에서 영향을 많이 받았습니다. 4개의 앙상블을 모두 다루어 보았습니다.

## 마무리

### 핵심 포인트

- **앙상블 학습**: 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘
- **랜덤 포레스트**: 대표적인 결정 트리 기반의 앙상블 학습 방법. 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징
- **엑스트라 트리**: 랜덤 포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만 부트스트랩 샘플을 사용하지 않음. 대신 랜덤하게 노드를 분할해 과대적합 감소
- **그레이디언트 부스팅**: 랜덤 포레스트나 엑스트라 트리와 달리 결정 트리를 연속적으로 추가하여 손실 함수를 최소화하는 앙상블 방법. 그레이디언트 부스팅의 속도를 개선한 것이 **히스토그램 기반 그레이디언트 부스팅**

### 핵심 패키지와 함수

#### scikit-learn

- **RandomForestClassifier**: 랜덤 포레스트 분류 클래스   
  n_estimators 매개변수는 앙상블을 구성할 트리의 개수 지정. 기본값 100   
  criterion 매개변수는 불순도 지정. 기본값은 'gini'. 'entropy' 선택 가능   
  max_depth는 트리가 성장할 최대 깊이 지정. 기본값 None하면 리프 노드가 순수하거나 min_samples_split보다 샘플 개수가 적을때까지 성장.   
  min_samples_split은 노드를 나누기 위한 최소 샘플 개수. 기본값 2   
  max_features 매개변수는 최적의 분할을 위해 탐색할 특성의 개수 지정. 기본값 auto로 특성 개수의 제곱근   
  bootstrap 매개변수는 부트스트랩 샘플을 사용할지 지정. 기본값 True.   
  oob_score는 OOB 샘플을 사용하여 훈련한 모델을 평가할지 지정. 기본값 False.   
  n_jobs 매개변수는 병렬 실행에 사용할 CPU 코어 수 지정. 기본값 1. -1로 지정하면 시스템 모든 코어 사용   
- **ExtraTreesClassifier**: 엑스트라 트리 분류 클래스   
  n_estimators, criterion, max_depth, min_samples_split, max_features 매개변수는 랜덤 포레스트와 동일.   
  bootstrap 매개변수는 부트스트랩 샘플 사용할지 지정. 기본값 False.   
  oob_score 기본값 False.   
  n_jobs 기본값 1   
- **GradientBoostingClassifier**: 그레이디언트 부스팅 분류 클래스   
  loss 매개변수는 손실 함수 지정. 기본값은 로지스틱 손실 함수를 의미하는 'deviance'   
  learning_rate 매개변수는 트리가 앙상블에 기여하는 정도 조절. 기본값은 0.1   
  n_estimators 매개변수는 부스팅 단계를 수행하는 트리의 개수. 기본값은 100   
  subsample 매개변수는 사용할 훈련 세트의 샘플 비율 지정. 기본값은 1.0   
  max_depth 매개변수는 개별 회귀 트리의 최대 깊이. 기본값은 3   
- **HistGradientBoostingClassifier**: 히스토그램 기반 그레이디언트 부스팅 분류 클래스   
  learning_rate 매개변수는 학습률 또는 감쇠율. 기본값은 0.1이며 1.0이면 감쇠가 전혀 없음.   
  max_iter는 부스팅 단계를 수행하는 트리의 개수. 기본값은 100.   
  max_bins는 입력 데이터를 나눌 구간의 개수. 기본값은 255이며 이보다 크게 지정 불가. 여기에 1개의 구간이 누락된 값을 위해 추가됨