## **트리의 앙상블**

### 정형 데이터와 비정형 데이터

## **랜덤포레스트**

- 부트스트랩 샘플 : 데이터세트에서 중복을 허용하여 데이터를 샘플링하는 방식
- 각 노드를 분할할 때 전체 특성 중에서 일부 특성을 무작위로 고른 다음 이 중에서 최선의 분할을 찾는다. 분류 모델인 RandomForestCClassifier 는  기본적으로 전체 특성 개수의 제곱근만큼의 특성을 선택, 회귀 모델인 RandomForestRegressor는 전체 특성 사용
- 사이킷런의 랜덤 포레스트는 기본적으로 100개의 결정 트리를 이런 방식으로 훈련, 그 다음 분류일 때는 각 트리의 클래스별 확률을 평균하여 가장 높은 확률을 가진 클래스를 예측으로 삼는다. 회귀일 때는 단순히 각 트리의 예측을 평균

In [2]:
# 라이브러리 임포트, wine.csv 파일 로딩해서 class 열은 target으로 나머지는 data 로 array로 저장하고 테스트셋 20%로 분리
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt

df = pd.read_csv('data/wine.csv')
df.head()

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0


In [4]:
data = df[['alcohol', 'sugar', 'pH']].to_numpy()
target = df['class'].to_numpy()

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=42)

In [8]:
print(X_train.shape)
print(y_train.shape)

(5197, 3)
(5197,)


In [7]:
# RandomForestClassifier 클래스를 이용해서 교차검증을 하고 cross_validate 함수의 return_train_score 파라미터를 True로 지정해서 
# 훈련세트에 대한 점수도 리턴받을 수 있음
# 교차검증으로 리터받은 값 중에서 train_score 키 와 test_score 키의 값을 평균해서 출력하면 성능을 확인할 수 있음

0.9973541965122431 0.8905151032797809


In [10]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

In [12]:
rf = RandomForestClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(rf, X_train, y_train, return_train_score=True)
train_score = scores['train_score'].mean()
test_score = scores['test_score'].mean()
print(train_score, test_score)

0.9973541965122431 0.8905151032797809


In [94]:
# 위에서 교차검증으로 리턴받은 scores 값 출력
scores

{'fit_time': array([0.21853065, 0.20890498, 0.22247434, 0.21146321, 0.21719027]),
 'score_time': array([0.03378844, 0.02819133, 0.02878976, 0.02782059, 0.03214669]),
 'test_score': array([0.88461538, 0.88942308, 0.90279115, 0.88931665, 0.88642926]),
 'train_score': array([0.9971133 , 0.99663219, 0.9978355 , 0.9973545 , 0.9978355 ])}

In [96]:
# 랜덤포레스트 모델 학습
# 특성 중요도 출력
rf = RandomForestClassifier(n_jobs=-1, random_state=42, oob_score=True)
rf.fit(X_train, y_train)
rf.feature_importances_

array([0.23167441, 0.50039841, 0.26792718])

In [98]:
# OOB(Out Of Bag) - 부트스트랩 샘플에 포함되지 않은 샘플
# OOB를 검증세트처럼 사용하기 위해 랜덤포레스트 객체 생성시 oob_score=True 파라미터를 지정해서 검증
rf.oob_score_

0.8934000384837406

## 엑스트라 트리
- 랜덤 포레스트와 매우 비슷하게 동작
- 기본적으로 100개의 결정 트리를 훈련

- 랜덤 포레스트와 엑스트라 트리의 차이점은 부트스트랩 샘플을 사용하지 않는다는 점이다. 즉, 각 결정트리를 만들 때 전체 훈련 세트를 사용한다. 대신 노드를 분할할 때 가장 좋은 분할을 찾는것이 아니라 무작위로 분할한다.
- DecisionTreeClassifier의 splitter 매개변수를 'random'으로 지정하는 것이 엑스트라 트리이다.

In [120]:
# 엑스트라트리 임포트, 생성, 교차검증, score 평균값 출력
from sklearn.model_selection import cross_validate
from sklearn.ensemble import ExtraTreesClassifier
et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, X_train, y_train, return_train_score=True, n_jobs=-1)
print(scores['train_score'].mean(), scores['test_score'].mean())

0.9974503966084433 0.8887848893166506


- 보통 엑스트라 트리가 무작위성이 좀 더 크기 때문에 랜덤 포레스트보다 더 많은 결정 트리를 훈련해야 한다. 하지만 랜덤하게 노드를 분할하기 때문에 빠른 계산 속도가 엑스트라 트리의 장점

In [124]:
# 엑스트라트리 학습하고 특성 중요도 출력
et.fit(X_train, y_train)
et.feature_importances_

array([0.20183568, 0.52242907, 0.27573525])

### 그레이디언트 부스팅
- 깊이가 얕은 결정 트리를 사용하여 이전 트리의 오차를 보완하는 방식으로 앙상블 학습
- 사이킷런의 GradientBoostingClassifier는 기본적으로 깊이가 3인 결정 트리를 100개 사용
- 깊이가 얕은 결정 트리를 사용하기 때문에 과대적합에 강하고 일반적으로 높은 일반화 성능을 기대할 수 있다.
- 경사하강법을 사용하여 트리를 앙상블에 추가, 분류에서는 로지스틱 손실 함수를 사용하고 회귀에서는 평균 제곱 오차함수를 사용

In [126]:
# 그레이디언트부스팅 임포트, 생성, 교차검증, score 평균값 출력
from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, X_train, y_train, return_train_score=True, n_jobs=-1)
print(scores['train_score'].mean(), scores['test_score'].mean())

0.8881086892152563 0.8720430147331015


In [136]:
# 결정트리의 개수를 500개로 늘리고 학습률을 20%로 지정해서 그레이디언트부스팅 생성하고 교차검증, score 평균값 출력
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)
scores = cross_validate(gb, X_train, y_train, return_train_score=True, n_jobs=-1)
print(scores['train_score'].mean(), scores['test_score'].mean())

0.9464595437171814 0.8780082549788999


In [138]:
# 그레이디언트부스팅 학습하고 특성 중요도 출력
gb.fit(X_train, y_train)
gb.feature_importances_

array([0.15882696, 0.6799705 , 0.16120254])

### 히스토그램 기반 그레이디언트 부스팅

- 입력 특성을 256개의 구간으로 나누고 나눈 구간 중에서 하나를 떼어 놓고 누락된 값을 위해서 사용하기 때문에 누락된 특성에 대한
  전처리가 필요 없고 노드를 분할할 때 최적의 분할을 매우 빠르게 찾을 수 있다.

In [205]:
from sklearn.ensemble import HistGradientBoostingClassifier
# 그레이디언트부스팅 임포트, 생성, 교차검증, score 평균값 출력
hg = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hg, X_train, y_train, return_train_score=True)
print(scores['train_score'].mean(), scores['test_score'].mean())

0.9321723946453317 0.8801241948619236


In [207]:
# 히스토그램 기반 그레이디언트 부스팅은 특성 중요도를 계산할 때 permutation_importance 함수를 임포트하고 사용
from sklearn.inspection import permutation_importance
hg.fit(X_train, y_train)
pi = permutation_importance(hg, X_test, y_test, random_state=42, n_jobs=-1, n_repeats=10 )
print(pi)

{'importances_mean': array([0.05969231, 0.20238462, 0.049     ]), 'importances_std': array([0.004     , 0.007938  , 0.00453846]), 'importances': array([[0.06230769, 0.05769231, 0.05538462, 0.05538462, 0.06076923,
        0.06076923, 0.06846154, 0.06230769, 0.05461538, 0.05923077],
       [0.20076923, 0.2       , 0.21153846, 0.20076923, 0.20307692,
        0.18923077, 0.19615385, 0.19461538, 0.21384615, 0.21384615],
       [0.05692308, 0.04692308, 0.05076923, 0.04769231, 0.04692308,
        0.05      , 0.04384615, 0.04692308, 0.04307692, 0.05692308]])}


In [209]:
# 테스트 셋에 대해서 특성 중요도 출력
pi.importances_mean

array([0.05969231, 0.20238462, 0.049     ])

In [211]:
# 테스트셋의 score 값 출력
hg.score(X_test, y_test)

0.8723076923076923

In [22]:
# 테스트 셋에 대해서 특성 중요도 출력


[0.05969231 0.20238462 0.049     ]


In [23]:
# 테스트셋의 score 값 출력


0.8723076923076923