## 트리의 앙상블

#### 랜덤 포레스트
#### 랜덤 포레스트의 기본 트리개수 = 100
#### 전체 샘플에서 랜덤샘플림을 하지만, 선택된 샘플이 다시 세트로 돌아가는 부트스트랩방식
#### 깊이가 3인 트리(얕은 트리)를 많이 생성하는게 목적이다보니 특성이 4개면 루트를 씌워 2개의 특성만 사용하여 최선의 분할을 선택해 가지치기 함 

In [4]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

wine=pd.read_csv('https://bit.ly/wine_csv_data')

# 독립-종속 분할
data=wine[['alcohol','sugar','pH']].to_numpy()
target=wine['class'].to_numpy()

# 훈련 ,테스트셋 분할
train_input,test_input,train_target,test_target=train_test_split(
    data,target,test_size=0.2, random_state=42)


In [5]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

In [7]:
# return_train_score : True -> Test 뿐만 아니라 train 도 5개 만들어줌

rf=RandomForestClassifier(n_jobs=-1,random_state=42)
scores=cross_validate(rf,train_input,train_target,
                      return_train_score=True,n_jobs=-1)

print(np.mean(scores['train_score']),np.mean(scores['test_score']))


0.9973541965122431 0.8905151032797809


In [8]:
# 훈련값 확인
rf.fit(train_input,train_target)
print(rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


In [9]:
# 부트스트랩을 사용하면서 단 한번도 훈련셋에 선택되지 않은 샘플이 있다
# 이런 샘플을 OOB( OUt of Bag) 샘플이라 함
# 이 남는 샘플로 훈련모델 평가를 한번 더 할수 있음
rf=RandomForestClassifier(oob_score=True,n_jobs=-1,random_state=42)
rf.fit(train_input,train_target)
print(rf.oob_score_)

0.8934000384837406


In [10]:
# 엑스트라트리

from sklearn.ensemble import ExtraTreesClassifier

et=ExtraTreesClassifier(n_jobs=-1,random_state=42)
scores=cross_validate(et,train_input,train_target,
                      return_train_score=True,n_jobs=-1)

print(np.mean(scores['train_score']),np.mean(scores['test_score']))

0.9974503966084433 0.8887848893166506


In [11]:
# 그래디언트 부스팅
## 그레디언트 부스팅 : 깊이가 3인 트리를 100개 만드는 디폴트값(rf)사용
## 경삿하강법처럼 훈련하여 손실값을 찾아가는데, 이 때 사용되는 훈련방법이 결정트리이다.

from sklearn.ensemble import GradientBoostingClassifier

gb=GradientBoostingClassifier(random_state=42)
scores=cross_validate(gb,train_input,train_target,
                      return_train_score=True,n_jobs=-1)

print(np.mean(scores['train_score']),np.mean(scores['test_score']))

0.8881086892152563 0.8720430147331015


In [12]:
## 그레디언트 부스팅은 분류기 중 오버피팅에 가장 강력하고 성능이 좋은 SGD와 트리를 앙상블 했기 때문에
## 오버피팅에 강하고, 성능적인 면에서도 매우 강함
## 트리개수를 500개로 늘리고 학습반영률을 0.2로 늘려보자 (학습 반영률 default = 0.1)

gb=GradientBoostingClassifier(n_estimators=500,learning_rate=0.2,random_state=42)
scores=cross_validate(gb,train_input,train_target,
                      return_train_score=True,n_jobs=-1)

print(np.mean(scores['train_score']),np.mean(scores['test_score']))

0.9464595437171814 0.8780082549788999


In [None]:
## 히스토그램 기반 부스팅
