## Ensemble
- 앙상블 학습(Ensemble Learning): 여러 개의 분류기를 생성하고 그에 대한 예측을 결합해 더 정확한 예측을 도출하는 기법
- 정형 데이터에 대한 결과가 가장 높은 알고리즘
  - 보팅(Voting): 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
  - **배깅(Bagging)**: 데이터 샘플링(Bootstrap) 을 통해 모델을 학습시키고 결과를 집계하는 방법
  - 부스팅(Boosting): 여러개의 분류기가 순차적으로 학습을 수행
- Random Forest
  - 여러 개의 결정 트리를 합쳐서 높은 성능의 모델을 만드는 학습 모델
  - 결정 트리보다 더 정확한 예측을 도출할 수 있음
  - 각 결정 트리를 훈련 데이터로부터 랜덤하게 추출한 데이터를 사용해 훈련을 수행
- 정형 데이터(Structed data): 미리 정해진 구조로 구조화되어 있는 데이터
  - 특성이 정의된 데이터(CSV)
- 비정형 데이터(Unstructed data): 구조화가 되어있지 않은 데이터
  - 텍스트 중심의 데이터, 이미지 데이터 등

### Practice
- Import `pandas` library
  - Read URL of CSV file
  - Using **`.to_numpy()`**
- Import `numpy` library
  - Using **`np.mean()`**
- Import `sklearn.model_selection`
  - Using **`train_test_split()`**
  - Using **`cross_validate()`**
    - Using the Properties
      - `return_train_score`
- Feature importances of Models
  - `.feature_importances_`
- Out Of Bag
  - `oob_score=_boolean`
  - `oob_score_`
- Import `sklearn.ensemble`
  - Using **`RandomForestClassifier()`**
  - Using **`ExtraTreesClassifier()`**
  - Using **`GradientBoostingClassifier()`**
  - Using the Properties
    - `n_estimators=`
    - `learning_rate=`
    - `sybsample=`

### Create Random Forest Model
- Import **`numpy`** library
  - Using **`np.mean()`**
- Import **`pandas`** libray
- Import `sklearn.model_selection`
  - Using **`train_test_split()`**
  - Using **`cross_validate()`**
- Import `sklearn.ensemble`
  - Using **`RandomForestClassifier()`**

### 1. Prepare to csv data

In [None]:
import pandas as pd
wine = pd.read_csv("https://bit.ly/wine_csv_data")

### 1-1. Create numpy data
- Using `.to_numpy()`

In [None]:
data = wine[["alcohol", "sugar", "pH"]].to_numpy()
target = wine["class"].to_numpy()

#Checkout
print(data.shape)
print(target.shape)

(6497, 3)
(6497,)


### 1-2. Create Train-set and Test-set to using **`train_test_split()`**

In [None]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(
    data, target, test_size=0.2, random_state=42
)
#Checkout
print(train_input)
print(train_input.shape)
print(test_input)
print(test_input.shape)

[[10.5   7.7   3.19]
 [12.4   2.1   3.26]
 [11.8   2.1   3.41]
 ...
 [ 9.5   5.6   3.24]
 [ 9.5   8.    3.18]
 [ 9.5   2.7   3.51]]
(5197, 3)
[[12.2  12.8   3.26]
 [ 9.9   2.2   3.27]
 [12.    7.4   3.18]
 ...
 [12.4   1.8   3.19]
 [ 9.4   9.7   3.3 ]
 [ 8.7  15.5   2.9 ]]
(1300, 3)


### 2. Create Random Forest Model
- Import sklearn.ensemble
  - Using **`RandomForestClassifier()`**
- **`return_train_score=`**
  - True: 검증 점수와 훈련 세트 점수도 반환
- cross_validate와 RandomForestClassifier의 **`n_jobs=`**
  - `-1`로 지정하여 최대한 병렬로 교차 검증을 수행하도록 유도

In [None]:
import numpy as np
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_jobs=-1, random_state=42)

scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)

#Checkout
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

0.9973541965122431 0.8905151032797809


### 2-1. Feature importances
- 특성 중요도는 각 결정 트리의 특성들에 대한 중요 수치를 알아볼 수 있음
- 결정 트리 모델로부터 얻은 각 특성의 중요도를 비교
- RandomForest 알고리즘은 특성의 일부를 랜덤하게 선택해 훈련하므로 하나의 특성에 과도하게 집중되지 않음

In [None]:
rf.fit(train_input, train_target)
#Checkout 
print(rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


### 3. Out of Bag(OOB)
- 훈련 세트의 샘플 중 부트스트랩 샘플에 포함되지 않고 남은 샘플
- 교차 검증을 대신할 수 있음
- OOB를 통해 모델을 평가하는 점수를 얻을 수 있음
- **`oob_score=_boolean`**
  - True: OOB 평균 수치를 반환
- **`oob_score_`**: Random Forest 내 각 결정 트리의 OOB 평균 수치


In [None]:
rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)
rf.fit(train_input, train_target)

#Checkout
print(rf.oob_score_)

0.8934000384837406


### 4. Extra Trees
- 결정트리 생성 시 전체 훈련 세트를 사용함
- DecisionTreeClassifier 사용 시
  - `spliter= random`으로 지정할 경우 정보이득을 고려하지 않고 무작위로 노드 분할
  - 랜덤으로 노드를 분할하기 때문에 빠르게 학습이 가능함
- Import `sklearn.ensemble`
  - Using **`ExtraTreesClassifier()`**
- Using **`np.mean()`**


In [None]:
from sklearn.ensemble import ExtraTreesClassifier
et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, train_input, train_target, return_train_score=True, n_jobs=-1)

#Checkout
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

0.9974503966084433 0.8887848893166506


### 5. Gradient Tree Boosting
- 깊이가 얕은 결정 트리를 사용하여 이전 트리의 오차를 보완하는 방식의 앙상블 학습 모델
- 경사하강법을 사용해 트리를 앙상블에 추가함
- 결정 트리의 깊이가 얕아 Overfiting에 강함
- 하지만, 트리를 추가하는 방식이기 때문에 훈련의 속도가 느림
- Import `sklearn.ensemble`
  - Using **`GradientBoostingClassifier()`**
- Using **`np.mean()`**

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)

#Checkout
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

0.8881086892152563 0.8720430147331015


### 6. Using the Properties of Gradient Boosting Classifier
- **`n_estimators=`**: 결정 트리의 수
- **`learning_rate=`**: 학습률
- **`sybsample=`**: 결정 트리 훈련에 사용할 훈련 세트의 비율 지정

In [None]:
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)
scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)

#Checkout
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

0.9464595437171814 0.8780082549788999


In [None]:
gb.fit(train_input, train_target)
print(gb.feature_importances_)

[0.15872278 0.68010884 0.16116839]
