<a href="https://colab.research.google.com/github/xinnazim/esaa/blob/main/%ED%95%B8%EC%A6%88%EC%98%A8_7%EC%9E%A5_%EC%95%99%EC%83%81%EB%B8%94_%ED%95%99%EC%8A%B5%EA%B3%BC_%EB%9E%9C%EB%8D%A4_%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# CH07. 앙상블 학습과 랜덤 포레스트 p. 245-271

#### 7.1 투표 기반 분류

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [2]:
# 사이킷런의 투표 기반 분류기 VotingClassifier 생성

from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

log_clf = LogisticRegression()
rnd_clf = RandomForestClassifier()
svm_clf = SVC()

voting_clf = VotingClassifier(
    estimators=[('lr',log_clf), ('rf',rnd_clf), ('svc',svm_clf)],
    voting='hard')
voting_clf.fit(X_train, y_train)

In [3]:
# 각 분류기의 테스트셋 정확도
from sklearn.metrics import accuracy_score
for clf in (log_clf, rnd_clf, svm_clf, voting_clf):
  clf.fit(X_train, y_train)
  y_pred = clf.predict(X_test)
  print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.864
RandomForestClassifier 0.904
SVC 0.896
VotingClassifier 0.896


> 랜덤포레스트가 더 높음

#### 7.2 배깅과 페이스팅
* 배깅: 훈련세트에서 중복을 허용하여 샘플링
* 페이스팅: 중복 허용 X

##### 7.2.1 사이킷런의 배깅과 페이스팅
* 사이킷런은 BaggingClassifier 제공

In [4]:
# 결정트리 분류기 500개의 앙상블 훈련
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(), n_estimators=500,
    max_samples=100, bootstrap=True, n_jobs=-1)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)

> 배깅이 페이스팅보다 편향 높음, 전반적으로 배깅이 더 나은 모델을 만듦

##### 7.2.2 oob 평가
* 선택되지 않은 훈련 샘플: obb 샘플

In [5]:
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(), n_estimators=500,
    bootstrap=True, n_jobs=-1, oob_score=True)

bag_clf.fit(X_train, y_train)
bag_clf.oob_score_

0.9013333333333333

In [6]:
from sklearn.metrics import accuracy_score
y_pred = bag_clf.predict(X_test)
accuracy_score(y_test, y_pred)

0.912

In [None]:
# 결정 함수 값, 각 훈련 샘플의 클래스 확률 반환
bag_clf.oob_decision_function_

#### 7.3 랜덤 패치와 랜덤 서브스페이스
* 훈련 특성과 샘플을 모두 샘플링하는 방식: 랜덤 패치
* 훈렴 샘플을 모두 사용, 특성은 샘플링하는 방식: 랜덤 서브스페이스

> 특성 샘플링은 분산을 낮추고 편향을 늘림

####7.4 랜덤 포레스트
* 배깅을 적용한 결정 트리의 앙상블

In [8]:
from sklearn.ensemble import RandomForestClassifier

rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1)
rnd_clf.fit(X_train, y_train)

y_pred_rf = rnd_clf.predict(X_test)

In [9]:
# BaggingClassifier 사용해 RandomForestClassifier와 유사하게 생성

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(max_features="auto", max_leaf_nodes=16),
    n_estimators=500, max_samples=1.0, bootstrap=True, n_jobs=-1)

##### 7.4.1 엑스트라 트리
* 극단적으로 무작위한 트리의 랜덤 포레스트
* 편향 늘어남, 분산 낮춤, 랜덤 포레스트보다 훨씬 빠름

##### 7.4.2 특성 중요도
* 랜덤 포레스트는 특성의 상대적 중요도를 측정하기 쉬움

In [10]:
from sklearn.datasets import load_iris
iris = load_iris()
rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1)
rnd_clf.fit(iris["data"], iris["target"])
for name, score in zip(iris["feature_names"], rnd_clf.feature_importances_):
  print(name, score)

sepal length (cm) 0.09820096388829609
sepal width (cm) 0.02576263655375029
petal length (cm) 0.4182375107221194
petal width (cm) 0.4577988888358341


#### 7.5 부스팅
* 약한 학습기 여러개를 연결하여 강한 학습기 생성, 앙상블 방법
  * 7.5.1 에이다부스트: 이전 모델이 과소적합했던 훈련 샘플의 가중치를 더 높이는 것
  * 7.5.2 그레이디언트 부스팅: 잔여오차에 새로운 예측기를 학습

In [11]:
# 에이다부스트
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1), n_estimators=200,
    algorithm="SAMME.R", learning_rate=0.5)
ada_clf.fit(X_train, y_train)

In [12]:
# 그레이디언트
from sklearn.tree import DecisionTreeRegressor

tree_reg1 = DecisionTreeRegressor(max_depth=2)
tree_reg1.fit(X, y)

In [13]:
y2 = y - tree_reg1.predict(X)
tree_reg2 = DecisionTreeRegressor(max_depth=2)
tree_reg2.fit(X, y2)

In [14]:
y3 = y2 - tree_reg2.predict(X)
tree_reg3 = DecisionTreeRegressor(max_depth=2)
tree_reg3.fit(X, y3)

In [19]:
y_pred = sum(tree.predict(X_test) for tree in (tree_reg1,tree_reg2,tree_reg3))

In [20]:
from sklearn.ensemble import GradientBoostingRegressor

gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0)
gbrt.fit(X, y)


In [21]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X_train, X_val, y_train, y_val = train_test_split(X,y)

gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120)
gbrt.fit(X_train, y_train)

errors = [mean_squared_error(y_val, y_pred) for y_pred in gbrt.staged_predict(X_val)]
bst_n_estimators = np.argmin(errors) + 1

gbrt_best = GradientBoostingRegressor(max_depth=2, n_estimators=bst_n_estimators)
gbrt_best.fit(X_train, y_train)

In [22]:
gbrt = GradientBoostingRegressor(max_depth=2, warm_start=True)

min_val_error = float("inf")
error_going_up = 0
for n_estimators in range(1, 120):
  gbrt.n_estimators = n_estimators
  gbrt.fit(X_train, y_train)
  y_pred = gbrt.predict(X_val)
  val_error = mean_squared_error(y_val, y_pred)
  if val_error < min_val_error:
    min_val_error = val_error
    error_going_up = 0
  else:
    error_going_up += 1
    if error_going_up == 5:
      break    # 조기 종료

In [23]:
# XGBoost 익스트림 그레이디언트 부스팅
import xgboost

xgb_reg = xgboost.XGBRegressor()
xgb_reg.fit(X_train, y_train)
y_pred = xgb_reg.predict(X_val)

In [24]:
#XGBoost 자동 조기 종료 기능
xgb_reg.fit(X_train, y_train,
            eval_set=[(X_val, y_val)], early_stopping_rounds=2)
y_pred = xgb_reg.predict(X_val)

[0]	validation_0-rmse:0.40182
[1]	validation_0-rmse:0.35217
[2]	validation_0-rmse:0.32388
[3]	validation_0-rmse:0.31033
[4]	validation_0-rmse:0.30484
[5]	validation_0-rmse:0.30219
[6]	validation_0-rmse:0.30823
[7]	validation_0-rmse:0.30315




#### 7.6 스태킹
* 앙상블에 속한 모든 예측기의 예측을 취합하는 간단한 함수를 사용하는 대신, 취합하는 모델을 훈련 시킴