### 앙상블과 랜덤포레스트
- 대중의 지혜를 이용한 모델
- 일련의 예측기로부터 예측을 수행하면 더 좋은 예측을 얻을 수 있을 것에서 고안한 모델
- 랜덤 포레스트 이외에도 배깅, 부스팅, 스태킹 등이 있음
- 가능한 모델들이 서로 독립적일 때 최고의 성능을 발휘함

##### 투표기반 앙상블

In [44]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris['data'][:,2:]
y = iris['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

log_clf = LogisticRegression()
rnd_clf = RandomForestClassifier()
svm_clf = SVC()

voting_clf = VotingClassifier(
    estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
    voting='hard'
)
voting_clf.fit(X_train, y_train)

VotingClassifier(estimators=[('lr', LogisticRegression()),
                             ('rf', RandomForestClassifier()), ('svc', SVC())])

In [45]:
# 정확도 확인
from sklearn.metrics import accuracy_score
for clf in (log_clf, rnd_clf, svm_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.9666666666666667
RandomForestClassifier 0.9666666666666667
SVC 0.9666666666666667
VotingClassifier 0.9666666666666667


##### cf) 간접투표
- 모든 분류기에 predict_proba()함수가 있다면,
- voting='soft'로 두면, 확률값의 평균이 가장 높은 클래스를 선택하는 식으로 작동함
- 당연히 성능은 더욱 좋아짐

##### 배깅과 페이스팅
- 앙상블은 훈련세트의 서브셋을 무작위로 구성하여 분류기를 각기 다르게 학습시키는 것
- 훈련세트에서 중복을 허용하여 샘플링하는 방식을 배깅이라함
- 중복을 허용하지 않고 샘플링하는 방식을 페이스팅이라고 함
- 훈련을 마친 예측을 모으는 수집함수는 전형적으로 분류일 때는 '통계적 최빈값'을 사용함
- 수집함수를 통과하면 편향과 분산이 모두 감소하는 효과를 볼 수 있음

In [57]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(), n_estimators=500, # 몇 개의 트리분류기를 앙상블 시킬 것인지
    max_samples=100, bootstrap=True, n_jobs=-1 # bootstrap=False로 주면 페이스팅
)
bag_clf.fit(X_train, y_train)

BaggingClassifier(base_estimator=DecisionTreeClassifier(), max_samples=100,
                  n_estimators=500, n_jobs=-1)

In [58]:
from sklearn.metrics import accuracy_score
y_pred = bag_clf.predict(X_test)
accuracy_score(y_test, y_pred)

0.9666666666666667

##### 랜덤 포레스트
- 작동방식은 결정트리를 배깅에 넣어 활용하는 것과 같음
- 랜덤 포레스트는 결정트리에 최적화되어 사용하기 편리하게 만든 것
- 특성 중요도 : 어떤 특성을 사용한 노드가 평균적으로 불순도를 얼마나 감소시키는지 확인하여 특성의 중요도를 측정

In [59]:
# n_jobs 매개변수를 -1로 주어 시스템 CPU 코어 수를 모두 사용해 학습함
from sklearn.ensemble import RandomForestClassifier
rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1)
rnd_clf.fit(X_train, y_train)

RandomForestClassifier(max_leaf_nodes=16, n_estimators=500, n_jobs=-1)

In [60]:
y_pred_rf = rnd_clf.predict(X_test)

In [61]:
accuracy_score(y_test, y_pred_rf)

0.9666666666666667

In [62]:
# feature_importances_로 특성별 중요도 파악 가능
from sklearn.datasets import load_iris
iris = load_iris()
rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1)
rnd_clf.fit(iris['data'], iris['target'])
for name, score in zip(iris['feature_names'], rnd_clf.feature_importances_):
    print(name, score)

sepal length (cm) 0.08955652834134575
sepal width (cm) 0.020390659794703666
petal length (cm) 0.46427830629272615
petal width (cm) 0.42577450557122454


##### 부스팅
- AdaBoost, gradient boosting 등이 있음

##### AdaBoost
- 이전 모델이 과속적합했던 훈련 샘플의 가중치를 더 높이는 방식
- 첫 번째 분류기를 훈련세트에서 훈련시키고 예측을 만듦
- -> 그 다음 잘못 분류한 훈련샘플의 가중치를 상대적으로 높임
- -> 그 다음... 반복
- 경사 하강법이 비용함수를 최소화하기 위해 파라미터를 조정하는 것처럼
- AdaBoost는 점차 더 좋아지도록 앙상블에 예측기를 추가하는 방식
- 가장 큰 단점은 병렬적 학습을 수행할 수 없다는 것(이전 학습이 완료되어야 가중치를 추가하므로)

In [64]:
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1), n_estimators=200,
    algorithm='SAMME.R', learning_rate=0.5
)
ada_clf.fit(X_train, y_train)

AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),
                   learning_rate=0.5, n_estimators=200)

In [65]:
pred = ada_clf.predict(X_test)
accuracy_score(y_test, pred)

0.9666666666666667

##### 그레디언트 부스팅
- AdaBoost와 기본적인 원리는 같지만, 샘플의 가중치를 수정하는 것이 아니라,
- 이전까지의 예측기가 만든 잔여오차에 새로운 예측기를 학습시킴

In [66]:
from sklearn.tree import DecisionTreeRegressor
tree_reg1 = DecisionTreeRegressor(max_depth=2)
tree_reg1.fit(X,y)

DecisionTreeRegressor(max_depth=2)

In [67]:
# 첫번째 예측기에서 생긴 잔여오차에 두번째 결정트리회귀를 훈련시킴
y2 = y - tree_reg1.predict(X)
tree_reg2 = DecisionTreeRegressor(max_depth=2)
tree_reg2.fit(X, y2)

DecisionTreeRegressor(max_depth=2)

In [70]:
y3 = y2 - tree_reg2.predict(X)
tree_reg3 = DecisionTreeRegressor(max_depth=2)
tree_reg3.fit(X, y3)

DecisionTreeRegressor(max_depth=2)

In [74]:
# 새로운 샘플에 대한 예측을 만드려면 모든 트리의 예측을 더하면 됨
y_pred = sum(tree.predict(X_test) for tree in (tree_reg1, tree_reg2, tree_reg3))

In [78]:
from sklearn.ensemble import GradientBoostingRegressor
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0)
gbrt.fit(X,y)

GradientBoostingRegressor(learning_rate=1.0, max_depth=2, n_estimators=3)

In [79]:
# 과소적합
gbrt.score(X,y)

0.9827942142434103

In [82]:
from sklearn.ensemble import GradientBoostingRegressor
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=200, learning_rate=0.1)
gbrt.fit(X,y)

GradientBoostingRegressor(max_depth=2, n_estimators=200)

In [83]:
# 과대적합
gbrt.score(X,y)

0.9916712978247452

In [85]:
# 최적의 트리수를 찾기위해 조기종료기법 사용하기
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X_train, X_val, y_train, y_val = train_test_split(X, y)
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120)
gbrt.fit(X_train, y_train)

errors = [mean_squared_error(y_val, y_pred) for y_pred in gbrt.staged_predict(X_val)]
bst_n_estimators = np.argmin(errors)+1

gbrt_best = GradientBoostingRegressor(max_depth=2, n_estimators=bst_n_estimators)
gbrt_best.fit(X_train, y_train)

GradientBoostingRegressor(max_depth=2, n_estimators=30)

In [86]:
gbrt_best.score(X_train, y_train)

0.9744706544206438

In [88]:
# 확률적 그레이디언트 부스팅
# subsample=0.25라고 지정하면 트리는 무작위로 선택된 25%의 훈련샘플로 학습됨
# 편향이 높아지는 대신 분산이 낮아지게되며, 훈련 속도를 상당부분 개선시킬 수 있음

##### XGBoost
- 최적화된 그레이디언트 부스팅
- 빠른속도, 이식성, 확장성이 장점

In [90]:
import xgboost
xgb_reg = xgboost.XGBRegressor()
xgb_reg.fit(X_train, y_train)
y_pred = xgb_reg.predict(X_val)

##### 스태킹
- 앙상블 모델에 예측을 취합하는 함수를 사용하는 대신, 취합하는 모델을 훈련시키는 방법을 사용하는 것
- 함수 대신 사용하는 학습기를 블랜더 혹은 메타학습기라고 부름
- sklearn에 직접적인 모델이 있는 것이 아님, 직접 구현하면 됨(간단)