In [14]:
"""투표기반 분류기: 여러 종류의 분류기의 예측값을 모아 가장 투표수가 많은 클래스 선택"""

from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

X, y = make_moons(n_samples=100, noise=0.15)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

log_clf = LogisticRegression()
rnd_clf = RandomForestClassifier()
svm_clf = SVC()

voting_clf = VotingClassifier(
    estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
    voting='hard'
)
voting_clf.fit(X_train, y_train)

# 정확도 평가
for clf in (log_clf, rnd_clf, svm_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.8
RandomForestClassifier 0.95
SVC 1.0
VotingClassifier 1.0


In [19]:
"""배깅: 중복을 허용하여 샘플링 후 각자 분류기 학습. 페이스팅: 중복 허용X"""

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

# 결정트리 분류기 500개, 무작위로 선택된 80개의 샘플로 훈련(페이스팅 하려면 bootstrap=False, n_jobs는 사용할 CPU 코어 수)
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(), n_estimators=500,
    max_samples=80, bootstrap=True, n_jobs=-1, oob_score=True)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)

# 선택되지 않은 샘플들(oob) 평가하기
print(bag_clf.oob_score_)
accuracy_score(y_test, y_pred)

0.9375


1.0

In [20]:
"""랜덤 포레스트: 위처럼 배깅() 안에 결정트리()를 넣는 것 보다 바로 랜덤포레스트 분류기"""

rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1)
rnd_clf.fit(X_train, y_train)

y_pred_rf = rnd_clf.predict(X_test)

# 엑스트라 트리(더욱 무작위): ExtraTreesClassifer()을 사용한다. 쓰는 방법은 랜덤 포레스트 분류기랑 동일

In [22]:
# 평균적으로 불순도를 얼마나 감쇠키는지 확인하여 특성의 중요도를 측정할 수 있다. features_importances_ 변수에 저장.
from sklearn.datasets import load_iris

iris = load_iris()
rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1)
rnd_clf.fit(iris['data'], iris['target'])
for name, score in zip(iris['feature_names'], rnd_clf.feature_importances_):
    print(name, score)   # 꽃잎의 길이와 너비가 비교적 더 중요하다는 것을 알 수 있다.

sepal length (cm) 0.09563307863284339
sepal width (cm) 0.026066744209729126
petal length (cm) 0.42890426255979636
petal width (cm) 0.449395914597631


In [24]:
"""부스팅: 약한 학습기를 여러 개 연결해 강한 학습기를 만드는 방법"""

# 에이다부스트
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1), n_estimators=200,
    algorithm='SAMME.R', learning_rate=0.5)
ada_clf.fit(X_train, y_train)

AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),
                   learning_rate=0.5, n_estimators=200)

In [28]:
# 그레이디언트 부스팅: 샘플의 가중치가 아닌 이전 예측이 낳은 잔여 오차에 새로운 예측기를 학습시킴
# xgboost라는 라이브러리로 GBRT는 물론 자동 조기 종료와 같은 기능도 제공한다.

import xgboost

xgb_reg = xgboost.XGBRegressor()
xgb_reg.fit(X_train, y_train,
           eval_set=[(X_test, y_test)], early_stopping_rounds=2)
y_pred = xgb_reg.predict(X_test)

[0]	validation_0-rmse:0.467813
Will train until validation_0-rmse hasn't improved in 2 rounds.
[1]	validation_0-rmse:0.439258
[2]	validation_0-rmse:0.415468
[3]	validation_0-rmse:0.393071
[4]	validation_0-rmse:0.37218
[5]	validation_0-rmse:0.356533
[6]	validation_0-rmse:0.344739
[7]	validation_0-rmse:0.332846
[8]	validation_0-rmse:0.325414
[9]	validation_0-rmse:0.313601
[10]	validation_0-rmse:0.308293
[11]	validation_0-rmse:0.292932
[12]	validation_0-rmse:0.278276
[13]	validation_0-rmse:0.271588
[14]	validation_0-rmse:0.258124
[15]	validation_0-rmse:0.252585
[16]	validation_0-rmse:0.240523
[17]	validation_0-rmse:0.235978
[18]	validation_0-rmse:0.22513
[19]	validation_0-rmse:0.221609
[20]	validation_0-rmse:0.211832
[21]	validation_0-rmse:0.208873
[22]	validation_0-rmse:0.206581
[23]	validation_0-rmse:0.204601
[24]	validation_0-rmse:0.195461
[25]	validation_0-rmse:0.193917
[26]	validation_0-rmse:0.192559
[27]	validation_0-rmse:0.185159
[28]	validation_0-rmse:0.178562
[29]	validation_0-rm