In [1]:
import pandas as pd

from sklearn.ensemble import VotingClassifier # voting regressor도 있음

from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

from warnings import filterwarnings
filterwarnings('ignore')


## 앙상블 학습의 유형: 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등

#### 보팅: 
- 여러 종류의 알고리즘을 사용한 각각의 결과에 대해 투표를 통해 최종 결과를 예측하는 방식

#### 배깅
- bagging은 bootstrap aggregating의 줄임말
- bootstrap:모집단의 성질에 대해 표본을 통해 추정할 수 있는 것처럼, 표본의 성질에 대해서도 재표집(resampling)을 통해 추정할 수 있다는 것이다. 즉 주어진 표본(샘플)에 대해서, 그 샘플에서 또 다시 샘플(재표본)을 여러번(1,000~10,000번, 혹은 그 이상)추출하여 표본의 평균이나 분산 등이 어떤 분포를 가지는가를 알아낼 수 있다.(위키피디아)
- 같은 알고리즘에 대해 데이터 샘플을 다르게 두고 학습을 수행해 보팅을 수행하는 방식
- 이 때의 데이터 샘플은 중첩이 허용된다. 즉 10000개의 데이터에 대해 10개의 알고리즘이 배깅을 사용할 때,각 1000개의 데이터 내에는 중복된 데이터가 존재할 수 있다. 배깅의 대표적인 방식이 Random Forest

#### 부스팅:
- 여러 개의 알고리즘이 순차적으로 학습을 하되, 앞에 학습한 알고리즘 예측이 틀린 데이터에 대해 올바르게 예측할 수 있도록, 
그 다음번 알고리즘에 가중치(Ada)를 부여하여 학습과 예측을 진행하는 방식
잔여오차를 다시학습(gradient)



( 부스팅 알고리즘은 대표적으로 아래와 같은 알고리즘들이 있음)
- **AdaBoost**
- Gradient Booting Machine(GBM)
- **XGBoost**
- LightGBM
- CatBoost


In [2]:
cancer = load_breast_cancer()

In [3]:
cancer.keys() # 악성이냐 양성이냐 분류하는 데이터

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [4]:
# 특성데이터
x_data = cancer['data']
y_data = cancer['target']

In [5]:
# train, test set
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2,
                                                   stratify=y_data,
                                                   random_state=1)

In [6]:
# 하드 보팅(소프트 보팅보다 f1_score는 낮다.)
model_logi = LogisticRegression()
model_knn = KNeighborsClassifier()
model_tree = DecisionTreeClassifier()

model_vote = VotingClassifier(estimators=[('logi',model_logi),
                                         ('knn',model_knn),
                                        ('tree',model_tree)]) # 리스트 안 튜플
# soft voting 하고 싶으면 voting='soft'
model_vote.fit(x_train, y_train)

VotingClassifier(estimators=[('logi', LogisticRegression()),
                             ('knn', KNeighborsClassifier()),
                             ('tree', DecisionTreeClassifier())])

In [25]:
model_vote.predict(x_test)

array([1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0,
       0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       0, 0, 0, 1])

In [26]:
y_test

array([1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0,
       1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       0, 0, 0, 1])

---
무시

In [27]:
model_knn.fit(x_train, y_train)

KNeighborsClassifier()

In [28]:
model_logi.score(x_test,y_test)

0.956140350877193

In [29]:
model_knn.score(x_test, y_test)

0.956140350877193

In [18]:
model_vote.score(x_test, y_test)

0.9649122807017544

In [66]:
x_test

array([[1.264e+01, 1.360e+00, 2.020e+00, 1.680e+01, 1.000e+02, 2.020e+00,
        1.410e+00, 5.300e-01, 6.200e-01, 5.750e+00, 9.800e-01, 1.590e+00,
        4.500e+02],
       [1.284e+01, 2.960e+00, 2.610e+00, 2.400e+01, 1.010e+02, 2.320e+00,
        6.000e-01, 5.300e-01, 8.100e-01, 4.920e+00, 8.900e-01, 2.150e+00,
        5.900e+02],
       [1.349e+01, 1.660e+00, 2.240e+00, 2.400e+01, 8.700e+01, 1.880e+00,
        1.840e+00, 2.700e-01, 1.030e+00, 3.740e+00, 9.800e-01, 2.780e+00,
        4.720e+02],
       [1.351e+01, 1.800e+00, 2.650e+00, 1.900e+01, 1.100e+02, 2.350e+00,
        2.530e+00, 2.900e-01, 1.540e+00, 4.200e+00, 1.100e+00, 2.870e+00,
        1.095e+03],
       [1.388e+01, 1.890e+00, 2.590e+00, 1.500e+01, 1.010e+02, 3.250e+00,
        3.560e+00, 1.700e-01, 1.700e+00, 5.430e+00, 8.800e-01, 3.560e+00,
        1.095e+03],
       [1.234e+01, 2.450e+00, 2.460e+00, 2.100e+01, 9.800e+01, 2.560e+00,
        2.110e+00, 3.400e-01, 1.310e+00, 2.800e+00, 8.000e-01, 3.380e+00,
        4.38

In [65]:
# 예측한 x_test
p = model_vote.predict(x_test)
p

array([1, 2, 1, 0, 0, 1, 1, 1, 0, 0, 1, 2, 0, 1, 2, 2, 1, 2, 0, 1, 0, 1,
       1, 1, 0, 0, 2, 1, 2, 1, 2, 0, 0, 0, 2, 2])

In [20]:
# y_test에 대입해보니 예측률이 나옴.
(y_test == p).mean()

0.9649122807017544

---

In [21]:
# model_vote.score와 같음
model_vote.score(x_test, y_test)

0.9649122807017544

In [22]:
# 각각의 모델 정확도
for c in [model_logi, model_knn, model_tree]:
    c.fit(x_train, y_train)
    print(c.__class__.__name__, c.score(x_test, y_test))

LogisticRegression 0.956140350877193
KNeighborsClassifier 0.956140350877193
DecisionTreeClassifier 0.956140350877193


---
연습문제

In [40]:
from sklearn.datasets import load_wine

wine = load_wine()
x_data = wine['data']
y_data = wine['target']
x_train, x_test, y_train, y_test = train_test_split( x_data, 
                           y_data,  test_size=0.2,  stratify=y_data)

In [49]:
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [50]:
#파이프라인
model_logi = make_pipeline(StandardScaler(), LogisticRegression())
model_knn = make_pipeline(StandardScaler(),KNeighborsClassifier())
model_tree = make_pipeline(StandardScaler(),DecisionTreeClassifier())
# vote
model_vote = VotingClassifier(estimators=[('logi',model_logi),
                                         ('knn',model_knn),
                                        ('tree',model_tree)],
                             voting='soft')
# vote.fit
model_vote.fit(x_train, y_train)
# vote.score
model_vote.score(x_test, y_test)

1.0

---

## Bagging

In [51]:
from sklearn.ensemble import BaggingClassifier 

In [52]:
wine = load_wine()
x_data = wine['data']
y_data = wine['target']

In [53]:
# train, test set split
x_train, x_test, y_train, y_test = train_test_split( x_data, 
                           y_data,  test_size=0.2,  stratify=y_data)

In [60]:
# scaling, 네이버클레식파이
model_knn = make_pipeline(StandardScaler(), KNeighborsClassifier())

In [61]:
# model_knn.fit 하는게 아니라 bagging을 이용함
# n_estimators knn모델를 10개 만들어줌.
# max_samples= 0.5 최대로 추출할 샘플 수 
model_bagg = BaggingClassifier(model_knn,n_estimators=10,max_samples=0.5)
model_bagg.fit(x_train, y_train)

BaggingClassifier(base_estimator=Pipeline(steps=[('standardscaler',
                                                  StandardScaler()),
                                                 ('kneighborsclassifier',
                                                  KNeighborsClassifier())]),
                  max_samples=0.5)

In [62]:
model_bagg.predict(x_test)

array([1, 2, 1, 0, 0, 1, 1, 1, 0, 0, 1, 2, 0, 1, 2, 2, 1, 2, 0, 0, 0, 1,
       1, 1, 0, 0, 2, 1, 2, 1, 2, 0, 0, 0, 2, 2])

In [63]:
x_train.shape

(142, 13)

In [64]:
model_bagg.score(x_test, y_test)

0.9722222222222222

## randomforest( decision tree + bagging)
* 100개의 나무가 숲을 이루고 있따. 
* decision tree 전용 bagging이다.

In [70]:
from sklearn.ensemble import BaggingClassifier , RandomForestClassifier

---
추출

In [71]:
# 142개를 랜덤으로 추출하게 되어있음.
x_train.shape

(142, 13)

---

In [72]:
# forest
forest = RandomForestClassifier()
# fit
forest.fit(x_train, y_train)

RandomForestClassifier()

In [73]:
# 총 100개 샘플에 대해서 투표 결과
forest.predict(x_test)

array([2, 2, 1, 0, 0, 1, 1, 1, 0, 0, 1, 2, 0, 1, 2, 2, 1, 2, 0, 1, 0, 1,
       1, 1, 0, 0, 2, 1, 2, 1, 2, 0, 0, 0, 2, 2])

In [74]:
# accuracy
forest.score(x_test, y_test)

0.9722222222222222

---
## Boost

sample -> 틀린것 -> 가중치 -> 다시 학습 -> 반복

In [76]:
from sklearn.ensemble import AdaBoostClassifier

In [78]:
# base_estimator=None (default : decision tree)
model_ada = AdaBoostClassifier() # tree + boost
model_ada.fit(x_train, y_train)

AdaBoostClassifier()

In [79]:
# 예측값
model_ada.predict(x_test)

array([1, 2, 1, 0, 0, 1, 1, 1, 0, 0, 2, 2, 0, 1, 1, 2, 1, 2, 1, 1, 0, 1,
       1, 1, 0, 0, 1, 1, 2, 1, 2, 0, 0, 0, 2, 2])

In [80]:
# wine dataset accuracy
model_ada.score(x_test, y_test)

0.8888888888888888

---
voting과 bagging 도 결합할 수 있다

boosting과 voting을 결합할 수 있다.

ex) votingclassifier(model_ada(boost)))

In [84]:
# voting(boost, bagging, ....)
models = [('ada', AdaBoostClassifier()), # xgboost 병렬처리, ada에 속도처리면에서 우수, 별도 설치 해줘야함.
          ('bc',BaggingClassifier()),
          ('logi', LogisticRegression()),
          ('knn',KNeighborsClassifier())]

In [85]:
model_vote = VotingClassifier(models, voting='soft')
model_vote.fit(x_train, y_train)

VotingClassifier(estimators=[('ada', AdaBoostClassifier()),
                             ('bc', BaggingClassifier()),
                             ('logi', LogisticRegression()),
                             ('knn', KNeighborsClassifier())],
                 voting='soft')

In [86]:
model_vote.score(x_test, y_test)

0.9722222222222222

---
 xgboost 병렬처리, ada에 속도처리면에서 우수, 별도 설치 해줘야함.

In [87]:
!pip install xgboost

Collecting xgboost
  Downloading xgboost-1.4.2-py3-none-win_amd64.whl (97.8 MB)
Installing collected packages: xgboost
Successfully installed xgboost-1.4.2


In [88]:
from xgboost import XGBClassifier # 데이터 양이 많다면 빨리 처리

In [90]:
# max_depth : int
#         Maximum tree depth for base learners.
# object = binary -> 고쳐줘야함.
# tree, boost, binary 분류
# Voting과 Bagging의 병렬처리를 더 빠르게 개선한 모델이 이것. 요즘 인기가 많다.

xg = XGBClassifier()

???? 다음에 설명해준대여