## 앙상블 학습 개요

* 앙상블 학습 (Ensemble Learning)을 통한 분류 : 여러 개의 분류기 (Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 (단일 분류기보다 신뢰성이 높은 예측값을 얻을 수 있음)
* 대부분의 정형 데이터 분류는 앙상블이 뛰어난 성능
* 앙상블 algorithm : random forest, gradient boosting method, (XGBoost, LightGBM, Stacking)

### 앙상블 학습의 유형

보팅 & 배깅 : 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식


- **보팅(voting)** : 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합


- **배깅(bagging)** : 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅 수행 (대표적인 배깅 방식이 random forest algorithm)


- **부스팅(boosting)** : 여러 개의 분류기가 순차적으로 학습을 수행하되, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록 다음 분류기에는 가중치(weight)를 부여하면서 학습과 예측을 진행하는 것. 예측 성능이 뛰어나 앙상블 학습을 주도. 대표적인 부스팅 모듈로 gradient boost, XGBoost, LightGBM이 있음. 


- **스태킹(Stacking)** : 여러 가지 다른 모델의 예측 결괏값을 다시 학습 데이터로 만들어서 다른 모델(메타 모델)로 재학습시켜 결과를 예측하는 방법



### (1) 보팅

* Hard Voting : 다수의 classifier 간 다수결로 최종 class 결정
* Soft Voting : 다수의 classifier 들의 class 확률을 평균해서 롹률이 가장 높은 레이블 값을 선정

일반적으로 hard < soft

scikit-learn은 "VotingClassifier"클래스를 통해 voting classifier를 생성할 수 있음 (parameter = esimators, voting)
* estimators는 리스트 값으로 보팅에 사용될 여러 개의 Classifier 객체들을 튜플 형식으로 입력받음
* voting은 'hard'시 하드보팅, 'soft'시 소프트 보팅 방식 적용 (default는 'hard')

In [1]:
import pandas as pd

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cancer = load_breast_cancer()

data_df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
data_df.head(3)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758


In [None]:
# 개별 모델은 logistic regression & KNN.
lr_clf = LogisticRegression(solver='liblinear')
knn_clf = KNeighborsClassifier(n_neighbors=8)

# 개별 모델을 soft voting 기반의 ensenble model로 구현한 classifier
vo_clf = VotingClassifier(estimators=)