## 앙상블
앙상블 기법은 과적합 방지 및 더 높은 성능의 결과를 도출하도록 여러 모델을 활용하는 기법이다.
- voting
    - 여러 모델의 예측값을 활용하여 투표를 통해 최종 예측값을 결정(평균, 다수결 채택 등 간단한 연산)
- bagging(bootstrap + aggregating)
    - 복원추출을 통해 랜덤 추출한 데이터셋을 생성하고 각 데이터를 모델 학습하여 결합한 후 학습된 모델의 예측 변수를 활용하여 최종 모델을 생성하는 방법
    - bootstrap을 활용한 랜덤 샘플링으로 과적합 방지
    - 복원 과정에 있어 불균형하거나 충분하지 않은 데이터에 적용 가능
    - 전체 데이터에서 샘플링을 통해 뽑힌 몇 개의 데이터만을 가지고 각 분류 모델에 학습시킵니다. 이때 샘플링 방법으로는 부트스트래핑(Bootstraping), 즉 복원 추출을 사용합니다.
    - 배깅에 랜덤 샘플링 과정이 들어가기 때문에 과적합 현상을 방지할 수 있습니다.
    - 한편, 데이터를 샘플링할 때 데이터의 중복을 허용하지 않는 방법을 페이스팅(Pasting), 즉 비복원 추출이라 합니다.
- boosting
    - 여러개의 약한 모델(weak learner)을 수정하여 강한 모델(strong leraner)을 만드는 방법
    - 독립적인 모델을 합산하여 산출하기 보다는 기존의 모델을 개선시키는 방향의 앙상블 기법
- 의사결정트리에 앙상블 기법을 활용한 다양한 모델
    - 랜덤포레스트
    - 부스팅 계열 모델(Ada Boost, Gradient Boosting, XGBoost, LGBM, CatBoost)

## 앙상블(Ensemble) 기법 - Voting
Voting은 의미 그대로 투표를 통해 값을 결정하는 것입니다. Voting의 종류에는 Hard voting과 Soft voting이 있습니다.

- Hard Voting : 다수의 분류기가 예측한 값을 최종 값으로 선택
- Soft Voting : 각 레이블 별로 예측 확률을 낸 후 평균을 내어 최종 값으로 선택
- 일반적으로 Soft voting이 성능이 더 좋아 더 많이 사용됩니다.
![image.png](attachment:image.png)

VotingClassifier를 위한 사이킷런 함수/라이브러리
```python
from sklearn.ensemble import VotingClassifier : 사이킷런에 구현되어 있는 VotingClassifier를 불러옵니다.
VotingClassifier(estimators, voting)
estimators : 앙상블 학습을 진행할 다양한 분류 모델을 설정합니다.
voting : voting 방식을 선택합니다.
[Model].fit(X, y): (X, y) 데이터셋에 대해서 모델을 학습시킵니다.
[Model].predict(X): X 데이터를 바탕으로 예측되는 값을 출력합니다.
```
```python
VotingClassifier(estimators = [('모델1 이름', 모델1을 정의한 변수), ('모델2 이름', 모델2를 정의한 변수),...('모델N 이름', 모델N을 정의한 변수)], voting = 'soft')
```

In [None]:
import pandas as pd

import warnings
warnings.filterwarnings(action='ignore')

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

from sklearn.datasets import load_breast_cancer

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 유방암 데이터를 불러오고,학습용 데이터와 테스트용 데이터로 분리하여 반환하는 함수입니다.
def load_data():
    
    X, y = load_breast_cancer(return_X_y = True)
    
    train_X, test_X, train_y ,test_y = train_test_split(X, y, test_size = 0.2, random_state = 156)
    
    return train_X, test_X, train_y ,test_y
"""
1. 다양한 모델을 사용하는 VotingClassifier를 정의하여
   학습시키고, 예측을 수행한 결과를 반환하는 함수를 구현합니다.
   
   Step01. Voting과 비교할 각각 다른 분류 모델을 불러옵니다.
            
           불러올 분류 모델은 
           LogisticRegression, 
           KNeighborsClassifier 입니다.
        
   Step02. Voting에 사용할 분류 모델을 설정하여 
           VotingClassifier를 정의합니다.
           
           LogisticRegressor와 KNeighborClassifier를 사용합니다.
           Voting 방식은 Soft Voting을 사용합니다.
   
   Step03. Voting Classifier를
           학습용 데이터에 맞춰 학습을 시킵니다.
   
   Step04. 테스트 데이터에 대한 예측을 수행합니다.
"""
def Voting_Clf(train_X, test_X, train_y ,test_y):
    
    lr_clf = LogisticRegression()
    knn_clf = KNeighborsClassifier()
    
    vo_clf = VotingClassifier(estimators = [('lr_clf', lr_clf), ('knn_clf', knn_clf)], voting = 'soft')
    
    vo_clf.fit(train_X, train_y)
    
    pred = vo_clf.predict(test_X)
    
    return lr_clf, knn_clf, vo_clf, pred
    
# 데이터를 불러오고, 모델 학습 및 예측을 진행하기 위한 함수입니다.
def main():
    
    train_X, test_X, train_y ,test_y = load_data()
    
    lr_clf, knn_clf,vo_clf, pred = Voting_Clf(train_X, test_X, train_y ,test_y)
    
    print('> Voting Classifier 정확도 : {0:.4f}\n'.format(accuracy_score(test_y, pred)))
    
    # 다른 분류기를 각각 학습했을 때 결과 예측
    classifiers = [lr_clf, knn_clf]
    for classifier in classifiers:
        classifier.fit(train_X, train_y)
        pred = classifier.predict(test_X)
        class_name = classifier.__class__.__name__
        print("> {0} 정확도 : {1:.4f}".format(class_name, accuracy_score(test_y, pred)))

if __name__ =="__main__":
    main()

## 앙상블(Ensemble) 기법 - Bagging
배깅(Bagging)은 여러 분류 모델을 사용했던 Voting과 달리 동일한 분류 모델만을 사용해야 합니다.
![image.png](attachment:image.png)

BaggingClassifier를 위한 사이킷런 함수/라이브러리
```python
from sklearn.ensemble import BaggingClassifier : 사이킷런에 구현되어 있는 BaggingClassifier를 불러옵니다.
BaggingClassifier(base_estimator, n_estimators) : BaggingClassifier를 정의합니다.
base_estimator : 앙상블 학습을 진행할 분류 모델 설정(동일한 분류 모델)
n_estimators : 사용하고자 하는 분류 모델의 개수
[Model].fit(X, y): (X, y) 데이터셋에 대해서 모델을 학습시킵니다.
[Model].predict(X): X 데이터를 바탕으로 예측되는 값을 출력합니다.
```

In [None]:
import pandas as pd
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 유방암 데이터를 불러오고,학습용 데이터와 테스트용 데이터로 분리하여 반환하는 함수입니다.
def load_data():
    X, y = load_breast_cancer(return_X_y = True)
    
    train_X, test_X, train_y, test_y = train_test_split(X, y, test_size = 0.2, random_state = 156)
    
    return train_X, test_X, train_y, test_y

"""
1. 동일한 모델을 사용하는 BaggingClassifier를 정의하여
   학습시키고, 예측을 수행한 결과를 반환하는 함수를 구현합니다.
   
   Step01. Bagging에 사용할 분류 모델을 설정하여 
           BaggingClassifier를 정의합니다.
           
           모델은 의사결정 나무(DecisionTreeClassifier)를
           사용합니다.
           
           n_estimators는 자유롭게 설정합니다.
   
   Step02. BaggingClassifier를
           학습용 데이터에 맞춰 학습을 시킵니다.
   
   Step03. 테스트 데이터에 대한 예측을 수행합니다.
"""
def Bagging_Clf(train_X, test_X, train_y, test_y):
    
    ba_clf = BaggingClassifier(DecisionTreeClassifier(), 10)
    
    ba_clf.fit(train_X, train_y)
    
    pred = ba_clf.predict(test_X)
    
    return ba_clf, pred
    
# 데이터를 불러오고, 모델 학습 및 예측을 진행하기 위한 함수입니다.
def main():
    
    train_X, test_X, train_y, test_y = load_data()
    
    ba_clf, pred = Bagging_Clf(train_X, test_X, train_y, test_y)
    
    print('Bagging Classifier 정확도 : {0:.4f}'.format(accuracy_score(test_y, pred)))
    
    # 단일 의사결정 나무를 학습했을 때 결과 예측하기
    single_dt = DecisionTreeClassifier()
    single_dt.fit(train_X,train_y)
    single_pred = single_dt.predict(test_X)
    print('Single Decision Tree Classifier 정확도 : {0:.4f}'.format(accuracy_score(test_y, single_pred)))

if __name__ =="__main__":
    main()