# 앙상블 학습 개요

## 앙상블(Ensemble) 학습
앙상블이란 여러 개의 알고리즘을 사용하여, 그 예측을 결함함으로써 보다 정확한 예측을 도출하는 기법을 말합니다.  
집단지성이 힘을 발휘하는 것처럼 단일의 강한 알고리즘보다 복수의 약한 알고리즘이 더 뛰어날 수 있다는 생각에 기반을 두고 있습니다.   
  
이미지, 영상, 음성 등의 비정형 데이터의 분류는 딥러닝이 뛰어난 성능을 보이지만,   
대부분 정형 데이터의 분류에서는 앙상블이 뛰어난 성능을 보이고 있다고 합니다. 
  
앙상블 학습의 유형은 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등이 있습니다. 
  
보팅은 여러 종류의 알고리즘을 사용한 각각의 결과에 대해 투표를 통해 최종 결과를 예측하는 방식입니다.  
배깅은 같은 알고리즘에 대해 데이터 샘플을 다르게 두고 학습을 수행해 보팅을 수행하는 방식입니다.  
이 때의 데이터 샘플은 중첩이 허용됩니다. 즉 10000개의 데이터에 대해 10개의 알고리즘이 배깅을 사용할 때,  
각 1000개의 데이터 내에는 중복된 데이터가 존재할 수 있습니다.  
배깅의 대표적인 방식이 Random Forest 입니다. 
  
부스팅은 여러 개의 알고리즘이 순차적으로 학습을 하되, 앞에 학습한 알고리즘 예측이 틀린 데이터에 대해  
올바르게 예측할 수 있도록, 그 다음번 알고리즘에 가중치를 부여하여 학습과 예측을 진행하는 방식입니다.   
  
마지막으로 스태킹은 여러 가지 다른 모델의 예측 결과값을 다시 학습 데이터로 만들어 다른 모델(메타 모델)로  
재학습시켜 결과를 예측하는 방법입니다.  

## 앙상블 학습을 통한 분류
여러 개의 분류기 (Classifier)를 사용해 예측 결합함으로써 보다 정확한 최종 예측을 도출하는 기법  
단일 분류기 사용 때보다 신뢰성이 높은 예측값을 얻을 수 있음  
쉽고 편하면서도 강력한 성능 보유  
대부분의 정형 데이터 분류 시 뛰어난 성능을 나타냄  
이미지, 영상, 음성 등의 비정형 데이터 분류 : 딥러닝 성능이 뛰어남  

## 대표적인 앙상블 알고리즘
- 랜덤 포레스트
- 그래디언트 부스팅

## 앙상블 알고리즘 변화
뛰어난 성능, 쉬운 사용, 다양한 활용으로 인해 많이 애용되었고 부스팅 계열의 앙상블 알고리즘의 인기와 강세가  
계속 이어져 기존의 그레디언트 부스팅을 뛰어넘는 새로운 알고리즘 가속화  

## 최신 앙상블 알고리즘
- XGBoost
- LightGBM : XGBoost와 예측 성능이 유사하면서도 수행 속도가 훨씬 빠름
- Stacking : 여러가지 모델의 결과를 기반으로 메타 모델 수립
  
XGBoost, LightGBM과 같은 최신 앙상블 알고리즘 한 두개만 잘 알고 있어도 정형 데이터의분류 또는  
회귀 분야에서 예측 성능이 매우 뛰어난 모델을 쉽게 만들 수 있음

___
# 앙상블 학습 유형
- 보팅 (Voting)
- 배깅 (Bagging)
- 부스팅 (Boosting)
- 스태킹 (Staking) 등

## 보팅 (Voting)
여러 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식  
일반적으로 서로 다른 알고리즘을 가진 분류기를 결합

## 배깅 (Bagging)
보팅과 동일하게 여러 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식  
각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만 샘플링을 서로 다르게 하면서 학습 수행  
대표적인 배깅 방식 : 랜덤 포레스트 알고리즘

**보팅vs배깅 그림**

![image.png](attachment:image.png)

#### 보팅 분류기 그림 설명  
선형회귀, K최근접 이웃, 서포트 벡터 머신 3개의 ML 알고리즘이 같은 데이터 세트에 대해 학습하고  
예측한 결과를 가지고 보팅을 통해 최종 예측 결과를 선정  
  
#### 배깅 분류기 그림 설명
단일 ML 알고리즘(결정트리)만 사용해서 여러 분류기가 각각 다르게 샘플링된 데이터 세트에 대해 학습하고  
개별 예측한 결과를 보팅을 통해 최종 예측 결과를 선정

#### 샘플링 방식 : 부트 스트래핑 분할 방식 사용  
개별 Classifier에게 데이터를 샘플링해서 추출하는 방식  
각 샘플링된 데이터 내에는 중복 데이터가 포함되어 있음 (1, 2, 3)(2, 3, 4)  

## 부스팅 (Boosting)
여러 분류기가 순차적으로 학습을 수행하되, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록  
다음 분류기에는 가중치(weight)를 부여하면서 학습과 예측을 진행하는 방식  
학습과 예측이 뛰어나서 앙상블 학습 주도 (boost : 밀어 올림)  
  
#### 대표적인 부스팅 알고리즘
- Gradien Boost
- XGBoost(eXtra Gradient Boost)
- LightGBM(Light Gradient Boost)

## 스태킹
여러가지 다른 모델의 예측 결과값을 다시 학습 데이터로 만들어서 다른 모델(메타 모델)로 재학습시켜 결과를 예측하는 방식  

___
# 보팅 유형 : 하드보팅과 소프트 보팅
하드보팅 (Hard Voting)과 소프트 보팅 (Soft Voting)  
  
#### 하드보팅 (Hard Voting)
하드보팅을 이용한 분류는 다수결 원칙과 비슷함  
예측한 결과값들 중에서 다수의 분류기가 결정한 예측값을 최종 보팅 결과값으로 선정
  
#### 소프트 보팅 (Soft Voting)
소프트 보팅은 각 알고리즘이 레이블 값 결정 확률을 예측해서,  
이것을 평균하여 이들 중 확률이 가장 높은 레이블 값을 최종 값으로 예측하여 선정
  
일반적으로는 소프트 보팅이 성능이 더 좋아서 많이 적용됨

![image.png](attachment:image.png)

## 보팅 분류기
사이킷런은 보팅방식의 앙상블을 구현한 VotingClassifier 클래스를 제공하고 있음  
사이킷런에서 제공되는 위스콘신 유방암 데이터 세트를 이용해 보팅방식의 앙상블을 적용하겠음  
  
**위스콘신 유방암 데이터 세트**  
- 유방암의 악성종양, 양성종양 여부를 결정하는 이진 분류 데이터 세트
- 종양의 크기, 모양 등의 형태와 관련한 많은 피처 포함
- 사이킷런의 보팅 양식의 앙상블을 구현한 VotingClassifier 클래스를 이용해서 보팅 분류기 생성  
- load_breast_cancer() 함수를 통해 위스콘신 유방암 데이터 세트 생성
- 로지스틱 회귀와 KNN 기반으로 소프트 보팅 방식으로 보팅 분류기 생성

In [2]:
# 필요한 모듈과 데이터 불러오기
import pandas as pd

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cancer = load_breast_cancer()

data_df = pd.DataFrame(cancer.data, columns = cancer.feature_names)
data_df.head(3)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758


로지스틱 회귀와 KNN을 기반으로 하여 소프트 보팅 방식으로 분류기 만들어보기

개별 모델은 로지스틱 회귀와 KNN과 VotingClassifier 이용해서 보팅 방식으로 결합하고 성능 비교  
   
학습/예측/평가 후 성능 비교  
로지스틱 회귀와 KNN을 보팅 방식으로 수행하는 것  
  
로지스틱 회귀  
선형 회귀 방식을 분류에 적용한 알고리즘    
선형 회귀 방식을 기반으로 하되 시그모이드 함수를 이용해 분류 수행    
  
K-최근접 이웃 알고리즘  
가장 직관적이고 간단함  
주변의 더 많은 데이터의 범주로 분류하는 방식
  
VotingClassifier 클래스의 주요 생성 인자  
estimator : 리스트 값으로 보팅에 사용될 여러개의 Classifier 객체들을 튜플 형식으로 입력받음  
voting : 보팅 방식 (hard/soft 디폴트 : hard)

In [7]:
# 개별 모델은 로지스틱 회귀와 KNN
lr_clf = LogisticRegression(solver='liblinear')
knn_clf = KNeighborsClassifier(n_neighbors=8)

# 개별 모델을 소프트 보팅 기반의 앙상블 모델로 구현한 분류기
# estimators 복수 : 리스트 형태
# lr_clf 이름을 LR로, knn_clf는 이름을 KNN, 보팅 방식 : 디폴트는 hard인데 soft 설정
vo_clf = VotingClassifier(estimators=[('LR',lr_clf) , ('KNN', knn_clf)], voting='soft')

# 데이터 세트 분리
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state=156)

# VotingClassifier 학습/예측/평가
# 개별 모델들이 다 학습하고 예측한 결과로 평가
vo_clf.fit(X_train, y_train)
pred = vo_clf.predict(X_test) # 서로 투표로 예측
print('Voting 분류기 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

# 로지스틱 회귀와 KNN 각 개별 모델의 학습/예측/평가
classifiers = [lr_clf, knn_clf]
for classifier in classifiers:
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    class_name = classifier.__class__.__name__
    print('{0} 정확도 : {1:.4f}'.format(class_name, accuracy_score(y_test, pred)))

Voting 분류기 정확도 : 0.9561
LogisticRegression 정확도 : 0.9474
KNeighborsClassifier 정확도 : 0.9386


**결과**  
보팅 분류기의 정확도가 조금 높게 나타났는데 보팅으로 여러 개의 분류기를 결합한다고 해서 무조건 예측 성능이 향상되지는 않음  
그래도 보팅, 배깅, 부스팅 등의 앙상블 방법은 전반적으로 다른 단일 ML 알고리즘보다 어느 정도 뛰어난 예측 성능을 가지는 경우가 많음  
  
고정된 데이터 세트에서 단일 ML 알고리즘이 뛰어난 성능을 발휘하더라고 현실 세계는 다양한 변수와 예측이 어려운 규칙으로 구성되어 있기 때문에  
다양한 관점을 가진 알고리즘이 서로 결합해서 더 나은 성능을 실제 환경에서 이끌어 낼 수 있음

# 정리
ML모델의 성능은 이렇게 다양한 테스트 데이터에 의해 검증되므로 어떻게 높은 유연성을 가지고 현실에 대처할 수 있는가가 중요한 ML 모델의 평가 요소가 됨  
보팅과 스태킹 등은 서로 다른 알고리즘을 기반으로 하고 있지만 배깅과 부스팅은 대부분 결정트리 알고리즘을 기반으로 하고 있음  
결정트리 알고리즘은 쉽고 직관적인 분류 기준을 가지고 있지만  
정확한 예측을 위해 학습 데이터를 과하게 학습하여 오히려 과적합이 발생해 실제 테스트 데이터에서 예측 성능이 떨어지는 현상이 발생하기 쉬움  
  
하지만 앙상블 학습에서는 수십-수천 개의 많은 분류기를 결합해 다양한 상황을 학습하게함으로써  
이 같은 결정 트리 알고리즘의 단점을 극복하고 있음  
결정트리 알고리즙의 장점은 그대로 취하고 단점은 보완하면서 편향-분산 트레이드 오프의 효과를 극대화할 수 있음  