# 앙상블 학습 (Ensemble Learning)

### 앙상블 학습을 통한 분류
- 여러 개의 분류기(Classifier)를 사용해서 예측 결합함으로써
- 보다 정확한 최종 예측을 도출하는 기법
- 단일 분류기 사용 때보다 신뢰성이 높은 예측값을 얻을 수 있음
- 쉽고 편하면서도 강력한 성능 보유
- 대부분의 정형 데이터 분류 시 뛰어난 성능을 나타냄
- 이미지, 영상, 음성 등의 비정형 데이터 분류 : 딥러닝 성능이 뛰어남
    
대표적인 앙상블 알고리즘
- 랜덤 포레스트
- 그레디언트 부스팅

앙상블 알고리즘 변화
- 뛰어난 성능, 쉬운 사용, 다양한 활용도로 인해 많이 애용되었고
- 부스팅 계열의 앙상블 알고리즘의 인기와 강세가 계속 이어져
- 기존의 그레디언트 부스팅을 뛰어넘는 새로운 알고리즘 가속화

최신 앙상블 알고리즘
- XGBoost : 오래걸림
- LightGBM : XGBoost와 예측 성능 유사하면서도 수행 속도 훨씬 빠름
- Stacking  : 여러 가지 모델의 결과를 기반으로 메타 모델 수립  


#### 앙상블 학습 유형  
- 보팅(Voting)  
- 배깅(Bagging)  
- 부스팅 (Boosting)  
- 스태킹 등  

### 보팅(Voting) 과 배깅(Bagging)

보팅(Voting) : 여러 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식  
- 일반적으로 ***서로 다른 알고리즘***을 가진 분류기를 결합  
    
배깅(Bagging) : 보팅과 동일하게 여러 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식  
- 각각의 분류기가 모두 ***같은 유형의 알고리즘*** 기반이지만  
- 샘플링을 서로 다르게 하면서 학습 수행  
- 대표적인 배깅 방식 : 랜덤 포레스트 알고리즘   


![image-2.png](attachment:image-2.png)

보팅 분류기 그림 설명  
- 선형회귀, K-최근접 이웃, 서포트 벡터 머신 3개의 ML 알고리즘이  
- 같은 데이터 세트에 대해 학습하고 예측한 결과를 가지고  
- 보팅을 통해 최종 예측 결과를 선정  

배깅 분류기 그림 설명  
- 단일 ML 알고리즘(결정트리)만 사용해서  
- 여러 분류기가 각각 다르게 샘플링된 데이터 세트에 대해 학습하고 개별 예측한 결과를  
- 보팅을 통해 최종 예측 결과를 선정  

샘플링 방식 : 부트 스트래핑 분할 방식  
- 개별 Classifier에게 데이터를 샘플링해서 추출하는 방식  
- 각 샘플링된 데이터 내에는 중복 데이터 포함 
    - (1 2 3 4 5) -> (1 2 3 3 4) (2 3 4 1 2) (1 3 2 2 5)      

#### 보팅 유형  
- 하드 보팅 (Hard Voting)  
- 소프트 보팅 (Soft Voting)  

하드 보팅 (Hard Voting)  
- 다수결 원칙과 유사  
- 예측한 결과값들 중에서 다수의 분류기가 결정한 예측값을  
- 최종 보팅 결과값으로 선정  

소프트 보팅 (Soft Voting)  
- 분류기들이 레이블 값 결정 확률을 평균내서  
- 확률이 가장 높은 레이블 값을  
- 최종 보팅 결과값으로 선정  
- 일반적으로 소프트 보팅이 예측 성능이 좋아서 더 많이 사용  

![image.png](attachment:image.png)

### 부스팅 (Boosting)  
- boost : 밀어 올림, 강화 
- 머신러닝에서의 부스팅
    - 약한 모델을 여러 번 순차적으로 적용해서 강한 모델로 만들어 간다는 의미
- 여러 개의 분류기가 순차적으로 학습을 수행하되
- 이전 학습기가 잘못 예측한 데이터를 다음 학습기가 학습하여 순차적으로 예측 정확도를 높이는 결과  
- 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록  
- 다음 분류기에게는 가중치(weight)를 부여하면서  
- 학습과 예측을 진행 
- 예측 성능이 뛰어나 앙상블 학습 주도  
    
대표적인 부스팅 알고리즘 (패키지/모듈)   
- Gradient Boost  
- XGBoost(eXtra Gradient Boost)
- LightGBM(Light Gradient Boost)  

### 스태킹  (Statcking)  
- 여러 가지 다른 모델의 예측 결과값으로 다시 학습 데이터로 만들어서  
- 다른 모델(메타 모델)로 재학습시켜 결과를 예측하는 방식  
- 기반 모델 + 메타 모델
    - 기반 모델 : 1차 예측을 수행하는 개별 알고리즘
    - 메타 모델 : 기반 모델의 예측 결과를 최종 데이터 세트로 학습하는 별도의 알고리즘