# Ensemble Learning
- 정의: 여러 모델들을 결합한 모델
- 각종 대회에서 가장 좋은 성능을 보여주는 방법
    - 하지만 성능이 기존 모델들보다 매우 뛰어나게 좋아지지는 않기 때문에, 실제 기업에서는 비슷한 성능이지만 원인 분석이 쉬운 기본 모델들을 사용한다.
    
- 각 base learner들의 조건
    - 0.5 이상의 정확도를 가져야함
    - 독립이어야 함
- 특징
    - overfitting이 잘 되는 모델을 기본적으로 사용
        - 이유: test데이터에 대한 다양한 예측값을 수렴하기 위함
        - 예) tree 기반 모델
            - RandomForest, Boosting, Bagging

# Ensemble Learning 종류
## 1. Bagging (bootstrap aggregating)
모델을 다양하게 만들기 위해 데이터를 재구성

### bootstrap
- 복원추출 
    - 데이터 중복 추출 허용
    - 전체 데이터의 63%정도만 추출됨 
    - =>추출되지 않는 데이터로 error율 계산 가능해지며, 이 out-of-bag error (OOB error)라 한다.
    - 장점) 학습 데이터에서도 모델의 성능 평가가 가능하다.
    
        
### Tree와 Bagging의 차이, 장단점
![image.png](attachment:image.png)


## 📌2. RandomForest
모델을 다양하게 만들기 위해 데이터&변수 재구성
- Bagging보다 성능이 좋다.

### Bagging 단점 해결
- Bagging 단점:
    - 트리 개수가 많아질수록 트리들 간의 공분산이 증가
        - 이유: 복원추출하여 중복되는 데이터 다수이므로, 트리들이 독립이라는 조건 보장하지 못한다. 즉, 공분산 !=0
- 해결방법: 데이터 뿐만아니라 변수도 random하게 추출하여 base learner간 공분산 줄인다.
    - 추출할 변수의 개수: Hyper parameter
    
## 📌3. Boosting
오분류된 데이터에 가중치를 두어서 다음 모델에 더 많이 학습시킨다.
- 복원추출 시에 가중치 분포를 고려
- 종류:
    - Adaboost, Gradient boost(**Xgboost**)

### 3-1.Adaboost
- 오분류된 데이터는 다음 round에 샘플링 될 확률을 높인다.
- 각 라운드에서 classifier에 가중치를 곱하여 최종 clf를 조합

### 3-2.Gradient boost(Xgboost 가장 많이 쓰임)


#### Residual을 예측하는 방법을 사용
    - residual을 줄이는 목표를 가지고
    - 다음 라운드의 clf가 이전 clf의 residual을 예측하는 과정 반복
    - 이 반복을 통해 y예측은 여러 라운드의 clf를 통해 오차를 최대한 예측하고, 나머지 아주 작은 줄일 수 없는 error만 남게 된다.
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
    
#### Gradient라고 불리는 이유?
- Gradient= residual = loss 함수의 gradient
![image-4.png](attachment:image-4.png)

#### Gradient boost 종류
1.Xgboost 
- 학습을 위한 목적식에 regularization term 추가
    - => Gradient boost보다 overfitting 방지

2.LightGBM (추천)
- Xgboost대비 2배 정도 빠른 속도
- CPU, GPU지원
- overfitting에 민감

3.Catboost (추천)
- 잔차 추정의 분산을 최소 + bias 피하려고 하는 기법
- catergorical feature가 많은 경우 잘 맞는다고 알려져 있다.
    - 즉, one-hot encoding 시 변수가 늘어날 때
- catergorical feature를 one-hot encoding이 아닌 수치형으로 변환하는 방법 제안

## 4. Stacking
모델의 output을 독립변수로 사용
- 앙상블의 한 개념이다.
- meta learner로 불린다.
- 다양한 모델을 결합하여 사용하는 기법
- 성능을 조금 더 증가시키지만 학습 시간이 너무 많이 걸리기 때문에 현업에서는 사용하지 않는다.
    - 대회에서 사용


# Ensemble의 Ensemble 
## (대회용으로 추천)
- boosting들을 ensemble하여 성능을 높이는 방법
- 장점) hyperparameter tunning에 덜 민감

![image.png](attachment:image.png)

