# Boosting

__Boosting__
잘 못 맞춘 데이터를 더 잘 맞추도록 하기 위한 기법으로   
오분류된 데이터에 초점을 맞추어 더 많은 가중치를 주는 방식

복원 추출을 하여 샘플링 할 때  
가중치가 많은 오분류된 데이터를 많이 뽑고  
가중치가 적은 정분류된 데이터를 적게 뽑습니다.  

__Bagging__과의 차이점은  
> 가중치 부과 여부  
> __Bagging__ 병렬 학습, __Boosting__ 순차 학습

![diff](./image/Boosting/diff.png)

이 커널에서 알아 볼  
__Boosting__ 기법은 두가지 입니다.  
- AdaBoost  
- Gradient Boosting  


## AdaBoost(Adaptive Boost)
__Boosting__ 기법의 기본이 되는 모델로  
오분류된 데이터에 더 많은 가중치를 주고  
정분류된 데이터에는 적은 가중치를 둬    

복원추출시 오답 데이터를 많이 뽑고    
정답 데이터를 적게 뽑아 모델 학습을 반복하는 알고리즘  

### __모델 학습 방법__
1. 샘플링 후 모델 학습  
2. 정답/오답 데이터에 낮은/높은 가중치 부여  
3. 복원 추출
4. 학습 후 가중치 갱신
5. 위의 과정을 반복  

## Gradient Boosting  
__Gradient Boosting__은 __AdaBoost__와 비슷하지만,  
가충치 부여 방식에서 차이가 존재합니다.  

__Gradient Boosting__는     
모델의 오차가 작아지는 방향으로 가중치를 부여합니다.  

> 여기서의 오차는 노이즈(예측 불가능한 오차)가 아닌  
> 실제 값과 예측 값의 차이인 잔차를 말합니다.  

### __모델 학습 방법__
1. 샘플링 후 모델 학습  
2. 모델의 오차 계산    
3. 오차를 예측하는 학습기 생성 및 학습  
4. 위의 과정을 반복  

__Gradient Boosting__ 종류
* XGBoost
* LightGBM
* Catboost

###  XGBoost
__XGBoost__ 는 __Gradient Boost__ 에서 
모델의 과적합을 방지하기 위해  
`Regularization term`을 추가한 모델

### LightGBM
__XGBoost__ 는 트리를 학습시킬 때  
균형트리 분할(Level-wise)로 진행하는 반면  

__LightGBM__은 트리를 학습시킬 때  
리프중심 트리 분할(Leaf-wise)로 진행 

> __균형 트리 분할__
> - 레벨별로 균형있게 트리를 학습시키고, 트리의 깊이를 최소화 함   
> - 과적합 위험이 적지만 모델 생성에 시간이 드는 편

> __리프중심 트리 분할__
> - 최대 손실 값을 가지는 리프노드를 지속적으로 분할  
> - 과적합 위험이 높지만 모델 생성이 빠른 편

![tree_diff](./image/Boosting/tree_diff.png)

### CatBoost
범주형 변수들에 최적화된 알고리즘으로  
__XGBoost__와 같이 균형트리 분할로 진행


## Reference
### Image
- [What's the difference between boosting and bagging?](https://www.quora.com/Whats-the-difference-between-boosting-and-bagging)
- [LightGBMの解説](http://data-analysis-stats.jp/2019/11/13/lightgbm%E3%81%AE%E8%A7%A3%E8%AA%AC/)

### Boosting
- [boosting 기법 이해 (bagging vs boosting)](https://www.slideshare.net/freepsw/boosting-bagging-vs-boosting)
- [[Chapter 4. 분류] 부스팅알고리즘(AdaBoost, GBM)](https://injo.tistory.com/31)
- [CatBoost](https://gentlej90.tistory.com/100)