## 부스팅 계열 알고리즘 

### GBM (Gradient Boosting Machine) : 그래디언트 부스트

부스팅 (Boosting)  
  - 예측 성능이 뛰어나 앙상블 학습 주도  

---
- 여러 개의 약한 학습기(weak learner)를 순차적으로 학습/예측하면서  
- 잘못 예측된 데이터에 가중치(weight) 부여를 통해  
- 오류를 개선해 나가면서 학습하는 방식  

대표적 부스팅 알고리즘  
- GBM (Gradient Boosting Machine) : 그래디언트 부스트 
- AdaBoost(Adaptive Boosting) : 에이다 부스트  

에이다 부스트의 학습/예측 과정  
![image.png](attachment:image.png)

GBM (Gradient Boosting Machine) : 그래디언트 부스트  
- 에이다 부스트와 유사하지만  
- 가중치 업데이트를 경사 하강법을 이용하는 것이 큰 차이  
    - 반복 수행을 통해 오류를 최소화할 수있도록  
    - 가중치의 업데이트 값을 도출  
    - 오류값 = 실제값 - 예측값  
- 분류와 회귀 둘 다 가능  

경사 하강법 (Gradient Descent)
- 함수의 기울기(경사)를 구하고 경사의 절대값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복하면서
- 제시된 함수의 기울기로 최소값을 찾아내는 머신러닝 알고리즘 
- 손실 함수 : 예측값과 실제값의 차이(loss)를 측정하는 함수
- 손실 함수의 값이 최대한 작아지도록 파라미터를 조정
- 즉, 손실 함수의 최소값을 찾기 위해, 기울기가 최소가 되는 지점을 찾아가는 것 (미분값이 0이 되는 지점)
- 머신러닝 알고리즘은 손실 함수의 값을 최소화하는 방향으로 학습하는 것이 목표    


GBM은 수행 시간이 오래 걸린다는 단점이 있지만  
과적합에도 강해서 예측 성능이 뛰어난 알고리즘  
많은 알고리즘이 GBM을 기반으로 해서 새롭게 만들어 지고 있음  



## XGBoost (eXtra Gradient Boost)

XGBoost  
- 트리기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중의 하나  
- 압도적인 수치 차이는 아니지만 분류에 있어서 일반적으로 다른 머신러닝 알고리즘 보다 뛰어난 예측 성능을 나타냄  
- GBM에 기반하지만, GBM의 단점인 느린 수행 시간 및 과적합 규제 부재 등의 문제 해결  
- 특히 병렬 CPU 환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습 완료

---

XGBoost 장점  
- 뛰어난 예측 성능  
    - 일반적으로 분류와 회기 영역에서 우수한 예측 성능 발휘 
    - XGBoost 또는 LightGBM을 약한 학습기로 다시 배깅이나 보팅을 하는 것이 가능하지만
        - 수행시간이 오래 걸리고 반드시 성능이 향상되는 것이 아니고, 약간 떨어질 수도 있기 때문에  
        - XGBoost는 보통 배깅을 적용하지 않음      
- GBM 대비 빠른 수행 시간    
- 과적합 규제  
    - XGBoost 자체에 과적합 규제 기능 있어서 과적합에 좀 더 강한 내구성이 있음   
- 가지치기 (pruning)  - 더 이상 긍정 이득이 없는 분할을 가지치기 해서 분할 수를 줄이게 됨
    - max_depth 파라미터로 가지치기 조정
        - 미리 설정해 놓은 max_depth까지만 split하고 pruning
        - 거꾸로 올라가면서 positive gain이 없는 노드는 삭제 
    - 내부 동작. 별도의 하이퍼 파라미터 없음 .
- 교차 검증 내장  
    - 매 반복(iteration)마다 교차 검증 수행
    - 부스팅 프로세스 중에 가장 최적의 boosting iteration 알 수 있음 
- 결손값 자체 처리
    - 결손값(missing value)를 처리할 수 있는 기능이 내장되어 있음  
    - 특별히 Null 값을 바꾸지 않아도 알아서 Null 값을 인지하여 자체적으로 처리 
    



## LightGBM

- XGBoost와 부스팅 계열 알고리즘에서 가장 각광을 받고 있음

- XGBoost 보다 학습에 걸리는 시간이 훨씬 적음


### LightGBM의 장점
- XGBoost 대비 더 빠른 학습과 예측 수행 시간  
- 더 작은 메모리 사용량     
- 대용량 데이터에 대해 뛰어난 예측 성능 및 병렬 컴퓨팅 기능 제공     
- 카테고리형 피처의 자동 변환과 최적 분할  

### LightGBM의 단점
- 적은 데이터 세트에 적용할 경우 과적합이 발생하기 쉬움  
- (적은 데이터 세트 기준 : 공식 문서상 대략 10,000건 이하의 데이터 세트)

### 기존 GBM과의 차이점
- 일반적인 균형트리분할(Level Wise) 방식과 달리 **`리프중심 트리분할(Leaf Wise)`** 방식을 사용

- 균형트리분할
    - 최대한 균형 잡힌 트리를 유지하며 분할하여 
    - 트리의 깊이를 최소화하여 오버피팅에 강한 구조이지만 
    - 균형을 맞추기 위한 시간이 필요함
- 리프중심 트리분할
    - 최대 손실 값을 가지는 리프노드를 지속적으로 분할하면서 
    - 트리가 깊어지고 비대칭적으로 생성되지만  
    - 최대 손실값을 가지는 리프 노드를 지속적으로 분할해 생성된 규칙 트리는 
    - 학습을 반복할수록 결국은 균형 트리 분할 방식보다 예측 오류 손실을 최소화할 수 있음   
    - LighGBM은 예측 오류 손실을 최소화하는 것이 목적  
  


![image.png](attachment:ce8a5213-5c6a-44f9-91ec-fcf33c134a7b.png)

### LightGBM 하이퍼파라미터

- XGBoost와 매우 유사함
- 유의할 점 :
    - 리프 노드가 계속 분할하면서 트리의 깊이가 깊어지므로 이러한 트리 특성에 맞는 하이퍼 파라미터 설정이 필요

![image.png](attachment:61c61cd7-7205-4861-9fa1-b9d78a10486d.png)

### LightGBM 하이퍼 파라미터 튜닝   
(1) 기본 튜닝  
- num_leaves 개수를 중심으로   
- min_child_samples, max_depth를 함께 조정하면서 모델의 복잡도를 줄인다  

    - num_leaves
        - 개별 트리가 가질 수 있는 최대 리프 개수로
        - LightGBM 모델 복잡도를 제어하는 주요 파라미터
        - num_leaves 개수를 높이면 정확도가 높아지지만, 
            - 반대로 트리의 깊이가 깊어지고 
            - 모델의 복잡도가 커져 과적합 영향도가 커짐
    - min_child_samples
        - 과적합을 개선하기 위한 중요 파라미터
        - 크게 설정하면 트리가 깊어지는 것을 방지
    - max_depth
        - 트리 깊이의 크기를 제한함
        - num_leaves, min_child_samples와 결합해 과적합을 개선하는데 사용
(2) 부스팅에서의 기본 튜닝
- learning_rate을 줄이면서 n_estimator를 크게하는 것  