# 부스팅(boosting)

### 부스팅(Boosting)
- 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서
- 잘못 예측된 데이터에 가중치(weight) 부여를 통해
- 오류를 개선해 나가면서 학습하는 방식

### 대표적 부스팅 알고리즘

- AdaBoost(Adaptive Boosting) 계열
- Gradient Boosting 계열
    - GBM(Gradient Boosting Model)
    - XGBoost(eXtra Gradient Boosting)
    - LightGBM

![image.png](attachment:image.png)

![image.png](attachment:image.png)

---------------------------------------------

## GBM(Gradient Boosting Machine)

- AdaBoost와 유사하지만
- 가중치 업데이터를 **경사 하강법**을 이용하는 것이 큰 차이
    - 반복 수행을 통해 오류를 최소화할 수 있도록
    - 가중치의 업데이트 값을 도출
    - 오류값 = 실제값 - 예측값
    
    
- 분류와 회귀 둘 다 가능

#### 참고. 경사 하강법(Gradient Descent)
- 함수의 기울기(경사)를 구하고 경사의 절대값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것(위키백과)
- 제시된 함수의 기울기로 최소값을 찾아내는 머신러닝 알고리즘
- 매개변수를 반복적으로 조정해서 최소 함수값을 갖게하는 독립변수를 찾는 방법


- https://en.wikipedia.org/wiki/Gradient_descent
- https://ko.wikipedia.org/wiki/경사하강법

#### GBM이 극복해야 할 중요 과제 : 수행 시간

- GBM은 **`수행 시간이 오래 걸린다`** 는 단점이 있지만 **`과적합에도 강해서`** 예측 성능이 뛰어난 알고리즘  
- 많은 알고리즘이 GBM을 기반으로 새롭게 만들어지고 있음
- 머신러닝 세계에서 가장 각광을 받는 그래디언트 부스팅 기반 ML 패키지
    - XGBoost
    - LightGBM

### 사이킷런의 GBM 클래스

- sklearn.ensemble.GradientBoostingClassifier

- https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html

#### GBM의 주요 하이퍼 파라미터  

**`loss`** : 경사 하강법에서 사용할 비용 함수 지정. 기본값은 'deviance'
    
**`n_estimators`** : weak learner의 개수. 기본값 100

**`learning_rate`** : GBM이 학습을 진행할 때마다 적용하는 학습률
- weak learner가 순차적으로 오류값을 보정해 나가는 데 적용하는 계수
- 0 ~ 1 사이의 값 지정 (기본값 0.1)

**`subsample`** : weak learner가 학습에 사용하는 데이터의 샘플링 비율
- 기본값 1 : 전체 학습 데이터를 기반으로 학습한다는 의미
- 0.5 : 학습 데이터의 50%
- 과적합이 염려되는 경우 1보다 작은 값으로 설정

--------------------------------------

### 실습. 유방암 악성/양성 분류

#### 데이터세트 로딩

#### Split Dataset

#### 학습/예측/평가

#### 교차검증 및 하이퍼 파라미터 튜닝

- GridSearchCV 사용

- GridSearchCV 결과

#### 최적의 하이퍼파라미터를 가진 분류기 성능 

#### 최적의 하이퍼 파라미터로 재 학습 및 예측/평가

-----------------------------------------------------