# CH03.3. **Boosting**

> ## **Boosting**

#### **(1) 정의** : 여러 약한 모델(학습기)을 순차적으로 학습시켜 강한 모델을 만드는 앙상블 기법

#### **(2) 특징** : 
#### $ \hspace{0.15cm} $ ① 순차적 학습 : 이전 단계의 결과를 이용하여 다음 학습기를 학습함
#### $ \hspace{0.15cm} $ ② 오류 보완 : 이전 단계의 약한 모델의 오류를 보완하여 다음 모델이 이를 집중적으로 학습할 수 있도록 처리함

#### **(3) 장점** :
#### $ \hspace{0.15cm} $ ① 높은 정확도 : 순차적으로 학습하면서 이전 단계의 오류를 보완
#### $ \hspace{0.15cm} $ ② 유연성 : 많은 종류의 약한 학습기를 사용할 수 있음

#### **(4) 단점** :
#### $ \hspace{0.15cm} $ ① 과적합(overfitting) 우려
#### $ \hspace{0.15cm} $ ② 데이터 노이즈(noise)에 민감

#### **(`PLUS`) 과적합 방지를 위한 정규화(regularization)** :
#### $ \hspace{0.15cm} \cdot{} $ subsampling
#### $ \hspace{0.15cm} \cdot{} $ shirinkage
#### $ \hspace{0.15cm} \cdot{} $ early-stopping

#### **(5) 종류** :
#### $ \hspace{0.15cm} $ ① AdaBoost
#### $ \hspace{0.15cm} $ ② Gradient Boosting

<b></b>

> ## **AdaBoost(Adaptive Boost)**

#### **(1) 정의** : 이전 학습기에서 잘못 분류된 데이터(샘플)의 추출 가중치를 증가함으로써 오류에 대한 민감성을 줄이는 기법

#### **(2) 특징** : 
#### $ \hspace{0.15cm} $ ① 단순한 약한 학습기 사용 : 간단한 모델(스텀프;$  1 $ 회 분기처리한 트리)을 사용하여 복잡성을 관리
#### $ \hspace{0.15cm} $ ② 가중치 조정 : 각 데이터 포인트에 가중치를 부여하여, 잘못 분류된 데이터를 더 많이 샘플링함 
#### $ \hspace{0.15cm} $ ③ 가중 합산 : 최종 예측은 각 약한 학습기의 예측에 가중치를 부여하여 합산한 결과로 결정

#### **(3) 장점** :
#### $ \hspace{0.15cm} $ ① 높은 정확도 : 순차적으로 학습하면서 이전 단계의 오류를 보완
#### $ \hspace{0.15cm} $ ② 유연성 : 많은 종류의 약한 학습기를 사용할 수 있음

#### **(4) 단점** :
#### $ \hspace{0.15cm} $ ① 과적합(overfitting) 우려
#### $ \hspace{0.15cm} $ ② 데이터 노이즈(noise;$ \epsilon{} $)에 민감

#### **(`PLUS`) Pseudo Code** :
```python
def AdaBoost(data, labels, num_iterations) :
    weights = [1/N] * N  # N: number of samples
    classifiers = []
    classifier_weights = []

    for t in range(num_iterations) :
        weak_classifier = TrainWeakClassifier(data, labels, weights)
        predictions = weak_classifier.predict(data)
        error = sum(weights[i] for i where predictions[i] != labels[i])

        if error > 0.5 :
            break

        alpha = 0.5 * ln((1 - error) / error)
        classifier_weights.append(alpha)
        classifiers.append(weak_classifier)

        for i in range(N) :
            weights[i] *= exp(-alpha * labels[i] * predictions[i])
        
        Normalize(weights)
    
    return classifiers, classifier_weights
```

<b></b>

> ## **Gradient Boosting**

#### **(1) 정의** : 손실 함수의 그레이디언트를 사용하여 새로운 약한 학습기를 추가하며 전체 모델의 성능을 점진적으로 향상시키는 기법

#### **(2) 특징** : 
#### $ \hspace{0.15cm} $ ① 단순한 약한 학습기 사용 : 간단한 모델(스텀프;$  1 $ 회 분기처리한 트리)을 사용하여 복잡성을 관리
#### $ \hspace{0.15cm} $ ② 손실 함수 최적화 : 특정 손실 함수를 최소화하는 방향으로 모델을 학습

#### **(3) 장점** :
#### $ \hspace{0.15cm} $ ① 높은 정확도 : 순차적으로 학습하면서 이전 단계의 오류를 보완
#### $ \hspace{0.15cm} $ ② 유연성 : 많은 종류의 약한 학습기를 사용할 수 있음

#### **(4) 단점** :
#### $ \hspace{0.15cm} $ ① 과적합(overfitting) 우려
#### $ \hspace{0.15cm} $ ② 하이퍼파라미터 조정 복잡 : 다양한 하이퍼파라미터를 조정해야 하므로 복잡

#### **(`PLUS`) Pseudo Code** :
```python
def GradientBoosting(data, labels, num_iterations, learning_rate, max_depth, loss_function) :
    F_0 = initial_prediction(labels, loss_function)
    F = [F_0 for _ in range(len(labels))]
    trees = []

    for m in range(num_iterations) :
        # Compute the gradient (residuals) of the loss function
        residuals = compute_gradient(labels, F, loss_function)
        
        # Train a decision tree targeting the residuals
        tree = DecisionTree(data, residuals, max_depth)
        
        # Calculate the tree's predictions
        update = tree.predict(data)
        
        # Update the model (element-wise addition)
        F = [f + learning_rate * u for f, u in zip(F, update)]
        
        # Store the trained tree
        trees.append(tree)
    
    # Return the final model
    return trees, F_0
```