# AdaBoost vs Gradient Boosting Machine (GBM): Compara√ß√£o e Otimiza√ß√£o

## **1. Diferen√ßas Fundamentais entre AdaBoost e GBM**

O **AdaBoost (Adaptive Boosting)** e o **Gradient Boosting Machine (GBM)** s√£o ambos algoritmos de **ensemble learning**, mas possuem diferen√ßas significativas em suas abordagens e funcionamento. A seguir, destacamos cinco diferen√ßas principais:

### üîπ **M√©todo de Ajuste dos Erros**
**AdaBoost**: Ajusta os pesos das observa√ß√µes de acordo com os erros do modelo anterior. Os exemplos mal classificados recebem pesos maiores, tornando-os mais influentes na pr√≥xima itera√ß√£o.
  
  $$ \alpha_t = \frac{1}{2} \ln \left( \frac{1 - e_t}{e_t} \right) $$

  onde:
  - $ e_t $ √© a taxa de erro da √°rvore na itera√ß√£o $ t $.
  - $ \alpha_t $ √© o peso atribu√≠do √† √°rvore no ensemble.

**GBM**: Em vez de ajustar pesos, ele minimiza a **fun√ß√£o de perda** ajustando cada novo modelo para prever o **gradiente do erro** do modelo anterior.

  $$ F_m(x) = F_{m-1}(x) + \gamma_m h_m(x) $$

  onde:
  - $ F_m(x) $ √© o modelo atualizado na itera√ß√£o $ m $.
  - $ h_m(x) $ √© a nova √°rvore ajustada ao gradiente do erro.
  - $ \gamma_m $ √© a taxa de aprendizado que controla a contribui√ß√£o da nova √°rvore.

### üîπ **Flexibilidade na Fun√ß√£o de Perda**
**AdaBoost**: Usa **fun√ß√£o de perda exponencial** por padr√£o:

  $$ L(y, F(x)) = e^{-yF(x)} $$

**GBM**: Permite a escolha de diversas fun√ß√µes de perda, incluindo:
  - **Erro quadr√°tico** para regress√£o: $ L(y, \hat{y}) = (y - \hat{y})^2 $
  - **Log-loss** para classifica√ß√£o bin√°ria: $ L(y, \hat{y}) = - y \log(\hat{y}) - (1 - y) \log(1 - \hat{y}) $

### üîπ **Sensibilidade a Outliers**
**AdaBoost**: Pode ser mais **sens√≠vel a outliers**, pois os exemplos dif√≠ceis de classificar recebem mais peso e podem influenciar excessivamente o modelo.

**GBM**: Possui mais **flexibilidade na fun√ß√£o de perda**, permitindo que se adapte melhor a dados ruidosos.

### üîπ **Complexidade Computacional**
**AdaBoost**: Normalmente **mais r√°pido**, pois apenas ajusta os pesos das observa√ß√µes a cada itera√ß√£o.

**GBM**: **Mais lento**, pois precisa calcular o **gradiente do erro** e ajustar a √°rvore para minimiz√°-lo.

### üîπ **Complexidade dos Modelos Base**
**AdaBoost**: Utiliza **stumps** (√°rvores rasas com profundidade 1) como base learners.

**GBM**: Pode usar √°rvores **mais profundas**, o que permite capturar rela√ß√µes mais complexas.

---

## **2. Implementa√ß√£o do GBM no Scikit-Learn**
Abaixo est√£o os exemplos de **classifica√ß√£o** e **regress√£o** utilizando o **Gradient Boosting**.

In [1]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [2]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, 
                                 learning_rate=1.0, 
                                 max_depth=1, 
                                 random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

### Exemplo 2: Regress√£o com GBM

In [3]:
import numpy as np

from sklearn.metrics  import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

In [4]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

est = GradientBoostingRegressor(n_estimators=100, 
                                learning_rate=0.1, 
                                max_depth=1, 
                                random_state=0, 
                                loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960319

## **3. Principais Hiperpar√¢metros do GBM**
A escolha dos hiperpar√¢metros √© fundamental para o desempenho do modelo GBM. Aqui est√£o os mais importantes:

#### **`n_estimators` (N√∫mero de √Årvores)**
- Define o **n√∫mero de √°rvores** adicionadas ao ensemble.
- Quanto maior, mais preciso pode ser o modelo, mas aumenta o risco de **overfitting**.

#### **`learning_rate` (Taxa de Aprendizado)**
- Controla a **contribui√ß√£o de cada √°rvore** no modelo final:

  $$ F_m(x) = F_{m-1}(x) + \gamma_m h_m(x) $$

- Taxas menores precisam de mais √°rvores para obter um bom desempenho.

#### **`max_depth` (Profundidade M√°xima das √Årvores)**
- Define a **complexidade das √°rvores**.
- **Valores altos** permitem capturar padr√µes complexos, mas podem causar **overfitting**.

#### **`max_features` (N√∫mero M√°ximo de Vari√°veis por Divis√£o)**
- Controla **quantas vari√°veis** s√£o consideradas ao dividir cada n√≥.

#### **`warm_start` (Incrementa√ß√£o do Modelo)**
- Permite adicionar mais √°rvores ao modelo sem perder as anteriores.

---

## **4. Otimiza√ß√£o de Hiperpar√¢metros com GridSearch**
Podemos usar **GridSearch** para encontrar os **melhores hiperpar√¢metros**.

In [5]:
import pandas as pd

In [6]:
%%time

estimators     = [10, 100, 1000, 10000]
learning_rates = [0.01, 0.03, 0.06, 0.1]
max_depths     = [1, 3, 6, 9]

grid_search = []

for n in estimators:
    for rate in learning_rates:
        for depth in max_depths:
            est = GradientBoostingRegressor(n_estimators=n, 
                                            learning_rate=rate, 
                                            max_depth=depth, 
                                            random_state=0, 
                                            loss='squared_error').fit(X_train, y_train)
            grid_search.append([n, rate, depth, mean_squared_error(y_test, est.predict(X_test))])
            
(pd.DataFrame(data=grid_search, 
              columns=['n_estimators', 'learning_rate', 'max_depth', 'mean_squared_error'])
   .sort_values(by='mean_squared_error', 
                ascending=True, 
                ignore_index=True))

CPU times: user 1min 25s, sys: 783 ms, total: 1min 25s
Wall time: 1min 29s


Unnamed: 0,n_estimators,learning_rate,max_depth,mean_squared_error
0,1000,0.03,1,3.625209
1,1000,0.06,1,3.667692
2,10000,0.10,3,3.733205
3,1000,0.10,3,3.733272
4,100,0.10,3,3.774987
...,...,...,...,...
59,10,0.03,1,21.909960
60,10,0.01,9,22.400111
61,10,0.01,6,22.472923
62,10,0.01,3,22.902975


## **5. Diferen√ßa entre GBM e Stochastic GBM**
O **Stochastic GBM** introduz **aleatoriedade** na sele√ß√£o de amostras para cada √°rvore, reduzindo o **overfitting**.

- **GBM tradicional**: Usa **todo o conjunto de dados** em cada itera√ß√£o.
- **Stochastic GBM**: Usa **subconjuntos aleat√≥rios**, combinando **Bagging e Boosting**.

Isso melhora a **generaliza√ß√£o do modelo** e reduz o tempo de treinamento.

---

### **Conclus√£o**
‚úÖ **AdaBoost** √© mais simples e r√°pido, mas sens√≠vel a outliers.  
‚úÖ **GBM** √© mais flex√≠vel, usa gradientes e suporta v√°rias fun√ß√µes de perda.  
‚úÖ **O ajuste fino dos hiperpar√¢metros √© essencial** para maximizar o desempenho do GBM.  