# Diferenças entre AdaBoost e Gradient Boosting (GBM)

| **Aspecto**                   | **AdaBoost**                                                                 | **Gradient Boosting (GBM)**                                                     |
|--------------------------------|------------------------------------------------------------------------------|--------------------------------------------------------------------------------|
| **Tamanho das Árvores**        | Usa árvores pequenas, geralmente de apenas uma folha (árvores de decisão "stumps"). | Permite o uso de árvores de tamanhos variáveis, conforme configurado.           |
| **Método de Atualização**      | Não realiza uma verificação explícita da resposta; ajusta os pesos diretamente. | Usa uma soma dos erros para ajustar o modelo, otimizando uma função de perda.   |
| **Estratégia de Combinação**   | Combina os modelos base ponderando os erros por reponderação dos pesos.      | Combina os modelos base utilizando gradiente descendente em uma função de perda. |
| **Robustez a Overfitting**     | Mais sensível a overfitting em dados ruidosos.                              | Pode ser regularizado para reduzir overfitting por meio de parâmetros como learning rate. |
| **Velocidade de Treinamento**  | Geralmente mais rápido em conjuntos pequenos de dados.                      | Pode ser mais lento devido à complexidade de otimizar a função de perda.        |
| **Flexibilidade de Funções de Perda** | Suporta apenas funções de perda específicas (e.g., classificação ou regressão simples). | Oferece maior flexibilidade, permitindo diferentes funções de perda.           |


# exemplo de aplicação.

In [1]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [2]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

In [3]:
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

# Hiperparâmetros mais importantes do Gradient Boosting (GBM)

1. **`n_estimators`**  
   Número de árvores (ou modelos fracos) a serem treinados. Um valor maior pode aumentar o desempenho, mas também o risco de overfitting.  
   - **Default:** 100  

2. **`learning_rate`**  
   Taxa de aprendizado que controla a contribuição de cada árvore para o modelo final. Valores menores requerem mais árvores (`n_estimators`).  
   - **Default:** 0.1  

3. **`max_depth`**  
   Profundidade máxima das árvores. Limita o crescimento para evitar overfitting.  
   - **Default:** 3  

4. **`min_samples_split`**  
   Número mínimo de amostras necessárias para dividir um nó. Controla o nível de segmentação da árvore.  
   - **Default:** 2  

5. **`subsample`**  
   Proporção de amostras a serem usadas para treinar cada árvore. Usar menos de 1.0 introduz aleatoriedade, ajudando a reduzir o overfitting.  
   - **Default:** 1.0  



# Diferença entre GBM e Stochastic GBM

A principal diferença entre o **Gradient Boosting Machine (GBM)** tradicional e o **Stochastic Gradient Boosting Machine (Stochastic GBM)**, descrito no artigo de Jerome Friedman, é o uso de amostragem aleatória de dados em cada iteração do algoritmo Stochastic GBM, enquanto o GBM tradicional utiliza todo o conjunto de dados.

## Diferença-principal:
- **GBM (Tradicional)**:
  - Usa todo o conjunto de dados para treinar cada árvore em cada etapa.
  - É mais determinístico, mas pode ser suscetível ao overfitting, especialmente em dados ruidosos.

- **Stochastic GBM**:
  - Em cada iteração, utiliza apenas uma amostra aleatória dos dados (definida pelo parâmetro `subsample`).
  - Introduz variabilidade no processo de treinamento, melhorando a **generalização** e reduzindo o overfitting.

## Vantagens do Stochastic GBM:
1. **Melhor Generalização**: A aleatoriedade reduz a tendência de overfitting.
2. **Desempenho Mais Rápido**: Processa um subconjunto menor de dados por iteração.
3. **Robustez ao Ruído**: É menos influenciado por outliers ou padrões ruidosos nos dados.

