# Gradient Boosting Machine - GBM

## **O que é o** Gradient Boosting **Machine - GBM:**

O Gradient Boosting é uma técnica poderosa de aprendizado de máquina usada principalmente para tarefas de regressão e classificação. Ela combina a previsibilidade de vários modelos simples (fracos) para criar um modelo final forte. Aqui está uma explicação detalhada de como ela funciona:

### Conceitos Básicos

1. **Boosting**:  
    - O Boosting é uma técnica que combina diversos weak predictors para criar um strong predictor. A ideia é construir modelos em sequência, onde cada modelo subsequente tenta corrigir os erros do modelo anterior.

2. **Gradient Descent**:  
    - É um algoritmo de otimização usado para encontrar os mínimos de uma função. No Gradient Boosting, ele é utilizado para minimizar a loss ajustando os parâmetros dos modelos.

### Como Funciona o Gradient Boosting

1. **Inicialização**:  
    - O processo começa com um modelo base \( f_0 \), que pode ser um preditor simples, como a média dos valores de saída no caso de regressão.

2. **Construção de Modelos Sequenciais**:  
    - Uma série de \( M \) weak models \( f_1, f_2, \dots, f_M \) é construída iterativamente.  
    - A cada iteração \( m \), um novo modelo \( f_m \) é adicionado ao modelo combinado para reduzir o erro residual dos modelos anteriores.  

3. **Cálculo dos Resíduos**:  
    - A cada passo, os resíduos são calculados como a diferença entre as previsões atuais e os valores reais. Os resíduos representam os erros cometidos pelo modelo atual.  
    - Resíduo \( r_i^{(m)} \) para a iteração \( m \):  
      \[
      r_i^{(m)} = y_i - f_{m-1}(x_i)
      \]
      Onde \( y_i \) é o valor real e \( f_{m-1}(x_i) \) é a previsão do modelo corrente.

4. **Treinamento do Novo Modelo**:  
    - Um novo modelo \( f_m \) é treinado para prever os resíduos calculados no passo anterior.

5. **Atualização do Modelo**:  
    - O modelo atual é atualizado combinando o modelo anterior com o novo modelo ponderado por um learning rate \( \eta \):  
      \[
      f_m(x) = f_{m-1}(x) + \eta \cdot f_m(x)
      \]
      \( \eta \) é um parâmetro que controla a contribuição de cada novo modelo (geralmente um valor pequeno para evitar overfitting).

6. **Iteração**:  
    - O processo é repetido até que o número de modelos \( M \) seja atingido ou até que o erro fique abaixo de um limite predefinido.

### Vantagens do Gradient Boosting

- **Precisão**: Geralmente produz modelos muito precisos.
- **Flexibilidade**: Pode ser usado para uma ampla gama de funções de perda e com vários tipos de weak predictors.
- **Gerenciamento de Features Heterogêneas**: É capaz de lidar com diferentes tipos de variáveis (numéricas, categóricas, etc.).

### Desvantagens do Gradient Boosting

- **Tempo de Treinamento**: Pode ser lento para treinar, especialmente com grandes datasets.
- **Sensível a Dados Ruidosos**: Pode overfit se não for devidamente regularizado (regularized).

### Melhorias e Variações

- **Gradient Boosting Machines (GBM)**: Uma biblioteca popular que implementa gradient boosting.
- **XGBoost**: Uma biblioteca otimizada para eficiência e velocidade.
- **LightGBM**: Projetada para ser rápida e escalável para grandes datasets.
- **CatBoost**: Otimizada para dados categóricos.

## **Diferenças entre AdaBoost e Gradient Boosting Machine:**

Os pontos abaixo destacam as principais diferenças nos métodos de treinamento, no gerenciamento dos pesos dos exemplos, nos tipos de modelos base utilizados, nas funções objetivo otimizadas e nas características gerais de complexidade, flexibilidade e velocidade de treinamento.

AdaBoost e Gradient Boosting Machine (GBM) são ambos métodos de ensemble que combinam vários weak predictors para construir um modelo preditivo mais robusto. No entanto, existem diferenças fundamentais entre as duas abordagens:

![](https://raw.githubusercontent.com/enzoschitini/machine-learning/refs/heads/Ensemble-Techniques/img/GBM.png)

| Característica | AdaBoost | Gradient Boosting Machine |
| --- | --- | --- |
| **Processo de treinamento** | Treina weak predictors ajustando os pesos dos erros | Treina weak predictors sequencialmente minimizando os resíduos do modelo anterior |
| **Gestão dos pesos dos exemplos** | Aumenta o peso dos exemplos classificados erroneamente | Não modifica diretamente os pesos, foca nos resíduos |
| **Tipo de modelos base** | Geralmente árvores de decisão com profundidade limitada | Árvores de decisão, mas pode usar modelos mais complexos |
| **Função objetivo** | Minimiza o erro de classificação | Minimiza uma função de perda (deviança para regressão, entropia cruzada para classificação) |
| **Complexidade e flexibilidade** | Menos flexível, indicado para modelos simples | Mais flexível, adequado para modelos mais complexos |
| **Sensibilidade ao overfitting** | Mais sensível ao overfitting se não regularizado | Menos sensível ao overfitting se bem regularizado |
| **Velocidade de treinamento** | Geralmente mais rápido | Geralmente mais lento |
| **Floresta** | Floresta de Stumps | Floresta de Árvores |
| **Primeiro passo** | O primeiro passo é um Stump | O primeiro passo é a média de YY |
| **Peso dos modelos** | Os modelos têm pesos diferentes | Todos os modelos são multiplicados por η\eta |

## 5 Hiperparâmetros Importantes no Gradient Boosting Machine (GBM)

---

No Gradient Boosting Machine (GBM), o ajuste correto dos hiperparâmetros é crucial para obter um modelo ideal. A seguir, estão os 5 hiperparâmetros mais importantes:

1. **Número de Árvores (n_estimators)**:
    - Determina o número total de árvores de decisão (modelos fracos) no processo de boosting.
    - **Efeito**: Um número maior pode melhorar a precisão, mas aumenta o risco de overfitting e o tempo de treinamento.
    - **Sugestão**: Use valores altos combinados com uma baixa `learning_rate` para melhorar a generalização.
2. **Taxa de Aprendizado (learning_rate)**:
    - Controla a velocidade com que o modelo aprende, reduzindo a influência de cada árvore.
    - **Efeito**: Valores mais baixos requerem mais árvores (`n_estimators`), mas aumentam a robustez contra overfitting.
    - **Sugestão**: Comece com valores baixos (ex.: 0.01 ou 0.1) e ajuste o número de árvores em conformidade.
3. **Profundidade Máxima das Árvores (max_depth)**:
    - Especifica a profundidade máxima das árvores de decisão.
    - **Efeito**: Árvores mais profundas capturam relações mais complexas, mas aumentam o risco de overfitting.
    - **Sugestão**: Para datasets simples ou com ruído, utilize profundidades menores (ex.: 3-5).
4. **Subamostragem (subsample)**:
    - Indica a porcentagem de dados usada para construir cada árvore.
    - **Efeito**: Valores menores que 1.0 introduzem aleatoriedade e reduzem a variância, melhorando a capacidade de generalização.
    - **Sugestão**: Teste valores entre 0.7 e 0.9 para resultados equilibrados.
5. **Número Mínimo de Amostras em uma Folha (min_samples_leaf)**:
    - Representa o número mínimo de dados necessários para formar uma folha em uma árvore.
    - **Efeito**: Valores mais altos simplificam os modelos, reduzindo o risco de overfitting.
    - **Sugestão**: Use valores entre 10 e 50 para datasets de tamanho médio.

### Outros Hiperparâmetros Importantes

Além desses cinco, outros hiperparâmetros, como **max_features** (número máximo de features consideradas para a divisão) e **regularization terms** (L1/L2), podem influenciar significativamente o desempenho. No entanto, os cinco listados representam os mais críticos para um ajuste inicial eficaz.

## Code

## **Diferença Principal entre Stochastic Gradient Boosting Machine e Gradient Boosting Machine**

O termo **"Stochastic Gradient Boosting" (SGB)** refere-se a uma **variante do Gradient Boosting Machine** (GBM), proposta por Jerome Friedman. A maior diferença entre o tradicional Gradient Boosting e o Stochastic Gradient Boosting está na introdução de aleatoriedade durante o treinamento dos modelos base (normalmente árvores de decisão) em cada iteração do processo de boosting.

### Resumo das Diferenças

- **Uso do Dataset**: O GBM utiliza o dataset completo em cada iteração, enquanto o SGBM utiliza apenas um subconjunto aleatório dos dados em cada iteração.
- **Velocidade de Treinamento**: O SGBM tende a ser mais rápido devido ao amostramento de subconjuntos menores.
- **Robustez e Generalização**: O SGBM pode ser mais robusto e generalizar melhor, reduzindo o risco de overfitting em comparação ao GBM.

Em resumo, a principal diferença entre **Stochastic Gradient Boosting Machine** e **Gradient Boosting Machine** está no uso de amostragem aleatória pelo SGBM, que introduz aleatoriedade no treinamento, tornando o algoritmo mais eficiente e frequentemente mais robusto do que o GBM tradicional.

| **Característica** | **Gradient Boosting Machine (GBM)** | **Stochastic Gradient Boosting Machine (SGBM)** |
| --- | --- | --- |
| **Definição** | Algoritmo de boosting que cria um modelo preditivo treinando sequencialmente modelos fracos em todo o dataset. | Variante do GBM que utiliza amostragem aleatória de um subconjunto do dataset em cada iteração. |
| **Amostragem de Dados** | Usa o dataset completo para treinar cada nova árvore. | Usa um subconjunto aleatório do dataset para treinar cada nova árvore (*stochastic subsampling*). |
| **Eficiência** | Relativamente lento, pois cada iteração utiliza o dataset completo. | Mais rápido, já que cada iteração usa apenas uma parte do dataset. |
| **Robustez e Generalização** | Maior risco de overfitting em datasets com ruído. | Maior robustez e melhor generalização, reduzindo o risco de overfitting. |
| **Objetivo do Treinamento** | Minimiza uma função de perda treinando novos modelos nos resíduos dos erros anteriores. | Mesmo objetivo do GBM, mas com adição de aleatoriedade para reduzir a variância e melhorar a robustez. |
| **Principal Vantagem** | Poderoso para modelar padrões complexos nos dados. | Mais robusto e rápido, reduzindo a variância e melhorando a capacidade de generalização. |

As duas técnicas de machine learning mencionadas, **Stochastic Gradient Boosting Machine (SGBM)** e **Gradient Boosting Machine (GBM)**, são variantes de algoritmos de boosting usados para melhorar a precisão de modelos preditivos, combinando uma série de modelos fracos para criar um modelo forte. Aqui estão as principais diferenças entre as duas:

### Gradient Boosting Machine (GBM)

1. **Definição**:
    - O GBM é um algoritmo de aprendizado supervisionado que cria um modelo preditivo através de uma série de modelos fracos, geralmente árvores de decisão, treinados sequencialmente.
    - O objetivo é minimizar uma função de perda, como o erro quadrático médio para regressão ou a log-loss para classificação.
2. **Abordagem de Treinamento**:
    - Em cada iteração, uma nova árvore é treinada sobre os resíduos do erro do modelo anterior.
    - Cada novo modelo tenta corrigir os erros cometidos pelo modelo anterior, melhorando gradualmente o desempenho geral.
3. **Amostragem**:
    - O GBM usa o dataset completo para treinar cada nova árvore, sem amostragem aleatória dos dados.
4. **Eficiência e Velocidade**:
    - O GBM pode ser relativamente lento, pois utiliza o dataset completo para cada iteração.

### Stochastic Gradient Boosting Machine (SGBM)

1. **Definição**:
    - O SGBM é uma variante do GBM que introduz aleatoriedade no processo de treinamento, utilizando amostragem aleatória de uma parte do dataset em cada iteração.
2. **Abordagem de Treinamento**:
    - Semelhante ao GBM, cada novo modelo tenta corrigir os erros do modelo anterior. No entanto, a principal diferença é que cada árvore é treinada sobre um subconjunto aleatório do dataset.
    - Essa amostragem é conhecida como "stochastic subsampling" ou "bagging".
3. **Amostragem**:
    - Em vez de usar o dataset completo, o SGBM seleciona aleatoriamente uma fração do dataset (geralmente 50% ou menos) para treinar cada nova árvore.
    - Essa abordagem pode reduzir a variância e prevenir overfitting, tornando o modelo mais robusto.
4. **Eficiência e Velocidade**:
    - O SGBM tende a ser mais rápido que o GBM, pois cada árvore é treinada sobre um subconjunto menor de dados.
    - A redução da variância pode levar a uma melhor generalização, especialmente em datasets ruidosos ou com muitos outliers.