<a href="https://colab.research.google.com/github/ericbonelli/Cientista-de-Dados_EBAC/blob/main/GBM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üöÄ Gradient Boosting Machine (GBM)

---

## ‚úÖ 1. Cinco diferen√ßas entre AdaBoost e GBM

| Caracter√≠stica             | AdaBoost                                             | GBM (Gradient Boosting Machine)                          |
|----------------------------|------------------------------------------------------|-----------------------------------------------------------|
| Atualiza√ß√£o dos pesos     | Ajusta pesos dos exemplos com base nos erros        | Minimiza fun√ß√£o de perda diretamente                      |
| Tipo de fun√ß√£o de perda   | Usa erro classificat√≥rio                            | Pode usar MSE, MAE, LogLoss, etc. (mais flex√≠vel)         |
| Algoritmo de aprendizado  | Sequencial adaptativo                               | Otimiza√ß√£o via gradiente da fun√ß√£o de perda               |
| Sensibilidade a outliers  | Alta (por causa dos pesos)                          | Pode ser ajustada com `loss` e `learning_rate`            |
| Nome alternativo          | Adaptive Boosting                                   | Gradient Boosting                                         |

---

## ‚úÖ 2. Exemplos de Classifica√ß√£o e Regress√£o com GBM (`GradientBoostingClassifier` e `Regressor`)


In [1]:
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor
from sklearn.datasets import load_iris, make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error

# CLASSIFICA√á√ÉO
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("‚úÖ Acur√°cia (Classifica√ß√£o):", accuracy_score(y_test, y_pred))

# REGRESS√ÉO
Xr, yr = make_regression(n_samples=200, n_features=4, noise=0.1, random_state=42)
Xr_train, Xr_test, yr_train, yr_test = train_test_split(Xr, yr, random_state=42)

reg = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
reg.fit(Xr_train, yr_train)
yr_pred = reg.predict(Xr_test)
print("‚úÖ Erro Quadr√°tico M√©dio (Regress√£o):", mean_squared_error(yr_test, yr_pred))

‚úÖ Acur√°cia (Classifica√ß√£o): 1.0
‚úÖ Erro Quadr√°tico M√©dio (Regress√£o): 951.4441426212903


## ‚úÖ 3. Cinco hiperpar√¢metros importantes no Gradient Boosting (GBM)

| Hiperpar√¢metro     | Descri√ß√£o                                                                                   |
|--------------------|----------------------------------------------------------------------------------------------|
| `n_estimators`     | N√∫mero total de √°rvores (modelos fracos) treinadas sequencialmente.                         |
| `learning_rate`    | Controla o impacto de cada √°rvore na predi√ß√£o final. Valores menores exigem mais √°rvores.  |
| `max_depth`        | Profundidade m√°xima de cada √°rvore. Limita a complexidade e ajuda a evitar overfitting.     |
| `subsample`        | Propor√ß√£o dos dados de treino usados em cada √°rvore (Stochastic GBM se < 1.0).              |
| `loss`             | Fun√ß√£o de perda a ser minimizada (ex: `log_loss` para classifica√ß√£o, `squared_error` para regress√£o). |

---

### üß† Observa√ß√µes:

- **`n_estimators`** e **`learning_rate`** t√™m uma rela√ß√£o inversa: quanto menor o learning rate, mais √°rvores geralmente s√£o necess√°rias.
- **`max_depth`** controla a complexidade de cada √°rvore ‚Äî profundidades maiores capturam padr√µes mais complexos, mas podem causar overfitting.
- **`subsample < 1.0`** ativa o modo *Stochastic GBM*, introduzindo aleatoriedade e melhorando a capacidade de generaliza√ß√£o.
- **`loss`** depende da tarefa: `log_loss` √© padr√£o para classifica√ß√£o, `squared_error` para regress√£o.

---

### üí° Dica pr√°tica:

Comece com:

```python
GradientBoostingClassifier(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=3,
    subsample=0.8,
    loss='log_loss',
    random_state=42
)


## ‚úÖ 4. Ajuste autom√°tico com GridSearchCV

In [2]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100],
    'learning_rate': [0.05, 0.1, 0.2],
    'max_depth': [2, 3, 5],
    'subsample': [0.6, 0.8, 1.0]
}

grid = GridSearchCV(
    GradientBoostingClassifier(random_state=42),
    param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    verbose=2
)

grid.fit(X_train, y_train)
print("üéØ Melhores par√¢metros:", grid.best_params_)
print("‚úÖ Acur√°cia com modelo ajustado:", accuracy_score(y_test, grid.best_estimator_.predict(X_test)))


Fitting 5 folds for each of 54 candidates, totalling 270 fits
üéØ Melhores par√¢metros: {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 50, 'subsample': 0.6}
‚úÖ Acur√°cia com modelo ajustado: 1.0


## ‚úÖ 5. Diferen√ßa entre GBM tradicional e Stochastic GBM

üìñ Segundo o artigo **"Stochastic Gradient Boosting"** de Jerome Friedman (1999):

### üéØ A maior diferen√ßa entre os dois algoritmos est√° no uso de **subamostragem aleat√≥ria** dos dados.

| Caracter√≠stica             | GBM Tradicional                              | Stochastic GBM                                  |
|----------------------------|-----------------------------------------------|-------------------------------------------------|
| Dados usados por itera√ß√£o  | 100% dos dados de treino                      | Apenas uma fra√ß√£o dos dados (ex: 50% ou 80%)    |
| Par√¢metro chave            | ‚Äî                                             | `subsample < 1.0` no `GradientBoosting`         |
| Varia√ß√£o/aleatoriedade     | Nenhuma (determin√≠stico)                      | Introduzida via amostragem sem reposi√ß√£o        |
| Vantagens                  | Aprendizado mais est√°vel                     | Reduz overfitting e melhora generaliza√ß√£o       |
| Nome dado por Friedman     | ‚Äî                                             | **Stochastic Gradient Boosting**                |

---

### ‚úÖ Em resumo:

> **A principal diferen√ßa entre o GBM tradicional e o Stochastic GBM √© que o Stochastic utiliza apenas uma amostra aleat√≥ria dos dados de treino em cada itera√ß√£o (definida pelo par√¢metro `subsample`), enquanto o GBM tradicional usa todos os dados.**

Essa estrat√©gia de aleatoriedade controlada **ajuda a reduzir o overfitting** e torna o modelo mais **robusto em dados ruidosos ou com muitos exemplos similares**.

---