# Gradient Boosting Machine - GBM

## 1. Cite 5 diferenças entre o AdaBoost e o GBM.

- **Mecanismo de construção do modelo:** O Adaboost é um algoritmo de boosting que ajusta um modelo fraco iterativamente contendo arvores de decisão com profundidade um (stumps), enquanto o GBM é uma técnica de boosting que ajusta modelos de árvore de decisão completas.


- **Função de custo:** O Adaboost usa uma função de custo exponencial, enquanto o GBM usa uma função de custo diferenciável arbitrária.


- **Reponderação:** O Adaboost repondera as observações de treinamento após cada iteração, dando maior peso às observações mal classificadas, enquanto o GBM ajusta os modelos em cada iteração para minimizar o gradiente da função de custo.


- **Abordagem de ajuste do modelo:** O Adaboost ajusta os modelos de forma sequencial, enquanto o GBM ajusta todos os modelos de forma simultânea.


- **Sensibilidade ao ruído:** O Adaboost é mais sensível a observações ruidosas do que o GBM, já que o Adaboost dá maior peso às observações mal classificadas, enquanto o GBM não depende tanto das observações individuais devido ao seu processo de ajuste simultâneo.



## 2. Acesse o link [Scikit-learn – GBM](https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting), leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.



In [1]:
##Exemplo classificação.

from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100,
                                 learning_rate=1.0,
                                 max_depth=1,
                                 random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [2]:
## Exemplo regressão.

import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(n_estimators=100,
                                learning_rate=0.1,
                                max_depth=1,
                                random_state=0,
                                loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960321

## 3.Cite 5 Hyperparametros importantes no GBM.

Os dois mais importantes são: **n_estimators** e **learning_rate**, que indicam o número de árvores e a taxa de aprendizado. O tamanho das arvores pode ser controlados atravez do **max_depth** que indica o numero de nós de cada arvore e **max_leaf_nodes** pela quantidade de folhas e a **perda**.

## 4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados o exemplo.

In [3]:
%%time
from sklearn.model_selection import GridSearchCV

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]


gb = GradientBoostingClassifier()

parametros = {
    'n_estimators': [100, 300, 600],
    'min_samples_leaf': [2, 10, 20],
    'learning_rate': [0.04, 0.06, .1]
}

grid = GridSearchCV(estimator=gb,
                    param_grid=parametros,
                    scoring='roc_auc',
                    verbose=False,
                    cv=2)

grid.fit(X_train, y_train.ravel())

CPU times: total: 1min 27s
Wall time: 1min 27s


In [4]:
grid.best_params_

{'learning_rate': 0.1, 'min_samples_leaf': 20, 'n_estimators': 600}

## 5. Acessando o artigo do [Jerome Friedman (Stochastic)](https://jerryfriedman.su.domains/ftp/stobst.pdf) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

O GBM ajusta todas as amostras de treinamento em cada iteração, o Stochastic GBM usa uma amostra aleatória para ajustar o gradiente da função de perda em cada iteração (sem reposição), o que pode tornar o treinamento mais rápido e eficiente para grandes conjuntos de dados.