# Gradient Boosting Machine

### 5 diferenças entre o AdaBoost e o GBM

- Abordagem de construção do modelo: O AdaBoost ajusta os pesos das instâncias dos dados a cada iteração para criar uma série de modelos fracos que são combinados para formar um modelo forte. Por outro lado, o GBM ajusta os resíduos dos modelos anteriores a cada iteração, criando uma série de modelos sucessivos que tentam corrigir os erros dos modelos anteriores.

- Função de perda: O AdaBoost utiliza uma função de perda exponencial que é sensível a outliers. Em contraste, o GBM pode usar várias funções de perda, como a função de perda de desvio absoluto (L1) ou a função de perda de erro quadrático médio (L2), que são menos sensíveis a outliers.

-  Número de hiperparâmetros: O AdaBoost tem menos hiperparâmetros para ajustar, geralmente apenas um parâmetro de aprendizado que controla a taxa de aprendizado. O GBM tem mais hiperparâmetros para ajustar, como o número de árvores de decisão, a profundidade máxima da árvore, a taxa de aprendizado e a fração de amostras utilizadas para cada árvore.

- Sensibilidade ao ruído: O AdaBoost é mais sensível ao ruído nos dados de treinamento do que o GBM, pois os erros em instâncias individuais têm um grande efeito no ajuste de pesos. O GBM, por outro lado, pode lidar melhor com dados ruidosos, já que ele se concentra em ajustar os resíduos dos modelos anteriores, em vez de ajustar diretamente os dados de treinamento.

- Velocidade de treinamento: O AdaBoost é mais rápido para treinar do que o GBM, pois ele constrói modelos fracos simples que exigem menos recursos computacionais. Em contraste, o GBM constrói modelos sucessivos mais complexos que exigem mais tempo de processamento para treinar.

## Exemplo GBM Scikit Learn

Exemplo de como fitar um classificador gradient boost com 100 stumps como weak learners.

In [2]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

In [3]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(
    n_estimators=100, 
    learning_rate=1.0, 
    max_depth=1, 
    random_state=0
).fit(X_train, y_train)

clf.score(X_test, y_test)

0.913

In [4]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0).fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960321

## Hiperparâmetros do AdaBoost

- n_estimators: Número de árvores a serem treinadas.
- learnig_rate: multiplicador da contribuição de cada árvore na obtenção da resposta.
- max_depth: Profundidade máxima de cada árvore.
- max_leaf_nodes: Número máximo de nós de cada árvore.
- loss: Função que será usada para otimizar as árvores.

## GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo anterior (np_estimator e learning_rate)

In [5]:
import numpy as np
from sklearn.model_selection import GridSearchCV

est = GradientBoostingRegressor()

params = {
    'n_estimators': np.arange(1, 501, 20),
    'learning_rate': np.linspace(0.001, 1.0, 10)
}

grid = GridSearchCV(
    estimator = est,
    param_grid = params,
    scoring = 'r2',
    cv = 5
)

grid.fit(X_train, y_train)
grid.score(X_test, y_test)

0.8603689515156953

### Qual a maior diferença entre os dois algoritmos Stochastic GBM e o GBM?

A principal diferença é que no Stochastic GBM é a incorporação da aleatoriedade como parte integral do processo. Em cada iteração uma sub-amostra de base de treino é extraída de maneira aleatória (sem reposição) da base de treino completa. Etapa que não existe no GBM.