# <code style="color:red">Gradient Boost:</code>

O Gradient Boosting é o algoritmo de reforço que funciona com base no método de adição stagewise, em que vários algoritmos de aprendizado fracos são treinados e um algoritmo de aprendizado forte é usado como modelo final a partir da adição de vários algoritmos de aprendizado fracos treinados no mesmo conjunto de dados.

Neste algoritmo, o primeiro passo não será treinado no conjunto de dados, ele simplesmente retornará a média da coluna específica (variável target, Y) e o resíduo para saída do primeiro algoritmo do segundo passo será calculado, o qual será usado como saída ou coluna de destino para o próximo algoritmo de aprendizado fraco que deve ser treinado.

Seguindo o mesmo padrão, o segundo passo será treinado e os resíduos serão calculados que serão usados como coluna de saída novamente para o próximo passo, é assim que esse processo continuará até chegarmos a zero resíduos.

No aumento de gradiente, o conjunto de dados deve estar na forma de dados numéricos ou categóricos e a função de perda usando a qual os resíduos são calculados deve ser diferencial em todos os pontos.

### <code style="color:blue">5 Diferenças entre Adaboost e GBM:</code>

   - O Adaboost utiliza stumps como ponto de partida do algoritmo para conjunto de dados, já o GBM utiliza árvores, como no Random Forest. 
   - O primeiro passo do Adaboost é um stump, já no GBM é a média da variável Y(target).
   - No Adaboost cada resposta tem um peso diferente, já no GBM todas as respostas das árvores possui um multiplicador em comum chamado learning_rate(eta).
   - O GBM desenvolve uma árvore com a ajuda de resíduos do classificador anterior, capturando variações nos dados. A previsão final depende da votação máxima dos alunos da semana e é ponderada pela sua precisão. Já o Adaboost fornece valores aos classificadores observando determinada variância com os dados. Aqui todos os weak leaners possuem o mesmo peso e geralmente é fixado como a taxa de aprendizagem que é muito mínima em magnitude.
   - No GBM os próprios gradientes identificam as deficiências. Já no Adaboost os pontos de dados ponderados máximos são utilizados para identificar as deficiências.


# <code style="color:red">Exemplo GBM Regressor:</code>

In [2]:
from sklearn.datasets import make_regression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
X, y = make_regression(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
reg = GradientBoostingRegressor(random_state=0)
reg.fit(X_train, y_train)
GradientBoostingRegressor(random_state=0)
reg.predict(X_test[1:2])
reg.score(X_test, y_test)

0.4379326910967305

# <code style="color:red">Exemplo GBM CLassifier:</code>

In [3]:
>>> from sklearn.datasets import make_hastie_10_2
>>> from sklearn.ensemble import GradientBoostingClassifier

>>> X, y = make_hastie_10_2(random_state=0)
>>> X_train, X_test = X[:2000], X[2000:]
>>> y_train, y_test = y[:2000], y[2000:]

>>> clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)
>>> clf.score(X_test, y_test)

0.913

# <code style="color:red">Hyperparameters:</code>

GradientBoostingRegressor(*, loss='squared_error', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, init=None, random_state=None, max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None, warm_start=False, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001, ccp_alpha=0.0)

# <code style="color:red">Grid Search - GBM Classifier:</code>

In [4]:
%%time
from sklearn.model_selection import GridSearchCV

gb = GradientBoostingClassifier()

parametros = {
    'n_estimators': [20, 50],
    'min_samples_leaf': [2, 10],
    'learning_rate': [0.02, 0.06, 0.1],
    'max_depth' : [2]
}

grid = GridSearchCV(estimator=gb,
                    param_grid=parametros,
                    scoring='roc_auc',
                    verbose=False,
                    cv=2)

grid.fit(X_train, y_train.ravel())

Wall time: 2.03 s


In [5]:
grid.best_params_

{'learning_rate': 0.1,
 'max_depth': 2,
 'min_samples_leaf': 10,
 'n_estimators': 50}

# <code style="color:red">Grid Search - GBM Regressor:</code>

In [9]:
from sklearn.datasets import make_regression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
X, y = make_regression(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
reg = GradientBoostingRegressor(random_state=0)
reg.fit(X_train, y_train)
GradientBoostingRegressor(random_state=0)
reg.predict(X_test[1:2])
reg.score(X_test, y_test)

0.4379326910967305

In [10]:
%%time
from sklearn.model_selection import GridSearchCV

gb = GradientBoostingRegressor()

parametros = {
    'n_estimators': [20, 50],
    'min_samples_leaf': [2, 10],
    'learning_rate': [0.02, 0.06, 0.1],
    'max_depth' : [2]
}

grid = GridSearchCV(estimator=gb,
                    param_grid=parametros,
                    scoring='roc_auc',
                    verbose=False,
                    cv=2)

grid.fit(X_train, y_train.ravel())

Traceback (most recent call last):
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 767, in _score
    scores = scorer(estimator, X_test, y_test)
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 234, in __call__
    return self._score(
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 367, in _score
    raise ValueError("{0} format is not supported".format(y_type))
ValueError: continuous format is not supported

Traceback (most recent call last):
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 767, in _score
    scores = scorer(estimator, X_test, y_test)
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 234, in __call__
    return self._score(
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 367, in _score
    raise ValueError("{0} format is not suppo

Wall time: 522 ms


Traceback (most recent call last):
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 767, in _score
    scores = scorer(estimator, X_test, y_test)
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 234, in __call__
    return self._score(
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 367, in _score
    raise ValueError("{0} format is not supported".format(y_type))
ValueError: continuous format is not supported

Traceback (most recent call last):
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 767, in _score
    scores = scorer(estimator, X_test, y_test)
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 234, in __call__
    return self._score(
  File "C:\Users\lucca\anaconda3\lib\site-packages\sklearn\metrics\_scorer.py", line 367, in _score
    raise ValueError("{0} format is not suppo

In [11]:
grid.best_params_

{'learning_rate': 0.02,
 'max_depth': 2,
 'min_samples_leaf': 2,
 'n_estimators': 20}

### <code style="color:red">Diferença entre o Stochastic GBM e o GBM:</code>

   - Uma pequena modificação foi feita no aumento de gradiente para incorporar a aleatoriedade como parte integrante do procedimento. Especialmente, a cada iteração, uma subamostra dos dados de treinamento é extraída aleatoriamente (sem reposição) do conjunto completo de dados de treinamento. Essa subamostra selecionada aleatoriamente é então usada, em vez da amostra completa, para ajustar a base enxuta e calcular a atualização do modelo para a iteração atual.
   - Esse procedimento torna o Stochastic GBM mais rápido que o GBM.
