# Fundamentos de Boosting - Gradient Boost Machine (GBM)
1 - Dentre as diferenças entre o AdaBoost e o GBM podemos citar:
- No AdaBoost os erros são ponderados levando-se em consideração a performance do modelo na iteração anterior,<br> dando assim maior peso aos casos mal classificados. Já no GBM, o algoritmo funciona de um modo onde a iteração atual é feita para se prever os resíduos da iteração anterior, de forma que a cada iteração este resíduo tende a dimiuir.
- No AdaBoost cada modelo é dependente dos modelos anteriores, já no GBM cada modelo é independente, sendo que apenas o resíduo<br> do modelo anterior será predito pelo próximo modelo.
- Por conta disso, o GBM possui paralelização muito mais fácil que o AdaBoost.
- Como o AdaBoost, pela própria natureza da técnica tende a dar pesos cada vez maiores aos valores classificados de forma errada, este tende a ser<br> muito mais sensível a outliers que o GBM.
- Enquanto o AdaBoost usa uma floresta de árvores de profundidade igual a 1 (stumps), o GBM não possui um limite definido por padrão na profundidade<br> de suas árvores, podendo resultar em modelos bem mais complexos.

In [1]:
# 2 - Este exemplo foi retirado diretamente do seite do scikitlearn
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.datasets import make_hastie_10_2

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = HistGradientBoostingClassifier(max_iter=100).fit(X_train, y_train)
clf.score(X_test, y_test)

0.8965

3 - Dentre os hiperparâmetros do GBM podemos citar:
- n_estimators: o número de árvores de decisão a serem construídas no processo de boosting.
- learning_rate: taxa de aprendizado, determina qual a contribuição de cada árvore no processo de boosting. Um larning_rate menor pode resultar em um treinamento mais lento, mas que geralmente possui capacidade de generalização maior.
- max_depth: determina a profundidade máxima das árvores de decisão.
- min_samples_split: indica a quantidade mínima de amostras necessárias para se dividir um nó interno em uma árvore de decisão.
- subsample: especifica a fração de amostras a serem usadas para ajustar cada árvore de decisão.

In [5]:
# 4
from sklearn.model_selection import GridSearchCV

param_grid = {
    'learning_rate': [0.01, 0.1, 0.2],  
    'max_iter': [100, 200, 300],         
    'max_depth': [3, 5, 7]               
}

clf = HistGradientBoostingClassifier()
grid_search = GridSearchCV(clf, param_grid, cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)

# Extraindo os melhores parâmetros e pontuação
best_params = grid_search.best_params_
best_score = grid_search.best_score_

print("Melhores parâmetros encontrados:")
print(best_params)




Melhores parâmetros encontrados:
{'learning_rate': 0.2, 'max_depth': 3, 'max_iter': 300}


5 - A palavra 'estocástico' se refere a algo que envolve aleatoriedade e incerteza, no caso, 'Stochastic GBM' se refere a um processo de GBM onde,<br> ao fim de cada iteração um subconjunto dos dados de treinamento é criado aleatoriamente, esse subconjunto é usado na próxima iteração,<br> invés do conjunto de dados completo.