# Fundamentos de Boosting - Adaboost

1 - Dentre as diferenças entre o random forest e o adaboost podemos citar:<br>
- No random forest as árvores são treinada de forma independente, já no adaboost elas são interdependentes.<br>
- No random forest todos os outputs do modelo possuem o mesmo peso (ponderados igualmente), já no adaboost o modelo da mais aos exemplos classificados como incorretos nas iterações anteriores.<br>
- No adaboost as árvores contêm apenas 2 folhas cada (stumps), enquanto no random forest elas não possuem um tamanho pré definido por default.<br>
- Em geral, o random forest tende a gerar modelos maiores que o adaboost, já qu o primeiro não possui limitações quanto a profundidade da árvore.<br>
- Como o random forest roda com árvores independentes, este é mais fácilmente paralelizado que o adaboost, ainda que existam variantes do adaboost que tentem mitigar este problema.

In [1]:
# 2 - Este exemplo foi retirado diretamente do seite do scikitlearn
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME",)
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9533333333333334

3 - Dentre os hiperparâmetros do AdaBoost temos:
- estimator: O tipo de estimador fraco a ser usado no AdaBoost, por padrão é o modelo de stumps.
- n_estimators: Define o número máximo de estimadores a ser usados no moedelo.
- learning_rate: Controla a contribuição de cada estimador para a atualização dos pesos durante o treinamento.
- algorithm: Define se o tipo de algoritmo 'SAMME' o SAMME.R' será usado no modelo.
- random_state: Controla a aleatoriedade dada a cada estimador a cada iteração de boosting.

In [2]:
# 4 - Aqui iremos usar o GridSearchCV para avaliar quais os melhores hiperparâmetros dentre os valores passados
from sklearn.model_selection import GridSearchCV
X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier()
param_grid = {
    'n_estimators': [50, 100, 150],  # Número de estimadores
    'learning_rate': [0.1, 0.5, 1.0],  # Taxa de aprendizado
    'algorithm': ['SAMME', 'SAMME.R']  # Algoritmo de boosting
}

grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5)
grid_search.fit(X, y)

print("Melhores hiperparâmetros encontrados:")
print(grid_search.best_params_)

Melhores hiperparâmetros encontrados:
{'algorithm': 'SAMME', 'learning_rate': 0.1, 'n_estimators': 150}
