# Adaboost

## 1. Cite 5 diferenças entre o Random Forest e o AdaBoost

O Random Forest e o AdaBoost são dois algoritmos populares de aprendizado de máquina que são usados ​​para construir modelos de classificação ou regressão. Aqui estão cinco diferenças entre eles:

- **Abordagem do Ensemble**: Random Forest é um algoritmo de ensemble que constrói várias árvores de decisão independentes e as combina para produzir uma previsão final. O AdaBoost, por outro lado, é um algoritmo de boosting que constrói uma sequência de modelos fracos (por exemplo, árvores de decisão com poucos níveis) que são combinados para criar um modelo forte.

- **Peso das instâncias**: No AdaBoost, cada instância de treinamento é atribuída um peso, que é ajustado a cada iteração do algoritmo com o objetivo de corrigir as predições incorretas dos modelos anteriores. No Random Forest, todas as instâncias têm o mesmo peso e cada árvore é construída com uma amostra aleatória do conjunto de treinamento.

- **Seleção de features**: Random Forest seleciona um subconjunto aleatório das características do conjunto de treinamento para cada árvore, enquanto o AdaBoost usa todas as características em cada iteração.

- **Sensibilidade a Outliers**: O AdaBoost é mais sensível a outliers e ruídos do que o Random Forest, pois dá maior peso às instâncias que são classificadas incorretamente pelos modelos anteriores.

- **Performance**: O Random Forest é geralmente mais rápido do que o AdaBoost em grandes conjuntos de dados, pois pode ser paralelizado e cada árvore pode ser construída independentemente. Além disso, o Random Forest geralmente requer menos ajuste de hiperparâmetros do que o AdaBoost. No entanto, o AdaBoost geralmente produz modelos com melhor desempenho em conjuntos de dados menores ou mais complexos.


## 2. Acesse o link Scikit-learn – adaboost, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.

In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
import numpy as np

In [3]:
X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100)
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9466666666666665

## 3. Cite 5 Hyperparametros importantes no AdaBoost

1. n_estimators 
2. learning_rate
3. max_depth
4. estimator
5. min_samples_split

## 4. GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [7]:
from sklearn.model_selection import GridSearchCV

# definindo o modelo:

model = AdaBoostClassifier()

# definindo o grid de parametros para o modelo:

grid = dict()
grid['n_estimators'] = [10, 50, 100, 500]
grid['learning_rate'] = [0.0001, 0.001, 0.01, 0.1, 1.0]

# definindo a pesquisa
grid_search = GridSearchCV(estimator=model,
                           param_grid=grid,
                           n_jobs=-1,
                           cv=10,
                           scoring='accuracy')

# executando o gridsearch.
grid_result = grid_search.fit(X, y)

# imprimindo os resultados.
print("Melhor: %f utilizando: %s" %
      (grid_result.best_score_, grid_result.best_params_))

Melhor: 0.953333 utilizando: {'learning_rate': 0.0001, 'n_estimators': 500}
