### Atividade 1 - Cite 5 diferenças entre o Random Forest e o AdaBoost

Random Forest vs AdaBoost

1. Random Forest utiliza uma floresta de árvores de decisão com a possibilidade de serem completas ou podadas. AdaBoost utiliza uma floresta de *stumps*, que são árvores de decisão com apenas 1 de profundidade e 2 folhas. 
2. Random Forest utiliza árvores independentes, que podem rodar paralelamente com os datasets individualmente criados por amostragem aleatória com repetição (*Bootstrap*). No AdaBoost as árvores (*stumps*) são influenciadas entre si sequencialmente e os datasets sequenciais são criados por Booststrap com peso, baseado no cálculo de performance do melhor *stump*, onde exemplos classificados incorretamente têm maior probabilidade de serem selecionados. 
3. No Random Forest as respostas tem o mesmo peso independente da qualidade de classificação da árvore. No AdaBosst as respostas tem pesos diferentes, influenciando consequentemente nas relevâncias de cada resposta. 
4. Random Forest utiliza uma quantidade definida de variáveis aleatórias (*feature selection*) em cada árvore. AdaBoost utiliza somente uma variável explicativa para cada *stump*. 
5. Random Forest utiliza o procedimento de votação majoritária simples como previsão. AdaBoost utiliza como predição final uma votação majoritária ponderada das respostas de acordo com a performance de cada *stump*.

### Atividade 2 - Acesse o [link Scikit-learn–adaboost](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação (traduza se for preciso) e crie um jupyternotebook contendo o exemplo do AdaBoost

In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

In [6]:
X, y = load_iris(return_X_y=True)

clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME",)

scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9533333333333334

### Atividade 3 - Cite 5 Hyperparametros importantes no AdaBoost

1. `n_estimators`: controla o número de "weak learners", ou seja, *stumps*
2. `learning_rate`: controla a contribuição dos *stumps* na combinação final, ou seja, valor do peso
3. `algorithm` (AdaBoostClassifier): define o algoritmo utilizado para atualizar os pesos dos exemplos durante o treinamento
4. `loss` (AdaBoostRegressor): define a "função de perda" a ser usada ao atualizar os pesos após cada iteração de reforço
5. `estimator`: por padrão, weak learners são *stumps*, mas diferentes Different weak learners podem ser especificados por esse parâmetro.

### Atividade 4 - Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [5]:
from sklearn.model_selection import GridSearchCV
import pandas as pd

In [4]:
%%time

estimators = list(range(1, 1000, 100))

n_estimators = []
mean_scores  = []

for n in estimators:
    clf    = AdaBoostClassifier(n_estimators=n)
    scores = cross_val_score(estimator=clf, 
                             X=X, 
                             y=y, 
                             cv=5)
    n_estimators.append(n)
    mean_scores.append(scores.mean())

pd.DataFrame(data=list(zip(n_estimators, mean_scores)), 
             columns=['n_estimators', 'mean_score'])

CPU times: user 9.62 s, sys: 42.6 ms, total: 9.66 s
Wall time: 9.69 s


Unnamed: 0,n_estimators,mean_score
0,1,0.666667
1,101,0.953333
2,201,0.946667
3,301,0.946667
4,401,0.946667
5,501,0.946667
6,601,0.946667
7,701,0.946667
8,801,0.946667
9,901,0.946667


In [9]:
%%time

clf = AdaBoostClassifier()
params = {
    'n_estimators':list(range(1, 1000, 100)),
    'algorithm': ['SAMME']
}

grid_clf = GridSearchCV(estimator=clf,
                        param_grid=params,
                        scoring='accuracy',
                        cv=5)

grid_clf.fit(X, y)
print(grid_clf.best_estimator_)

AdaBoostClassifier(algorithm='SAMME', n_estimators=101)
CPU times: user 9.04 s, sys: 46.8 ms, total: 9.09 s
Wall time: 9.14 s
