# Tarefa 01

---

**1.** Cite 5 diferenças entre o Random Forest e o AdaBoost.

| Diferenças | Random Forest | AdaBoost |
| --- | --- | --- |
| 1 | Emprega uma "floresta" de árvores, podendo ser completas ou podadas. | Por padrão, utiliza uma coleção de *Stumps* (classificadores fracos), isto é, árvores de decisão extremamente simples com profundidade de 1 e 2 folhas. |
| 2 | Utiliza árvores independentes que podem ser processadas em paralelo, com conjuntos de dados individualmente criados por amostragem aleatória com reposição (*Bootstrap*). | As árvores (*Stumps*) são influenciadas sequencialmente, e os conjuntos de dados sequenciais são criados também por amostragem aleatória com reposição, mas ponderada com base no "peso" de cada linha, calculado pela performance do melhor *Stump*, dando maior probabilidade de seleção para exemplos classificados incorretamente. |
| 3 | Atribui o mesmo peso (importância) às respostas, independentemente da qualidade de classificação da árvore. | Atribui pesos diferentes às respostas, influenciando nas relevâncias de cada uma. |
| 4 | Aplica uma quantidade definida de variáveis aleatórias (*feature selection*) em cada árvore. | Utiliza apenas uma variável explicativa para cada *Stump*. |
| 5 | Emprega o procedimento de votação majoritária simples para previsões. | Utiliza uma votação majoritária ponderada das respostas como previsão final, levando em conta a performance de cada *Stump*. |

**2.** Acesse o link [Scikit-learn – adaboost](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.

In [5]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets        import load_iris
from sklearn.ensemble        import AdaBoostClassifier

In [6]:
X, y   = load_iris(return_X_y=True)

clf    = AdaBoostClassifier(n_estimators=100)

scores = cross_val_score(estimator=clf, 
                         X=X, 
                         y=y, 
                         cv=5)

scores.mean()



0.9466666666666665

**3.** Cite 5 Hiperparâmetros importantes no AdaBoost.

1. **`estimator`**: O classificador base utilizado para criar os *weak/base learners (Stumps)*. Por padrão, é empregado o algoritmo de árvore de decisão `DecisionTreeClassifier(max_depth=1)`. Este parâmetro sucede o hiperparâmetro descontinuado `base_estimator`.

2. **`n_estimators`**: Indica o número máximo de iterações para concluir o processo de aprendizagem. O treinamento pode ser interrompido antes desse limite se considerado satisfatório. Quanto maior o número de estimadores, maior será o tempo de treinamento. Refere-se à quantidade de *Stumps*.

3. **`learning_rate`**: Representa o valor do peso atribuído a cada classificador nas iterações de reforço. A importância dos *Stumps* pode aumentar com essa definição, podendo haver uma compensação entre este hiperparâmetro e o *n_estimator*. Este parâmetro corresponde à taxa de aprendizado do *AdaBoost*.

4. **`algorithm (AdaBoostClassifier)`**: Define o algoritmo utilizado para atualizar os pesos dos exemplos durante o treinamento. Pode ser `SAMME` (*Discrete AdaBoost*) ou `SAMME.R` (*Real AdaBoost*), sendo que `SAMME.R` é recomendado para um melhor desempenho.

5. **`loss (AdaBoostRegressor)`**: Similar ao hiperparâmetro *algorithm*, mas aplicado em problemas de regressão. Este parâmetro define a "função de perda" a ser utilizada ao atualizar os pesos após cada iteração de reforço. Pode ser 'linear', 'square' ou 'exponential', tendo 'linear' como padrão.

**4.** (**Opcional**) Utilize o GridSearch para encontrar os melhores hiperparâmetros para o conjunto de dados do exemplo (load_iris).

In [7]:
import pandas as pd

In [8]:
%%time

estimators = list(range(1, 1002, 100))

n_estimators = []
mean_scores  = []

for n in estimators:
    clf    = AdaBoostClassifier(n_estimators=n)
    scores = cross_val_score(estimator=clf, 
                             X=X, 
                             y=y, 
                             cv=5)
    n_estimators.append(n)
    mean_scores.append(scores.mean())

pd.DataFrame(data=list(zip(n_estimators, mean_scores)), 
             columns=['n_estimators', 'mean_score'])



CPU times: total: 21.5 s
Wall time: 24.3 s


Unnamed: 0,n_estimators,mean_score
0,1,0.666667
1,101,0.953333
2,201,0.946667
3,301,0.946667
4,401,0.946667
5,501,0.946667
6,601,0.946667
7,701,0.946667
8,801,0.946667
9,901,0.946667


---