[![ebac_logo-data_science.png](https://raw.githubusercontent.com/earapanos/DataScienceExcercises/refs/heads/main/ebac_logo-data_science.png)](https://github.com/earapanos/DataScienceExcercises/tree/main)
<!-- <img src="https://raw.githubusercontent.com/earapanos/DataScienceExcercises/refs/heads/main/ebac_logo-data_science.png" alt="ebac_logo-data_science"> -->

---

<!-- # **Profissão: Cientista de Dados** -->
### **Módulo 24** | Combinando Modelos II | Exercício 42

**Aluno:** [Eduardo Adriani Rapanos](https://www.linkedin.com/in/eduardo-rapanos/)<br>
**Data:** 07 de abril de 2025.

---

# Tarefa 01

**1. Cite 5 diferenças entre o Random Forest e o AdaBoost.**

| Diferenças | Random Forest | AdaBoost |
|------------|----------------|-----------|
| **1** | Utiliza uma "floresta" de árvores com a possibilidade de serem completas ou podadas. | Utiliza por padrão, uma floresta de *Stumps* (classificadores fracos), ou seja, árvores de decisão extremamente simples com apenas 1 de profundidade e 2 folhas. |
| **2** | Utiliza árvores independentes que podem rodar paralelamente com os conjuntos de dados individualmente criados por amostragem aleatória com repetição (*Bootstrap*). | As árvores (*Stumps*) são influenciadas entre si sequencialmente e os conjuntos de dados sequenciais são criados também por amostragem aleatória com repetição, porém de forma ponderada com base no "peso" de cada linha através do cálculo de performance do melhor *Stump*, onde exemplos classificados incorretamente têm maior probabilidade de serem selecionados. |
| **3** | As respostas têm o mesmo peso (importância) independente da qualidade de classificação da árvore. | As respostas têm pesos diferentes, influenciando consequentemente nas relevâncias de cada resposta. |
| **4** | Utiliza uma quantidade definida de variáveis aleatórias (*feature selection*) em cada árvore. | Utiliza somente uma variável explicativa para cada *Stump*. |
| **5** | Utiliza o procedimento de votação majoritária simples como previsão. | Utiliza como predição final uma votação majoritária ponderada das respostas de acordo com a performance de cada *Stump*. |

**2.** Acesse o link [Scikit-learn – adaboost](https://scikit-learn.org/stable/modules/ensemble.html#adaboost), leia a explicação (traduza se for preciso) e crie um Jupyter Notebook contendo o exemplo do AdaBoost.


In [4]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

In [5]:
X, y   = load_iris(return_X_y=True)

clf    = AdaBoostClassifier(n_estimators=100)

scores = cross_val_score(estimator=clf, 
                         X=X, 
                         y=y, 
                         cv=5)

scores.mean()

0.9533333333333334

**3. Cite 5 Hiperparâmetros importantes no AdaBoost.**

1. **`estimator`**: Classificador base para criar os *weak/base learners* (Stumps).  
   Por padrão o estimador base é o algoritmo de árvore de decisão `DecisionTreeClassifier(max_depth=1)`.

   > Sucessor do hiperparâmetro descontinuado `base_estimator`.

2. **`n_estimators`**: Número máximo de iterações para finalizar o processo de aprendizagem.  
   Pode ser interrompido antes deste limite caso seja considerado perfeito. Quanto maior o número de estimadores, maior será o tempo de treinamento.

   > Quantidade de *Stumps*.

3. **`learning_rate`**: Valor do peso aplicado a cada classificador nas iterações de reforço.  
   A relevância dos *Stumps* pode aumentar conforme essa definição, podendo haver uma compensação entre este hiperparâmetro e o `n_estimators`.

   > Taxa de aprendizado do AdaBoost.

4. **`algorithm`** (`AdaBoostClassifier`): Define o algoritmo utilizado para atualizar os pesos dos exemplos durante o treinamento.

   > Pode ser `SAMME` (*Discrete AdaBoost*) ou `SAMME.R` (*Real AdaBoost*), onde `SAMME.R` é recomendado para melhor desempenho.

5. **`loss`** (`AdaBoostRegressor`): Assim como o hiperparâmetro `algorithm`, porém em problemas de regressão,  
   este hiperparâmetro define a "função de perda" a ser usada ao atualizar os pesos após cada iteração de reforço.

   > Pode ser `'linear'`, `'square'` ou `'exponential'`, tendo `'linear'` como padrão.


**4. (Opcional)** Utilize o GridSearch para encontrar os melhores hiperparâmetros para o conjunto de dados do exemplo (`load_iris`).

In [6]:
import pandas as pd

In [7]:
%%time

estimators = list(range(1, 1002, 100))

n_estimators = []
mean_scores = []

for n in estimators:
    clf = AdaBoostClassifier(n_estimators=n)
    scores = cross_val_score(estimator=clf,
                             X=X,
                             y=y,
                             cv=5)
    
    n_estimators.append(n)
    mean_scores.append(scores.mean())

pd.DataFrame(data=list(zip(n_estimators, mean_scores)),
             columns=['n_estimators', 'mean_score'])


CPU times: total: 52.1 s
Wall time: 53.2 s


Unnamed: 0,n_estimators,mean_score
0,1,0.666667
1,101,0.96
2,201,0.953333
3,301,0.953333
4,401,0.953333
5,501,0.953333
6,601,0.953333
7,701,0.953333
8,801,0.953333
9,901,0.953333
