## **Módulo 24** | Combinação de modelos II | Exercício 1
---

## Tarefa 01

**1.** Cite 5 diferenças entre o Random Forest e o AdaBoost.

O RandomForest e o AdaBoost são ambos algoritmos de aprendizado de máquina dentro da categoria de métodos de ensemble, mas possuem diferenças fundamentais em sua concepção e funcionamento. Aqui estão cinco diferenças principais entre eles:

#### 1. **Método de Construção dos Modelos:**
- **RandomForest:** Constrói múltiplas árvores de decisão independentes durante o treinamento e utiliza a média (para regressão) ou a moda (para classificação) das previsões de todas as árvores.
- **AdaBoost (Adaptive Boosting):** Constrói sequencialmente uma série de modelos fracos (tipicamente árvores de decisão de um único nível, também conhecidas como 'stumps'), onde cada modelo subsequente tenta corrigir os erros do modelo anterior.

#### 2. **Foco na Redução de Erro:**
- **RandomForest:** Tenta reduzir o overfitting e melhorar a robustez através da agregação das previsões de várias árvores de decisão.
- **AdaBoost:** Foca em aumentar o peso dos exemplos que foram previstos incorretamente pelo modelo anterior, tornando o modelo subsequente mais focado em corrigir esses erros.

#### 3. **Complexidade dos Modelos Componentes:**
- **RandomForest:** Utiliza árvores de decisão completas como modelos base, que podem se aprofundar até que cada folha seja pura ou contenha menos que um mínimo de amostras definido pelo usuário.
- **AdaBoost:** Frequentemente usa modelos muito simples (como árvores de decisão de um único nível) como os aprendizes base, embora possa ser usado com qualquer algoritmo de aprendizado de máquina.

#### 4. **Ponderação das Previsões:**
- **RandomForest:** Cada árvore no ensemble tem igual peso na votação final da previsão.
- **AdaBoost:** Atribui pesos aos modelos baseados em sua precisão. Modelos que performam melhor recebem mais peso, fazendo com que tenham mais influência na previsão final.

#### 5. **Sensibilidade a Dados Ruidosos e Outliers:**
- **RandomForest:** É relativamente robusto a outliers e dados ruidosos devido ao processo de bootstrapping (amostragem com reposição) e ao mecanismo de votação das árvores.
- **AdaBoost:** Pode ser sensível a dados ruidosos e outliers, pois os modelos subsequentes focam nos casos mais difíceis, que podem incluir outliers, potencialmente levando a um ajuste excessivo a esses pontos.

**2.** Acesse o link [Scikit-learn – adaboost](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.

In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets        import load_iris
from sklearn.ensemble        import AdaBoostClassifier

In [2]:
X, y   = load_iris(return_X_y=True)

clf    = AdaBoostClassifier(n_estimators=100)

scores = cross_val_score(estimator=clf, 
                         X=X, 
                         y=y, 
                         cv=5)

scores.mean()

0.9466666666666665

**3.** Cite 5 Hiperparâmetros importantes no AdaBoost.

1. **Estimator (estimador):** Este é o classificador base utilizado para construir os aprendizes fracos, frequentemente denominados 'Stumps'. O estimador padrão é uma árvore de decisão `DecisionTreeClassifier` configurada com `max_depth=1`. Este hiperparâmetro é a evolução do antigo `base_estimator`, ajustando-se ao aprendiz base escolhido para o processo de boosting


2. **n_estimators (número de estimadores):** Define o número máximo de aprendizes fracos a serem gerados durante o treinamento. Embora o processo possa parar antes se a solução ideal for alcançada, um número maior de estimadores aumenta o tempo de treinamento. Este valor determina a quantidade de 'Stumps' criados.


3. **learning_rate (taxa de aprendizado):** Especifica o peso atribuído a cada classificador em cada iteração de boosting. Ajustar a taxa de aprendizado pode alterar significativamente a contribuição de cada aprendiz fraco no resultado final, podendo existir um equilíbrio entre este parâmetro e o `n_estimators`.


4. **algorithm (algoritmo) no AdaBoostClassifier:** Seleciona o algoritmo usado para ajustar os pesos dos dados durante o treinamento. As opções incluem SAMME (Discrete AdaBoost) e SAMME.R (Real AdaBoost), sendo o SAMME.R geralmente preferido por oferecer melhor desempenho.


5. **loss (perda) no AdaBoostRegressor:** Para problemas de regressão, este hiperparâmetro define a função de perda usada na atualização dos pesos após cada iteração de boosting. As opções são 'linear', 'square' e 'exponential', com 'linear' sendo o valor padrão.

Ajustar esses hiperparâmetros de acordo com as características específicas do conjunto de dados pode melhorar significativamente a performance do modelo AdaBoost, otimizando tanto a precisão das previsões quanto a eficiência do treinamento.

**4.** (**Opcional**) Utilize o GridSearch para encontrar os melhores hiperparâmetros para o conjunto de dados do exemplo (load_iris).

In [3]:
import pandas as pd

In [4]:
%%time

estimators = list(range(1, 1002, 100))

n_estimators = []
mean_scores  = []

for n in estimators:
    clf    = AdaBoostClassifier(n_estimators=n)
    scores = cross_val_score(estimator=clf, 
                             X=X, 
                             y=y, 
                             cv=5)
    n_estimators.append(n)
    mean_scores.append(scores.mean())

pd.DataFrame(data=list(zip(n_estimators, mean_scores)), 
             columns=['n_estimators', 'mean_score'])

CPU times: user 45.4 s, sys: 582 ms, total: 45.9 s
Wall time: 46.8 s


Unnamed: 0,n_estimators,mean_score
0,1,0.666667
1,101,0.953333
2,201,0.946667
3,301,0.946667
4,401,0.946667
5,501,0.946667
6,601,0.946667
7,701,0.946667
8,801,0.946667
9,901,0.946667


---