<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo 24** | Combinação de modelos II | Boosting vs AdaBoost
Caderno de **exercício 01**<br>




## Discente: Samuel Saturno


<h3><font  color="bronw"><strong>1. Cite 5 diferenças entre o Random Forest e o
AdaBoost</strong></font></h3>

<h4><font  color=""><strong>Passo 1: Entendimento do Bagging</strong></font></h4>

**1. Algoritmo Base:**

<h4><font  color=""><i>

* RandomForest: Usa um conjunto de árvores de decisão como base para criar um modelo robusto.
* AdaBoost: Usa um único tipo de classificador fraco (por exemplo, árvore de decisão) como base, mas itera sobre ele para melhorar o desempenho do modelo combinando várias versões do classificador.

</i></font></h4>

**2. Ponderação das Instâncias:**

<h4><font  color=""><i>

* RandomForest: Cada árvore no ensemble é treinada independentemente com uma amostra aleatória do conjunto de dados, e as instâncias têm pesos iguais.
* AdaBoost: Dá mais peso às instâncias mal classificadas em cada iteração subsequente, focando em corrigir as previsões erradas das iterações anteriores.

</i></font></h4>

**3. Ponto Fraco:**

<h4><font  color=""><i>

* RandomForest: Tende a não funcionar bem em dados desbalanceados ou com ruído, pois cada árvore é construída de forma independente.
* AdaBoost: É sensível a outliers e ruído nos dados, pois tenta corrigir erros anteriores, o que pode aumentar a sensibilidade a instâncias mal rotuladas.

</i></font></h4>

**4. Processo de Treinamento:**

<h4><font  color=""><i>

* RandomForest: Treina várias árvores de decisão de forma paralela, com amostragem aleatória de dados e seleção aleatória de características em cada árvore.
* AdaBoost: Treina iterativamente um classificador fraco em cada iteração, dando mais peso às instâncias classificadas incorretamente nas iterações anteriores.

</i></font></h4>

**5. Robustez e Interpretabilidade:**

<h4><font  color=""><i>

* RandomForest: É mais robusto em relação a overfitting devido à combinação de várias árvores, mas pode ser menos interpretável devido à complexidade do modelo.
* AdaBoost: Pode sofrer mais com overfitting se o classificador fraco não for bem escolhido, mas geralmente é mais fácil de interpretar, especialmente com classificadores fracos simples como árvores de decisão.

</i></font></h4>



<h5><font  color=""><strong>Referências Bibliográticas (visto em 19/04/2024)</strong></font></h5>

<h6><font  color="blue"><strong>Sites:</strong></font></h6>

https://scikit-learn.org/stable/modules/ensemble.html






<h3><font  color="Bronw"><strong> 2. Acesse o link Scikit-learn – adaboost, leia a
explicação (traduza se for preciso) e crie um
jupyter notebook contendo o exemplo do
AdaBoost. </strong></font></h3>

<h3><font  color="blue"><strong> 1.11.7.1. Usage </strong></font></h3>


<h5><font  color=""><strong>

O exemplo a seguir mostra como ajustar um classificador AdaBoost com 100 classificadores fracos:

</strong></font></h5>


In [3]:
# Importa a função cross_val_score para realizar validação cruzada
# Importa a função load_iris para carregar o conjunto de dados Iris
# Importa a classe AdaBoostClassifier para criar um classificador AdaBoost
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

# Carrega os dados do conjunto de dados Iris e atribui a X os dados de entrada e a y os rótulos de saída
X, y = load_iris(return_X_y=True)

# Cria um classificador AdaBoost com 100 estimadores (árvores de decisão por padrão) e o algoritmo "SAMME"
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME")

# Realiza a validação cruzada com 5 dobras (cv=5) no classificador clf usando os dados X e y
scores = cross_val_score(clf, X, y, cv=5)

# Calcula a média das pontuações de validação cruzada para obter uma estimativa do desempenho do modelo
scores.mean()


0.9533333333333334

<h3><font  color="bronw"><strong>3. Cite 5 Hyperparametros importantes no AdaBoost.</strong></font></h3>

<h4><font  color=""><strong>Passo 1: Entendimento do Bagging</strong></font></h4>

**1. n_estimators:**

<h4><font  color=""><i>

* Este parâmetro especifica o número de aprendizes fracos (por exemplo, árvores de decisão) que serão combinados para formar o modelo AdaBoost.

</i></font></h4>

**2. learning_rate:**

<h4><font  color=""><i>

* Controla a contribuição de cada aprendiz fraco para a atualização do modelo. Um valor menor reduz a contribuição de cada aprendiz, o que pode melhorar a generalização do modelo.

</i></font></h4>

**3. base_estimator:**

<h4><font  color=""><i>

* Especifica o tipo de aprendiz fraco a ser utilizado no processo de treinamento do AdaBoost.

</i></font></h4>

**4. Algorithm:**

<h4><font  color=""><i>

* Determina como os pesos das amostras são atualizados em cada iteração do treinamento.

</i></font></h4>

**5. random_state:**

<h4><font  color=""><i>

* Controla a aleatoriedade no processo de treinamento, garantindo reprodutibilidade dos resultados.

</i></font></h4>



<h5><font  color=""><strong>Referências Bibliográticas (visto em 19/04/2024)</strong></font></h5>

<h6><font  color="blue"><strong>Sites:</strong></font></h6>

https://scikit-learn.org/stable/modules/ensemble.html



<h3><font  color="bronw"><strong>
5.(Opcional) Utilize o GridSearch para encontrar
os melhores hyperparametros para o conjunto
de dados do exemplo (load_iris)
</strong></font></h3>

In [4]:
from sklearn.model_selection import GridSearchCV

# Defina a grade de hiperparâmetros a serem testados
param_grid = {
    'n_estimators': [50, 100, 200],  # Teste diferentes números de estimadores
    'learning_rate': [0.01, 0.1, 1.0]  # Teste diferentes taxas de aprendizado
}

# Instancie o classificador AdaBoost
clf = AdaBoostClassifier(algorithm="SAMME")

# Instancie o GridSearchCV com o classificador e a grade de hiperparâmetros
grid_search = GridSearchCV(clf, param_grid, cv=5)

# Ajuste o GridSearch aos dados
grid_search.fit(X, y)

# Exiba os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros encontrados:")
print(grid_search.best_params_)

# Exiba a melhor pontuação de validação cruzada
print("Melhor pontuação de validação cruzada:", grid_search.best_score_)


Melhores hiperparâmetros encontrados:
{'learning_rate': 0.1, 'n_estimators': 200}
Melhor pontuação de validação cruzada: 0.96


**Insight:**
<h4><font color=""><i>
Os resultados do GridSearch revelam que os melhores hiperparâmetros encontrados para o classificador AdaBoost são uma taxa de aprendizado de 0.1 e 200 estimadores (árvores de decisão, por padrão). Além disso, a melhor pontuação de validação cruzada obtida foi de 0.96, o que indica um desempenho bastante sólido do modelo em dados não vistos. Isso sugere que o modelo é capaz de generalizar bem para novos dados, com uma taxa de precisão de aproximadamente 96%. Esses resultados podem ser úteis para otimizar ainda mais o modelo e melhorar seu desempenho em aplicações práticas.
</i></font></h4>