# Tarefa 1
---

## 1. Cite 5 diferenças entre o Random Forest e o Adaboost

1. **Tamanho das Árvores**:
   - **Random Forest**: Cada árvore é construída de forma independente e geralmente tem tamanho completo, sem profundidade máxima predefinida. Algumas árvores podem ser maiores que outras.
   - **AdaBoost**: As árvores são geralmente compostas apenas por um nó e duas folhas (conhecidas como "stumps"). Portanto, um conjunto de árvores AdaBoost é, na verdade, um conjunto de "stumps".

2. **Precisão na Classificação**:
   - **Random Forest**: É muito bom em fazer classificações precisas, usando todas as variáveis disponíveis nos dados.
   - **AdaBoost**: Usa apenas uma variável para tomar decisões, tornando-se um "aprendiz fraco" em comparação com o Random Forest.

3. **Distribuição de Votos**:
   - **Random Forest**: Cada árvore tem peso igual na classificação final.
   - **AdaBoost**: Algumas "stumps" têm mais influência na classificação final do que outras.

4. **Ordem de Construção das Árvores**:
   - **Random Forest**: As árvores são construídas independentemente umas das outras.
   - **AdaBoost**: A ordem é importante; os erros cometidos pelas primeiras "stumps" afetam a construção das subsequentes.

5. **Tipo de Algoritmo**:
   - **Random Forest**: É um algoritmo de **bagging** que combina várias árvores de decisão.
   - **AdaBoost**: É um algoritmo de **boosting** que combina muitos "aprendizes fracos" para fazer classificações.
---

## 2. Acesse o link Scikit-learn–adaboost, leia a explicação (traduza se for preciso) e crie um jupyternotebook contendo o exemplo do AdaBoost.



In [3]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

In [6]:
X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME",)
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9533333333333334

---

## 3. Cite 5 Hiperparâmetros importantes no AdaBoost.
Claro! O **AdaBoost** é um algoritmo de **boosting** que combina vários "aprendizes fracos" para melhorar a precisão das classificações. Aqui estão **cinco hiperparâmetros importantes** que podem ser ajustados no AdaBoost:

1. **`n_estimators` (Número de Estimadores)**:
   - Controla o número de "stumps" (árvores de decisão de tamanho 1) adicionados ao modelo.
   - Quanto maior o número de estimadores, mais complexo o modelo se torna, mas também pode levar ao overfitting.

2. **`learning_rate` (Taxa de Aprendizado)**:
   - Determina a contribuição de cada classificador em cada iteração de boosting.
   - Uma taxa de aprendizado mais alta aumenta a influência de cada classificador, mas há um trade-off com o número de estimadores.

3. **`algorithm` (Algoritmo)**:
   - Pode ser 'SAMME' ou 'SAMME.R'.
   - O 'SAMME.R' usa probabilidades de classe e geralmente converge mais rapidamente, enquanto o 'SAMME' é discreto.

4. **`random_state` (Semente Aleatória)**:
   - Controla a semente aleatória usada para inicializar os estimadores em cada iteração.
   - Útil para reproduzir resultados consistentes.

5. **`base_estimator` (Estimador Base)**:
   - Define o tipo de estimador fraco usado (por padrão, é o `DecisionTreeClassifier` com profundidade máxima 1).
   - Pode ser personalizado para outros estimadores.

---

## 4. (Opcional) Utilize o GridSearch para encontrar os melhores hiperparâmetros para o conjunto de dados do exemplo (load_iris).

In [8]:
import pandas as pd

In [9]:
%%time

estimators = list(range(1, 1002, 100))

n_estimators = []
mean_scores  = []

for n in estimators:
    clf    = AdaBoostClassifier(n_estimators=n)
    scores = cross_val_score(estimator=clf, X=X, y=y, cv=5)
    n_estimators.append(n)
    mean_scores.append(scores.mean())

pd.DataFrame(data=list(zip(n_estimators, mean_scores)), columns=['n_estimators', 'mean_score'])

CPU times: user 54.9 s, sys: 424 ms, total: 55.4 s
Wall time: 55.9 s


Unnamed: 0,n_estimators,mean_score
0,1,0.666667
1,101,0.953333
2,201,0.946667
3,301,0.946667
4,401,0.946667
5,501,0.946667
6,601,0.946667
7,701,0.946667
8,801,0.946667
9,901,0.946667
