### 1. 5 diferenças entre o Random Forest e o AdaBoost

**Método de combinação:** <br> 
O Random Forest é um algoritmo de conjunto que combina várias árvores de decisão independentes para tomar uma decisão final. Já o AdaBoost é um algoritmo de conjunto que combina várias versões de um único modelo de aprendizado de máquina fraco para criar um modelo mais forte.

**Ponderação das amostras** <br> 
No Random Forest, todas as amostras têm o mesmo peso durante o treinamento de cada árvore de decisão. Cada árvore contribui igualmente para a decisão final. No AdaBoost, as amostras são ponderadas de acordo com o desempenho dos modelos anteriores. As amostras mal classificadas recebem um peso maior, permitindo que os modelos subsequentes se concentrem nelas.

**Seleção de recursos** <br> 
O Random Forest seleciona aleatoriamente um subconjunto de recursos em cada árvore de decisão para treinamento. No AdaBoost, todos os recursos são considerados em cada iteração, mas são ponderados de acordo com seu desempenho em modelos anteriores.

**Independência das árvores** <br> 
No Random Forest, as árvores de decisão são independentes umas das outras, o que significa que cada árvore é treinada separadamente e não há influência entre elas durante o treinamento. Já no AdaBoost, as versões do modelo são treinadas sequencialmente, onde cada novo modelo é treinado para corrigir os erros cometidos pelas versões anteriores.

**Robustez a ruídos** <br> 
O Random Forest é conhecido por ser robusto a ruídos e outliers, pois a média das previsões de várias árvores reduz o impacto desses valores atípicos. O AdaBoost é mais sensível a ruídos e outliers, pois tenta corrigir os erros cometidos pelos modelos anteriores, o que pode levar a um superajuste se os erros forem causados por ruídos.

### 2. Exemplo do AdaBoost

In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100)
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9466666666666665

### 3. Hiperparâmetros importantes no AdaBoostClassifier

**estimator:** <br>
É o estimador base utilizado pelo AdaBoostClassifier. O estimador padrão o DecisionTreeClassifier com profundidade máxima igual a 1.

**n_estimators:** <br>
É o número de estimadores a serem criados. O valor padrão é 50.

**learning_rate:** <br>
É o peso aplicado a cada estimador. Um learning_rate menor reduz a contribuição de cada estimador, tornando o processo de aprendizado mais lento, mas potencialmente mais preciso. O valor padrão é 1.

**algorithm:** <br>
É o algoritmo utilizado para atualizar os pesos das amostras em cada iteração. Existem duas opções disponíveis: 'SAMME' e 'SAMME.R'. O 'SAMME' é uma versão discreta do algoritmo, enquanto o 'SAMME.R' é uma versão real do algoritmo. O valor padrão é 'SAMME.R'.

**random_state:** <br>
É a semente utilizada pelo gerador de números aleatórios para reproduzir os resultados. O valor padrão é None.


### 4. Uso do GridSearchCV para encontrar os melhores hiperparâmetros

In [2]:
from sklearn.model_selection import GridSearchCV

In [8]:
parameters = {
    'n_estimators': [100, 150, 200, 250],
    'learning_rate': [1.0, 1.2, 1.3, 1.5],
    'algorithm': ['SAMME', 'SAMME.R']
}

In [9]:
%%time

grid_rf = GridSearchCV(
    estimator = AdaBoostClassifier(),
    param_grid = parameters,
    scoring = 'accuracy', 
    cv = 5,
    n_jobs = -1
)

grid_rf.fit(X, y)

CPU times: user 393 ms, sys: 7.83 ms, total: 400 ms
Wall time: 16.8 s


- **Parâmetros testados:**

In [10]:
grid_rf.cv_results_['params']

[{'algorithm': 'SAMME', 'learning_rate': 1.0, 'n_estimators': 100},
 {'algorithm': 'SAMME', 'learning_rate': 1.0, 'n_estimators': 150},
 {'algorithm': 'SAMME', 'learning_rate': 1.0, 'n_estimators': 200},
 {'algorithm': 'SAMME', 'learning_rate': 1.0, 'n_estimators': 250},
 {'algorithm': 'SAMME', 'learning_rate': 1.2, 'n_estimators': 100},
 {'algorithm': 'SAMME', 'learning_rate': 1.2, 'n_estimators': 150},
 {'algorithm': 'SAMME', 'learning_rate': 1.2, 'n_estimators': 200},
 {'algorithm': 'SAMME', 'learning_rate': 1.2, 'n_estimators': 250},
 {'algorithm': 'SAMME', 'learning_rate': 1.3, 'n_estimators': 100},
 {'algorithm': 'SAMME', 'learning_rate': 1.3, 'n_estimators': 150},
 {'algorithm': 'SAMME', 'learning_rate': 1.3, 'n_estimators': 200},
 {'algorithm': 'SAMME', 'learning_rate': 1.3, 'n_estimators': 250},
 {'algorithm': 'SAMME', 'learning_rate': 1.5, 'n_estimators': 100},
 {'algorithm': 'SAMME', 'learning_rate': 1.5, 'n_estimators': 150},
 {'algorithm': 'SAMME', 'learning_rate': 1.5, 'n

- **Melhores parâmetros:**

In [11]:
print(grid_rf.best_estimator_)

AdaBoostClassifier(algorithm='SAMME', learning_rate=1.3, n_estimators=100)
