### Cinco diferenças entre o Random Forest e o AdaBoost:

#### Florestas

* Random Forest: são geradas várias árvores de modo aleatório, e essas árvores não tem profundidade ou quantidade de folhas limitadas. 
* AdaBoost:floresta de strumps (um nó e duas folhas) e cada strump influenciará na criação do strump posterior (bootstrap: amostragem com reposição). 

#### Treinamento de Modelos:

* Random Forest: As árvores de decisão são treinadas de forma independente umas das outras, e cada árvore é ajustada com uma amostra aleatória dos dados e das características.
* AdaBoost: Treina modelos sequencialmente, ajustando o foco para exemplos que foram mal classificados pelos modelos anteriores. O treinamento é adaptativo e os modelos são ajustados com base nos erros dos modelos anteriores.

#### Peso das Respostas das Árvores:

* Random Forest: Todas as árvores têm o mesmo peso e o modelo final é uma média das árvores treinadas.
* AdaBoost: O modelo final é uma média ponderada das árvores, que leva em consideração o potencial preditivo de cada árvore.

#### Operação de Ensembling:
* Random Forest: Random Forest emprega montagem paralela. Forest processa árvores em paralelo, permitindo que jobs sejam paralelizados em uma máquina multiprocessadora.
* Adaboost: faz uso de ensembling sequencial. Ele usa um método passo a passo.

#### Cálculo de estimativa	
* Random Forest visa diminuir a variância (erro de um modelo em relação aos dados de teste), não o viés (quão bem um modelo se adequa aos dados de treino).	
* Adaboost visa diminuir o viés, não a variância.

### Cinco Hiperparâmetros importantes no AdaBoost:

* base_estimator: Classificador ou Regressão, a depender da variável resposta. 
* n_estimators: controla o número de aprendizes fracos. 
* learning_rate:controla a contribuição dos aprendizes fracos na combinação final. Por padrão, aprendizes fracos são tocos de decisão.
* algorithm: 'SAMME' é o algoritmo original do AdaBoost, enquanto 'SAMME.R' é uma versão mais recente e geralmente mais eficiente.
* random_state: Define o valor para o gerador de números aleatórios usado no treinamento e na inicialização de pesos, serve para que futuramente você possa ter a mesma reprodutibilidade.

### Exemplo AdaBoost:

In [35]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
import numpy as np
from sklearn.datasets import make_classification

In [33]:
X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME",)
scores = cross_val_score(clf, X, y, cv=5) #avalia o classificador usando 5 diferentes divisões dos dados e retorna a acurácia para cada divisão.
scores.mean()

0.9533333333333334

### Exemplo AdaBoost Classificador:

In [34]:
X, y = make_classification(n_samples=1000, n_features=4,
                           n_informative=2, n_redundant=0,
                           random_state=0, shuffle=False)
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME", random_state=0)
clf.fit(X, y)
clf.predict([[0, 0, 0, 0]]) #Usa o classificador treinado para prever a classe de uma nova amostra com essas características

clf.score(X, y)

0.96

#### Hiperparametros utilizados no exemplo:
*make_classification:* Função da scikit-learn para criar um conjunto de dados sintético para classificação.

* n_samples=1000: Cria um total de 1000 amostras no conjunto de dados.

* n_features=4: Cada amostra terá 4 características (ou features).

* n_informative=2: Apenas 2 das 4 características são informativas para a tarefa de classificação. Ou seja, essas 2 características realmente ajudam a separar as classes.

* n_redundant=0: Não há características redundantes. Características redundantes são combinações lineares das características informativas.

* random_state=0: Define uma semente para o gerador de números aleatórios, garantindo que o conjunto de dados gerado seja o mesmo a cada execução.

* shuffle=False: Não embaralha as amostras. As amostras são geradas e retornadas na ordem em que foram criadas.

* X: Matriz de características (1000 amostras x 4 características).

### GridSearch para encontrar os melhores hiperparametros para o conjunto Iris:

Agora vamos combinar alguns hiperparametros e descobrir através do GridSearch quais são os melhores. Para começar vamos combinar o n_estimators e o learning_rate:

In [43]:
# Carregar o conjunto de dados
X, y = load_iris(return_X_y=True)

# Configurar o classificador AdaBoost
clf = AdaBoostClassifier(algorithm="SAMME")

# Definir a grade de parâmetros para o GridSearch
param_grid = {
    'n_estimators': [50, 100, 150, 200],
    'learning_rate': [0.001, 0.01, 0.1, 1],
    'random_state': [0, 10, 20]
}

# Configurar o GridSearchCV
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, n_jobs=-1, scoring='accuracy')

# Ajustar o GridSearchCV aos dados
grid_search.fit(X, y)

# Obter os melhores parâmetros
best_params = grid_search.best_params_

# Obter a melhor pontuação (acurácia) encontrada
best_score = grid_search.best_score_

print("Melhores parâmetros encontrados:")
print(best_params)
print("Melhor acurácia encontrada:")
print(best_score)


Melhores parâmetros encontrados:
{'learning_rate': 0.1, 'n_estimators': 150, 'random_state': 0}
Melhor acurácia encontrada:
0.96


Obtemos uma boa acurácia. Vale ressaltar que com essas listas para esses três parametros conseguimos o mesmo resultado que no exemplo acima aonde temos um número maior de parametros sendo utilizados. 