# Modulo 24 Exercício 1 

###  Diferenças entre Random Forest e AdaBoost

1. **Estratégia de Conjunto**: O **Random Forest** combina diversas árvores de decisão independentes (bagging), enquanto o **AdaBoost** cria uma sequência de modelos fracos, ajustando cada modelo para corrigir os erros do anterior (boosting).
2. **Peso dos Modelos**: No Random Forest, todas as árvores têm o mesmo peso na decisão final, enquanto no AdaBoost, cada modelo recebe um peso baseado em sua precisão, com modelos posteriores focando mais nos erros dos anteriores.
3. **Treinamento dos Modelos**: Random Forest constrói todas as árvores de forma independente e simultânea, enquanto o AdaBoost treina os modelos de maneira sequencial, onde cada modelo depende do desempenho do anterior.
4. **Robustez a Ruído**: O Random Forest tende a ser mais robusto ao ruído devido à diversidade das árvores independentes, enquanto o AdaBoost pode ser mais sensível a outliers, pois ajusta modelos para corrigir erros em instâncias mal classificadas.
5. **Complexidade e Interpretação**: O Random Forest tende a ser mais fácil de interpretar, pois não ajusta o peso das instâncias, enquanto o AdaBoost é mais complexo devido à importância variável dada às instâncias e modelos ao longo das iterações.

## Exemplo do AdaBoost

In [3]:
# Importando as bibliotecas necessárias
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

# Carregando o conjunto de dados iris
X, y = load_iris(return_X_y=True)

# Inicializando o classificador AdaBoost com 100 estimadores e o algoritmo SAMME
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME")

# Realizando validação cruzada com 5 divisões e calculando a média das pontuações
scores = cross_val_score(clf, X, y, cv=5)
print("Média das pontuações da validação cruzada:", scores.mean())


Média das pontuações da validação cruzada: 0.9533333333333334


### Hiperparâmetros Principais do AdaBoost

- n_estimators
- learning_rate
- estimator
- max_depth (quando o estimador base é uma árvore de decisão)
- min_samples_split (quando o estimador base é uma árvore de decisão)


### Explicação do Código para Otimização com GridSearchCV

Este código utiliza o **GridSearchCV** para encontrar os melhores hiperparâmetros do classificador **AdaBoost** no conjunto de dados Iris. Abaixo estão os passos principais:

1. **Definição do Classificador**: Inicializamos o AdaBoost sem especificar hiperparâmetros, pois estes serão ajustados pelo GridSearch.
2. **Grade de Hiperparâmetros** (`param_grid`): Configuramos uma lista de valores para cada hiperparâmetro do AdaBoost:
   - `n_estimators`: Número de classificadores fracos (valores testados: 50, 100, 150).
   - `learning_rate`: Taxa de aprendizado (valores testados: 0.1, 0.5, 1.0).
   - `base_estimator`: Tipo de estimador base, aqui utilizamos árvores de decisão com profundidades 1 e 2.
   - `algorithm`: Algoritmo de boosting, com opções "SAMME" e "SAMME.R".
3. **Configuração do GridSearchCV**: Com o parâmetro `cv=5`, o GridSearch realiza uma validação cruzada de 5 vezes para cada combinação de hiperparâmetros, usando a acurácia como métrica de avaliação.
4. **Ajuste do Modelo**: O `fit` ajusta o modelo e identifica a combinação de hiperparâmetros que maximiza a acurácia.
5. **Resultados**: Exibimos os melhores hiperparâmetros (`best_params_`) e a melhor pontuação de acurácia (`best_score_`), representando a performance otimizada do modelo.

Este processo ajuda a encontrar os parâmetros ideais para maximizar o desempenho do modelo no conjunto de dados.


In [5]:
# Importando as bibliotecas necessárias
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

In [6]:
# Carregando o conjunto de dados iris
X, y = load_iris(return_X_y=True)

# Definindo o classificador AdaBoost
clf = AdaBoostClassifier()

# Definindo a grade de hiperparâmetros para testar
param_grid = {
    'n_estimators': [50, 100, 150],  # número de estimadores
    'learning_rate': [0.1, 0.5, 1.0],  # taxa de aprendizado
    'base_estimator': [DecisionTreeClassifier(max_depth=1), 
                       DecisionTreeClassifier(max_depth=2)],  # estimador base com diferentes profundidades
    'algorithm': ['SAMME', 'SAMME.R']  # escolha do algoritmo
}

# Configurando o GridSearchCV com validação cruzada
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, scoring='accuracy')

# Ajustando o modelo para encontrar os melhores hiperparâmetros
grid_search.fit(X, y)

# Exibindo os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros:", grid_search.best_params_)
print("Melhor pontuação:", grid_search.best_score_)


Melhores hiperparâmetros: {'algorithm': 'SAMME', 'base_estimator': DecisionTreeClassifier(max_depth=2), 'learning_rate': 1.0, 'n_estimators': 100}
Melhor pontuação: 0.9600000000000002


### Resultados da Otimização com GridSearchCV

Após realizar a busca de hiperparâmetros com o **GridSearchCV**, os melhores hiperparâmetros encontrados para o classificador AdaBoost foram:
- `algorithm`: **SAMME**
- `base_estimator`: **DecisionTreeClassifier** com `max_depth=2`
- `learning_rate`: **1.0**
- `n_estimators`: **100**

Esses parâmetros resultaram na melhor pontuação de acurácia média de **0.96** (ou 96%) durante a validação cruzada de 5 vezes. Isso indica que, com essa configuração, o modelo atingiu um bom desempenho no conjunto de dados Iris, maximizando a capacidade de classificação correta entre as classes do dataset.
