# 1. *Cite 5 diferenças entre o Random Forest e o AdaBoost*

## 1. Estratégia de Criação de Modelos:

Random Forest: Utiliza uma abordagem de bagging (bootstrap aggregating). Cria múltiplas árvores de decisão independentes a partir de amostras diferentes dos dados de treinamento.
AdaBoost: Utiliza uma abordagem de boosting. Cria uma sequência de modelos, onde cada novo modelo tenta corrigir os erros do modelo anterior, dando mais peso aos exemplos mal classificados.

## 2. Combinação de Modelos:

Random Forest: Combina os resultados das árvores de decisão independentes usando a média (para regressão) ou o voto majoritário (para classificação).
AdaBoost: Combina os resultados dos modelos ponderados, onde os pesos são ajustados de acordo com a precisão de cada modelo.

## 3.  Resistência a Overfitting:

Random Forest: Tende a ser mais robusto contra overfitting devido à aleatoriedade introduzida na criação das árvores e na seleção dos atributos.
AdaBoost: Pode ser mais suscetível ao overfitting, especialmente se os modelos básicos forem muito complexos ou se o número de iterações for muito alto.

## 4. Importância dos Atributos:

Random Forest: Pode calcular a importância dos atributos ao medir a redução do erro ao usar cada atributo para dividir os dados nas árvores de decisão.
AdaBoost: A importância dos atributos não é tão diretamente interpretável, embora possa ser inferida com base nos pesos dos modelos e na frequência de uso dos atributos nos modelos.

## 5. Flexibilidade dos Modelos Base:

Random Forest: Geralmente usa árvores de decisão como modelos base, mas as árvores são completas e não limitadas em profundidade.
AdaBoost: Pode usar qualquer modelo base, mas frequentemente usa árvores de decisão rasas (stumps), que são árvores de decisão com apenas um nível.

# 2. *Acesse o link Scikit-learn– adaboost , leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.*

In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME",)
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9533333333333334

# 3. *Cite 5 Hyperparametros importantes no AdaBoost.*

## 1. Número de Estimadores (n_estimators):

Este hiperparâmetro define o número de modelos base (ou estimadores fracos) que serão treinados sequencialmente. Um valor maior pode aumentar a precisão do modelo, mas também pode aumentar o risco de overfitting.

## 2. Taxa de Aprendizado (learning_rate):

Este hiperparâmetro controla o peso de cada estimador na combinação final. Um valor menor reduz o impacto de cada modelo individual, o que pode exigir mais estimadores para alcançar uma boa performance. Ajustar a taxa de aprendizado pode ajudar a controlar o overfitting.

## 3. Tipo de Estimador Base (base_estimator):

Especifica o tipo de modelo básico a ser usado. Normalmente, o AdaBoost usa árvores de decisão rasas (stumps), mas outros classificadores ou regressões podem ser usados dependendo do problema específico.

## 4. Algoritmo de Boosting (algorithm):

Define o algoritmo de boosting a ser usado. Os valores comuns são "SAMME" para classificação multiclasse e "SAMME.R" para uma variante em que as probabilidades são reescaladas (geralmente mais eficiente).

## 5. Peso das Amostras (sample_weight):

Este hiperparâmetro permite fornecer pesos iniciais às amostras de treinamento. Ele pode ser usado para lidar com dados desbalanceados, atribuindo mais peso às classes minoritárias. Em geral, o AdaBoost ajusta automaticamente os pesos das amostras durante o treinamento.

# 4. *Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)*

In [3]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC
from sklearn.metrics import classification_report

# Carregando o conjunto de dados Iris
iris = load_iris()
X, y = iris.data, iris.target

# Dividindo o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definindo o classificador SVM
svm = SVC()

# Definindo os hiperparâmetros para o GridSearch
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf', 'linear']
}

# Inicializando o GridSearchCV
grid = GridSearchCV(svm, param_grid, refit=True, verbose=2, cv=5)

# Ajustando o GridSearch ao conjunto de dados de treino
grid.fit(X_train, y_train)

# Exibindo os melhores hiperparâmetros
print("Melhores hiperparâmetros encontrados:", grid.best_params_)

# Usando os melhores hiperparâmetros para fazer previsões no conjunto de teste
grid_predictions = grid.predict(X_test)

# Avaliando o desempenho do modelo
print(classification_report(y_test, grid_predictions))


Fitting 5 folds for each of 32 candidates, totalling 160 fits
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END ......................C=0.1, gamma=1, kernel=linear; total time=   0.0s
[CV] END ......................C=0.1, gamma=1, kernel=linear; total time=   0.0s
[CV] END ......................C=0.1, gamma=1, kernel=linear; total time=   0.0s
[CV] END ......................C=0.1, gamma=1, kernel=linear; total time=   0.0s
[CV] END ......................C=0.1, gamma=1, kernel=linear; total time=   0.0s
[CV] END .......................C=0.1, gamma=0.1, kernel=rbf; total time=   0.0s
[CV] END .......................C=0.1, gamma=0.