## 1. Cite 5 diferenças entre o Random Forest e o AdaBoost:

#### Método de combinação dos modelos:

- **Random Forest:** Usa Bagging, onde várias árvores de decisão são criadas em paralelo e suas previsões são combinadas (por votação ou média) para criar a previsão final.
- **AdaBoost:** Usa Boosting, onde os modelos são treinados de forma sequencial. Cada novo modelo corrige os erros do modelo anterior.

#### Pesos dos exemplos:

- **Random Forest:** Cada árvore usa uma amostra aleatória dos dados (com reposição), sem alterar os pesos dos exemplos.
- **AdaBoost:** Dá mais peso aos exemplos que foram classificados incorretamente, focando em melhorar os erros em cada rodada de treinamento.

#### Tamanho das árvores:

- **Random Forest:** As árvores de decisão podem ser bastante profundas, pois cada árvore é treinada de forma independente.
- **AdaBoost:** As árvores são geralmente rasas (muitas vezes chamadas de "stumps", com apenas 1 ou 2 níveis) para que cada modelo seja simples.

#### Correção de erros:

- **Random Forest:** As árvores são treinadas de forma independente, sem foco específico nos erros das outras.
- **AdaBoost:** Cada novo modelo é treinado para corrigir os erros do modelo anterior, aumentando o peso dos exemplos mal classificados.

#### Resistência a overfitting:

- **Random Forest:** É menos propenso ao overfitting devido ao processo de Bagging e à aleatoriedade na escolha das variáveis.
- **AdaBoost:** Pode ser mais suscetível ao overfitting se não for bem regulado, especialmente com dados ruidosos ou difíceis.

## 2. Exemplo do AdaBoost.
https://scikit-learn.org/stable/modules/ensemble.html

In [57]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets        import load_iris
from sklearn.ensemble        import AdaBoostClassifier

In [58]:
X, y = load_iris(return_X_y=True)

# Ajustar o AdaBoostClassifier para usar o algoritmo SAMME
clf = AdaBoostClassifier(n_estimators=100, algorithm='SAMME')

# Realizar validação cruzada com 5 folds
scores = cross_val_score(estimator=clf, X=X, y=y, cv=5)

# Exibir a média dos scores
print(scores.mean())

0.9533333333333334


## 3. Cite 5 hiperparâmetros importantes no AdaBoost:
#### n_estimators:
- O número de modelos (ou "stumps") que serão treinados de forma sequencial. Representa quantas vezes o processo de AdaBoost será repetido. Um número maior geralmente melhora o desempenho, mas pode aumentar o tempo de treinamento e o risco de overfitting.

#### learning_rate:
- Controla o quanto cada modelo contribui para o conjunto final. Valores menores reduzem a contribuição de cada modelo, fazendo o algoritmo ser mais conservador, mas exigindo mais iterações (n_estimators maiores).

#### base_estimator:
- O modelo base usado no AdaBoost. Por padrão, é uma árvore de decisão rasa (ou "stump"), mas você pode substituir por outros modelos como SVM, KNN, etc. A escolha do estimador base impacta diretamente no comportamento do AdaBoost.

#### algorithm:
Existem duas opções principais para o AdaBoost:

- SAMME: É a versão multiclass do AdaBoost. Funciona bem para classificação com múltiplas classes.
- SAMME.R: É uma variante mais rápida e eficiente que utiliza probabilidades nas previsões. Funciona melhor com classificadores probabilísticos, como árvores de decisão. Em resumo, o SAMME.R é mais comumente usado porque tende a ser mais eficiente em termos computacionais.
#### random_state: 
- Usado para garantir que o processo seja reprodutível, controlando a aleatoriedade da amostragem.

## 4. Utilize o GridSearch para encontrar os melhores hyperparametros

In [None]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

model = AdaBoostClassifier()

param_grid = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.01, 0.1, 1.0],
    'algorithm': ['SAMME', 'SAMME.R']
}

grid_search = GridSearchCV(estimator=model, 
                           param_grid=param_grid, 
                           cv=5, 
                           scoring='accuracy', 
                           n_jobs=-1)

grid_search.fit(X_train, y_train)

best_params = grid_search.best_params_
print("Melhores parâmetros encontrados:", best_params)


best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Acurácia do melhor modelo no conjunto de teste:", accuracy)
