# Modulo 24 Atividade 01
#### João Paulo Costa

## Boosting

#### 1. Cinco diferenças entre Random Forest e AdaBoost

| Aspecto                              | Random Forest                                                                                     | AdaBoost                                                                                 |
| ------------------------------------ | ------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------- |
| **Tipo de Ensemble**                 | *Bagging* (Bootstrap Aggregating)                                                                 | *Boosting*                                                                               |
| **Construção dos modelos**           | Constrói várias árvores independentes, cada uma com amostras aleatórias dos dados e das features. | Constrói modelos sequenciais, onde cada novo modelo tenta corrigir os erros do anterior. |
| **Peso das observações**             | Cada amostra tem o mesmo peso no treinamento.                                                     | As amostras mal classificadas recebem peso maior em iterações seguintes.                 |
| **Combinação final**                 | Média (para regressão) ou voto da maioria (para classificação).                                   | Combinação ponderada dos modelos, onde os mais precisos têm maior peso.                  |
| **Sensibilidade a ruído e outliers** | Mais robusto a ruído e outliers.                                                                  | Mais sensível a ruído e outliers, pois aumenta o peso dos erros.                         |


#### 2. Exemplo prático do AdaBoost

In [1]:
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 1. Carregar base Iris
X, y = load_iris(return_X_y=True)

# 2. Dividir treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 3. Criar modelo AdaBoost
ada = AdaBoostClassifier(n_estimators=50, learning_rate=1.0, random_state=42)

# 4. Treinar modelo
ada.fit(X_train, y_train)

# 5. Fazer previsões
y_pred = ada.predict(X_test)

# 6. Avaliar
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de classificação:\n", classification_report(y_test, y_pred))

Acurácia: 1.0

Relatório de classificação:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



#### 3. Cinco hiperparâmetros importantes no AdaBoost

| Hiperparâmetro   | Descrição                                                                                            |
| ---------------- | ---------------------------------------------------------------------------------------------------- |
| `n_estimators`   | Número de estimadores (modelos fracos) sequenciais a serem treinados.                                |
| `learning_rate`  | Controla o peso dado a cada estimador. Valores menores reduzem overfitting, mas exigem mais árvores. |
| `base_estimator` | Modelo fraco base (por padrão, `DecisionTreeClassifier(max_depth=1)`).                               |
| `random_state`   | Garante reprodutibilidade.                                                                           |
| `algorithm`      | Pode ser `"SAMME"` (para múltiplas classes) ou `"SAMME.R"` (padrão e mais eficiente).                |


#### 4. GridSearchCV para encontrar melhores hiperparâmetros

In [2]:
from sklearn.model_selection import GridSearchCV

# Definir grade de parâmetros
param_grid = {
    'n_estimators': [10, 50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.5, 1.0]
}

# Criar modelo base
ada = AdaBoostClassifier(random_state=42)

# GridSearch
grid = GridSearchCV(ada, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid.fit(X_train, y_train)

# Resultados
print("Melhores parâmetros:", grid.best_params_)
print("Melhor acurácia:", grid.best_score_)

Melhores parâmetros: {'learning_rate': 0.1, 'n_estimators': 200}
Melhor acurácia: 0.9428571428571428
