##  Diferenças entre Random Forest e AdaBoost

Aqui estão 5 diferenças entre os algoritmos **Random Forest** e **AdaBoost**, explicadas de forma leve e natural:

---

### 1.  Jeito que combinam os modelos
- **Random Forest**: Treina várias árvores de forma independente e combina os resultados por **votação (classificação)** ou **média (regressão)**.
- **AdaBoost**: Treina modelos **um após o outro**, e cada novo modelo tenta corrigir os erros do anterior. No final, cada modelo tem um **peso** diferente na decisão final.

---

### 2.  Como lidam com os dados de treino
- **Random Forest**: Usa partes aleatórias dos dados com **reposição** para treinar cada árvore. Cada uma vê um "mundo diferente".
- **AdaBoost**: Começa tratando todos os dados igual, mas com o tempo dá **mais peso para os exemplos difíceis**, focando nos que foram mal classificados.

---

### 3.  Independência entre os modelos
- **Random Forest**: As árvores são **independentes** entre si. Uma não sabe o que a outra fez.
- **AdaBoost**: Os modelos são **dependentes**. Um modelo aprende com os erros do anterior.

---

### 4.  Sensibilidade a ruídos e outliers
- **Random Forest**: Mais **robusto**. Como não tenta acertar tudo a qualquer custo, lida melhor com ruído e valores extremos.
- **AdaBoost**: Mais **sensível**. Insiste nos exemplos difíceis e pode acabar exagerando nos ruídos.

---

### 5.  Tendência ao overfitting
- **Random Forest**: Em geral, é **resistente ao overfitting**, especialmente com número alto de árvores e regularização.
- **AdaBoost**: Pode **sofrer mais com overfitting**, principalmente se os dados tiverem muito ruído ou forem mal balanceados.

---

 Ambos são poderosos, mas têm personalidades bem diferentes. O ideal é testar os dois e ver quem se sai melhor com os seus dados!


In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100)
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9533333333333334

## 🔧 Principais Parâmetros do AdaBoostClassifier

Abaixo estão os **5 parâmetros mais importantes** do `AdaBoostClassifier` do scikit-learn, com uma breve explicação de **o que fazem** e **por que são importantes**:

---

### 1.  `n_estimators`
- **O que é:** Número de modelos fracos (weak learners) treinados em sequência.
- **Por que é importante:**  
  - Controla quantas rodadas de boosting o modelo realiza.
  - Poucos estimadores → underfitting.  
  - Muitos estimadores → risco de overfitting.

---

### 2.  `learning_rate`
- **O que é:** Fator de escala para o peso de cada modelo fraco na previsão final.
- **Por que é importante:**  
  - Atua como regularizador: quanto menor, mais suave o aprendizado.
  - Um `learning_rate` menor normalmente exige mais estimadores (`n_estimators`).
  - Pode melhorar a generalização se bem ajustado.

---

### 3.  `estimator` (antigo `base_estimator`)
- **O que é:** O tipo de modelo fraco utilizado (por padrão, `DecisionTreeClassifier(max_depth=1)`).
- **Por que é importante:**  
  - Define a complexidade de cada modelo da sequência.
  - Pode usar modelos mais fortes, como árvores com maior profundidade.
  - Impacta a velocidade e a capacidade de aprendizado do AdaBoost.

---

### 4.  `algorithm`
- **O que é:** Estratégia de boosting: `"SAMME"` ou `"SAMME.R"` (default: `"SAMME.R"`).
- **Por que é importante:**  
  - `"SAMME.R"` usa probabilidades (valores reais) → geralmente mais rápido e mais preciso.
  - `"SAMME"` usa apenas rótulos de classe → pode ser mais lento ou menos estável.

---

### 5.  `random_state`
- **O que é:** Semente de aleatoriedade para garantir resultados reprodutíveis.
- **Por que é importante:**  
  - Não afeta a performance diretamente, mas essencial para **reproduzir experimentos**.
  - Útil ao comparar modelos ou fazer tuning.

---

###  Tabela Resumo

| Parâmetro        | Controla                         | Importância Principal                             |
|------------------|----------------------------------|---------------------------------------------------|
| `n_estimators`   | Número de modelos fracos         | Balanceia underfitting e overfitting              |
| `learning_rate`  | Peso de cada estimador           | Regula a influência e ajuda a evitar overfitting  |
| `estimator`      | Tipo de modelo base              | Determina o "poder" de cada modelo individual     |
| `algorithm`      | Estratégia de boosting           | Afeta velocidade e precisão                       |
| `random_state`   | Aleatoriedade                    | Garante reprodutibilidade                         |

---

 Esses parâmetros formam o coração do AdaBoost. Saber ajustá-los é essencial para tirar o máximo proveito do algoritmo!


In [4]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 1. Carregar dados
X, y = load_iris(return_X_y=True)

# 2. Dividir dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Modelo base
base_tree = DecisionTreeClassifier()

# 4. AdaBoost
ada = AdaBoostClassifier(estimator=base_tree, random_state=42)

# 5. Grade de hiperparâmetros (sem 'algorithm')
param_grid = {
    'n_estimators': [25, 50, 100],
    'learning_rate': [0.01, 0.1, 1.0],
    'estimator__max_depth': [1, 2, 3]
}

# 6. GridSearchCV
grid_search = GridSearchCV(ada, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)

# 7. Resultados
print("Melhores hiperparâmetros encontrados:")
print(grid_search.best_params_)

# 8. Avaliação no conjunto de teste
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"Acurácia no conjunto de teste: {acc:.4f}")


Melhores hiperparâmetros encontrados:
{'estimator__max_depth': 1, 'learning_rate': 0.1, 'n_estimators': 100}
Acurácia no conjunto de teste: 1.0000
