##  Diferen√ßas entre Random Forest e AdaBoost

Aqui est√£o 5 diferen√ßas entre os algoritmos **Random Forest** e **AdaBoost**, explicadas de forma leve e natural:

---

### 1.  Jeito que combinam os modelos
- **Random Forest**: Treina v√°rias √°rvores de forma independente e combina os resultados por **vota√ß√£o (classifica√ß√£o)** ou **m√©dia (regress√£o)**.
- **AdaBoost**: Treina modelos **um ap√≥s o outro**, e cada novo modelo tenta corrigir os erros do anterior. No final, cada modelo tem um **peso** diferente na decis√£o final.

---

### 2.  Como lidam com os dados de treino
- **Random Forest**: Usa partes aleat√≥rias dos dados com **reposi√ß√£o** para treinar cada √°rvore. Cada uma v√™ um "mundo diferente".
- **AdaBoost**: Come√ßa tratando todos os dados igual, mas com o tempo d√° **mais peso para os exemplos dif√≠ceis**, focando nos que foram mal classificados.

---

### 3.  Independ√™ncia entre os modelos
- **Random Forest**: As √°rvores s√£o **independentes** entre si. Uma n√£o sabe o que a outra fez.
- **AdaBoost**: Os modelos s√£o **dependentes**. Um modelo aprende com os erros do anterior.

---

### 4.  Sensibilidade a ru√≠dos e outliers
- **Random Forest**: Mais **robusto**. Como n√£o tenta acertar tudo a qualquer custo, lida melhor com ru√≠do e valores extremos.
- **AdaBoost**: Mais **sens√≠vel**. Insiste nos exemplos dif√≠ceis e pode acabar exagerando nos ru√≠dos.

---

### 5.  Tend√™ncia ao overfitting
- **Random Forest**: Em geral, √© **resistente ao overfitting**, especialmente com n√∫mero alto de √°rvores e regulariza√ß√£o.
- **AdaBoost**: Pode **sofrer mais com overfitting**, principalmente se os dados tiverem muito ru√≠do ou forem mal balanceados.

---

 Ambos s√£o poderosos, mas t√™m personalidades bem diferentes. O ideal √© testar os dois e ver quem se sai melhor com os seus dados!


In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100)
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()

0.9533333333333334

## üîß Principais Par√¢metros do AdaBoostClassifier

Abaixo est√£o os **5 par√¢metros mais importantes** do `AdaBoostClassifier` do scikit-learn, com uma breve explica√ß√£o de **o que fazem** e **por que s√£o importantes**:

---

### 1.  `n_estimators`
- **O que √©:** N√∫mero de modelos fracos (weak learners) treinados em sequ√™ncia.
- **Por que √© importante:**  
  - Controla quantas rodadas de boosting o modelo realiza.
  - Poucos estimadores ‚Üí underfitting.  
  - Muitos estimadores ‚Üí risco de overfitting.

---

### 2.  `learning_rate`
- **O que √©:** Fator de escala para o peso de cada modelo fraco na previs√£o final.
- **Por que √© importante:**  
  - Atua como regularizador: quanto menor, mais suave o aprendizado.
  - Um `learning_rate` menor normalmente exige mais estimadores (`n_estimators`).
  - Pode melhorar a generaliza√ß√£o se bem ajustado.

---

### 3.  `estimator` (antigo `base_estimator`)
- **O que √©:** O tipo de modelo fraco utilizado (por padr√£o, `DecisionTreeClassifier(max_depth=1)`).
- **Por que √© importante:**  
  - Define a complexidade de cada modelo da sequ√™ncia.
  - Pode usar modelos mais fortes, como √°rvores com maior profundidade.
  - Impacta a velocidade e a capacidade de aprendizado do AdaBoost.

---

### 4.  `algorithm`
- **O que √©:** Estrat√©gia de boosting: `"SAMME"` ou `"SAMME.R"` (default: `"SAMME.R"`).
- **Por que √© importante:**  
  - `"SAMME.R"` usa probabilidades (valores reais) ‚Üí geralmente mais r√°pido e mais preciso.
  - `"SAMME"` usa apenas r√≥tulos de classe ‚Üí pode ser mais lento ou menos est√°vel.

---

### 5.  `random_state`
- **O que √©:** Semente de aleatoriedade para garantir resultados reprodut√≠veis.
- **Por que √© importante:**  
  - N√£o afeta a performance diretamente, mas essencial para **reproduzir experimentos**.
  - √ötil ao comparar modelos ou fazer tuning.

---

###  Tabela Resumo

| Par√¢metro        | Controla                         | Import√¢ncia Principal                             |
|------------------|----------------------------------|---------------------------------------------------|
| `n_estimators`   | N√∫mero de modelos fracos         | Balanceia underfitting e overfitting              |
| `learning_rate`  | Peso de cada estimador           | Regula a influ√™ncia e ajuda a evitar overfitting  |
| `estimator`      | Tipo de modelo base              | Determina o "poder" de cada modelo individual     |
| `algorithm`      | Estrat√©gia de boosting           | Afeta velocidade e precis√£o                       |
| `random_state`   | Aleatoriedade                    | Garante reprodutibilidade                         |

---

 Esses par√¢metros formam o cora√ß√£o do AdaBoost. Saber ajust√°-los √© essencial para tirar o m√°ximo proveito do algoritmo!


In [4]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 1. Carregar dados
X, y = load_iris(return_X_y=True)

# 2. Dividir dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Modelo base
base_tree = DecisionTreeClassifier()

# 4. AdaBoost
ada = AdaBoostClassifier(estimator=base_tree, random_state=42)

# 5. Grade de hiperpar√¢metros (sem 'algorithm')
param_grid = {
    'n_estimators': [25, 50, 100],
    'learning_rate': [0.01, 0.1, 1.0],
    'estimator__max_depth': [1, 2, 3]
}

# 6. GridSearchCV
grid_search = GridSearchCV(ada, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)

# 7. Resultados
print("Melhores hiperpar√¢metros encontrados:")
print(grid_search.best_params_)

# 8. Avalia√ß√£o no conjunto de teste
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"Acur√°cia no conjunto de teste: {acc:.4f}")


Melhores hiperpar√¢metros encontrados:
{'estimator__max_depth': 1, 'learning_rate': 0.1, 'n_estimators': 100}
Acur√°cia no conjunto de teste: 1.0000
