<a href="https://colab.research.google.com/github/isaacdono/ml-studies/blob/main/ensemble.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estudo Prático sobre Ensemble Methods

Olá! Este notebook foi criado para ajudar nos seus estudos sobre **Ensemble Methods** em Machine Learning.

Vamos abordar os seguintes pontos:
1.  **O que são Ensemble Methods?** Uma breve revisão.
2.  **Dataset de Exemplo:** Usaremos um dataset simples para visualizar as fronteiras de decisão.
3.  **Modelo Base:** Treinaremos uma única Árvore de Decisão como ponto de comparação.
4.  **Bagging:** Implementaremos o `RandomForestClassifier`.
5.  **Boosting:** Implementaremos o `GradientBoostingClassifier`.
6.  **Comparação:** Analisaremos a performance e as fronteiras de decisão de cada modelo.

**Lembre-se:** A ideia central dos métodos de ensemble é combinar múltiplos modelos mais fracos para criar um modelo final mais forte e robusto.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score

print("Bibliotecas importadas com sucesso!")

In [None]:
# make_moons é ótimo para visualizar problemas de classificação não-linear
X, y = make_moons(n_samples=500, noise=0.3, random_state=42)

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Visualizando o dataset
plt.figure(figsize=(8, 5))
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap='viridis', alpha=0.7)
plt.title("Dataset 'make_moons'")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

In [None]:
def plot_decision_boundary(clf, X, y, title):
    """Função para plotar a fronteira de decisão de um classificador."""
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                         np.arange(y_min, y_max, 0.02))

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    plt.contourf(xx, yy, Z, alpha=0.3, cmap='viridis')
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis', s=50, edgecolors='k')
    plt.title(title)
    plt.xlabel("Feature 1")
    plt.ylabel("Feature 2")


In [None]:
# Criando e treinando o modelo
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)

# Fazendo previsões e calculando a acurácia
y_pred_tree = tree_clf.predict(X_test)
acc_tree = accuracy_score(y_test, y_pred_tree)

print(f"Acurácia da Árvore de Decisão: {acc_tree:.4f}")

# Visualizando a fronteira de decisão
plt.figure(figsize=(8, 5))
plot_decision_boundary(tree_clf, X, y, f"Árvore de Decisão (Acurácia: {acc_tree:.2f})")
plt.show()


In [None]:
"""
### Bagging: Random Forest

O Random Forest cria várias árvores de decisão em paralelo, cada uma treinada em um subconjunto aleatório dos dados. A decisão final é tomada pela "votação" da maioria das árvores. Isso ajuda a reduzir o sobreajuste (overfitting).
"""

# Criando e treinando o modelo
rf_clf = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
rf_clf.fit(X_train, y_train)

# Fazendo previsões e calculando a acurácia
y_pred_rf = rf_clf.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)

print(f"Acurácia do Random Forest: {acc_rf:.4f}")

# Visualizando a fronteira de decisão
plt.figure(figsize=(8, 5))
plot_decision_boundary(rf_clf, X, y, f"Random Forest (Acurácia: {acc_rf:.2f})")
plt.show()

In [None]:
"""
### Boosting: Gradient Boosting

O Gradient Boosting também cria várias árvores, mas de forma sequencial. Cada nova árvore é treinada para corrigir os erros da árvore anterior. Isso resulta em um modelo muito poderoso, mas que pode ser mais sensível a ruídos.
"""

# Criando e treinando o modelo
gb_clf = GradientBoostingClassifier(n_estimators=100, random_state=42)
gb_clf.fit(X_train, y_train)

# Fazendo previsões e calculando a acurácia
y_pred_gb = gb_clf.predict(X_test)
acc_gb = accuracy_score(y_test, y_pred_gb)

print(f"Acurácia do Gradient Boosting: {acc_gb:.4f}")

# Visualizando a fronteira de decisão
plt.figure(figsize=(8, 5))
plot_decision_boundary(gb_clf, X, y, f"Gradient Boosting (Acurácia: {acc_gb:.2f})")
plt.show()

In [None]:
"""
### Comparação dos Modelos

Vamos comparar as acurácias e visualizar as três fronteiras de decisão lado a lado para entender as diferenças.

**Observação:** Note como as fronteiras de decisão dos modelos de ensemble são mais "suaves" e generalistas do que a da árvore de decisão única, que tende a criar "caixas" rígidas e pode se ajustar demais aos dados de treino.
"""

print("="*30)
print("      Resultados Finais")
print("="*30)
print(f"Acurácia da Árvore de Decisão: {acc_tree:.4f}")
print(f"Acurácia do Random Forest:      {acc_rf:.4f}")
print(f"Acurácia do Gradient Boosting:  {acc_gb:.4f}")
print("="*30)

# Plotando tudo lado a lado
fig, axes = plt.subplots(1, 3, figsize=(24, 6))

# Árvore de Decisão
plt.sca(axes[0])
plot_decision_boundary(tree_clf, X, y, f"Árvore de Decisão (Acc: {acc_tree:.2f})")

# Random Forest
plt.sca(axes[1])
plot_decision_boundary(rf_clf, X, y, f"Random Forest (Acc: {acc_rf:.2f})")

# Gradient Boosting
plt.sca(axes[2])
plot_decision_boundary(gb_clf, X, y, f"Gradient Boosting (Acc: {acc_gb:.2f})")

plt.suptitle("Comparação das Fronteiras de Decisão", fontsize=16)
plt.show()