<a href="https://colab.research.google.com/github/ericbonelli/Cientista-de-Dados_EBAC/blob/main/Bagging.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧠 Bagging

## ✅ 1. O que é Bagging

O **Bagging** (de *Bootstrap Aggregating*) é uma técnica usada para melhorar o desempenho de modelos de Machine Learning. A ideia é simples:

- Criar várias amostras diferentes dos dados (com reposição);
- Treinar modelos separados em cada uma dessas amostras;
- Combinar as previsões desses modelos para tomar uma decisão mais robusta.

Isso reduz o **overfitting** e melhora a **generalização**. Um exemplo famoso que usa Bagging é o **Random Forest**.

---



## ✅ 2. Passo a passo para o Bagging

1. **Bootstrap (amostragem com reposição)**  
   - Gerar várias amostras do conjunto de dados original com reposição.  
   - Cada amostra terá o mesmo tamanho do dataset original, mas com dados repetidos ou omitidos aleatoriamente.

2. **Modelagem (treinamento de modelos)**  
   - Treinar um modelo (como uma árvore de decisão) em cada uma dessas amostras bootstrap.  
   - Cada modelo vai aprender de forma levemente diferente por causa da variação nas amostras.

3. **Agregação (combinar os modelos)**  
   - Para **classificação**: usar votação majoritária (a classe mais votada vence).  
   - Para **regressão**: calcular a média das previsões dos modelos.

   ---

## ✅ 3. Implementação em Python

Vamos usar o conjunto de dados Iris como exemplo e aplicar o Bagging com árvores de decisão, sendo demonstrando passo a passo de forma manual e depois usando scikit-learn

---

# 🌸 3.1. Bagging com o Dataset Iris - Manual

Vamos entender o funcionamento do Bagging recriando suas 3 etapas principais com o dataset Iris.

---

## 📌 Etapa 1: Bootstrap (amostragem com reposição)

In [18]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

# Carregar dataset Iris
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names

# Criar DataFrame para bootstrap
df = pd.DataFrame(X, columns=feature_names)
df['target'] = y

# Criar amostras com reposição (bootstrap)
n = len(df)
amostra1 = df.sample(n=n, replace=True, random_state=1).reset_index(drop=True)
amostra2 = df.sample(n=n, replace=True, random_state=2).reset_index(drop=True)
amostra3 = df.sample(n=n, replace=True, random_state=3).reset_index(drop=True)

## 🤖 Etapa 2: Modelagem com Árvores de Decisão


In [19]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# Dividir dados originais (não os de bootstrap) para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Treinar os 3 modelos nas amostras bootstrap
modelo1 = DecisionTreeClassifier().fit(amostra1[feature_names], amostra1['target'])
modelo2 = DecisionTreeClassifier().fit(amostra2[feature_names], amostra2['target'])
modelo3 = DecisionTreeClassifier().fit(amostra3[feature_names], amostra3['target'])

## 🧠 Etapa 3: Agregação (Votação entre os modelos)


In [20]:
from scipy.stats import mode
from sklearn.metrics import accuracy_score

# Converter X_test em DataFrame com nomes de colunas
X_test_df = pd.DataFrame(X_test, columns=feature_names)

# Prever com os 3 modelos
pred1 = modelo1.predict(X_test_df)
pred2 = modelo2.predict(X_test_df)
pred3 = modelo3.predict(X_test_df)

# Votação: empilha e tira a moda linha a linha
votos = np.array([pred1, pred2, pred3])
votacao_final = mode(votos, axis=0, keepdims=True).mode[0]

# Avaliação
print("✅ Acurácia do Bagging manual:", accuracy_score(y_test, votacao_final))

✅ Acurácia do Bagging manual: 1.0


# ⚡ 3.2. Bagging com Scikit-learn (automático)

Agora vamos usar o `BaggingClassifier`, que já faz tudo isso internamente de forma mais rápida e eficiente.

---



## 🚀  Etapa 1: Carregando o Dataset Iris

In [21]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

## 🌲  Etapa 2: Criando o Bagging com Árvores de Decisão


In [23]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.metrics import accuracy_score

# Modelo base
base = DecisionTreeClassifier()

# Bagging com 10 árvores
bagging = BaggingClassifier(estimator=base, n_estimators=10, random_state=42)
bagging.fit(X_train, y_train)

# Previsões e avaliação
y_pred = bagging.predict(X_test)
print("✅ Acurácia com BaggingClassifier:", accuracy_score(y_test, y_pred))


✅ Acurácia com BaggingClassifier: 1.0
