<a href="https://colab.research.google.com/github/ericbonelli/Cientista-de-Dados_EBAC/blob/main/Bagging.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üß† Bagging

## ‚úÖ 1. O que √© Bagging

O **Bagging** (de *Bootstrap Aggregating*) √© uma t√©cnica usada para melhorar o desempenho de modelos de Machine Learning. A ideia √© simples:

- Criar v√°rias amostras diferentes dos dados (com reposi√ß√£o);
- Treinar modelos separados em cada uma dessas amostras;
- Combinar as previs√µes desses modelos para tomar uma decis√£o mais robusta.

Isso reduz o **overfitting** e melhora a **generaliza√ß√£o**. Um exemplo famoso que usa Bagging √© o **Random Forest**.

---



## ‚úÖ 2. Passo a passo para o Bagging

1. **Bootstrap (amostragem com reposi√ß√£o)**  
   - Gerar v√°rias amostras do conjunto de dados original com reposi√ß√£o.  
   - Cada amostra ter√° o mesmo tamanho do dataset original, mas com dados repetidos ou omitidos aleatoriamente.

2. **Modelagem (treinamento de modelos)**  
   - Treinar um modelo (como uma √°rvore de decis√£o) em cada uma dessas amostras bootstrap.  
   - Cada modelo vai aprender de forma levemente diferente por causa da varia√ß√£o nas amostras.

3. **Agrega√ß√£o (combinar os modelos)**  
   - Para **classifica√ß√£o**: usar vota√ß√£o majorit√°ria (a classe mais votada vence).  
   - Para **regress√£o**: calcular a m√©dia das previs√µes dos modelos.

   ---

## ‚úÖ 3. Implementa√ß√£o em Python

Vamos usar o conjunto de dados Iris como exemplo e aplicar o Bagging com √°rvores de decis√£o, sendo demonstrando passo a passo de forma manual e depois usando scikit-learn

---

# üå∏ 3.1. Bagging com o Dataset Iris - Manual

Vamos entender o funcionamento do Bagging recriando suas 3 etapas principais com o dataset Iris.

---

## üìå Etapa 1: Bootstrap (amostragem com reposi√ß√£o)

In [18]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

# Carregar dataset Iris
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names

# Criar DataFrame para bootstrap
df = pd.DataFrame(X, columns=feature_names)
df['target'] = y

# Criar amostras com reposi√ß√£o (bootstrap)
n = len(df)
amostra1 = df.sample(n=n, replace=True, random_state=1).reset_index(drop=True)
amostra2 = df.sample(n=n, replace=True, random_state=2).reset_index(drop=True)
amostra3 = df.sample(n=n, replace=True, random_state=3).reset_index(drop=True)

## ü§ñ Etapa 2: Modelagem com √Årvores de Decis√£o


In [19]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# Dividir dados originais (n√£o os de bootstrap) para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Treinar os 3 modelos nas amostras bootstrap
modelo1 = DecisionTreeClassifier().fit(amostra1[feature_names], amostra1['target'])
modelo2 = DecisionTreeClassifier().fit(amostra2[feature_names], amostra2['target'])
modelo3 = DecisionTreeClassifier().fit(amostra3[feature_names], amostra3['target'])

## üß† Etapa 3: Agrega√ß√£o (Vota√ß√£o entre os modelos)


In [20]:
from scipy.stats import mode
from sklearn.metrics import accuracy_score

# Converter X_test em DataFrame com nomes de colunas
X_test_df = pd.DataFrame(X_test, columns=feature_names)

# Prever com os 3 modelos
pred1 = modelo1.predict(X_test_df)
pred2 = modelo2.predict(X_test_df)
pred3 = modelo3.predict(X_test_df)

# Vota√ß√£o: empilha e tira a moda linha a linha
votos = np.array([pred1, pred2, pred3])
votacao_final = mode(votos, axis=0, keepdims=True).mode[0]

# Avalia√ß√£o
print("‚úÖ Acur√°cia do Bagging manual:", accuracy_score(y_test, votacao_final))

‚úÖ Acur√°cia do Bagging manual: 1.0


# ‚ö° 3.2. Bagging com Scikit-learn (autom√°tico)

Agora vamos usar o `BaggingClassifier`, que j√° faz tudo isso internamente de forma mais r√°pida e eficiente.

---



## üöÄ  Etapa 1: Carregando o Dataset Iris

In [21]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

## üå≤  Etapa 2: Criando o Bagging com √Årvores de Decis√£o


In [23]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.metrics import accuracy_score

# Modelo base
base = DecisionTreeClassifier()

# Bagging com 10 √°rvores
bagging = BaggingClassifier(estimator=base, n_estimators=10, random_state=42)
bagging.fit(X_train, y_train)

# Previs√µes e avalia√ß√£o
y_pred = bagging.predict(X_test)
print("‚úÖ Acur√°cia com BaggingClassifier:", accuracy_score(y_test, y_pred))


‚úÖ Acur√°cia com BaggingClassifier: 1.0
