# Passo a Passo para realizar o Bagging

**Passo 1**: É necessário preparar o conjunto de dados original.

**Passo 2:** Decidir o número de conjunto de dados que queremos gerar usando o método de bootstrap (geralmente representado como *B*).

**Passo 3:** Para cada um dos B de conjunto de dados é necessário realizar a amostragem com substituição (bootstrap) do conjunto de dados original, resultando em um novo conjunto de tamanho igual ao original, porém com algumas observações repetidas e outras possivelmente ausentes.

**Passo 4:** Após é necessário treinar um modelo em cada um dos *B*. O modelo pode ser qualquer algoritmo de aprendizado de máquina, mas árvores de decisão são comunente usadas.

**5º e último passo:** Ao realizar a previsão:

- Se o problema for de regressão, é necessário calcular a média das previsões de cada modelo.
- Se o problema for classificação, é necessário tomar a classe mais votada como a previsão final (votação por maioria).

# Explicação sobre o Bagging

O Bagging, que é uma abreviação de Bootstrap Aggregating, é uma técnica de aprendizado de máquina usada para reduzir a variância em modelos que tendem a se ajustar demais, como as árvores de decisão. A ideia central é treinar múltiplos modelos, cada um em um subconjunto diferente dos dados, e depois combiná-los para obter uma previsão final.

A técnica do bootstrap envolve a amostragem do conjunto de dados com substituição, o que significa que algumas observações podem ser repetidas enquanto outras podem não aparecer no subconjunto. Isso introduz diversidade, o que ajuda a combater o ajuste excessivo.

Ao combinar previsões de múltiplos modelos, o Bagging suaviza as previsões e torna o modelo final menos sensível a ruídos nos dados de treinamento. Portanto, em vez de confiar em um único modelo, o Bagging leva em consideração a "opinião" de vários modelos, tornando as previsões mais robustas.

# Implementação em Python do Bagging

In [3]:
from sklearn.ensemble import BaggingClassifier
from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Gerar um conjunto de dados de exemplo
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Modelo base (árvore de decisão neste exemplo)
base_model = DecisionTreeClassifier()

# Inicializar o Bagging Classifier
bagging = BaggingClassifier(estimator=base_model, n_estimators=100, random_state=42)

# Treinar o modelo de Bagging
bagging.fit(X_train, y_train)

# Previsões
y_pred = bagging.predict(X_test)

# Avaliar a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo de Bagging: {accuracy:.2f}")

Acurácia do modelo de Bagging: 0.86


Neste exemplo, usamos a classe BaggingClassifier do scikit-learn, que implementa o Bagging para modelos de classificação. Há também uma versão para regressão chamada BaggingRegressor. A árvore de decisão foi escolhida como o modelo base, mas é possível substituí-la por qualquer outro modelo.