## Passo a passo para o Bagging:
## 1) **Bootstrap:**
- Dado um conjunto de dados original de tamanho n
- Crie m novos conjuntos de dados (amostras bootstrap) de tamanho n
- Cada amostra é criada através de amostragem com reposição do conjunto original
## 2) **Modelagem:**
- Para cada amostra bootstrap, treine um modelo de aprendizado de máquina
- Geralmente, usa-se o mesmo tipo de modelo para todas as amostras
- Os modelos são treinados independentemente uns dos outros
## 3) **Agregação:**
- Para fazer previsões, use todos os modelos treinados
- Para problemas de classificação: use votação majoritária
- Para problemas de regressão: calcule a média das previsões

## Explicação do Bagging:
  Bagging, abreviação de Bootstrap Aggregating, é uma técnica de ensemble learning que visa melhorar a estabilidade e precisão de modelos de aprendizado de máquina. A ideia principal é criar múltiplas versões do conjunto de treinamento usando amostragem com reposição (bootstrap), treinar um modelo separado em cada versão e, em seguida, combinar as previsões desses modelos.

  Imagine que você tem um saco de bolinhas coloridas e quer adivinhar a cor predominante. Em vez de olhar para todas as bolinhas de uma vez, você pega um punhado aleatório (com reposição), anota a cor mais comum, e repete isso várias vezes. No final, você decide com base na cor que apareceu mais vezes em todos os seus "palpites". Isso é essencialmente o que o Bagging faz, mas com dados e modelos de aprendizado de máquina.
  
  O Bagging ajuda a reduzir o overfitting, pois cada modelo é treinado em uma amostra ligeiramente diferente dos dados. Isso torna o ensemble final mais robusto a outliers e ruídos nos dados. Além disso, ao combinar múltiplos modelos, o Bagging pode capturar diferentes aspectos dos dados, levando a previsões mais estáveis e precisas.

In [1]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

In [2]:
class SimpleBagging:
    def __init__(self, n_estimators=10):
        self.n_estimators = n_estimators
        self.estimators = []

    def bootstrap_sample(self, X, y):
        n_samples = X.shape[0]
        idxs = np.random.choice(n_samples, size=n_samples, replace=True)
        return X[idxs], y[idxs]

    def fit(self, X, y):
        self.estimators = []
        for _ in range(self.n_estimators):
            estimator = DecisionTreeClassifier()
            X_sample, y_sample = self.bootstrap_sample(X, y)
            estimator.fit(X_sample, y_sample)
            self.estimators.append(estimator)

    def predict(self, X):
        predictions = np.array([estimator.predict(X) for estimator in self.estimators])
        return np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=0, arr=predictions)

In [3]:
# Exemplo de uso
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

bagging = SimpleBagging(n_estimators=10)
bagging.fit(X_train, y_train)

predictions = bagging.predict(X_test)
accuracy = np.mean(predictions == y_test)
print(f"Acurácia: {accuracy:.2f}")

Acurácia: 0.88
