In [None]:
#Passo a Passo para o Bagging

#1. Preparar o Dataset
#Antes de aplicar o Bagging:

#Faça o pré-processamento dos dados (tratamento de nulos, codificação, normalização se necessário).

#Divida o dataset em features (X) e target (y).

#2. Gerar Amostras Bootstrap
#Crie várias amostras aleatórias com reposição a partir do conjunto de treino.

#Cada amostra pode ter o mesmo tamanho do dataset original ou menor.

#Exemplo: se você quiser criar 10 modelos, gere 10 subconjuntos bootstrap.

# Como é com reposição, algumas observações podem aparecer mais de uma vez e outras podem não aparecer.

#3. Treinar Modelos Independentes
#Para cada subconjunto bootstrap, treine um modelo fraco (base learner).

#Normalmente se usa árvore de decisão sem poda, mas pode ser outro algoritmo.

# Os modelos são treinados em paralelo e de forma independente.

#4. Fazer Previsões (Agregação)
#Para novas instâncias, cada modelo faz sua previsão.

#Agregue os resultados das seguintes formas:

#Classificação: voto da maioria.

#Regressão: média das previsões.

#5. Avaliar o Modelo Final
#Compare a performance do modelo ensemble com o modelo individual (sem bagging).

#Utilize métricas adequadas:

#Classificação: accuracy, precision, recall, f1.

#Regressão: RMSE, MAE, R².





In [None]:
#Imagine que você tá com um conjunto de dados e quer treinar um modelo pra prever algo, se uma pessoa vai comprar ou não um produto. Só que, se você treina uma única árvore de decisão, ela pode ficar muito influenciada por alguns dados específicos.

#O que o Bagging faz é o seguinte:

#Ele pega teu conjunto de dados e cria várias amostras aleatórias com repetição (tipo: sorteia várias vezes com reposição).

#Em cada uma dessas amostras, ele treina um modelo separado — normalmente, usa árvores de decisão.

#Depois, junta a resposta de todos esses modelos pra dar o resultado final.

#Se for classificação, ele vê qual resposta apareceu mais entre os modelos (tipo votação).

#Se for regressão, ele faz a média das respostas.

#A vantagem é que isso ajuda a reduzir o overfitting e melhora a estabilidade do modelo. Você não fica mais dependente de uma única árvore.

In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from collections import Counter

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

n_estimators = 10  
modelos = []      

for i in range(n_estimators):
    indices = np.random.choice(len(X_train), size=len(X_train), replace=True)
    X_bootstrap = X_train[indices]
    y_bootstrap = y_train[indices]
    
    modelo = DecisionTreeClassifier()
    modelo.fit(X_bootstrap, y_bootstrap)
    
    modelos.append(modelo)

def bagging_predict(X):
    preds = []
    
    for modelo in modelos:
        preds.append(modelo.predict(X))  
    
    preds = np.array(preds).T
    
    final_preds = [Counter(amostra).most_common(1)[0][0] for amostra in preds]
    return np.array(final_preds)

y_pred = bagging_predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"Acurácia do Bagging: {acc:.4f}")


Acurácia do Bagging: 1.0000
