# Modulo 23 Atividade 01
#### João Paulo Costa

## Bagging

#### 1. Passo a passo para o Bagging

Bagging (Bootstrap Aggregating) é uma técnica de ensemble learning usada para reduzir a variância e melhorar a estabilidade de modelos preditivos, especialmente os de alta variância, como árvores de decisão.

Passos:

   1. Amostragem com reposição (Bootstrap):

   * A partir do conjunto original de dados, são criadas várias amostras aleatórias com reposição (ou seja, o mesmo registro pode aparecer mais de uma vez em uma amostra).

   * Cada amostra tem o mesmo tamanho do conjunto original.

   2. Treinamento de modelos independentes:

   * Para cada amostra bootstrap, treina-se um modelo independente (ex: árvore de decisão).

   * Assim, cada modelo aprende variações diferentes dos dados.

   3. Predição individual:

   * Cada modelo gera sua própria predição para os dados de teste.

   4. Agregação dos resultados:

   * Para regressão, a média das previsões é usada.

   * Para classificação, usa-se o voto da maioria (a classe mais votada entre os modelos).

   5. Resultado final:

   * A predição agregada tende a ser mais estável e com menor variância do que qualquer modelo individual.

#### 2. Explicação com suas palavras

O Bagging é uma forma de “fortalecer” um modelo de aprendizado treinando várias versões dele em subconjuntos diferentes do mesmo conjunto de dados.
Cada modelo aprende um pouco diferente, porque recebe amostras alteradas.
No final, todas as previsões são combinadas — isso ajuda a reduzir o ruído e evitar overfitting, tornando o resultado mais confiável.

#### 3. Implementação em Python (Bootstrap + Modelagem + Agregação)

In [3]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from scipy.stats import mode

# 1. Carregar dados
iris = load_iris()
X, y = iris.data, iris.target

# 2. Definir parâmetros
n_models = 10              # número de modelos (árvores)
n_samples = X.shape[0]     # tamanho de cada amostra bootstrap
models = []                # lista para armazenar os modelos

# 3. Bootstrap + Modelagem
for i in range(n_models):
    # Criar amostra bootstrap
    idx = np.random.choice(range(n_samples), size=n_samples, replace=True)
    X_boot = X[idx]
    y_boot = y[idx]
    
    # Treinar modelo
    model = DecisionTreeClassifier(random_state=i)
    model.fit(X_boot, y_boot)
    
    # Guardar modelo
    models.append(model)

# 4. Agregação das previsões
preds = []
for model in models:
    preds.append(model.predict(X))

# Converter para array
preds = np.array(preds)

# Calcular a moda (voto da maioria) corretamente
y_pred_final = mode(preds, axis=0, keepdims=True).mode[0]

# Garantir que o resultado seja um array 1D
y_pred_final = np.ravel(y_pred_final)

# 5. Avaliação
acc = accuracy_score(y, y_pred_final)
print(f"Acurácia final com Bagging: {acc:.3f}")


Acurácia final com Bagging: 1.000
