# **Bagging**

## 1. Monte um passo a passo para o Bagging

Passo 1: ***Preparação dos Dados***

*Coleta de Dados:* Reúna o conjunto de dados que você utilizará para treinar e testar o modelo.
*Pré-processamento:* Limpe os dados, lide com valores ausentes e normalize/escale os atributos conforme necessário.
*Divisão dos Dados:* Separe os dados em conjuntos de treinamento e teste para avaliar a performance do modelo.

Passo 2: ***Criação das Amostras Bootstrap***

*Geração de Amostras:* Crie várias amostras do conjunto de dados de treinamento usando a técnica de bootstrap, onde cada amostra é gerada selecionando dados aleatórios com reposição.
*Número de Amostras:* Decida quantas amostras bootstrap serão criadas. Um número comum é entre 50 e 100 amostras.

Passo 3: ***Treinamento dos Modelos***

*Modelo Base:* Escolha o modelo base que será usado para treinamento em cada amostra (por exemplo, uma árvore de decisão, regressão linear, etc.).
*Treinamento Individual:* Treine um modelo separado em cada amostra bootstrap. Cada modelo aprenderá diferentes aspectos dos dados devido às variações nas amostras.

Passo 4: ***Agregação das Previsões***

*Previsão dos Modelos:* Para um novo dado de entrada, obtenha a previsão de cada modelo treinado.
*Combinação das Previsões:* Para problemas de classificação, combine as previsões através de votação majoritária (a classe mais votada entre os modelos é a escolhida); Para problemas de regressão, combine as previsões tirando a média das previsões dos modelos.

Passo 5: ***Avaliação do Modelo***

*Teste no Conjunto de Teste:* Use o conjunto de dados de teste para avaliar o desempenho do modelo de Bagging.
*Métricas de Avaliação:* Calcule métricas de desempenho, como acurácia, precisão, recall, F1-score (para classificação) ou erro quadrático médio, erro absoluto médio (para regressão).

Passo 6: ***Análise e Ajustes Finais***

*Análise de Resultados:* Analise as métricas de desempenho para verificar se o modelo atende às expectativas.
*Ajustes:* Se necessário, experimente diferentes modelos base, número de amostras bootstrap ou outras configurações para otimizar o desempenho.
*Comparação:* Compare o desempenho do modelo de Bagging com outros modelos para garantir que ele esteja proporcionando uma melhoria significativa.

***Vantagens e Considerações***

Vantagens: O Bagging reduz a variância do modelo e ajuda a prevenir overfitting, resultando em previsões mais estáveis e precisas.
Considerações: Embora o Bagging melhore a estabilidade, ele pode aumentar o custo computacional devido ao treinamento de múltiplos modelos. Além disso, a escolha do modelo base e o número de amostras bootstrap podem impactar significativamente o desempenho.


## 2. Explique com suas palavras o Bagging

O Bagging, ou Bootstrap Aggregating, é uma técnica de ensemble learning utilizada para melhorar a precisão e a estabilidade de modelos de machine learning. A ideia principal é combinar vários modelos fracos (ou seja, modelos que têm um desempenho um pouco melhor do que a adivinhação aleatória) para criar um modelo forte que seja mais robusto e confiável. 
De uma forma geral ele funciona com as seguintes etapas: amostragem Bootstrap; treinamento de modelos e agregação. E como vantagens pode-se destacar: a redução de variância, a prevenção de overfitting e melhoria de precisão.

## 3. Implementar em python o código

In [12]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.svm import SVC

# Carregar o conjunto de dados Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir o conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escolher o modelo base (Árvore de Decisão)
base_model = DecisionTreeClassifier()

# Configurar o BaggingClassifier
bagging_model = BaggingClassifier(base_estimator=base_model, n_estimators=100, random_state=42)

# Treinar o modelo Bagging
bagging_model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = bagging_model.predict(X_test)

# Calcular a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do Bagging: {accuracy * 100:.2f}%')

# Avaliar outras métricas
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

# Experimente diferentes modelos base e parâmetros
# Exemplo com SVM como modelo base
base_model_svm = SVC()
bagging_model_svm = BaggingClassifier(base_estimator=base_model_svm, n_estimators=50, random_state=42)

bagging_model_svm.fit(X_train, y_train)
y_pred_svm = bagging_model_svm.predict(X_test)

accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f'Acurácia do Bagging com SVM: {accuracy_svm * 100:.2f}%')




Acurácia do Bagging: 100.00%
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
Acurácia do Bagging com SVM: 100.00%
