# 1. Passo a passo para Implementar Bagging

1. Baixar base de dados
2. Criar as amostras com reposição e colocá-las em uma lista.
3. Para cada amostra, dividir em treino e teste
4. Para cada amostra, treinar o modelo
5. Para cada amostra, criar previsões de teste.
6. Juntar todas as previsões em um dataframe.
7. Fazer a agregação a partir das frequências

# 2. Descrição

O Bagging é um processo de combinação de modelos para melhorar a eficácia dos resultados. Ele consiste em criar amostras variadas com repetição a partir do conjunto de dados inicial. Cada amostra é usada para treinar um modelo, e cada modelo é utilizado para fazer previsões. A partir dessas previsões, uma técnica de agregação é aplicada para determinar o melhor resultado. No caso de variáveis discretas, o melhor resultado é aquele com maior frequência entre os diferentes modelos. Para variáveis contínuas, o melhor resultado é a média de todos os resultados.

# 3. Exemplo de processo de bagging

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

In [None]:
df = sns.load_dataset("penguins")
df.dropna(inplace=True)
df['species'] = df['species'].map({'Adelie': 0, 'Chinstrap':1, 'Gentoo': 2 })
df['sex'] = df['sex'].map({'Male':0, 'Female':1})
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,0,Torgersen,39.1,18.7,181.0,3750.0,0
1,0,Torgersen,39.5,17.4,186.0,3800.0,1
2,0,Torgersen,40.3,18.0,195.0,3250.0,1
4,0,Torgersen,36.7,19.3,193.0,3450.0,1
5,0,Torgersen,39.3,20.6,190.0,3650.0,0
...,...,...,...,...,...,...,...
338,2,Biscoe,47.2,13.7,214.0,4925.0,1
340,2,Biscoe,46.8,14.3,215.0,4850.0,1
341,2,Biscoe,50.4,15.7,222.0,5750.0,0
342,2,Biscoe,45.2,14.8,212.0,5200.0,1


In [None]:
amostras = []
for i in range(20):
    amostras.append(df.sample(len(df), replace=True, random_state=i))

amostras

[     species     island  bill_length_mm  bill_depth_mm  flipper_length_mm  \
 178        1      Dream            50.5           18.4              200.0   
 53         0     Biscoe            42.0           19.5              200.0   
 123        0  Torgersen            41.4           18.5              202.0   
 198        1      Dream            50.1           17.9              190.0   
 332        2     Biscoe            43.5           15.2              213.0   
 ..       ...        ...             ...            ...                ...   
 233        2     Biscoe            48.4           14.6              213.0   
 281        2     Biscoe            46.2           14.9              221.0   
 298        2     Biscoe            45.2           13.8              215.0   
 57         0     Biscoe            40.6           18.8              193.0   
 164        1      Dream            47.0           17.3              185.0   
 
      body_mass_g  sex  
 178       3400.0    1  
 53        4

In [None]:
splits = []
for amostra in amostras:
    #print(amostra['island'])
    X = amostra.drop(['species', 'island'], axis=1)
    y = amostra['species']
    splits.append(train_test_split(X, y, test_size=0.3))

splits[0]

[     bill_length_mm  bill_depth_mm  flipper_length_mm  body_mass_g  sex
 308            47.5           14.0              212.0       4875.0    1
 101            41.0           20.0              203.0       4725.0    0
 30             39.5           16.7              178.0       3250.0    1
 180            46.4           17.8              191.0       3700.0    1
 117            37.3           20.5              199.0       3775.0    0
 ..              ...            ...                ...          ...  ...
 295            48.6           16.0              230.0       5800.0    0
 213            46.8           16.5              189.0       3650.0    1
 250            47.3           15.3              222.0       5250.0    0
 205            50.7           19.7              203.0       4050.0    0
 182            40.9           16.6              187.0       3200.0    1
 
 [233 rows x 5 columns],
      bill_length_mm  bill_depth_mm  flipper_length_mm  body_mass_g  sex
 299            45.2    

In [None]:
models=[]

for split in splits:
    model = DecisionTreeClassifier(max_depth=5, min_samples_leaf=20)
    model.fit(split[0], split[2])
    models.append(model)

models

[DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20),
 DecisionTreeClassifier(max_depth=5, min_samples_leaf=20

In [None]:
test_X= splits[0][1].sample(1, random_state=241)
test_X

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
126,38.8,17.6,191.0,3275.0,1


In [None]:
predictions = []
for model in models:
    y_pred = model.predict(test_X)
    predictions.append(y_pred[0])
predictions

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [None]:
final_prediction = pd.DataFrame(predictions).value_counts().idxmax()[0]
final_prediction

0