# Bagging: Estrat√©gia de Ensemble Learning para Modelos Preditivos

---

## **Passo a Passo para o Bagging**

O **Bagging** (Bootstrap Aggregating) √© uma t√©cnica de aprendizado de m√°quina baseada no conceito de *ensemble learning*, onde m√∫ltiplos modelos s√£o treinados de forma independente e suas previs√µes s√£o combinadas para obter um resultado mais robusto e confi√°vel. O processo pode ser dividido em tr√™s etapas principais:

### **üîπ Etapa 1: Bootstrap (Cria√ß√£o de Subamostras)**
Nesta fase, m√∫ltiplas amostras de treinamento s√£o geradas a partir do conjunto de dados original por meio de um processo conhecido como *bootstrap sampling*. Esse m√©todo envolve **amostragem com reposi√ß√£o**, ou seja, alguns exemplos podem aparecer v√°rias vezes em uma amostra, enquanto outros podem n√£o ser inclu√≠dos. O tamanho de cada amostra bootstrap √© igual ao conjunto de dados original.

### **üîπ Etapa 2: Modelagem (Aprendizes de Base)**
Cada amostra bootstrap √© utilizada para treinar um **modelo de aprendizado de m√°quina independente**. Os modelos podem ser √°rvores de decis√£o, redes neurais ou qualquer outro algoritmo preditivo. Como cada modelo √© treinado com um subconjunto diferente dos dados, ele captura diferentes aspectos do padr√£o presente no conjunto de treinamento.

### **üîπ Etapa 3: Agrega√ß√£o das Previs√µes**
Ap√≥s o treinamento, as previs√µes dos modelos individuais s√£o combinadas para formar uma √∫nica previs√£o final:
- **Para tarefas de classifica√ß√£o**, utiliza-se a **vota√ß√£o majorit√°ria**, onde a classe mais predita entre os modelos √© selecionada.
- **Para tarefas de regress√£o**, a **m√©dia das previs√µes** dos modelos individuais √© utilizada como a estimativa final.

O Bagging reduz a **vari√¢ncia do modelo**, tornando as previs√µes mais est√°veis e menos sens√≠veis a flutua√ß√µes nos dados, sem um aumento significativo do vi√©s.

---

## **Explica√ß√£o Conceitual do Bagging**

O **Bagging** √© uma t√©cnica de *ensemble learning* que aprimora a estabilidade e a precis√£o de modelos preditivos ao reduzir a variabilidade nos resultados. O princ√≠pio central do Bagging √© gerar **diversidade** entre os modelos de aprendizado, de modo que suas previs√µes individuais possam ser combinadas para formar um resultado mais confi√°vel.

O processo se inicia com a gera√ß√£o de diversas **amostras bootstrap**, que s√£o subconjuntos do conjunto de dados original obtidos por amostragem com reposi√ß√£o. Cada uma dessas amostras serve como base para o treinamento de um **modelo individual**. Como cada modelo aprende um conjunto ligeiramente diferente dos dados, eles se tornam menos propensos ao *overfitting* (superajuste).

Ap√≥s o treinamento, os modelos s√£o testados sobre um mesmo conjunto de dados e suas previs√µes s√£o **agregadas** de forma estrat√©gica:
- **Para classifica√ß√£o**, a **vota√ß√£o majorit√°ria** √© aplicada, selecionando a classe mais recorrente entre os modelos.
- **Para regress√£o**, a **m√©dia das previs√µes** √© utilizada como a resposta final.

O Bagging √© amplamente utilizado em algoritmos como **Random Forest**, onde diversas √°rvores de decis√£o s√£o treinadas em subconjuntos dos dados e agregadas para melhorar a performance geral. Essa abordagem confere maior **robustez, estabilidade e generaliza√ß√£o**, tornando-a altamente eficaz em problemas complexos.

---

## **Implementa√ß√£o em Python do Bagging**

A seguir, apresentamos a implementa√ß√£o do **Bagging** para **classifica√ß√£o** e **regress√£o**, demonstrando na pr√°tica como essa t√©cnica pode ser aplicada utilizando o **Scikit-learn**.

### **Bagging para Classifica√ß√£o**
A implementa√ß√£o a seguir utiliza um **conjunto de dados de classifica√ß√£o (Iris Dataset)** para ilustrar o uso de √°rvores de decis√£o como aprendizes de base dentro da estrat√©gia de Bagging.

In [14]:
# Import das bibliotecas

import pandas as pd

from sklearn.datasets        import load_iris
from sklearn.datasets        import load_diabetes

from sklearn.model_selection import train_test_split

from sklearn.tree            import DecisionTreeClassifier
from sklearn.metrics         import accuracy_score

from sklearn.tree            import DecisionTreeRegressor
from sklearn.metrics         import mean_squared_error, r2_score

In [16]:
# Exemplo da t√©cnica de bagging para problemas de classifica√ß√£o

X = load_iris().data
y = load_iris().target

df = pd.DataFrame(X, columns=load_iris().feature_names)
df['target'] = y

def bagging_classifier(df:pd.DataFrame, 
                       num_bootstrap_samples:int=3,  # Par√¢metro da fun√ß√£o que define a quantidade de amostragens para treinamento
                       test_size:float=0.25
                      ) -> pd.DataFrame:
    
    df_train, df_test = train_test_split(df, test_size=test_size)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')
    
    # Dicion√°rio para os resultados das predi√ß√µes de cada modelo
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        # Bootstrap
        df_train = df_train.sample(n=len(df_train), 
                                   replace=True)  # Amostragem COM reposi√ß√£o

        X_train = df_train.drop(['target'], axis=1)
        y_train = df_train['target']
        
        # Modelagem (base learners)
        model = DecisionTreeClassifier()
        model.fit(X_train, y_train)
        
        # Adicionando os resultados do modelo ao dicion√°rio para agrega√ß√£o das predi√ß√µes
        y_pred_bagging.update({i:model.predict(X_test)})
    
    # Aggregating
    y_pred = (pd.DataFrame(y_pred_bagging)
                .mode(axis=1)  # Agregando o valor com maior n√∫mero de apari√ß√µes nas predi√ß√µes dos modelos
                .rename(columns={0:'y_pred'}))
 
    # Resultados
    print(model)
    print('Accuracy score:', accuracy_score(y_true=y_test, 
                                            y_pred=y_pred['y_pred']
                                           ))

    return pd.concat(objs=[y_test.reset_index(drop=True), 
                           y_pred['y_pred'].astype(int)], 
                     axis=1)

bagging_classifier(num_bootstrap_samples=10, df=df, test_size=0.33)

DecisionTreeClassifier()
Accuracy score: 0.96


Unnamed: 0,y_test,y_pred
0,2,2
1,1,1
2,2,2
3,2,2
4,0,0
5,1,1
6,1,1
7,2,2
8,2,2
9,0,0


### **Bagging para Regress√£o**
Agora, aplicamos o Bagging ao **conjunto de dados de regress√£o (Diabetes Dataset)**, utilizando **√°rvores de decis√£o regressivas** como aprendizes de base.

In [3]:
# Exemplo da t√©cnica de bagging para problemas de regress√£o

X = load_diabetes().data
y = load_diabetes().target

df = pd.DataFrame(X, columns=load_diabetes().feature_names)
df['target'] = y

def bagging_regressor(df:pd.DataFrame, 
                      num_bootstrap_samples:int=3,  # Par√¢metro da fun√ß√£o que define a quantidade de amostragens para treinamento
                      test_size:float=0.25
                      ) -> pd.DataFrame:
    
    df_train, df_test = train_test_split(df, test_size=test_size)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')
    
    # Dicion√°rio para os resultados das predi√ß√µes de cada modelo
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        # Bootstrap
        df_train = df_train.sample(n=len(df_train), 
                                   replace=True)  # Amostragem COM reposi√ß√£o

        X_train = df_train.drop(['target'], axis=1)
        y_train = df_train['target']

        # Modelagem (base learners)
        model = DecisionTreeRegressor()
        model.fit(X_train, y_train)
        
        # Adicionando os resultados do modelo ao dicion√°rio para agrega√ß√£o das predi√ß√µes
        y_pred_bagging.update({i:model.predict(X_test)})

    # Aggregating
    y_pred = (pd.DataFrame(y_pred_bagging)
                .mean(axis=1)  # Agregando as predi√ß√µes dos modelos baseando n a m√©dia dos resultados
                .rename('y_pred'))
 
    # Resultados
    print(model)
    print('Mean squared error:', mean_squared_error(y_true=y_test, 
                                                   y_pred=y_pred))
    print('Coefficient of determination:', r2_score(y_true=y_test, 
                                                    y_pred=y_pred))
    
    return pd.concat(objs=[y_test.reset_index(drop=True), 
                           y_pred], 
                     axis=1)
    
bagging_regressor(num_bootstrap_samples=100, df=df, test_size=0.33)

DecisionTreeRegressor()
Mean squared error: 3495.8629835616434
Coefficient of determination: 0.3819796763415946


Unnamed: 0,y_test,y_pred
0,246.0,186.49
1,248.0,203.83
2,182.0,117.78
3,142.0,184.31
4,154.0,136.21
...,...,...
141,172.0,180.12
142,185.0,137.12
143,67.0,159.76
144,97.0,98.48


---

### **Conclus√£o**

A aplica√ß√£o da t√©cnica de **Bagging** demonstrou sua efic√°cia tanto em problemas de classifica√ß√£o quanto em regress√£o, utilizando √°rvores de decis√£o como base learners.

Para **classifica√ß√£o**, o modelo obteve uma **acur√°cia de 92%**, indicando que a agrega√ß√£o de m√∫ltiplos modelos atrav√©s do Bagging contribuiu significativamente para a melhoria da estabilidade e da precis√£o preditiva. O uso de amostragem bootstrap garantiu diversidade nos dados de treinamento, reduzindo o risco de overfitting e aumentando a generaliza√ß√£o do modelo.

J√° no caso da **regress√£o**, a m√©trica de erro quadr√°tico m√©dio (**MSE**) foi **3495,86**, e o coeficiente de determina√ß√£o (**R¬≤**) atingiu **0,38**, sugerindo que, embora o modelo tenha conseguido capturar parte da varia√ß√£o dos dados, h√° espa√ßo para melhorias, como a otimiza√ß√£o de hiperpar√¢metros ou a combina√ß√£o com t√©cnicas mais robustas, como Random Forest ou Boosting.