# Módulo 23 - Tarefa 1

### Bagging

O objetivo principal do Bagging é evitar o overfitting, que ocorre quando um modelo de machine learning se ajusta excessivamente aos dados de treinamento e apresenta desempenho inferior em novos dados. Para isso, o Bagging emprega a criação de múltiplos modelos de machine learning usando diferentes conjuntos de dados dtreinamento, e a combinação dos resultados desses modelos através da média, visando reduzir a variância geral e melhorar a capacidade de generalização. O Bagging pode ser aplicado com diferentes algoritmos de machine learning, sendo flexível em sua escolha.

### Passo a Passo

#### Bootstrap
Sendo uma base de treino $D$ com tamanho $n$, realizar o bootstrap (amostragem com reposição) é gerarmos $m$ novas bases de treino $Di$, cada uma com tamanho $k$. $Di$ é gerado a partir de amostragens da base $D$, uniformemente, aleatóriamente e com reposição.

#### Modelagem

Depois de criadas as bases de treino $Di$ aplicamos o método de modelagem que desejamos a cada uma das $m$ bases de treino $Di$.

#### Aggregating

Depois de ajustarmos $m$ modelos utilizando as $m$ amostras do bootstrap, combinamos os resultados por sua média (para modelos de regressão) ou por votação (para modelos de classificação).

### Código bagging

In [1]:
# Imports
import pandas as pd
import numpy as np

In [2]:
class Model:
    
    #Ajusta o modelo correspondente
    def fit(self, df: pd.DataFrame):
        return self
    
    #Retorna previsão do modelo correspondente
    def predict(self, X: pd.DataFrame) -> pd.Series:
        pass

In [3]:
def bootstrap(data_frame: pd.DataFrame, n_models: int) -> list[pd.DataFrame]:
    return [data_frame.sample(frac=1.0, replace=True) for i in range(n_models)]

In [4]:
def modeling(samples: list[pd.DataFrame], models: list[Model]) -> list[Model]:
    return [model.fit(sample) for (sample, model) in zip(samples, models)]

In [5]:
def aggregate(models: list[Model], X: pd.DataFrame) -> pd.Series:
    predictions = [model.predict(X) for model in models]
    pred_len = len(predictions[0])
    final_pred = pd.Series( np.zeros(pred_len) )
    for pred in predictions:
        final_pred += pred
    final_pred /= len(predictions)