[![ebac_logo-data_science.png](https://github.com/PaulodiasDeveloper/Curso_EBAC-Profissao_Cientista_de_Dados/blob/main/Cientista%20de%20Dados/ebac-course-utils/media/logo/ebac_logo-data_science.png?raw=true)](https://github.com/PaulodiasDeveloper/Curso_EBAC-Profissao_Cientista_de_Dados)

<!-- <img src="https://github.com/PaulodiasDeveloper/Curso_EBAC-Profissao_Cientista_de_Dados/blob/main/Cientista%20de%20Dados/ebac-course-utils/media/logo/ebac_logo-data_science.png" alt="ebac-logo-data-science"> -->

---

<!-- # **Profissão: Cientista de Dados** -->
### **Módulo 23** | Combinação de modelos I | Exercício 1

**Aluno:** [Paulo Roberto](https://www.linkedin.com/in/paulo-roberto/)<br>
**Data:** 20 de abril de 2025.

--- 

### Tarefa 1

### ✅ **1. Passo a passo para o Bagging**

**Passo 1: Preparação do conjunto de dados**

- Tenha um conjunto de dados original com n amostras.

**Passo 2: Bootstrap (amostragem com reposição)**

- Gere múltiplas amostras de treino a partir do dataset original, com o mesmo número de linhas, usando amostragem com reposição.

**Passo 3: Modelagem (base learners)**

- Treine um modelo (como uma árvore de decisão) para cada subconjunto gerado.

**Passo 4: Predição individual**

- Cada modelo faz uma previsão com base nos dados de teste.

**Passo 5: Agregação das previsões**

- Para classificação: usa-se votação da maioria.
- Para regressão: faz-se a média dos resultados.

### ✅ 2. Explicação do Bagging com minhas palavras

Bagging, ou Bootstrap Aggregating, é uma técnica usada para melhorar o desempenho de modelos de aprendizado de máquina. Ele funciona criando várias cópias do conjunto de dados original, cada uma com pequenas variações, obtidas por meio de amostragem com reposição (o chamado bootstrap). Depois, treinamos um modelo simples para cada subconjunto. Por fim, juntamos as previsões de todos esses modelos para tomar uma decisão mais confiável — seja por votação (classificação) ou média (regressão). O Bagging ajuda a reduzir a variância dos modelos e evita o overfitting.

### ✅ 3. (Opcional) Implementar em python o código do Bagging

– Bootstrap

– Modelagem

– Agregação

In [6]:
# Import das bibliotecas

import pandas as pd

from sklearn.datasets        import load_iris
from sklearn.datasets        import load_diabetes

from sklearn.model_selection import train_test_split

from sklearn.tree            import DecisionTreeClassifier
from sklearn.metrics         import accuracy_score

from sklearn.tree            import DecisionTreeRegressor
from sklearn.metrics         import mean_squared_error, r2_score

In [13]:


# Carregando o conjunto de dados Iris
X = load_iris().data
y = load_iris().target

df = pd.DataFrame(X, columns=load_iris().feature_names)
df['target'] = y

def bagging_classifier(df: pd.DataFrame, num_bootstrap_samples: int = 10, test_size: float = 0.33) -> pd.DataFrame:
    # Dividindo o conjunto de dados em treinamento e teste
    df_train, df_test = train_test_split(df, test_size=test_size, random_state=42)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')
    
    # Dicionário para armazenar as predições de cada modelo
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        # Bootstrap com reposição
        df_bootstrap = df_train.sample(n=len(df_train), replace=True, random_state=i)
        
        X_train = df_bootstrap.drop(['target'], axis=1)
        y_train = df_bootstrap['target']
        
        # Treinando o modelo base (Decision Tree)
        model = DecisionTreeClassifier(random_state=i)
        model.fit(X_train, y_train)
        
        # Armazenando as predições do modelo
        y_pred_bagging[i] = model.predict(X_test)
    
    # Agregando as predições usando a moda
    y_pred = pd.DataFrame(y_pred_bagging).mode(axis=1)[0].rename('y_pred')
    
    # Calculando a acurácia
    accuracy = accuracy_score(y_true=y_test, y_pred=y_pred)
    print(f'Accuracy score: {accuracy:.2f}')
    
    # Retornando os resultados
    return pd.concat([y_test.reset_index(drop=True), y_pred], axis=1)

# Executando a função
resultados = bagging_classifier(df=df, num_bootstrap_samples=10, test_size=0.33)
resultados


Accuracy score: 1.00


Unnamed: 0,y_test,y_pred
0,1,1
1,0,0
2,2,2
3,1,1
4,1,1
5,0,0
6,1,1
7,2,2
8,1,1
9,1,1


In [9]:
# Exemplo da técnica de bagging para problemas de regressão

X = load_diabetes().data
y = load_diabetes().target

df = pd.DataFrame(X, columns=load_diabetes().feature_names)
df['target'] = y

def bagging_regressor(df:pd.DataFrame, 
                      num_bootstrap_samples:int=3,  # Parâmetro da função que define a quantidade de amostragens para treinamento
                      test_size:float=0.25
                      ) -> pd.DataFrame:
    
    df_train, df_test = train_test_split(df, test_size=test_size)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')
    
    # Dicionário para os resultados das predições de cada modelo
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        # Bootstrap
        df_train = df_train.sample(n=len(df_train), 
                                   replace=True)  # Amostragem COM reposição

        X_train = df_train.drop(['target'], axis=1)
        y_train = df_train['target']

        # Modelagem (base learners)
        model = DecisionTreeRegressor()
        model.fit(X_train, y_train)
        
        # Adicionando os resultados do modelo ao dicionário para agregação das predições
        y_pred_bagging.update({i:model.predict(X_test)})

    # Aggregating
    y_pred = (pd.DataFrame(y_pred_bagging)
                .mean(axis=1)  # Agregando as predições dos modelos baseando n a média dos resultados
                .rename('y_pred'))
 
    # Resultados
    print(model)
    print('Mean squared error:', mean_squared_error(y_true=y_test, 
                                                   y_pred=y_pred))
    print('Coefficient of determination:', r2_score(y_true=y_test, 
                                                    y_pred=y_pred))
    
    return pd.concat(objs=[y_test.reset_index(drop=True), 
                           y_pred], 
                     axis=1)
    
bagging_regressor(num_bootstrap_samples=100, df=df, test_size=0.33)

DecisionTreeRegressor()
Mean squared error: 3846.729646575342
Coefficient of determination: 0.3826899859723777


Unnamed: 0,y_test,y_pred
0,77.0,75.06
1,160.0,146.63
2,39.0,94.84
3,308.0,225.70
4,63.0,76.82
...,...,...
141,84.0,101.91
142,98.0,77.20
143,208.0,239.56
144,141.0,196.64


In [15]:
# Carregando o conjunto de dados Diabetes
X = load_diabetes().data
y = load_diabetes().target

df = pd.DataFrame(X, columns=load_diabetes().feature_names)
df['target'] = y

def bagging_regressor(df: pd.DataFrame, num_bootstrap_samples: int = 10, test_size: float = 0.33) -> pd.DataFrame:
    # Dividindo o conjunto de dados em treinamento e teste
    df_train, df_test = train_test_split(df, test_size=test_size, random_state=42)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')
    
    # Dicionário para armazenar as predições de cada modelo
    y_pred_bagging = {}

    for i in range(num_bootstrap_samples):
        # Bootstrap com reposição
        df_bootstrap = df_train.sample(n=len(df_train), replace=True, random_state=i)
        
        X_train = df_bootstrap.drop(['target'], axis=1)
        y_train = df_bootstrap['target']
        
        # Treinando o modelo base (Decision Tree)
        model = DecisionTreeRegressor(random_state=i)
        model.fit(X_train, y_train)
        
        # Armazenando as predições do modelo
        y_pred_bagging[i] = model.predict(X_test)
    
    # Agregando as predições usando a média
    y_pred = pd.DataFrame(y_pred_bagging).mean(axis=1).rename('y_pred')
    
    # Calculando os erros e coeficiente de determinação
    mse = mean_squared_error(y_true=y_test, y_pred=y_pred)
    r2 = r2_score(y_true=y_test, y_pred=y_pred)
    print(f'Mean squared error: {mse:.2f}')
    print(f'Coefficient of determination: {r2:.2f}')
    
    # Retornando os resultados
    return pd.concat([y_test.reset_index(drop=True), y_pred], axis=1)

# Executando a função
resultados = bagging_regressor(df=df, num_bootstrap_samples=10, test_size=0.33)
resultados


Mean squared error: 3293.02
Coefficient of determination: 0.43


Unnamed: 0,y_test,y_pred
0,219.0,142.4
1,70.0,163.0
2,202.0,157.6
3,230.0,221.3
4,111.0,125.1
...,...,...
141,139.0,213.6
142,268.0,216.1
143,69.0,95.4
144,317.0,226.5
