![https://raw.githubusercontent.com/marciolws/Curso_EBAC_Cientista_de_Dados/refs/heads/main/EBAC-media-utils/logo/ebac_logo-data_science.png](https://raw.githubusercontent.com/marciolws/Curso_EBAC_Cientista_de_Dados/refs/heads/main/EBAC-media-utils/logo/ebac_logo-data_science.png)

<!-- # **Profissão: Cientista de Dados** -->
### **Módulo 23** | Combinação de modelos | Exercício 1

**Aluno:** [Marcio da Silva](https://www.linkedin.com/in/marciolws/)<br>
**Data:** 01 de outubro de 2024.


## Tarefa 1

1. Monte um passo a passo para o Bagging:

> O **Bagging (Bootstrap Aggregating**) consiste em:
> 1. **Bootstrap**: É o processo que envolve a criação de amostras e relatórios de treinamento com a reposiçao a partir de um conjunto dos dados de treinamento original, ou seja, cada amostra tem o mesmo tamanho do conjunto de dados originais.  
> 2. **Modelagem (Base learners**): Com cada amostra do bootstrap criada, um modelo de Marchine Learning é treinado de forma indepentente, ou seja, multiplos modelos são criados onde cada um é treinado em uma amostra diferente. Esses modelos tem o nome de base learners.  
> 3. ***Agregação (Aggregating)***: Nessa etapa final, os resultados do modelos obtidos individualmente são agregados para formar uma previsão única. Cao haja problemas de classificação, a agregação é feita por votação majoritária onde a classe mais comum dos modelos é a selecionada para a previsão final.

2. Explique com suas palavras o Bagging:

> **Bagging**, abreviação de **Bootstrap Aggregating**, é uma técnica em machine learning que visa melhorar a performance de modelos, especialmente ao lidar com dados complexos e ruídosos. A ideia central é criar múltiplos modelos a partir de um único algoritmo e, em seguida, combinar suas previsões para obter uma previsão final mais precisa e robusta.

3. (Opcional) Implementar em python o código do Bagging.

In [34]:
#Importando as Bibiliotecas

import pandas as pd

from sklearn.datasets import load_iris
from sklearn.datasets import load_diabetes

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_log_error, r2_score, mean_squared_error

In [28]:
#Aqui um exemplo da tecnica utilizada para problemas de classificaçao:

X = load_iris().data
y = load_iris().target

df = pd.DataFrame(X, columns=load_iris().feature_names)
df['target'] = y

def bagging_classifier(df:pd.DataFrame,
                       num_bootstrap_samples:int=3,   #Paramento que define a quantidade de amostragens para treinamento.
                       test_size:float=0.18
                       ) -> pd.DataFrame:
    df_train, df_test = train_test_split(df, test_size=test_size)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')

    #Dificonario para os resultados das predições de cada modelo.
    y_pred_bagging={}

    for i in range(num_bootstrap_samples):
        #Aqui o bootstrap
        df_train = df_train.sample(n=len(df_train),
                                   replace=True)  #Amostragem com reposiçao.
        
        X_train = df_train.drop(['target'], axis=1)
        y_train = df_train['target']

        #Modelagem em base learners
        model = DecisionTreeClassifier()
        model.fit(X_train, y_train)

        #Adicionando os resultados obtidos no modelo do dicionario para agregação da predições.
        y_pred_bagging.update({i:model.predict(X_test)})

    #Agregating
    y_pred = (pd.DataFrame(y_pred_bagging)
              .mode(axis=1) #Aqui vai ser agregado o valor com maior numero de aparições nas predições dos modelos.
              .rename(columns={0:'y_pred'}))
    
    #Resultados obtidos.
    print(model)
    print('Accuracy Score:', accuracy_score(y_true=y_test,
                                            y_pred=y_pred['y_pred']
                                            ))
    
    return pd.concat(objs=[y_test.reset_index(drop=True),
                           y_pred['y_pred'].astype(int)],
                           axis=1)

bagging_classifier(num_bootstrap_samples=10, df=df, test_size=0.33)

DecisionTreeClassifier()
Accuracy Score: 0.92


Unnamed: 0,y_test,y_pred
0,2,2
1,2,2
2,0,0
3,1,2
4,1,1
5,1,1
6,2,1
7,2,2
8,0,0
9,0,0


> #### Exemplo de técnica de bagging para problemas de regressão.

In [39]:
#Aqui um exemplo da tecnica utilizada para problemas de classificaçao:

X = load_diabetes().data
y = load_diabetes().target

df = pd.DataFrame(X, columns=load_diabetes().feature_names)
df['target'] = y

def bagging_classifier(df:pd.DataFrame,
                       num_bootstrap_samples:int=3,   #Paramento que define a quantidade de amostragens para treinamento.
                       test_size:float=0.18
                       ) -> pd.DataFrame:
    df_train, df_test = train_test_split(df, test_size=test_size)
    
    X_test = df_test.drop(['target'], axis=1)
    y_test = df_test['target'].rename('y_test')

    #Dificonario para os resultados das predições de cada modelo.
    y_pred_bagging={}

    for i in range(num_bootstrap_samples):
        #Aqui o bootstrap
        df_train = df_train.sample(n=len(df_train),
                                   replace=True)  #Amostragem com reposiçao.
        
        X_train = df_train.drop(['target'], axis=1)
        y_train = df_train['target']

        #Modelagem em base learners
        model = DecisionTreeClassifier()
        model.fit(X_train, y_train)

        #Adicionando os resultados obtidos no modelo do dicionario para agregação da predições.
        y_pred_bagging.update({i:model.predict(X_test)})

    #Agregating
    y_pred = (pd.DataFrame(y_pred_bagging)
              .mode(axis=1) #Aqui vai ser agregado o valor com maior numero de aparições nas predições dos modelos.
              .rename(columns={0:'y_pred'}))
    
    #Resultados obtidos.
    print(model)
    print('Mean squared error:', mean_squared_error(y_true=y_test,
                                            y_pred=y_pred['y_pred']
                                            ))
    print('Coefficient of determination:', r2_score(y_true=y_test,
                                            y_pred=y_pred['y_pred']
                                            ))
    
    return pd.concat(objs=[y_test.reset_index(drop=True),
                           y_pred['y_pred'].astype(int)],
                           axis=1)

bagging_classifier(num_bootstrap_samples=100, df=df, test_size=0.33)

DecisionTreeClassifier()
Mean squared error: 11958.205479452055
Coefficient of determination: -0.8749025444751577


Unnamed: 0,y_test,y_pred
0,71.0,200
1,90.0,55
2,60.0,47
3,179.0,153
4,47.0,200
...,...,...
141,65.0,99
142,245.0,248
143,66.0,200
144,272.0,221
