# Tarefa 1

### 1. Explique com as suas palavras o que é Bagging

<div style="background: #EEEEF4; padding: 15px 20px; border-radius: 5px; margin-top: 20px">
    <p style="font-size: 11px; color: #666; font-weight: bold">Resposta</p>
    <p>Ensemble é uma abordagem em Machine Learning que combina vários modelos de aprendizado de máquina para melhorar a precisão das previsões. Existem diversas técnicas de ensemble disponíveis, e uma delas é o Bagging.</p>
    <p>No Bagging, são criadas várias amostras aleatórias com reposição a partir do conjunto de dados de treinamento. Cada amostra é utilizada para treinar um modelo individual e, em seguida, as previsões de todos os modelos são agregadas para produzir a predição final.</p>
</div>

### 2. Monte um passo a passo do processo de Bagging

<div style="background: #EEEEF4; padding: 15px 20px; border-radius: 5px; margin-top: 20px">
    <p style="font-size: 11px; color: #666; font-weight: bold">Resposta</p>
    <ol>
        <li>Definimos o número de modelos que serão treinados e o tamanho das amostras aleatórias que serão criadas</li>
        <li>Criamos N amostras aleatórias do conjunto de dados de treinamento, cada uma com tamanho igual ao tamanho definido anteriormente</li>
        <li>Treinamos um modelo de aprendizado de máquina base em cada uma das N amostras aleatórias criadas na etapa anterior</li>
        <li>Usamos cada um dos N modelos para fazer previsões no conjunto de dados de teste</li>
        <li>Agregamos as previsões de todos os N modelos para produzir uma previsão final. A agregação pode ser feita por voto majoritário (para problemas de classificação) ou por média (para problemas de regressão).</li>
    </ol>
</div>

### 3. Implemente um código que simule esse processo de Bagging

In [82]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.utils import resample

from sklearn.tree import DecisionTreeClassifier

In [16]:
#Carregando o Dataset Iris
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target)

In [18]:
#Dividindo em Treino e Test
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [142]:
class Bagging():
    
    def __init__(self, n_models = 10, n_sample = 50, max_depth=5, random_state=42):
        self.n_models = n_models
        self.n_sample = n_sample
        self.max_depth= max_depth
        self.random_state= random_state
        self.models_ = []
    
    def fit(self, X, y):
        self.models_ = []
        for i in range(self.n_models):
            X_sample, y_sample = resample(X, y, n_samples=self.n_sample, random_state=i)
            temp_clf = DecisionTreeClassifier(max_depth = self.max_depth, random_state = self.random_state).fit(X_sample, y_sample)
            self.models_.append(temp_clf)
    
    def predict(self, X):
        predicts = [model.predict(X) for model in self.models_]
        return pd.DataFrame(predicts, columns=X.index).mode().loc[0,:]

In [143]:
bg = Bagging(n_models = 20, n_sample = 50)
bg.fit(X_train, y_train)
print(f"Train: {accuracy_score(y_train, bg.predict(X_train))}")
print(f"Test: {accuracy_score(y_test, bg.predict(X_test))}")

Train: 0.9910714285714286
Test: 0.9736842105263158


In [144]:
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

print(f"Train: {accuracy_score(y_train, clf.predict(X_train))}")
print(f"Test: {accuracy_score(y_test, clf.predict(X_test))}")

Train: 1.0
Test: 0.9736842105263158
