### Atividade 1 - Monte um passo a passo para o Bagging

O Bagging - Bootstrap Aggregating - apresenta os seguintes passos:

- Bootstrap: criação de amostras aleatórias de treinamento com reposição a partir do conjunto de dados de treinamento original. Essas novas amostras têm o mesmo tamanho do conjunto de dados original, mas cada linha pode se repetir, umas vez que a amostragem com reposição permite que cada observação seja selecionada mais de uma vez.
- Modelagem: montagem de um modelo para cada amostra bootstrap criada, de forma independente. Podem ser modelos de árvore de decisão, regressão, etc. Esses modelos são chamados de base learners.
- Agregação (Aggregating): os resultados dos modelos individuais são agregados para formar uma única previsão, mais robusta e confiável. No caso de problemas de classificação, a agregação geralmente é feita por votação , onde a classe mais comum entre os modelos é selecionada. Para problemas de regressão, a agregação é feita calculando-se a média dos resultados dos modelos.

### Atividade 2 - Explique com suas palavras o Bagging

O Bagging é um exemplo de técnica de ensemble, em que modelos são combinados em um algoritmo com o objetivo de obter um modelo final, mais confiável e com melhores resultados. 
No caso do Bagging, são criadas amostras do mesmo tamanho do dataset, por meio de amostragem com reposição. Cada amostra será utilizada para treinar um modelo de forma independente. No final, os modelos são agregados, dando origem a um modelo final mais robusto, que entenda melhor os dados e evite o under ou overfitting. 

### Atividade 3 - Implementar em python o código do Bagging

In [24]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [25]:
# Função para realizar bootstrap - amostragem com reposição

def bootstrap_sampling(X, y):
    n_samples = X.shape[0] #saber a quantidade de amostras no dataset
    indices = np.random.choice(n_samples, size=n_samples, replace=True) #amostragem com reposição - gera números aleatórios com a mesma quantidade original (do n_samples) e com reposição - replace=True
    return X[indices], y[indices] #retorna datasets do mesmo tamanho do inicial 

In [26]:
# Função para treinar um modelo de classificação em uma amostra bootstrap

def train_base_classifier(X, y):
    base_classifier = DecisionTreeClassifier()
    base_classifier.fit(X, y)
    return base_classifier

In [27]:
# Função para fazer previsões usando o conjunto de modelos de classificação

def predict_base_classifiers(base_classifiers, X):
    predictions = np.zeros((X.shape[0], len(base_classifiers)), dtype=int) # cria matriz de zeros para armazenar as previsões dos modelos de classificação 
    for i, classifier in enumerate(base_classifiers): # itera sobre todos os modelos na lista base_classifiers
        predictions[:, i] = classifier.predict(X) # cada modelo classifier é usado para fazer previsões no conjunto de dados X. As previsões resultantes são armazenadas na coluna correspondente da matriz predictions
    return np.mean(predictions, axis=1) # Após todas as previsões terem sido feitas e armazenadas na matriz predictions, calcula-se a média das previsões para cada exemplo

In [28]:
# Carregando o conjunto de dados digits

digits = load_digits()
X, y = digits.data, digits.target

In [29]:
# Dividindo o conjunto de dados em treino e teste 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [30]:
# Definindo número de modelos de classificação

num_base_classifiers = 10

In [31]:
# Lista para armazenar os modelos 

base_classifiers = []

In [32]:
# Treinando os modelos - usando as funções criadas inicialmente 

for _ in range(num_base_classifiers):
    X_bootstrap, y_bootstrap = bootstrap_sampling(X_train, y_train)
    base_classifier = train_base_classifier(X_bootstrap, y_bootstrap)
    base_classifiers.append(base_classifier) # incluindo modelo na lista criada acima 

In [33]:
# Fazendo previsões usando os modelos e a função criada inicialmente

predictions = predict_base_classifiers(base_classifiers, X_test)

In [35]:
# Convertendo as previsões para as classes

predictions_classes = np.round(predictions).astype(int)

In [38]:
# Calculando a acurácia para avaliar qualidade do modelo final - que juntou os outros

accuracy = accuracy_score(y_test, predictions_classes)
print("Acurácia do Bagging:", accuracy)

Acurácia do Bagging: 0.7
