# Tarefa 1

## 1. Monte um passo a passo para o Bagging

O Bagging (Bootstrap Aggregating) consiste nos seguintes passos:

    1- Bootstrap: O processo de bootstrap envolve a criação de amostras aleatórias de treinamento com reposição a partir do conjunto de dados de treinamento original. Isso significa que cada amostra bootstrap tem o mesmo tamanho do conjunto de dados original, mas é obtida permitindo que cada exemplo seja selecionado várias vezes.
    2- Modelagem (Base learners): Para cada amostra bootstrap criada, um modelo de Machine Learning é treinado de forma independente. Isso significa que múltiplos modelos são criados, onde cada um é treinado em uma amostra bootstrap diferente. Esses modelos são chamados de base learners.
    3- Agregação (Aggregating): Nesta etapa, os resultados dos modelos individuais são agregados para formar uma única previsão final. No caso de problemas de classificação, a agregação geralmente é feita por votação majoritária, onde a classe mais comum entre os modelos é selecionada como a previsão final. Para problemas de regressão, a agregação é feita calculando-se a média dos resultados dos modelos.

## 2. Explique com suas palavras o Bagging

O Bagging, ou Bootstrap Aggregating, é um método de combinação de modelos usado em Machine Learning. Ele envolve a criação de várias amostras de treinamento, onde cada amostra é gerada aleatoriamente com reposição a partir do conjunto de dados original, em um processo chamado Bootstrap. Em seguida, cada amostra é usada para treinar um modelo independente, chamado de base learner.

Na etapa de teste, os modelos são aplicados aos dados de teste e suas previsões são combinadas por meio de uma estratégia de agregação. No caso de problemas de classificação, a combinação geralmente é feita por votação majoritária, ou seja, a classe mais frequente entre os modelos é escolhida como a classe final. No caso de problemas de regressão, a combinação é feita calculando-se a média das previsões dos modelos.

### 3. (Opcional) Implementar em python o código do Bagging

In [5]:
import numpy as np
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Gerar um conjunto de dados de classificação fictício
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, random_state=42)

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Etapa 1 - Bootstrap: Gerando subconjuntos de dados com reposição
n_estimators = 10  # Número de modelos na técnica de Bagging

# Criar os conjuntos de treinamento com reposição
bootstrap_samples = [np.random.choice(X_train.shape[0], size=X_train.shape[0], replace=True) for _ in range(n_estimators)]

# Etapa 2 - Modelagem: Treinando múltiplos modelos com os subconjuntos criados
models = []
for i in range(n_estimators):
    model = DecisionTreeClassifier(random_state=42)
    model.fit(X_train[bootstrap_samples[i]], y_train[bootstrap_samples[i]])
    models.append(model)

# Etapa 3 - Agregação: Fazendo previsões com os modelos e agregando os resultados
# Aqui usamos BaggingClassifier para simplificar o processo de agregação.
bagging = BaggingClassifier(estimator=DecisionTreeClassifier(), n_estimators=n_estimators, random_state=42)  # Alteração aqui

# Treinar o modelo de Bagging
bagging.fit(X_train, y_train)

# Fazer previsões
y_pred = bagging.predict(X_test)

# Avaliar a acurácia do modelo de Bagging
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy of Bagging Model: {accuracy:.4f}")

# Comparação com agregação manual das previsões individuais
individual_predictions = [model.predict(X_test) for model in models]
aggregated_predictions = np.array(individual_predictions).T
aggregated_predictions = [np.bincount(pred).argmax() for pred in aggregated_predictions]

# Avaliação da acurácia da agregação manual
aggregated_accuracy = accuracy_score(y_test, aggregated_predictions)
print(f"Accuracy of Aggregated Predictions (Manual): {aggregated_accuracy:.4f}")


Accuracy of Bagging Model: 0.9500
Accuracy of Aggregated Predictions (Manual): 0.9600
