<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo 23** | Combinação de modelos I
Caderno de **exercício 01**<br>




## Discente: Samuel Saturno


<h3><font  color="blue"><strong>1. Monte um passo a passo para o Bagging</strong></font></h3>

<h5><font  color=""><strong>Passo 1: Entendimento do Bagging</strong></font></h5>

<h5><font  color=""><i>Bagging é uma técnica de ensemble que combina múltiplos modelos de aprendizado de máquina para melhorar o desempenho preditivo. Ele funciona treinando vários modelos em subconjuntos aleatórios dos dados de treinamento e, em seguida, combinando as previsões desses modelos para produzir uma única previsão.</font></h5>


<h5><font  color=""><strong>Passo 2: Preparação dos Dados</strong></font></h5>


<h5><font  color=""><i>Gerenciamento dos dados tratando os valores ausentes, codificando as variáveis categóricas. Organizar o conjunto dados em duas partes um de treinamento e um conjunto de teste. O conjunto de treinamento será usado para treinar os modelos e o conjunto de teste será usado para avaliar o desempenho do modelo final.
.</font></h5>

<h5><font  color=""><strong>Passo 3: Implementação do Bagging</strong></font></h5>


<h5><font  color=""><i>


* Bootstraping: Para cada modelo no ensemble, amostrar aleatoriamente (com substituição) um conjunto de dados do conjunto de treinamento original. Essa amostragem cria vários conjuntos de treinamento diferentes.


* Treinamento dos Modelos: Treine um modelo em cada um dos conjuntos de dados amostrados.
* Previsões: Faça previsões com cada modelo para o conjunto de teste.
* Combinação das Previsões: Combine as previsões de todos os modelos. Para problemas de classificação, pode-se usar a moda (valor mais frequente) das previsões como a previsão final. Para problemas de regressão, a média das previsões pode ser usada.
* Avaliação do Desempenho: Avalie o desempenho do modelo final usando métricas apropriadas para o tipo de problema (por exemplo, precisão, recall, F1-score para classificação; erro quadrático médio para regressão).</font></h5>


<h5><font  color=""><strong>Passo 4: Ajuste de Parâmetros Opcionais</strong></font></h5>


<h5><font  color=""><i>

* Número de Modelos: Experimente diferentes números de modelos no ensemble para encontrar o equilíbrio entre viés e variância.


* Profundidade do Modelo: Dependendo do tipo de modelo que está sendo usado (por exemplo, árvores de decisão), ajuste a profundidade do modelo para evitar overfitting.


* Tamanho da Amostra Bootstrap: Experimente diferentes tamanhos de amostra para a técnica de bootstrap e avalie seu impacto no desempenho do modelo.</font></h5>


<h5><font  color=""><strong>Passo 5: Validação Cruzada (Opcional)</strong></font></h5>



<h5><font  color=""><i>K-fold Cross Validation: Para uma avaliação mais robusta do desempenho do modelo, você pode usar validação cruzada k-fold. Isso envolve dividir os dados em k partes iguais, treinar o modelo em k-1 partes e avaliá-lo na parte restante. Repita esse processo k vezes e calcule a média das métricas de desempenho.</font></h5>


<h5><font  color=""><strong>Passo 6: Avaliação do Desempenho Final</strong></font></h5>


<h5><font  color=""><i>Avaliação no Conjunto de Teste: Após ajustar e validar o modelo, avalie-o no conjunto de teste final para obter uma estimativa realista do desempenho do modelo em dados não vistos.</font></h5>


<h5><font  color=""><strong>Passo 7: Implementação e Otimização</strong></font></h5>

<h5><font  color=""><i>

* Implementação em uma Linguagem de Programação:
 Implemente o algoritmo de Bagging em uma linguagem de programação, como Python ou R, utilizando bibliotecas de aprendizado de máquina, como scikit-learn ou TensorFlow.

* Otimização de Desempenho: Experimente técnicas de otimização de desempenho, como paralelização, para reduzir o tempo de treinamento do modelo.</font></h5>

<h5><font  color=""><strong>Referências Bibliográticas (visto em 17/04/2024)</strong></font></h5>

<h6><font  color="blue"><strong>Sites:</strong></font></h6>

https://scikit-learn.org/stable/modules/ensemble.html#gradient-boosted-trees


https://www.ibm.com/br-pt/topics/bagging

<h3><font  color="blue"><strong>2. Explique com suas palavras o Bagging</strong></font></h3>


<h5><font  color=""><i> Bagging, conhecido como agregação de bootstrap, é o método de aprendizado por agrupamento, comumente usado para reduzir a variância em um conjunto de dados com ruídos. No bagging, uma amostra aleatória de dados em um conjunto de treinamento é selecionada com substituição, o que significa que os pontos de dados individuais podem ser escolhidos mais de uma vez. Após gerar várias amostras de dados, esses modelos fracos são então treinados de forma independente e de acordo com o tipo de tarefa, por exemplo, regressão ou classificação. A média ou a maioria dessas previsões resulta em uma estimativa mais precisa.</i></font></h5>





<h3><font  color="blue"><strong>3.(Opcional) Implementar em python o código do Bagging </strong></font></h3> <br>


<h3><font  color=""><strong>

* Bootstrap
* Modelagem
* Agregação
</strong></font></h3> <br>


<h3><font  color="">
O script abaixo implementa e avalia um classificador de Bagging usando árvores de decisão como modelos base, e usa o conjunto de dados Iris como exemplo. O objetivo é calcular a acurácia do classificador no conjunto de teste para avaliar seu desempenho.
</font></h3> <br>


In [1]:
# Importando as Bibliotecas
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

class BaggingClassifier:
    def __init__(self, n_estimators=10, max_samples=1.0):
        self.n_estimators = n_estimators
        self.max_samples = max_samples
        self.models = []

    def fit(self, X, y):
        for _ in range(self.n_estimators):
            # Bootstrap: amostragem aleatória com substituição
            indices = np.random.choice(len(X), size=int(self.max_samples * len(X)), replace=True)
            X_bootstrap = X[indices]
            y_bootstrap = y[indices]

            # Modelagem: treinamento do modelo em cada amostra bootstrap
            model = DecisionTreeClassifier()
            model.fit(X_bootstrap, y_bootstrap)
            self.models.append(model)

    def predict(self, X):
        # Agregação: combinação das previsões de todos os modelos
        predictions = np.array([model.predict(X) for model in self.models])
        return np.mean(predictions, axis=0).round().astype(int)

# Carregar dataset de exemplo (iris dataset)
iris = load_iris()
X, y = iris.data, iris.target

# Dividir o dataset em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicialização do BaggingClassifier com 5 modelos e máximo de amostras 0.8
bagging_clf = BaggingClassifier(n_estimators=5, max_samples=0.8)

# Treinamento do BaggingClassifier
bagging_clf.fit(X_train, y_train)

# Previsões no conjunto de teste
predictions = bagging_clf.predict(X_test)

# Avaliação do desempenho
accuracy = accuracy_score(y_test, predictions)
print("Acurácia:", accuracy)


Acurácia: 1.0


In [2]:
# Verificação obtida no site do scikit-learn

# Importando as Bibliotecas
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.datasets import make_hastie_10_2

# Gerando dados sintéticos com a função make_hastie_10_2
# A função retorna uma matriz X e um vetor y simulados
# random_state=0 garante que os mesmos dados sejam gerados sempre que o código for executado
X, y = make_hastie_10_2(random_state=0)

# Dividindo os dados em conjunto de treinamento e teste
# Os primeiros 2000 exemplos são usados para treinamento e o restante para teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Inicializando o classificador HistGradientBoostingClassifier com max_iter=100
# O classificador é treinado usando os dados de treinamento
clf = HistGradientBoostingClassifier(max_iter=100).fit(X_train, y_train)

# Calculando a acurácia do classificador nos dados de teste
accuracy = clf.score(X_test, y_test)
print("Acurácia:", accuracy)


Acurácia: 0.8965
