<a href="https://colab.research.google.com/github/lucasgleria/seamese-network-algorithm/blob/main/Seamese_networks_algorithm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# README - Projeto de Busca por Similaridade de Imagens com Triplet Loss no MNIST

Este projeto explora a implementação de um sistema de busca por similaridade de imagens utilizando redes neurais e a função de perda **Triplet Loss**. O dataset utilizado para os testes e demonstrações é o **MNIST**, composto por dígitos manuscritos.

A principal ideia é treinar uma rede neural para aprender a gerar **embeddings** (vetores de características) para imagens, de modo que imagens similares tenham embeddings próximos no espaço vetorial, e imagens diferentes tenham embeddings distantes. Isso permite que, dada uma imagem de "consulta", possamos encontrar outras imagens "semelhantes" em um banco de dados.

## Fase de testes

A **Fase de Testes** é dedicada à configuração do ambiente, preparação dos dados e construção e treinamento do modelo. Aqui, você encontrará os scripts e a lógica para:

### Implementando o ambiente e configurações iniciais

Nesta seção, o ambiente do Google Colab é preparado. Isso envolve a **instalação de bibliotecas essenciais** como `segmentation-models-pytorch` (que inclui dependências para modelos de visão), `albumentations` para aumento de dados e `opencv-contrib-python` para processamento de imagens. Além disso, são definidas **configurações globais** cruciais para o treinamento, como o tamanho do `BATCH_SIZE`, a `Learning Rate (LR)`, o número de `EPOCHS` (épocas de treinamento) e a **seleção do dispositivo de processamento** (`cuda` se houver GPU disponível, `cpu` caso contrário).

---

### Carregando e Preparando o Dataset MNIST para Triplets

Esta parte do projeto detalha como o dataset **MNIST** é carregado. As imagens passam por **transformações** necessárias, como a conversão para **tensores PyTorch** e a **normalização** de seus valores de pixel. O ponto chave desta seção é a preparação dos dados para a **Triplet Loss**:
* É implementada uma função auxiliar (`create_class_indices`) para **agrupar os índices das imagens por classe** (dígito). Essa organização é fundamental para a eficiente seleção de pares **Anchor-Positive** (imagens da mesma classe) e **Anchor-Negative** (imagens de classes diferentes).
* A classe **`APN_MNIST_Dataset`** é desenvolvida. Ela é uma subclasse de `torch.utils.data.Dataset` que, a cada requisição, gera um **triplet** composto por uma imagem **Anchor**, uma **Positive** (da mesma classe da Anchor) e uma **Negative** (de uma classe diferente). Além disso, ela garante a **compatibilidade de canais** das imagens (de 1 para 3) para uso com modelos pré-treinados como o EfficientNet.
* Ao final, você poderá **visualizar um exemplo de triplet** para confirmar a correta geração das amostras.

---

### Preparando DataLoaders e Definindo o Modelo

Com o dataset pronto, os **`DataLoaders`** são configurados para carregar os dados em **batches** durante o treinamento e validação, permitindo o embaralhamento e a otimização do processo. A arquitetura do modelo (`APN_Model`) é definida, utilizando o **EfficientNet-B0** pré-treinado da biblioteca `timm` como *backbone*. A camada classificadora final do EfficientNet é ajustada para produzir os **vetores de embedding** com o tamanho desejado.

---

### Funções de Treinamento, Avaliação e Loop Principal

Esta seção apresenta as funções **`train_fn`** e **`eval_fn`**. A primeira é responsável por executar um passo de treinamento em uma época, incluindo o cálculo da **Triplet Loss**, a retropropagação (backpropagation) e a atualização dos pesos do modelo usando o otimizador **Adam**. A `eval_fn` avalia o desempenho do modelo no conjunto de validação, sem atualização de pesos. O **loop de treinamento** orquestra essas funções por um número definido de épocas, monitora a perda de validação e **salva os pesos do modelo** que obtiver o melhor desempenho.

---

### Inferência e Busca por Similaridade

Após o treinamento, o modelo é utilizado para **inferência**. Uma função **`get_mnist_encodings`** é implementada para gerar os embeddings de um subconjunto do dataset de teste, criando um banco de dados de vetores de características. As funções **`euclidean_dist`** (para calcular a distância entre embeddings) e **`plot_closest_mnist_imgs`** (para visualizar os resultados) são desenvolvidas. Finalmente, um **exemplo prático de busca** é demonstrado: uma imagem de consulta é selecionada, seu embedding é gerado e as imagens mais similares no banco de dados são identificadas e exibidas com base na proximidade de seus embeddings.

# Instalações


# Instale as bibliotecas essenciais para o projeto.
- **'segmentation-models-pytorch'** é uma biblioteca poderosa para tarefas de segmentação.
- **'albumentations'** é utilizada para aumento de dados (data augmentation) em tempo real, o que ajuda a melhorar a robustez e generalização do modelo.
- **'opencv-contrib-python'** é fundamental para operações de processamento de imagem, e a atualização garante que tenhamos as funcionalidades mais recentes.

In [None]:
!pip install segmentation-models-pytorch
!pip install -U git+https://github.com/albumentations-team/albumentations
!pip install --upgrade opencv-contrib-python

Collecting segmentation-models-pytorch
  Downloading segmentation_models_pytorch-0.5.0-py3-none-any.whl.metadata (17 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.8->segmentation-models-pytorch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.8->segmentation-models-pytorch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.8->segmentation-models-pytorch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.8->segmentation-models-pytorch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.8->segmentation-models-pytorch)
  Downloading nvidia_cublas_cu12-12.4.5.8-

# Importações
### Importe as bibliotecas necessárias para o desenvolvimento do modelo.


In [None]:
import torch # Biblioteca principal do PyTorch para construção e treinamento de redes neurais.
from torchvision import datasets, transforms # 'datasets' para carregar conjuntos de dados padrão, 'transforms' para pré-processamento de imagens.
from torch.utils.data import Dataset, DataLoader # Ferramentas para criar e gerenciar conjuntos de dados e carregadores de dados personalizados.
import numpy as np # Para operações numéricas, especialmente com arrays.
import pandas as pd # Para manipulação e análise de dados, útil para lidar com metadados ou rótulos.
from PIL import Image # Pillow, essencial para abrir, manipular e salvar imagens.
import matplotlib.pyplot as plt # Para visualização de dados e gráficos.
from tqdm import tqdm # Para exibir barras de progresso durante iterações, útil para acompanhar o treinamento.
import random # Para gerar números aleatórios, usado em várias partes do código, como na divisão de dados.

# Configurações
### Defina parâmetros importantes que serão usados em todo o projeto.

In [None]:
BATCH_SIZE = 32 # Define o número de amostras de treinamento processadas antes que os pesos do modelo sejam atualizados.
LR = 0.001 # Taxa de aprendizado (Learning Rate), um hiperparâmetro crucial que controla o tamanho dos passos durante a otimização.
EPOCHS = 5 # Número de vezes que o conjunto de dados inteiro será passado para a rede neural durante o treinamento.
             # Reduzido para '5' para testes rápidos e para demonstrar o fluxo com o dataset MNIST.
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' # Verifica se uma GPU (CUDA) está disponível e a usa;
                                                        # caso contrário, o treinamento será executado na CPU.
print(f"Usando o dispositivo: {DEVICE}") # Imprime o dispositivo que será utilizado para o treinamento.

# Carregando o Dataset MNIST
### carregamos o popular dataset MNIST, que consiste em imagens de dígitos manuscritos. Aplicamos transformações essenciais para prepará-lo para o modelo, como a conversão para tensores PyTorch e a normalização. A normalização é crucial para ajudar o modelo a convergir mais rapidamente e ter um desempenho melhor.

In [None]:
# Define as transformações a serem aplicadas nas imagens do MNIST.
# 'transforms.ToTensor()' converte as imagens PIL Image (ou NumPy ndarray) para tensores PyTorch.
# Ele também escala os valores dos pixels de [0, 255] para [0.0, 1.0].
# 'transforms.Normalize((0.1307,), (0.3081,))' normaliza o tensor.
# Os valores médios (0.1307) e desvios padrão (0.3081) são os valores padrão para o dataset MNIST,
# calculados sobre todo o dataset de treinamento.
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,)) # Normalização padrão do MNIST
])

# Carrega o dataset de treinamento do MNIST.
# '../data' especifica o diretório onde o dataset será salvo ou carregado.
# 'train=True' indica que estamos carregando o conjunto de treinamento.
# 'download=True' permite que o PyTorch baixe o dataset se ele não estiver presente.
# 'transform=transform' aplica as transformações definidas acima a cada imagem.
mnist_train_dataset = datasets.MNIST('../data', train=True, download=True, transform=transform)

# Carrega o dataset de teste do MNIST.
# 'train=False' indica que estamos carregando o conjunto de teste.
mnist_test_dataset = datasets.MNIST('../data', train=False, transform=transform)

# Imprime o tamanho dos datasets carregados para verificação.
print(f"Tamanho do dataset de treino MNIST: {len(mnist_train_dataset)}")
print(f"Tamanho do dataset de teste MNIST: {len(mnist_test_dataset)}")

# Preparando os dados para a Geração de Triplets
### Para treinar um modelo com Triplet Loss (Perda de Triplet), precisamos de amostras de Anchor (A), Positive (P) e Negative (N). O Anchor e o Positive pertencem à mesma classe, enquanto o Negative pertence a uma classe diferente. Esta seção foca em organizar o dataset para facilitar a criação desses triplets.

In [None]:
# Função para agrupar os índices das imagens por classe.
# Isso é essencial para selecionar eficientemente as imagens 'Positive' (mesma classe)
# e 'Negative' (classe diferente) para cada 'Anchor'.
def create_class_indices(dataset):
    # Inicializa um dicionário onde cada chave é um dígito (0-9) e o valor é uma lista vazia.
    class_indices = {i: [] for i in range(10)}
    # Itera sobre o dataset com seus respectivos índices e rótulos.
    for i, (_, label) in enumerate(dataset):
        # Adiciona o índice da imagem à lista correspondente ao seu rótulo.
        class_indices[label].append(i)
    return class_indices

# Gera os dicionários de índices por classe para os datasets de treino e teste.
train_class_indices = create_class_indices(mnist_train_dataset)
test_class_indices = create_class_indices(mnist_test_dataset)

# Criando o Dataset ```APN_MNIST_Dataset``` para Triplets
### Aqui, definimos uma classe de dataset personalizada que herda de ```torch.utils.data.Dataset```. Esta classe é responsável por gerar os triplets (Anchor, Positive, Negative) sob demanda.

In [None]:
# Define uma classe de Dataset personalizada para gerar triplets (Anchor, Positive, Negative).
class APN_MNIST_Dataset(Dataset):
    def __init__(self, dataset, class_indices):
        """
        Inicializa o dataset APN_MNIST.

        Args:
            dataset (torch.utils.data.Dataset): O dataset base (e.g., mnist_train_dataset).
            class_indices (dict): Um dicionário mapeando labels para listas de índices de imagens,
                                  gerado por 'create_class_indices'.
        """
        self.dataset = dataset
        self.class_indices = class_indices
        # Cria uma lista plana de todos os rótulos do dataset para seleção eficiente de negativos.
        # Embora o class_indices já tenha os rótulos, esta lista pode ser útil para outras lógicas de seleção.
        self.labels = [label for _, label in dataset]

    def __len__(self):
        """
        Retorna o número total de itens no dataset.
        Para cada imagem no dataset original, vamos gerar um triplet.
        """
        return len(self.dataset)

    def __getitem__(self, idx):
        """
        Retorna um triplet (Anchor, Positive, Negative) dado um índice.

        Args:
            idx (int): O índice da imagem Anchor no dataset original.

        Returns:
            tuple: Um triplet de tensores de imagem (anchor_img, positive_img, negative_img).
        """
        # --- Anchor (A) ---
        # Seleciona a imagem e o rótulo do Anchor com base no índice fornecido.
        anchor_img, anchor_label = self.dataset[idx]

        # --- Positive (P) ---
        # Seleciona outra imagem que pertence à mesma classe do Anchor.
        positive_idx = idx
        # Garante que a imagem 'Positive' não seja a mesma imagem do 'Anchor'.
        while positive_idx == idx:
            positive_idx = random.choice(self.class_indices[anchor_label])
        positive_img, _ = self.dataset[positive_idx]

        # --- Negative (N) ---
        # Seleciona uma imagem que pertence a uma classe diferente do Anchor.
        negative_label = random.randint(0, 9)
        # Garante que o rótulo da imagem 'Negative' seja diferente do rótulo do 'Anchor'.
        while negative_label == anchor_label:
            negative_label = random.randint(0, 9)
        # Seleciona aleatoriamente um índice de imagem da classe 'Negative' escolhida.
        negative_idx = random.choice(self.class_indices[negative_label])
        negative_img, _ = self.dataset[negative_idx]

        # --- Ajuste de Canais para Compatibilidade com EfficientNet ---
        # As imagens do MNIST são em escala de cinza (1 canal).
        # Muitos modelos pré-treinados, como o EfficientNet, esperam imagens RGB (3 canais).
        # Replicamos o único canal 3 vezes para simular uma imagem RGB.
        anchor_img = anchor_img.repeat(3, 1, 1)
        positive_img = positive_img.repeat(3, 1, 1)
        negative_img = negative_img.repeat(3, 1, 1)

        return anchor_img, positive_img, negative_img

# Instancia os datasets de treino e teste baseados na classe APN_MNIST_Dataset.
train_dataset = APN_MNIST_Dataset(mnist_train_dataset, train_class_indices)
test_dataset = APN_MNIST_Dataset(mnist_test_dataset, test_class_indices)

# Imprime o tamanho dos datasets APN_MNIST gerados.
print(f"Tamanho do dataset de treino APN_MNIST: {len(train_dataset)}")
print(f"Tamanho do dataset de teste APN_MNIST: {len(test_dataset)}")


# Visualizando um Exemplo de Triplet
### Antes de prosseguir com o treinamento, é fundamental visualizar um exemplo de triplet para confirmar que a lógica de geração está funcionando como esperado. Isso nos ajuda a ter certeza de que as imagens Anchor, Positive e Negative estão sendo selecionadas corretamente.

In [None]:
# Visualizar um exemplo de triplet
idx = 0 # Seleciona o primeiro elemento do dataset de treino para visualização.
A, P, N = train_dataset[idx] # Obtém o triplet (Anchor, Positive, Negative) no índice 'idx'.

# Cria uma figura com 1 linha e 3 colunas para exibir as três imagens do triplet.
f, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(10, 5))

# Exibe a imagem Anchor.
# A.permute(1, 2, 0) muda a ordem dos canais de (C, H, W) para (H, W, C) para que o matplotlib possa exibir.
# .squeeze() remove dimensões de tamanho 1 (útil se a imagem for em escala de cinza e tiver um canal extra).
# .cpu().numpy() move o tensor para a CPU e o converte para um array NumPy.
ax1.set_title(f'Anchor (Label: {mnist_train_dataset[idx][1]})') # Define o título com o rótulo original do Anchor.
ax1.imshow(A.permute(1, 2, 0).squeeze().cpu().numpy(), cmap='gray') # 'cmap='gray'' para imagens em escala de cinza.

# Exibe a imagem Positive.
ax2.set_title(f'Positive (Same Label)')
ax2.imshow(P.permute(1, 2, 0).squeeze().cpu().numpy(), cmap='gray')

# Exibe a imagem Negative.
ax3.set_title(f'Negative (Different Label)')
ax3.imshow(N.permute(1, 2, 0).squeeze().cpu().numpy(), cmap='gray')

plt.show() # Mostra a figura.

# Carregando o Dataset em Batches
### Para um treinamento eficiente de redes neurais, é comum processar os dados em pequenos lotes (batches). Os ```DataLoaders``` do PyTorch nos ajudam a iterar sobre o dataset em batches, além de permitir embaralhar os dados para evitar que o modelo aprenda a ordem das amostras.

In [None]:
# Carregar Dataset em batches
# Cria um DataLoader para o conjunto de treinamento.
# 'batch_size=BATCH_SIZE' define o número de amostras por lote.
# 'shuffle=True' embaralha os dados em cada época, o que é crucial para um bom treinamento.
trainloader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)

# Cria um DataLoader para o conjunto de validação (teste).
# 'shuffle=False' é geralmente usado para o conjunto de validação/teste, pois a ordem não importa.
validloader = DataLoader(test_dataset, batch_size=BATCH_SIZE)

# Imprime o número de batches em cada DataLoader.
print(f"\nNo. de batches em trainloader : {len(trainloader)}")
print(f"No. de batches em validloader : {len(validloader)}")

# Pega um batch de exemplo para verificar o formato das imagens.
for A, P, N in trainloader:
    break # Sai do loop após pegar o primeiro batch.
print(f"Formato de um batch de imagem: {A.shape}") # Imprime o formato do tensor das imagens Anchor (Batch_Size, Canais, Altura, Largura).

# Definindo a Arquitetura do Modelo (```APN_Model```)
### Aqui, definimos o modelo principal (```APN_Model```) que será usado para gerar os embeddings das imagens. Estamos utilizando o ```EfficientNet-B0``` pré-treinado do timm (```PyTorch Image Models```), que é um modelo eficiente e robusto para tarefas de visão computacional. A camada classificadora final do ```EfficientNet``` é adaptada para produzir um vetor de embedding do tamanho desejado (```emb_size```).

In [None]:
import timm # Biblioteca para modelos de imagem pré-treinados, como EfficientNet.
import torch.nn.functional as F # Funções comuns de ativação e perda.
from torch import nn # Módulo principal do PyTorch para construir redes neurais.

# Define a classe do modelo para gerar embeddings APN (Anchor, Positive, Negative).
class APN_Model(nn.Module):
    def __init__(self, emb_size=512):
        """
        Inicializa o modelo APN.

        Args:
            emb_size (int): O tamanho do vetor de embedding de saída do modelo.
        """
        super(APN_Model, self).__init__()
        # Carrega o modelo EfficientNet-B0 pré-treinado do 'timm'.
        # 'pretrained=True' carrega pesos pré-treinados no ImageNet, o que acelera o treinamento.
        # O EfficientNet-B0 espera 3 canais de entrada, o que já foi tratado no APN_MNIST_Dataset.
        self.efficientnet = timm.create_model('efficientnet_b0', pretrained=True)
        # Ajusta a camada classificadora final do EfficientNet para produzir 'emb_size' features.
        # Isso transforma a saída do EfficientNet em um vetor de embedding com o tamanho especificado.
        self.efficientnet.classifier = nn.Linear(in_features=self.efficientnet.classifier.in_features, out_features=emb_size)

    def forward(self, images):
        """
        Passa as imagens pelo modelo para obter seus embeddings.

        Args:
            images (torch.Tensor): Um tensor de imagens de entrada.

        Returns:
            torch.Tensor: Os vetores de embedding das imagens.
        """
        embeddings = self.efficientnet(images)
        return embeddings

# Instancia o modelo APN_Model.
model = APN_Model()
# Move o modelo para o dispositivo de processamento (GPU ou CPU) definido globalmente.
model.to(DEVICE)

print(f"Modelo carregado no dispositivo: {DEVICE}")

# Funções de Treino e Avaliação e Loop de Treinamento
### Esta seção implementa as funções essenciais para o processo de treinamento e validação do modelo. A ```train_fn``` realiza um passo de otimização em cada batch, calculando a perda e atualizando os pesos do modelo. A ```eval_fn``` avalia o desempenho do modelo no conjunto de validação sem atualizar os pesos. O loop de treinamento itera sobre as épocas, chamando essas funções e salvando o melhor modelo com base na perda de validação.

In [None]:
# --- Funções de Treino e Avaliação ---

def train_fn(model, dataloader, optimizer, criterion):
    """
    Função para realizar uma época de treinamento do modelo.

    Args:
        model (nn.Module): O modelo a ser treinado.
        dataloader (DataLoader): O DataLoader para o conjunto de treinamento.
        optimizer (torch.optim.Optimizer): O otimizador.
        criterion (nn.Module): A função de perda (TripletMarginLoss).

    Returns:
        float: A perda média por batch na época de treinamento.
    """
    model.train() # Coloca o modelo em modo de treinamento.
    total_loss = 0.0

    # Itera sobre os batches do dataloader com uma barra de progresso.
    for A, P, N in tqdm(dataloader, desc="Treinando"):
        # Move os tensores de imagem (Anchor, Positive, Negative) para o dispositivo.
        A, P, N = A.to(DEVICE), P.to(DEVICE), N.to(DEVICE)

        # Passa as imagens pelo modelo para obter seus embeddings.
        A_embs = model(A)
        P_embs = model(P)
        N_embs = model(N)

        # Calcula a Triplet Loss.
        loss = criterion(A_embs, P_embs, N_embs)

        # Zera os gradientes acumulados do otimizador.
        optimizer.zero_grad()
        # Realiza a retropropagação (backpropagation) para calcular os gradientes.
        loss.backward()
        # Atualiza os pesos do modelo usando o otimizador.
        optimizer.step()

        # Acumula a perda do batch.
        total_loss += loss.item()

    # Retorna a perda média por batch para a época.
    return total_loss / len(dataloader)


def eval_fn(model, dataloader, criterion):
    """
    Função para avaliar o modelo no conjunto de validação.

    Args:
        model (nn.Module): O modelo a ser avaliado.
        dataloader (DataLoader): O DataLoader para o conjunto de validação.
        criterion (nn.Module): A função de perda (TripletMarginLoss).

    Returns:
        float: A perda média por batch na época de validação.
    """
    model.eval() # Coloca o modelo em modo de avaliação (desativa dropout, batchnorm, etc.).
    total_loss = 0.0

    # Desativa o cálculo de gradientes para economizar memória e acelerar a inferência.
    with torch.no_grad():
        # Itera sobre os batches do dataloader de validação.
        for A, P, N in tqdm(dataloader, desc="Validando"):
            A, P, N = A.to(DEVICE), P.to(DEVICE), N.to(DEVICE)

            A_embs = model(A)
            P_embs = model(P)
            N_embs = model(N)

            loss = criterion(A_embs, P_embs, N_embs)

            total_loss += loss.item()

    return total_loss / len(dataloader)

# Define a função de perda TripletMarginLoss.
# O 'margin' é um hiperparâmetro crucial que define a distância mínima desejada
# entre (Anchor, Positive) e (Anchor, Negative).
criterion = nn.TripletMarginLoss()
# Define o otimizador Adam, que ajusta os pesos do modelo com base nos gradientes.
optimizer = torch.optim.Adam(model.parameters(), lr=LR)

# --- Loop de Treinamento ---
best_valid_loss = np.inf # Inicializa a melhor perda de validação como infinito.

print("\nIniciando o treinamento...")
for i in range(EPOCHS): # Itera pelo número de épocas definido.
    train_loss = train_fn(model, trainloader, optimizer, criterion) # Treina o modelo por uma época.
    valid_loss = eval_fn(model, validloader, criterion) # Avalia o modelo no conjunto de validação.

    # Salva o modelo se a perda de validação atual for a melhor encontrada até agora.
    if valid_loss < best_valid_loss:
        torch.save(model.state_dict(), 'best_mnist_model.pt') # Salva apenas os pesos do modelo.
        best_valid_loss = valid_loss # Atualiza a melhor perda de validação.
        print("SALVOS_PESOS_SUCESSO") # Mensagem de sucesso ao salvar.

    # Imprime os resultados da época.
    print(f"ÉPOCA: {i+1} Loss Treino: {train_loss:.4f} Loss Validação: {valid_loss:.4f}")

# Carrega os pesos do melhor modelo salvo após o treinamento.
model.load_state_dict(torch.load('best_mnist_model.pt'))
print("\nMelhor modelo carregado para inferência.")

# Gerando Embeddings para o Dataset de Teste
### Primeiro, definimos uma função para processar um subconjunto do dataset de teste e gerar seus embeddings. Limitamos o número de amostras para uma execução mais rápida e eficiente.

In [None]:
def get_mnist_encodings(model, dataset, num_samples=5000):
    """
    Gera embeddings para um determinado número de amostras do dataset MNIST.

    Args:
        model (nn.Module): O modelo treinado para gerar embeddings.
        dataset (torch.utils.data.Dataset): O dataset MNIST (mnist_test_dataset ou mnist_train_dataset).
        num_samples (int): O número máximo de amostras para gerar embeddings.

    Returns:
        pd.DataFrame: Um DataFrame contendo os embeddings e os rótulos correspondentes.
    """
    encodings = []  # Lista para armazenar os vetores de embedding.
    labels = []     # Lista para armazenar os rótulos correspondentes.

    # Utiliza um DataLoader para processar as imagens em batches, otimizando a geração de embeddings.
    dataloader_inference = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=False)

    model.eval()  # Coloca o modelo em modo de avaliação.
    with torch.no_grad():  # Desativa o cálculo de gradientes para otimizar a inferência.
        processed_samples = 0
        # Itera sobre os batches do DataLoader.
        for imgs, lbls in tqdm(dataloader_inference, desc="Gerando embeddings MNIST"):
            # Se o número de amostras processadas atingir o limite, interrompe.
            if processed_samples >= num_samples:
                break

            # Replicar canais: MNIST tem 1 canal, EfficientNet espera 3.
            # .repeat(1, 3, 1, 1) replica o canal existente 3 vezes.
            imgs = imgs.repeat(1, 3, 1, 1).to(DEVICE)
            # Passa as imagens pelo modelo para obter os embeddings.
            img_encs = model(imgs)
            # Adiciona os embeddings processados (convertidos para NumPy na CPU) à lista.
            encodings.extend(img_encs.squeeze().cpu().detach().numpy())
            # Adiciona os rótulos correspondentes à lista.
            labels.extend(lbls.cpu().numpy())
            # Incrementa o contador de amostras processadas.
            processed_samples += imgs.shape[0]

    # Converte as listas de embeddings e rótulos em arrays NumPy.
    encodings = np.array(encodings)
    labels = np.array(labels)

    # Cria um DataFrame Pandas com os embeddings e adiciona uma coluna 'label'.
    df_enc_mnist = pd.DataFrame(encodings)
    df_enc_mnist['label'] = labels
    return df_enc_mnist

# Gerar embeddings para uma parte do dataset de teste para inferência.
# Usamos 1000 amostras para este exemplo, para agilizar.
df_enc_mnist_test = get_mnist_encodings(model, mnist_test_dataset, num_samples=1000)
print("\nEmbeddings MNIST gerados (cabeçalho do DataFrame):")
print(df_enc_mnist_test.head())

# Funções Auxiliares para Cálculo de Distância e Visualização
### Para encontrar as imagens mais similares, precisamos de uma métrica de distância e uma forma de visualizar os resultados. A distância euclidiana é uma escolha comum para comparar embeddings.

In [None]:
# --- Adaptação de euclidean_dist e plot_closest_imgs ---

def euclidean_dist(img_enc, ref_enc_arr):
    """
    Calcula a distância euclidiana entre um embedding de consulta e um array de embeddings de referência.

    Args:
        img_enc (np.ndarray): O embedding da imagem de consulta (1D ou 2D).
        ref_enc_arr (np.ndarray): Um array de embeddings de referência (2D).

    Returns:
        np.ndarray: Um array de distâncias euclidianas.
    """
    # Garante que ambos os arrays são 2D para que a operação de subtração funcione corretamente.
    img_enc = img_enc.reshape(1, -1) if img_enc.ndim == 1 else img_enc
    ref_enc_arr = ref_enc_arr.reshape(1, -1) if ref_enc_arr.ndim == 1 else ref_enc_arr
    # Calcula a norma L2 (distância euclidiana) ao longo do eixo das features.
    dist = np.linalg.norm(img_enc - ref_enc_arr, axis=1)
    return dist

def plot_closest_mnist_imgs(mnist_dataset, df_enc_mnist, query_img_tensor, query_img_label, closest_idx, distance, no_of_closest=5):
    """
    Plota a imagem de consulta e as N imagens mais próximas encontradas.

    Args:
        mnist_dataset (torch.utils.data.Dataset): O dataset original do MNIST.
        df_enc_mnist (pd.DataFrame): DataFrame contendo os embeddings e rótulos das imagens de referência.
        query_img_tensor (torch.Tensor): O tensor da imagem de consulta.
        query_img_label (int): O rótulo da imagem de consulta.
        closest_idx (np.ndarray): Índices das imagens mais próximas no df_enc_mnist (ordenados por distância).
        distance (np.ndarray): Array das distâncias correspondentes.
        no_of_closest (int): O número de imagens mais próximas a plotar.
    """
    # Cria uma figura com o número de imagens mais próximas + 1 (para a imagem de consulta).
    f, axes = plt.subplots(1, no_of_closest + 1, figsize=(15, 5))

    # --- Imagem de Consulta ---
    axes[0].set_title(f'Consulta: {query_img_label}')
    # Converte o tensor para um array NumPy e ajusta as dimensões para exibição.
    axes[0].imshow(query_img_tensor.permute(1, 2, 0).squeeze().cpu().numpy(), cmap='gray')
    axes[0].axis('off') # Remove os eixos.

    # --- Imagens Mais Próximas ---
    for i in range(no_of_closest):
        idx_in_df = closest_idx[i] # O índice da imagem mais próxima no DataFrame de embeddings.
        # Recupera o índice original da imagem no dataset MNIST usando o índice do DataFrame.
        original_idx_in_dataset = df_enc_mnist.index[idx_in_df]

        # Obtém a imagem e o rótulo do dataset original.
        closest_img_tensor, closest_img_label = mnist_dataset[original_idx_in_dataset]

        # Reverte a replicação de canais se a imagem tiver 3 canais (para exibição como escala de cinza).
        if closest_img_tensor.shape[0] == 3:
            closest_img_tensor = closest_img_tensor[0:1, :, :] # Pega apenas o primeiro canal.

        # Define o título com a distância e o rótulo da imagem mais próxima.
        axes[i+1].set_title(f'Dist: {distance[idx_in_df]:.2f}\nLabel: {closest_img_label}')
        # Exibe a imagem mais próxima.
        axes[i+1].imshow(closest_img_tensor.permute(1, 2, 0).squeeze().cpu().numpy(), cmap='gray')
        axes[i+1].axis('off') # Remove os eixos.

    plt.tight_layout() # Ajusta o layout para evitar sobreposição.
    plt.show() # Mostra a figura.

# Exemplo de Inferência e Busca
### Finalmente, colocamos tudo junto para realizar um exemplo prático: selecionamos uma imagem aleatória do dataset de teste, geramos seu embedding, calculamos as distâncias para todas as outras imagens no nosso banco de embeddings e visualizamos as mais próximas.

In [None]:
# Seleciona uma imagem de teste aleatória para ser a imagem de consulta.
query_idx = random.randint(0, len(mnist_test_dataset) - 1)
query_img, query_label = mnist_test_dataset[query_idx]

# Pré-processa a imagem de consulta para que seja compatível com o modelo (3 canais e dimensão de batch).
query_img_processed = query_img.repeat(3, 1, 1).to(DEVICE) # Replicar canais e mover para o DEVICE.

model.eval() # Coloca o modelo em modo de avaliação.
with torch.no_grad(): # Desativa o cálculo de gradientes.
    # Gera o embedding da imagem de consulta. .unsqueeze(0) adiciona uma dimensão de batch.
    query_enc = model(query_img_processed.unsqueeze(0))
    # Move o embedding para a CPU e converte para NumPy.
    query_enc = query_enc.detach().cpu().numpy()

# Obtém os embeddings e rótulos do DataFrame de referência (todas as colunas exceto 'label').
reference_enc_arr = df_enc_mnist_test.iloc[:, :-1].to_numpy()
reference_labels = df_enc_mnist_test['label'].to_numpy()

# Calcula as distâncias euclidianas entre o embedding de consulta e todos os embeddings de referência.
distances = euclidean_dist(query_enc, reference_enc_arr)

# Encontra os índices das imagens mais próximas (ordenando as distâncias em ordem crescente).
closest_indices = np.argsort(distances)

# Plota a imagem de consulta e as 5 imagens mais próximas.
plot_closest_mnist_imgs(mnist_test_dataset, df_enc_mnist_test, query_img, query_label, closest_indices, distances, no_of_closest=5)