<a href="https://colab.research.google.com/github/lucasgleria/signature-recognizer/blob/main/Signature_recognizer_with_seamese_networks.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# README - Projeto de Verificação de Similaridade de Assinaturas com Triplet Loss no CEDAR

Este projeto avança na implementação de um sistema de verificação de similaridade de imagens, agora aplicado especificamente a **assinaturas manuscritas** utilizando redes neurais e a função de perda **Triplet Loss**. A base de dados utilizada para esta fase de protótipo é o desafiador **dataset CEDAR**, composto por assinaturas genuínas e forjadas.

O objetivo central é treinar uma rede neural para aprender a gerar **embeddings** (vetores de características) para assinaturas. A meta é que assinaturas genuínas do mesmo indivíduo resultem em embeddings próximos no espaço vetorial, enquanto assinaturas de indivíduos diferentes (ou forjadas) produzam embeddings distantes. Isso possibilita, dada uma assinatura de "consulta", verificar sua autenticidade comparando-a com um conjunto de assinaturas de referência.

## Fase de Protótipo

A **Fase de Protótipo** estende os conceitos validados na fase de testes (com MNIST), focando na aplicação prática do sistema de similaridade para verificação de assinaturas. Aqui, você encontrará as implementações e lógicas para:

---

### Implementando o Ambiente e Configurações Iniciais

Nesta seção, o ambiente do Google Colab é preparado. São realizadas as **instalações de bibliotecas essenciais**, como `timm` (para modelos de visão pré-treinados como o EfficientNet), `scikit-image` (para manipulação e pré-processamento de imagens) e `scikit-learn` (para métricas de avaliação). Além disso, são definidas **configurações globais** como o `BATCH_SIZE`, `Learning Rate (LR)`, o número de `EPOCHS` e a **seleção do dispositivo de processamento** (`cuda` para GPU ou `cpu`).

---

### Carregando e Preparando o Dataset CEDAR para Triplets

Esta parte é crucial para adaptar o sistema ao novo domínio das assinaturas. O dataset **CEDAR** é baixado, descompactado e sua estrutura de arquivos é mapeada para identificar assinaturas genuínas e forjadas, bem como o ID de cada pessoa. Para a **Triplet Loss**, são gerados triplets (Anchor, Positive, Negative) com base nas assinaturas.
* É implementada uma função auxiliar para **mapear os caminhos das imagens e os IDs das pessoas** do dataset CEDAR.
* A classe **`APN_Signature_Dataset`** é desenvolvida. Diferente do MNIST, ela incorpora um **pré-processamento específico para assinaturas**, que inclui conversão para escala de cinza, **binarização por Otsu** e redimensionamento, garantindo que as imagens estejam no formato adequado (3 canais) para o EfficientNet.
* Ao final, você poderá **visualizar um exemplo de triplet de assinatura** para validar o pré-processamento e a geração das amostras.

---

### Preparando DataLoaders e Definindo o Modelo

Com o dataset CEDAR estruturado, os **`DataLoaders`** são configurados para otimizar o carregamento dos triplets de assinaturas em **batches** durante o treinamento e validação. A arquitetura do modelo (`APN_Model`) é definida, utilizando o **EfficientNet-B0** pré-treinado da biblioteca `timm` como *backbone*. A camada classificadora final do EfficientNet é ajustada para produzir os **vetores de embedding** com o tamanho desejado (512).

---

### Funções de Treinamento, Avaliação e Loop Principal

Esta seção reutiliza as funções **`train_fn`** e **`eval_fn`** da fase de testes. A `train_fn` executa o passo de treinamento com a **Triplet Loss**, retropropagação e atualização de pesos via otimizador **Adam**. A `eval_fn` avalia o desempenho no conjunto de validação. O **loop de treinamento** orquestra essas funções, monitora a `valid_loss` e **salva os pesos do modelo** (`best_signature_model.pt`) que apresentar o melhor desempenho no conjunto de validação.

---

### Geração de Embeddings e Verificação de Similaridade

Após o treinamento do modelo com assinaturas, esta seção foca na sua aplicação para a tarefa de verificação:
* Uma nova classe **`InferenceSignatureDataset`** é criada, otimizada para carregar imagens e seus metadados (ID da pessoa, caminho) para a fase de inferência.
* A função **`get_signature_encodings`** é adaptada para gerar eficientemente os embeddings de todas as assinaturas (genuínas e forjadas), criando um banco de dados de referência.
* A função **`euclidean_dist`** é utilizada para calcular a distância entre embeddings.
* Uma função **`verify_signature`** é implementada. Ela recebe uma assinatura de consulta, seu ID de pessoa e um banco de embeddings de referência, e retorna se a assinatura é **genuína** (distância abaixo de um limiar) ou **falsificada** (distância acima do limiar).
* Um **exemplo prático de verificação** é demonstrado, testando tanto assinaturas genuínas quanto falsificadas para uma pessoa específica.

---

### Avaliação de Desempenho: Curva ROC e EER

Esta seção finaliza a avaliação quantitativa do sistema de verificação de assinaturas, utilizando métricas padrão de biometria:
* São calculadas as distâncias entre pares **Anchor-Positive** (considerados genuínos) e **Anchor-Negative** (considerados falsificados) do `valid_df`.
* A **Curva ROC (Receiver Operating Characteristic)** é gerada e plotada, visualizando o trade-off entre a Taxa de Falsa Aceitação (FAR) e a Taxa de Verdadeiros Positivos (TPR) em diferentes limiares. A **Área Sob a Curva (AUC)** é calculada, indicando a capacidade geral de distinção do modelo.
* É calculado o **Equal Error Rate (EER)**, o ponto de operação onde a Taxa de Falsa Aceitação (FAR) e a Taxa de Falsa Rejeição (FRR) são iguais. O **limiar de distância** correspondente ao EER é identificado, sendo este o ponto de operação otimizado para o sistema.
* Os resultados do EER e AUC são impressos, e o ponto EER é marcado na Curva ROC plotada.
* O exemplo de verificação de similaridade é **re-executado utilizando o limiar otimizado do EER**, demonstrando a aplicação prática dessa métrica.

# Instalações

# Instale as bibliotecas essenciais para o projeto.
- **'segmentation-models-pytorch'** é uma biblioteca poderosa para tarefas de segmentação.
- **'albumentations'** é utilizada para aumento de dados (data augmentation) em tempo real, o que ajuda a melhorar a robustez e generalização do modelo.
- **'opencv-contrib-python'** é fundamental para operações de processamento de imagem, e a atualização garante que tenhamos as funcionalidades mais recentes.

In [None]:
!pip install segmentation-models-pytorch
!pip install -U git+https://github.com/albumentations-team/albumentations
!pip install --upgrade opencv-contrib-python

[31mERROR: Operation cancelled by user[0m[31m


### Baixando o dataset

In [None]:
import os

# Crie um diretório para o dataset se ainda não existir
if not os.path.exists('data'):
    os.makedirs('data')

# Mude para o diretório de dados
%cd data

# Baixe o arquivo zip
!wget https://github.com/nikostsagk/signature-verification/releases/download/cedar/cedar_dataset.zip

# Volte para o diretório raiz do Colab (opcional, dependendo de onde você quer trabalhar)
%cd ..

/content/data
--2025-06-09 18:59:32--  https://github.com/nikostsagk/signature-verification/releases/download/cedar/cedar_dataset.zip
Resolving github.com (github.com)... 140.82.116.3
Connecting to github.com (github.com)|140.82.116.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/220312682/95ebb580-019c-11ea-8af8-61acae883803?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250609%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250609T185932Z&X-Amz-Expires=300&X-Amz-Signature=c368f37ebbe01bb5d9048324be2714a2fa968e3bd6512b954b966b72bfbfa373&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dcedar_dataset.zip&response-content-type=application%2Foctet-stream [following]
--2025-06-09 18:59:32--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/220312682/95ebb580-019c-11ea-8af8-61acae883803?X-Amz-Algo

### Decompactando o dataset

In [None]:
!unzip data/cedar_dataset.zip -d /content/CEDAR/

Archive:  data/cedar_dataset.zip
replace /content/CEDAR/full_org/original_29_18.png? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

# Importações

### Importe as bilbiotecas necessárias para o desenvolvimento do modelo

# Importações adicionais necessárias para esta seção

In [None]:
import os # Para operações com o sistema de arquivos
import glob # Para encontrar arquivos que correspondem a um padrão específico
import pandas as pd # Para manipulação de dados em formato de DataFrame
import numpy as np # Para operações numéricas
from sklearn.model_selection import train_test_split # Para dividir o dataset em conjuntos de treino e teste
import random # Para operações de seleção aleatória
from tqdm import tqdm # Para exibir barras de progresso

# Configuração dos diretórios do CEDAR

In [None]:
CEDAR_ROOT_DIR = '/content/CEDAR' # Define o diretório base do dataset CEDAR.
                                   # Ajuste este caminho se você descompactou o dataset em um local diferente.

# Define o caminho completo para o diretório que contém as assinaturas originais (genuínas).
ORIGINAL_DIR = os.path.join(CEDAR_ROOT_DIR, 'full_org')

# Define o caminho completo para o diretório que contém as assinaturas forjadas.
FORGED_DIR = os.path.join(CEDAR_ROOT_DIR, 'full_forg')

# Mapeando imagens e gerando o CSV de Triplets

In [None]:
def get_image_paths_and_labels_corrected(root_dir, is_forgery):
    """
    Coleta caminhos de imagem, IDs de pessoa e tipo de assinatura (genuína/falsificada),
    baseando-se na estrutura de nomes de arquivo "original_IDPESSOA_NUM.png" ou "forgeries_IDPESSOA_NUM.png".
    """
    data = []
    # Assumimos que os arquivos estão diretamente dentro de root_dir (full_org ou full_forg)
    # e seguem o padrão original_ID_NUM.png ou forgeries_ID_NUM.png

    # Exemplo de regex ou split para extrair ID da pessoa
    # original_10_1.png  -> Person ID: 10
    # forgeries_10_1.png -> Person ID: 10

    # Usar glob para encontrar todos os arquivos .png
    for img_file in glob.glob(os.path.join(root_dir, '*.png')):
        img_name = os.path.basename(img_file) # Ex: "original_10_1.png"

        parts = img_name.split('_')
        if len(parts) >= 3:
            try:
                # O ID da pessoa é a segunda parte do nome (ex: '10' em 'original_10_1.png')
                person_id = int(parts[1])
                data.append({
                    'image_path': img_file,
                    'person_id': person_id,
                    'is_forgery': is_forgery
                })
            except ValueError:
                print(f"Aviso: Não foi possível extrair o ID da pessoa de {img_name}. Ignorando.")
                continue
        else:
            print(f"Aviso: Nome de arquivo inesperado: {img_name}. Ignorando.")
            continue
    return pd.DataFrame(data)

def create_triplets_df(original_df, forged_df, samples_per_original=5):
    """
    Cria um DataFrame de triplets (Anchor, Positive, Negative) para o treinamento.
    Anchor: Original da pessoa X
    Positive: Outra Original da pessoa X
    Negative: Falsificação da pessoa X OU Original/Falsificação da pessoa Y
    """
    triplets = []
    all_person_ids = sorted(original_df['person_id'].unique())

    # Agrupar imagens por pessoa para facilitar a seleção
    original_by_person = {pid: df for pid, df in original_df.groupby('person_id')}
    forged_by_person = {pid: df for pid, df in forged_df.groupby('person_id')}

    for person_id in tqdm(all_person_ids, desc="Gerando Triplets"):
        person_originals = original_by_person.get(person_id, pd.DataFrame())
        person_forgeries = forged_by_person.get(person_id, pd.DataFrame())

        if person_originals.empty:
            continue

        for _, anchor_row in person_originals.iterrows():
            anchor_path = anchor_row['image_path']

            # Geração de 'samples_per_original' triplets para cada anchor
            for _ in range(samples_per_original):
                # Selecionar Positive: Outra original da mesma pessoa
                positive_candidates = person_originals[person_originals['image_path'] != anchor_path]
                if not positive_candidates.empty:
                    positive_path = random.choice(positive_candidates['image_path'].tolist())
                else: # Se não há outras originais, pulamos este anchor ou geramos apenas pares A-N
                    continue

                # Selecionar Negative: Priorizar falsificações do mesmo usuário,
                # caso contrário, usar qualquer assinatura de outra pessoa.
                negative_path = None
                if not person_forgeries.empty:
                    negative_path = random.choice(person_forgeries['image_path'].tolist())
                else:
                    # Se não houver falsificações para essa pessoa, escolher uma de outra pessoa
                    other_person_ids = [pid for pid in all_person_ids if pid != person_id]
                    if other_person_ids:
                        chosen_other_person_id = random.choice(other_person_ids)

                        # Tenta pegar uma falsificação de outra pessoa primeiro
                        other_person_forgeries = forged_by_person.get(chosen_other_person_id, pd.DataFrame())
                        if not other_person_forgeries.empty:
                            negative_path = random.choice(other_person_forgeries['image_path'].tolist())
                        else:
                            # Se não houver falsificações nem para outras pessoas, pega uma original de outra pessoa
                            other_person_originals = original_by_person.get(chosen_other_person_id, pd.DataFrame())
                            if not other_person_originals.empty:
                                negative_path = random.choice(other_person_originals['image_path'].tolist())

                if negative_path:
                    triplets.append({
                        'Anchor': anchor_path,
                        'Positive': positive_path,
                        'Negative': negative_path
                    })
    return pd.DataFrame(triplets)


# --- Usar a função ---
original_df = get_image_paths_and_labels_corrected(ORIGINAL_DIR, is_forgery=False)
forged_df = get_image_paths_and_labels_corrected(FORGED_DIR, is_forgery=True)

print(f"Total de assinaturas genuínas encontradas: {len(original_df)}")
print(f"Total de assinaturas falsificadas encontradas: {len(forged_df)}")

# Criar o DataFrame de triplets
cedar_triplets_df = create_triplets_df(original_df, forged_df, samples_per_original=10)
print(f"Total de triplets gerados: {len(cedar_triplets_df)}")

# Salvar o CSV (opcional, mas recomendado para reuso)
CEDAR_CSV_FILE = 'cedar_triplets.csv'
cedar_triplets_df.to_csv(CEDAR_CSV_FILE, index=False)
print(f"CSV de triplets salvo em: {CEDAR_CSV_FILE}")

# Dividir em treino e validação
train_df, valid_df = train_test_split(cedar_triplets_df, test_size=0.20, random_state=42)

print(f"Tamanho do dataset de treino CEDAR: {len(train_df)}")
print(f"Tamanho do dataset de validação CEDAR: {len(valid_df)}")

# Preparação e Carregamento do Dataset CEDAR para Treinamento


Nesta seção, adaptamos as classes de Dataset e DataLoader para trabalhar com o dataset CEDAR, que contém imagens de assinaturas. A preparação das imagens de assinatura requer etapas específicas de pré-processamento para garantir que estejam no formato correto e otimizadas para o modelo.

In [None]:
import torch # Biblioteca principal do PyTorch para construção de redes neurais.
from torch.utils.data import Dataset, DataLoader # Classes para criar datasets e carregar dados em batches.
from skimage import io, color, filters, transform # scikit-image: Para leitura de imagens, conversão de cor, filtros e transformações.
import numpy as np
import matplotlib.pyplot as plt # Para visualização de imagens.
from tqdm import tqdm

# --- Configuração ---
BATCH_SIZE = 32
LR = 0.0001 # Learning rate pode ser menor para fine-tuning
EPOCHS = 10 # Define o número de épocas de treinamento.
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu' # Determina qual dispositivo será usado para o treinamento (GPU se disponível, caso contrário CPU).
IMAGE_SIZE = (224, 224) # Tamanho padrão de entrada para EfficientNet

class APN_Signature_Dataset(Dataset):
   """
    Dataset customizado para carregar triplets (Anchor, Positive, Negative)
    de imagens de assinatura do dataset CEDAR, com pré-processamento específico.
    """
    def __init__(self, df):
      """
        Inicializa o dataset.

        Args:
            df (pd.DataFrame): DataFrame contendo os caminhos das imagens
                               para Anchor, Positive e Negative.
        """
        self.df = df

    def __len__(self):
       """
        Retorna o número total de triplets no dataset.
        """
        return len(self.df)

    def __getitem__(self, idx):
        """
        Retorna um triplet de imagens pré-processadas dado um índice.

        Args:
            idx (int): O índice do triplet no DataFrame.

        Returns:
            tuple: Um triplet de tensores de imagem (Anchor, Positive, Negative).
        """
        row = self.df.iloc[idx]

        # Caminhos das imagens
        A_path = row.Anchor
        P_path = row.Positive
        N_path = row.Negative

        # Carregar e pré-processar imagens
        A_img = self._preprocess_signature(A_path)
        P_img = self._preprocess_signature(P_path)
        N_img = self._preprocess_signature(N_path)

        return A_img, P_img, N_img

    def _preprocess_signature(self, img_path):
        """
        Carrega uma imagem de assinatura, aplica pré-processamento (conversão para
        escala de cinza, binarização, redimensionamento) e a converte em um tensor.

        Args:
            img_path (str): Caminho completo para o arquivo da imagem.

        Returns:
            torch.Tensor: O tensor da imagem pré-processada e formatada para o modelo.
        """
        img = io.imread(img_path)

        # Converter para escala de cinza se não for (algumas imagens TIFF podem ser CMYK, RGB, etc.)
        if len(img.shape) == 3 and img.shape[2] == 3: # RGB
            img = color.rgb2gray(img)
        elif len(img.shape) == 3 and img.shape[2] == 4: # RGBA
            img = color.rgba2rgb(img)
            img = color.rgb2gray(img)
        # Se já for grayscale (2D) ou tiver um único canal (altura, largura, 1), continua

        # Binarização usando o método de Otsu:
        # O método de Otsu encontra automaticamente um limiar para separar pixels de fundo e primeiro plano.
        thresh = filters.threshold_otsu(img)
        # Aplica o limiar: pixels acima do limiar se tornam True (fundo), abaixo se tornam False (tinta).
        binary_img = img > thresh
        # Inverte a imagem binarizada: agora a tinta é 1 (clara) e o fundo é 0 (escuro).
        # Isso é feito para que a "informação" (tinta) seja representada por valores mais altos,
        # o que pode ser mais consistente com como os modelos aprendem características.
        binary_img = np.invert(binary_img).astype(np.float32)

        # Redimensiona a imagem para o tamanho definido em IMAGE_SIZE.
        # `anti_aliasing=True` ajuda a suavizar as bordas da imagem após o redimensionamento.
        resized_img = transform.resize(binary_img, IMAGE_SIZE, anti_aliasing=True)

        # Converte o array NumPy redimensionado para um tensor PyTorch.
        # .unsqueeze(0) adiciona uma dimensão de canal no início (agora é 1, H, W para imagem em escala de cinza).
        img_tensor = torch.from_numpy(resized_img).unsqueeze(0)

        # Replicar o canal para 3 canais (RGB):
        # A maioria dos modelos pré-treinados (como EfficientNet) espera 3 canais de entrada (RGB).
        # Replicamos o único canal da imagem de assinatura 3 vezes para atender a essa expectativa.
        img_tensor = img_tensor.repeat(3, 1, 1)

        return img_tensor

# --- Criar instâncias do dataset adaptado ---
trainset = APN_Signature_Dataset(train_df)
validset = APN_Signature_Dataset(valid_df)

# Imprime o tamanho dos datasets para verificar se foram carregados corretamente.
print(f"\nSize of trainset (CEDAR) : {len(trainset)}")
print(f"Size of validset (CEDAR) : {len(validset)}")

# --- Visualizar um exemplo de triplet de assinatura ---
idx = 0 # Seleciona o primeiro triplet para visualização.
A_sig, P_sig, N_sig = trainset[idx] # Obtém o triplet de tensores.

# Cria uma figura com 1 linha e 3 colunas para exibir as três imagens.
f, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(10, 5))

# Exibe a imagem Anchor.
# .permute(1, 2, 0) muda a ordem dos canais para (H, W, C) para o matplotlib.
# [:,:,0] pega apenas um canal para exibição, já que os 3 canais são réplicas.
ax1.set_title('Anchor Signature')
ax1.imshow(A_sig.permute(1, 2, 0)[:,:,0].cpu().numpy(), cmap='gray')
ax1.axis('off') # Remove os eixos para uma visualização mais limpa.

# Exibe a imagem Positive.
ax2.set_title('Positive Signature')
ax2.imshow(P_sig.permute(1, 2, 0)[:,:,0].cpu().numpy(), cmap='gray')
ax2.axis('off')

# Exibe a imagem Negative.
ax3.set_title('Negative Signature')
ax3.imshow(N_sig.permute(1, 2, 0)[:,:,0].cpu().numpy(), cmap='gray')
ax3.axis('off')
plt.show() # Mostra a figura.

# --- Carregar Dataset em batches ---
# Cria DataLoaders para o conjunto de treinamento e validação.
# 'batch_size=BATCH_SIZE' define o número de imagens por lote.
# 'shuffle=True' para o treino embaralha os dados em cada época.
# 'num_workers=2' permite o carregamento de dados em paralelo, acelerando o processo (pode ser ajustado).
trainloader = DataLoader(trainset, batch_size=BATCH_SIZE, shuffle=True, num_workers=2)
validloader = DataLoader(validset, batch_size=BATCH_SIZE, num_workers=2)

# Imprime o número de batches em cada DataLoader.
print(f"\nNo. of batches in trainloader (CEDAR) : {len(trainloader)}")
print(f"No. of batches in validloader (CEDAR) : {len(validloader)}")

# Pega um batch de exemplo para verificar o formato dos tensores de imagem.
for A, P, N in trainloader:
    break # Sai do loop após pegar o primeiro batch.
print(f"One image batch shape (CEDAR) : {A.shape}") # Imprime o formato do tensor das imagens Anchor.

# Definição do Modelo, Funções de Treinamento e Loop Principal

Nesta seção, reutilizamos a mesma arquitetura de modelo e as funções de treinamento e avaliação estabelecidas na fase de testes do MNIST. A principal diferença aqui é que o modelo agora será treinado com o dataset CEDAR (assinaturas), o que o capacitará para a tarefa de verificação de similaridade de assinaturas.

In [None]:
import timm # Biblioteca para modelos de imagem pré-treinados.
import torch.nn.functional as F # Funções de ativação e perda comuns do PyTorch.
from torch import nn # Módulo principal para a construção de redes neurais.

class APN_Model(nn.Module):
    """
    Define a arquitetura do modelo para gerar embeddings.
    Utiliza o EfficientNet-B0 pré-treinado como backbone e uma camada linear
    para projetar as características no espaço de embedding.
    """
    def _init_(self, emb_size=512):
        """
        Inicializa o modelo.
        Args:
            emb_size (int): O tamanho do vetor de embedding de saída.
        """
        super(APN_Model, self)._init_()
        # Carrega o EfficientNet-B0 pré-treinado.
        # Ele espera 3 canais de entrada, que já tratamos no APN_Signature_Dataset.
        self.efficientnet = timm.create_model('efficientnet_b0', pretrained=True)
        # Ajusta a camada classificadora final para o tamanho de embedding desejado.
        self.efficientnet.classifier = nn.Linear(in_features=self.efficientnet.classifier.in_features, out_features=emb_size)

    def forward(self, images):
        """
        Define o passo forward do modelo.
        Args:
            images (torch.Tensor): Tensor de imagens de entrada.
        Returns:
            torch.Tensor: Vetores de embedding gerados pelo modelo.
        """
        embeddings = self.efficientnet(images)
        return embeddings

# Instancia o modelo e o move para o dispositivo (GPU ou CPU).
model = APN_Model()
model.to(DEVICE)
print(f"Modelo carregado no dispositivo: {DEVICE}")

def train_fn(model, dataloader, optimizer, criterion):
    """
    Função para realizar uma época de treinamento do modelo.
    Processa os batches, calcula a Triplet Loss, realiza a retropropagação
    e atualiza os pesos do modelo.
    """
    model.train() # Coloca o modelo em modo de treinamento.
    total_loss = 0.0

    for A, P, N in tqdm(dataloader, desc="Treinando"): # Itera sobre os batches do dataloader.
        # Move os tensores (Anchor, Positive, Negative) para o dispositivo configurado.
        A, P, N = A.to(DEVICE), P.to(DEVICE), N.to(DEVICE)

        # Gera os embeddings para cada imagem do triplet.
        A_embs = model(A)
        P_embs = model(P)
        N_embs = model(N)

        # Calcula a Triplet Loss com base nos embeddings.
        loss = criterion(A_embs, P_embs, N_embs)

        optimizer.zero_grad() # Zera os gradientes acumulados.
        loss.backward()       # Realiza a retropropagação para calcular os gradientes.
        optimizer.step()      # Atualiza os pesos do modelo.

        total_loss += loss.item() # Acumula a perda do batch.

    return total_loss / len(dataloader) # Retorna a perda média da época.

def eval_fn(model, dataloader, criterion):
    """
    Função para avaliar o modelo no conjunto de validação.
    Calcula a perda sem atualizar os pesos do modelo.
    """
    model.eval() # Coloca o modelo em modo de avaliação (desativa dropout, etc.).
    total_loss = 0.0

    with torch.no_grad(): # Desativa o cálculo de gradientes para otimizar a inferência.
        for A, P, N in tqdm(dataloader, desc="Validando"):
            A, P, N = A.to(DEVICE), P.to(DEVICE), N.to(DEVICE)

            A_embs = model(A)
            P_embs = model(P)
            N_embs = model(N)

            loss = criterion(A_embs, P_embs, N_embs)

            total_loss += loss.item()

    return total_loss / len(dataloader) # Retorna a perda média da época de validação.

# Define a função de perda TripletMarginLoss.
criterion = nn.TripletMarginLoss()
# Define o otimizador Adam, que será usado para ajustar os pesos do modelo.
optimizer = torch.optim.Adam(model.parameters(), lr=LR)

# Inicializa a melhor perda de validação com infinito.
best_valid_loss = np.inf

print("\nIniciando o treinamento com CEDAR...")
for i in range(EPOCHS): # Loop principal de treinamento, iterando sobre o número de épocas.
    train_loss = train_fn(model, trainloader, optimizer, criterion) # Executa uma época de treinamento.
    valid_loss = eval_fn(model, validloader, criterion)             # Executa uma época de validação.

    # Verifica se a perda de validação atual é a melhor já obtida.
    if valid_loss < best_valid_loss:
        # Se for, salva os pesos do modelo.
        torch.save(model.state_dict(), 'best_signature_model.pt')
        best_valid_loss = valid_loss # Atualiza a melhor perda de validação.
        print("SALVOS_PESOS_SUCESSO") # Confirma que os pesos foram salvos.

    # Imprime a perda de treino e validação para a época atual.
    print(f"ÉPOCA: {i+1} Loss Treino: {train_loss:.4f} Loss Validação: {valid_loss:.4f}")

# Após o treinamento, carrega os pesos do modelo que teve o melhor desempenho na validação.
model.load_state_dict(torch.load('best_signature_model.pt'))
print("\nMelhor modelo de assinatura carregado para inferência.")

#  Geração de Embeddings e Verificação de Similaridade


Nesta etapa final da fase de protótipo, focamos na inferência. Utilizaremos o modelo treinado para gerar embeddings para todas as assinaturas (genuínas e falsificadas) do dataset CEDAR. Com esses embeddings em mãos, poderemos realizar a verificação de similaridade, comparando uma assinatura de consulta com um conjunto de referências para determinar se ela é considerada genuína ou forjada para um determinado indivíduo.

In [None]:
class APN_Model(nn.Module):
    """
    Define a arquitetura do modelo para gerar embeddings.
    Utiliza o EfficientNet-B0 pré-treinado como backbone e uma camada linear
    para projetar as características no espaço de embedding.
    """
    def __init__(self, emb_size=512):
        super(APN_Model, self).__init__()
        # Carrega o EfficientNet-B0 pré-treinado.
        self.efficientnet = timm.create_model('efficientnet_b0', pretrained=True)
        # Substitui a camada classificadora final para produzir embeddings do tamanho desejado.
        self.efficientnet.classifier = nn.Linear(in_features=self.efficientnet.classifier.in_features, out_features=emb_size)

    def forward(self, images):
        """
        Define o passo forward do modelo, que transforma imagens em embeddings.
        """
        embeddings = self.efficientnet(images)
        return embeddings

# Criar uma instância do modelo e carregá-lo.
model = APN_Model()
model.to(DEVICE) # Move o modelo para a GPU ou CPU.
try:
    # Tenta carregar os pesos do modelo previamente salvo.
    model.load_state_dict(torch.load('best_signature_model.pt'))
    print("Modelo 'best_signature_model.pt' carregado com sucesso.")
except FileNotFoundError:
    # Emite um aviso se o arquivo de pesos não for encontrado.
    print("Aviso: 'best_signature_model.pt' não encontrado. O modelo não foi carregado a partir de um checkpoint. Certifique-se de que o treinamento foi executado e o modelo foi salvo.")
    # Se o modelo não foi salvo, você pode precisar treiná-lo antes de tentar gerar embeddings.


# --- Função de Pré-processamento de Imagem (mantém a mesma do APN_Signature_Dataset) ---
def _preprocess_signature(img_path):
    """
    Carrega uma imagem de assinatura, aplica pré-processamento (conversão para
    escala de cinza, binarização, redimensionamento) e a converte em um tensor.
    Esta função é uma cópia da lógica de pré-processamento usada no `APN_Signature_Dataset`
    para garantir consistência.
    """
    img = io.imread(img_path)

    # Converte a imagem para escala de cinza se necessário.
    if len(img.shape) == 3 and img.shape[2] == 3: # RGB
        img = color.rgb2gray(img)
    elif len(img.shape) == 3 and img.shape[2] == 4: # RGBA
        img = color.rgba2rgb(img)
        img = color.rgb2gray(img)

    # Binariza a imagem usando o método de Otsu para separar o primeiro plano (tinta) do fundo.
    thresh = filters.threshold_otsu(img)
    binary_img = img > thresh # Fundo=True/1, Tinta=False/0
    binary_img = np.invert(binary_img).astype(np.float32) # Inverte para Tinta=1, Fundo=0.

    # Redimensiona a imagem para o tamanho esperado pelo modelo.
    resized_img = transform.resize(binary_img, IMAGE_SIZE, anti_aliasing=True)

    # Converte o array NumPy para tensor PyTorch e adiciona a dimensão de canal (1, H, W).
    img_tensor = torch.from_numpy(resized_img).unsqueeze(0)
    # Replica o canal único para 3 canais, conforme exigido por modelos pré-treinados como EfficientNet.
    img_tensor = img_tensor.repeat(3, 1, 1)

    return img_tensor

# --- NOVA CLASSE DE DATASET PARA INFERÊNCIA ---
class InferenceSignatureDataset(Dataset):
    """
    Dataset otimizado para a fase de inferência.
    Ele recebe um DataFrame com caminhos de imagem e IDs de pessoa,
    e retorna o tensor da imagem pré-processada, o ID da pessoa e o caminho original.
    """
    def __init__(self, df):
        self.df = df # DataFrame contendo 'image_path' e 'person_id'.

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        row = self.df.iloc[idx]
        img_path = row['image_path'] # Acessa o caminho da imagem da linha atual.
        person_id = row['person_id'] # Acessa o ID da pessoa da linha atual.

        img_tensor = _preprocess_signature(img_path) # Pré-processa a imagem.
        # Retorna o tensor da imagem, o ID da pessoa (como Tensor para agrupamento no DataLoader)
        # e o caminho da imagem (como string).
        return img_tensor, torch.tensor(person_id, dtype=torch.long), img_path

# --- Adaptação da função get_signature_encodings para usar InferenceSignatureDataset ---
def get_signature_encodings(model, df_images):
    """
    Gera embeddings para todas as imagens contidas em um DataFrame de metadados.
    Args:
        model (nn.Module): O modelo treinado para gerar embeddings.
        df_images (pd.DataFrame): DataFrame com colunas 'image_path' e 'person_id'.
    Returns:
        pd.DataFrame: Um DataFrame contendo os embeddings gerados, o caminho da imagem
                      e o ID da pessoa.
    """
    # Cria uma instância do novo dataset de inferência.
    signature_dataset_inference = InferenceSignatureDataset(df_images)
    # Cria um DataLoader para processar as imagens em batches para a inferência.
    signature_dataloader_inference = DataLoader(signature_dataset_inference, batch_size=BATCH_SIZE, shuffle=False)

    encodings = []      # Lista para armazenar os vetores de embedding.
    image_paths = []    # Lista para armazenar os caminhos das imagens.
    person_ids = []     # Lista para armazenar os IDs das pessoas.

    model.eval() # Coloca o modelo em modo de avaliação (desativa dropout, etc.).
    with torch.no_grad(): # Desativa o cálculo de gradientes para otimização da inferência.
        for imgs_batch, pids_batch, paths_batch in tqdm(signature_dataloader_inference, desc="Gerando embeddings de assinatura"):
            imgs_batch = imgs_batch.to(DEVICE) # Move o lote de imagens para o dispositivo.
            encs_batch = model(imgs_batch)     # Gera os embeddings.

            # Converte os embeddings para NumPy na CPU e os adiciona à lista.
            encodings.extend(encs_batch.squeeze().cpu().detach().numpy())
            # Converte os IDs das pessoas para NumPy na CPU e os adiciona à lista.
            person_ids.extend(pids_batch.cpu().numpy())
            # Adiciona os caminhos das imagens à lista.
            image_paths.extend(paths_batch)

    # Cria um DataFrame Pandas com os embeddings e informações adicionais.
    df_enc_signatures = pd.DataFrame(encodings)
    df_enc_signatures['image_path'] = image_paths
    df_enc_signatures['person_id'] = person_ids
    return df_enc_signatures


# --- Re-executar a coleta e criação do df de original_df e forged_df (se não tiver feito ainda) ---
# Este bloco assegura que 'original_df' e 'forged_df' (DataFrames com metadados das imagens)
# estejam disponíveis no ambiente. Se você já os criou em etapas anteriores e o ambiente não
# foi resetado, pode pular esta re-execução.
#
# --- Configuração dos diretórios do CEDAR (ajuste conforme seu upload) ---
# Define os caminhos raiz do dataset CEDAR.
CEDAR_ROOT_DIR = '/content/CEDAR' # Ou onde você descompactou o dataset
ORIGINAL_DIR = os.path.join(CEDAR_ROOT_DIR, 'full_org') # Caminho para assinaturas originais.
FORGED_DIR = os.path.join(CEDAR_ROOT_DIR, 'full_forg') # Caminho para assinaturas falsificadas.

def get_image_paths_and_labels_corrected(root_dir, is_forgery):
    """
    Função auxiliar para coletar caminhos de imagem e IDs de pessoa,
    lendo a estrutura de arquivos do dataset CEDAR.
    """
    data = []
    # Itera sobre arquivos PNG dentro do diretório.
    for img_file in glob.glob(os.path.join(root_dir, '*.png')): # Mude para '*.tif' se for o caso do seu dataset.
        img_name = os.path.basename(img_file)
        parts = img_name.split('_')
        if len(parts) >= 3:
            try:
                person_id = int(parts[1]) # Extrai o ID da pessoa.
                data.append({
                    'image_path': img_file,
                    'person_id': person_id,
                    'is_forgery': is_forgery
                })
            except ValueError:
                print(f"Aviso: Não foi possível extrair o ID da pessoa de {img_name}. Ignorando.")
                continue
        else:
            print(f"Aviso: Nome de arquivo inesperado: {img_name}. Ignorando.")
            continue
    return pd.DataFrame(data)

# Cria os DataFrames para assinaturas originais e falsificadas.
original_df = get_image_paths_and_labels_corrected(ORIGINAL_DIR, is_forgery=False)
forged_df = get_image_paths_and_labels_corrected(FORGED_DIR, is_forgery=True)

print(f"Total de assinaturas genuínas encontradas: {len(original_df)}")
print(f"Total de assinaturas falsificadas encontradas: {len(forged_df)}")
# Fim do bloco de re-execução


# --- Agora, o seu código original de inferência deve funcionar ---
# Gera os embeddings para todas as assinaturas genuínas e falsificadas.
all_original_signatures_enc = get_signature_encodings(model, original_df)
all_forged_signatures_enc = get_signature_encodings(model, forged_df)

print("\nEmbeddings de assinaturas genuínas gerados:")
print(all_original_signatures_enc.head())
print("\nEmbeddings de assinaturas falsificadas gerados:")
print(all_forged_signatures_enc.head())

# --- Função de Distância (Mantém a mesma) ---
def euclidean_dist(img_enc, ref_enc_arr):
    """
    Calcula a distância euclidiana entre um embedding de imagem (consulta)
    e um array de embeddings de referência.
    """
    # Garante que ambos os inputs são 2D para a operação (1, emb_size) ou (n, emb_size).
    img_enc = img_enc.reshape(1, -1) if img_enc.ndim == 1 else img_enc
    ref_enc_arr = ref_enc_arr.reshape(1, -1) if ref_enc_arr.ndim == 1 else ref_enc_arr
    # Calcula a norma L2 (distância euclidiana) ao longo do eixo das features.
    dist = np.linalg.norm(img_enc - ref_enc_arr, axis=1)
    return dist

# --- Funções para Verificação de Assinatura (Mantém a mesma) ---
def verify_signature(query_img_path, query_person_id, model, reference_embeddings_df, threshold=0.5):
    """
    Verifica se uma assinatura de consulta é genuína para uma determinada pessoa,
    comparando-a com embeddings de referência.
    Args:
        query_img_path (str): Caminho da imagem da assinatura de consulta.
        query_person_id (int): ID da pessoa a quem a assinatura supostamente pertence.
        model (nn.Module): O modelo treinado.
        reference_embeddings_df (pd.DataFrame): DataFrame com embeddings de assinaturas genuínas de referência.
        threshold (float): Limiar de distância para considerar uma assinatura como genuína.
    Returns:
        tuple: (bool) True se a assinatura for genuína, False caso contrário;
               (float) a distância mínima encontrada.
    """
    # Pré-processa a imagem de consulta usando a função de pré-processamento.
    query_img_tensor = _preprocess_signature(query_img_path)
    query_img_tensor = query_img_tensor.to(DEVICE) # Move o tensor para o dispositivo.

    model.eval() # Coloca o modelo em modo de avaliação.
    with torch.no_grad(): # Desativa o cálculo de gradientes.
        # Gera o embedding da imagem de consulta. .unsqueeze(0) adiciona uma dimensão de batch.
        query_enc = model(query_img_tensor.unsqueeze(0))
        # Move o embedding para a CPU e converte para NumPy.
        query_enc = query_enc.detach().cpu().numpy()

    # Filtra os embeddings de referência para a pessoa em questão.
    person_reference_encs = reference_embeddings_df[
        reference_embeddings_df['person_id'] == query_person_id
    ].iloc[:, :-2].to_numpy() # Seleciona apenas as colunas de embedding.

    if person_reference_encs.shape[0] == 0:
        print(f"Aviso: Nenhuma assinatura de referência encontrada para a pessoa {query_person_id}. Não é possível verificar.")
        return False, np.inf # Retorna falso e distância infinita se não houver referências.

    # Calcula as distâncias euclidianas entre o embedding de consulta e todas as referências.
    distances = euclidean_dist(query_enc, person_reference_encs)
    min_distance = np.min(distances) # Pega a distância mínima.

    # Determina se a assinatura é genuína com base no limiar.
    is_genuine = min_distance < threshold
    return is_genuine, min_distance

# --- Exemplo de Verificação ---
# Define um ID de pessoa para testar a verificação.
test_person_id = 1
# Obtém os caminhos das assinaturas genuínas para a pessoa de teste.
genuine_signatures_for_test_person = original_df[original_df['person_id'] == test_person_id]['image_path'].tolist()

if genuine_signatures_for_test_person:
    # Seleciona aleatoriamente uma assinatura genuína para testar.
    genuine_query_path = random.choice(genuine_signatures_for_test_person)
    # Realiza a verificação.
    is_genuine, min_dist = verify_signature(genuine_query_path, test_person_id, model, all_original_signatures_enc, threshold=0.5)
    print(f"\nVerificando assinatura GENUÍNA de Pessoa {test_person_id} ({os.path.basename(genuine_query_path)}):")
    print(f"Distância Mínima: {min_dist:.4f}, É Genuína: {is_genuine}")

# Obtém os caminhos das assinaturas falsificadas para a pessoa de teste.
forged_signatures_for_test_person = forged_df[forged_df['person_id'] == test_person_id]['image_path'].tolist()

if forged_signatures_for_test_person:
    # Seleciona aleatoriamente uma assinatura falsificada para testar.
    forged_query_path = random.choice(forged_signatures_for_test_person)
    # Realiza a verificação.
    is_genuine, min_dist = verify_signature(forged_query_path, test_person_id, model, all_original_signatures_enc, threshold=0.5)
    print(f"\nVerificando assinatura FALSIFICADA de Pessoa {test_person_id} ({os.path.basename(forged_query_path)}):")
    print(f"Distância Mínima: {min_dist:.4f}, É Genuína: {is_genuine}")
else:
    print(f"\nNão há falsificações para a Pessoa {test_person_id} para testar.")
    # Caso não haja falsificações para o usuário de teste, tenta testar com uma assinatura
    # genuína de outra pessoa para ver se é corretamente classificada como não genuína.
    other_person_id = test_person_id + 1
    # Garante que 'other_person_id' existe e é diferente do 'test_person_id'.
    if other_person_id not in all_original_signatures_enc['person_id'].unique():
        other_person_id = next(iter(all_original_signatures_enc['person_id'].unique())) # Pega o primeiro ID diferente.
        if other_person_id == test_person_id:
            print("Aviso: Apenas uma pessoa encontrada para teste.")
        else:
            other_person_genuine_signatures = original_df[original_df['person_id'] == other_person_id]['image_path'].tolist()
            if other_person_genuine_signatures:
                other_person_query_path = random.choice(other_person_genuine_signatures)
                is_genuine, min_dist = verify_signature(other_person_query_path, test_person_id, model, all_original_signatures_enc, threshold=0.5)
                print(f"\nVerificando assinatura GENUÍNA de OUTRA Pessoa ({other_person_id}) como FALSIFICADA para Pessoa {test_person_id}:")
                print(f"Distância Mínima: {min_dist:.4f}, É Genuína: {is_genuine}")

# Avaliação de Desempenho: Curva ROC e EER


Nesta seção, realizaremos uma avaliação quantitativa do sistema de verificação de assinaturas. Utilizaremos métricas padrão em sistemas de biometria: a Curva ROC (Receiver Operating Characteristic) e a Taxa de Erro Igual (Equal Error Rate - EER). A Curva ROC nos ajuda a visualizar o trade-off entre as taxas de falsos positivos e verdadeiros positivos em diferentes limiares, enquanto o EER identifica o ponto de operação onde as taxas de erro de falsa aceitação e falsa rejeição são iguais, fornecendo um limiar de decisão otimizado.



In [None]:
from sklearn.metrics import roc_curve, auc # Funções para calcular a curva ROC e a Área Sob a Curva (AUC).
import matplotlib.pyplot as plt # Para plotagem de gráficos.

# --- Preparar o conjunto de teste para avaliação EER/ROC ---
# Usaremos o 'valid_df' que já contém triplets de Anchor, Positive, Negative.
# Para o cálculo de EER/ROC, precisamos de pares (distância, rótulo verdadeiro).
# Rótulo verdadeiro: 0 para "genuíno" (par Anchor-Positive), 1 para "falsificado" (par Anchor-Negative).

distances_genuine = [] # Lista para armazenar as distâncias entre pares Anchor e Positive (genuínos).
distances_forged = []  # Lista para armazenar as distâncias entre pares Anchor e Negative (falsificados).

# Assumimos que 'model', 'valid_df', 'DEVICE' e '_preprocess_signature' estão definidos
# e que 'euclidean_dist' também está disponível no escopo.

# Gerar embeddings para o conjunto de validação (se ainda não fez)
print("\nGerando embeddings para avaliação (Anchor, Positive, Negative de valid_df)...")
model.eval() # Define o modelo em modo de avaliação para desativar dropout e otimizar a inferência.

# Dicionário para armazenar embeddings já calculados.
# Isso evita recalcular embeddings para a mesma imagem se ela aparecer em múltiplos triplets,
# otimizando o processo.
embedding_cache = {}

def get_embedding(img_path, model, device, cache):
    """
    Função auxiliar para obter o embedding de uma imagem, utilizando um cache
    para evitar reprocessamento desnecessário.
    """
    if img_path in cache: # Verifica se o embedding já está no cache.
        return cache[img_path]

    # Se não estiver no cache, pré-processa a imagem e gera o embedding.
    img_tensor = _preprocess_signature(img_path)
    img_tensor = img_tensor.to(device)
    with torch.no_grad(): # Desativa o cálculo de gradientes.
        # Gera o embedding, remove a dimensão de batch e move para CPU/NumPy.
        embedding = model(img_tensor.unsqueeze(0)).squeeze().cpu().numpy()
    cache[img_path] = embedding # Armazena o embedding no cache.
    return embedding

# Itera sobre cada triplet no DataFrame de validação para calcular as distâncias.
for _, row in tqdm(valid_df.iterrows(), total=len(valid_df), desc="Calculando distâncias para avaliação"):
    anchor_path = row['Anchor']
    positive_path = row['Positive']
    negative_path = row['Negative']

    # Obtém os embeddings para as três imagens do triplet, utilizando a função otimizada com cache.
    anchor_enc = get_embedding(anchor_path, model, DEVICE, embedding_cache)
    positive_enc = get_embedding(positive_path, model, DEVICE, embedding_cache)
    negative_enc = get_embedding(negative_path, model, DEVICE, embedding_cache)

    # Distância para pares genuínos (Anchor, Positive): esperam-se distâncias baixas.
    dist_ap = euclidean_dist(anchor_enc, positive_enc)[0] # [0] para pegar o valor escalar da distância.
    distances_genuine.append(dist_ap)

    # Distância para pares falsificados (Anchor, Negative): esperam-se distâncias altas.
    dist_an = euclidean_dist(anchor_enc, negative_enc)[0]
    distances_forged.append(dist_an)

# Converter as listas de distâncias para arrays numpy para facilitar o processamento.
distances_genuine = np.array(distances_genuine)
distances_forged = np.array(distances_forged)

# Combinar todas as distâncias e seus rótulos verdadeiros para o cálculo da ROC.
# Rótulo 0 para genuíno (distância menor é melhor para esta classe), 1 para falsificado (distância maior é melhor para esta classe).
# Para `roc_curve`, o `y_true` (rótulos verdadeiros) é binário (0 ou 1),
# e `y_score` (scores de predição) deve ser tal que scores mais altos correspondam à classe "positiva" (rótulo 1).
# Como distâncias altas correspondem à classe "falsificado" (nosso rótulo 1), podemos usar as distâncias diretamente como scores.

all_distances = np.concatenate((distances_genuine, distances_forged))
# Cria os rótulos verdadeiros: zeros para as distâncias genuínas, uns para as distâncias falsificadas.
y_true = np.concatenate((np.zeros_like(distances_genuine), np.ones_like(distances_forged)))

# Calcula a Curva ROC.
# fpr: Taxa de Falsos Positivos (False Positive Rate)
# tpr: Taxa de Verdadeiros Positivos (True Positive Rate)
# thresholds: Os diferentes limiares de distância testados.
fpr, tpr, thresholds = roc_curve(y_true, all_distances)
roc_auc = auc(fpr, tpr) # Calcula a Área Sob a Curva ROC.

# Calcular o Equal Error Rate (EER)
# EER é o ponto onde a Taxa de Falsa Aceitação (FAR) é igual à Taxa de Falsa Rejeição (FRR).
# FAR = FPR
# FRR = 1 - TPR (já que TPR é a Taxa de Verdadeiros Positivos e FPR é a Taxa de Falsos Positivos)
# Portanto, buscamos o ponto onde 1 - TPR = FPR.
eer_threshold = None
min_diff = np.inf # Inicializa a diferença mínima com infinito.
eer_far = 0.0
eer_frr = 0.0

# Itera sobre os limiares para encontrar o EER.
for i, threshold in enumerate(thresholds):
    far = fpr[i]
    frr = 1 - tpr[i] # Taxa de Falsos Negativos (FNR) também pode ser chamada de FRR.
    diff = abs(far - frr) # Calcula a diferença absoluta entre FAR e FRR.
    if diff < min_diff:
        min_diff = diff
        eer_threshold = threshold # Limiar onde FAR e FRR são mais próximos.
        eer_far = far         # FAR no ponto EER.
        eer_frr = frr         # FRR no ponto EER.

print(f"\nResultados de Avaliação:")
print(f"Número de pares genuínos: {len(distances_genuine)}")
print(f"Número de pares falsificados: {len(distances_forged)}")
print(f"EER (Equal Error Rate) Threshold: {eer_threshold:.4f}")
print(f"FAR (False Acceptance Rate) no EER: {eer_far:.4f}")
print(f"FRR (False Rejection Rate) no EER: {eer_frr:.4f}")
print(f"AUC (Area Under Curve) da Curva ROC: {roc_auc:.4f}")

# Plotar Curva ROC
plt.figure(figsize=(8, 6))
# Plota a curva ROC.
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'Curva ROC (área = {roc_auc:.2f})')
# Plota a linha de classificação aleatória (diagonal).
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
# Plota o ponto EER na curva ROC.
plt.scatter(eer_far, 1 - eer_frr, marker='o', color='red', s=100, label=f'EER (Threshold={eer_threshold:.2f}, FAR/FRR={eer_far:.2f})')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsa Aceitação (FAR)') # Ou False Positive Rate (FPR)
plt.ylabel('Taxa de Verdadeiros Positivos (TPR) - (1 - FRR)') # Ou True Positive Rate (TPR)
plt.title('Curva ROC para Verificação de Assinatura')
plt.legend(loc="lower right")
plt.grid(True)
plt.show()

# --- Re-executar o exemplo de verificação com o EER Threshold otimizado ---
print("\n--- Verificação com o Limiar Otimizado (EER Threshold) ---")
threshold_optimized = eer_threshold # Usa o limiar de EER encontrado para as verificações.

if genuine_signatures_for_test_person:
    genuine_query_path = random.choice(genuine_signatures_for_test_person)
    is_genuine, min_dist = verify_signature(genuine_query_path, test_person_id, model, all_original_signatures_enc, threshold=threshold_optimized)
    print(f"\nVerificando assinatura GENUÍNA de Pessoa {test_person_id} ({os.path.basename(genuine_query_path)}):")
    print(f"Distância Mínima: {min_dist:.4f}, É Genuína: {is_genuine} (Limiar: {threshold_optimized:.4f})")

if forged_signatures_for_test_person:
    forged_query_path = random.choice(forged_signatures_for_test_person)
    is_genuine, min_dist = verify_signature(forged_query_path, test_person_id, model, all_original_signatures_enc, threshold=threshold_optimized)
    print(f"\nVerificando assinatura FALSIFICADA de Pessoa {test_person_id} ({os.path.basename(forged_query_path)}):")
    print(f"Distância Mínima: {min_dist:.4f}, É Genuína: {is_genuine} (Limiar: {threshold_optimized:.4f})")
else:
    print(f"\nNão há falsificações para a Pessoa {test_person_id} para testar com o limiar otimizado.")
    # Fallback para outra pessoa (como antes) para demonstrar a rejeição de não-genuínas.
    other_person_id = test_person_id + 1
    if other_person_id not in all_original_signatures_enc['person_id'].unique():
        other_person_id = next(iter(all_original_signatures_enc['person_id'].unique()))

    if other_person_id != test_person_id:
        other_person_genuine_signatures = original_df[original_df['person_id'] == other_person_id]['image_path'].tolist()
        if other_person_genuine_signatures:
            other_person_query_path = random.choice(other_person_genuine_signatures)
            is_genuine, min_dist = verify_signature(other_person_query_path, test_person_id, model, all_original_signatures_enc, threshold=threshold_optimized)
            print(f"\nVerificando assinatura GENUÍNA de OUTRA Pessoa ({other_person_id}) como FALSIFICADA para Pessoa {test_person_id}:")
            print(f"Distância Mínima: {min_dist:.4f}, É Genuína: {is_genuine} (Limiar: {threshold_optimized:.4f})")