In [None]:
from include.utils import *
from transformers import DistilBertForSequenceClassification, DistilBertTokenizerFast
from tqdm import tqdm

import faiss
import h5py
import numpy as np
import os

**Objetivo**

O objetivo deste script é processar e armazenar embeddings de textos de produtos, atualizar um índice FAISS para busca eficiente e garantir a continuidade do processamento caso ele seja interrompido. Vamos realizar o carregamento dos dados, calcular e salvar embeddings, e atualizar o índice FAISS com novos embeddings.

**Configurações iniciais**

Definimos os caminhos para os arquivos de dados e de índices que serão utilizados durante o processamento.

In [None]:
diretorio_arquivos = '../arquivos'
parquet_file_path = os.path.join(diretorio_arquivos, 'trn.parquet')

# Variáveis embeedings
embeddings_file_path = os.path.join(diretorio_arquivos,'embeddings','embeddings.h5')
faiss_index_path = os.path.join(diretorio_arquivos,'embeddings','amazon_products_index.faiss')
processed_indices_embeedings_file_path = os.path.join(diretorio_arquivos,'embeddings','processed_indices.npy')

# Variáveis finetunning
diretorio_finetunning_modelo_final = os.path.join(diretorio_arquivos, 'finetunning','modelo_final')
processed_indices_finetunning_file_path = os.path.join(diretorio_arquivos, 'finetunning', 'processed_indices.npy')

# Carregar DataFrame do Parquet
dados = load_dataframe(parquet_file_path)

**Salvamento de Embeddings em Arquivo**

Configuramos o preprocessamento para gerar embeddings usando o modelo DistilBERT, calculamos os embeddings a partir da última camada oculta e salvamos os resultados em um arquivo HDF5.

In [None]:
# Preprocessamento para embeddings
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')

# Usando o mesmo modelo que no fine-tuning (para classificação), mas pegando os embeddings
model = DistilBertForSequenceClassification.from_pretrained(diretorio_finetunning_modelo_final, num_labels=2)

**Configuração de Parâmetros e Preparação dos Dados**

Determinamos o índice inicial para continuar o processamento dos embeddings, verificamos o checkpoint para evitar duplicações e ajustamos a lista de textos dependendo do uso de amostras ou de todo o dataset.

In [None]:
# Determinar o índice inicial para processamento
start_idx_finetunning = np.load(processed_indices_finetunning_file_path).item()
batch_size = 4                       # Número de amostras a serem processadas em cada execução
use_sample = False                   # False processa todos os dados

textos = [f"Título: {title} Descrição: {content}" for title, content in zip(dados['title'], dados['content'])]

# Verificar o ponto de partida (checkpoint) de onde continuar
start_idx = 0
if os.path.exists(embeddings_file_path):
    with h5py.File(embeddings_file_path, 'r') as f:
        if 'embeddings' in f:
            start_idx = f['embeddings'].shape[0]
            print(f"Continuando a partir do índice {start_idx}.")
else:
    print("Arquivo de embeddings não encontrado. Iniciando do início.")

# Ajustando textos quando usado amostras
if use_sample:
    end_idx = min(start_idx + batch_size, start_idx_finetunning)  # Garante que não ultrapasse o limite
    textos = textos[start_idx:end_idx]
    print(f"Usando uma amostra de {len(textos)} registros.")
else:
    textos = textos[start_idx:]

**Processamento de Textos e Cálculo de Embeddings**

Geramos embeddings em lotes e salvamos incrementalmente, atualizando o progresso a cada lote processado.

In [None]:
batch_embeddings = None

# Gerar embeddings em lotes e salvar incrementalmente
for i in tqdm(range(start_idx, len(textos), batch_size), desc='Calculando embeddings'):
    batch_textos = textos[i:i + batch_size]
    batch_embeddings = generate_embeddings(batch_textos, tokenizer, model)
    save_embeddings_to_file(batch_embeddings, embeddings_file_path)

    # Atualizar o progresso
    tqdm.write(f'Lote processado: {i // batch_size + 1}/{len(textos) // batch_size + 1}')

**Atualização do Índice FAISS**

Atualizamos e salvamos o índice FAISS com os embeddings carregados, criando o índice se necessário e adicionando novos embeddings ao existente.

In [None]:
# Atualizar e salvar o índice FAISS
if os.path.exists(embeddings_file_path):
    with h5py.File(embeddings_file_path, 'r') as f:
        if 'embeddings' in f:
            # Verifica a dimensão dos embeddings a partir do arquivo
            batch_embeddings_shape = f['embeddings'].shape[1]
            index = faiss.IndexFlatL2(batch_embeddings_shape)
            print(f"Índice FAISS criado com dimensão {batch_embeddings_shape}.")
            
            if os.path.exists(faiss_index_path):
                index = faiss.read_index(faiss_index_path)
                print(f"Carregado índice FAISS existente com {index.ntotal} embeddings.")
            
            embeddings_to_add = f['embeddings'][start_idx:]
            if embeddings_to_add.shape[0] > 0:
                index.add(embeddings_to_add)
                print(f"Adicionados {embeddings_to_add.shape[0]} novos embeddings ao índice FAISS.")
            
            faiss.write_index(index, faiss_index_path)
            print(f"Índice FAISS atualizado salvo em '{faiss_index_path}'.")
        else:
            print("O dataset 'embeddings' não foi encontrado no arquivo.")
else:
    print("Nenhum embedding gerado para atualizar o índice FAISS.")