In [1]:
from include.utils import *
from transformers import DistilBertForSequenceClassification, DistilBertTokenizerFast

import faiss
import os
import torch

**Configurações iniciais**

Definimos os caminhos para os arquivos de dados e índice FAISS e carregamos o DataFrame do arquivo Parquet.

In [2]:
# Configurações
diretorio_arquivos = '../arquivos'
parquet_file_path = os.path.join(diretorio_arquivos, 'trn.parquet')
diretorio_finetunning_modelo_final = os.path.join(diretorio_arquivos, 'finetunning','modelo_final')
faiss_index_path = os.path.join(diretorio_arquivos,'embeddings','amazon_products_index.faiss')

# Carregar DataFrame do Parquet
dados = load_dataframe(parquet_file_path)

# Configurações de amostragem
batch_size = 100000
use_sample = True

# Amostrar dados se necessário
if use_sample:
    dados = dados.sample(n=batch_size, random_state=42)

**Configuração e Carregamento**

Carregamos o modelo e tokenizer finetuned, bem como o índice FAISS.

In [3]:
# Carregamento do modelo e tokenizer finetuned
print(f"Carregando modelo finetuned de {diretorio_finetunning_modelo_final}...")
tokenizer = DistilBertTokenizerFast.from_pretrained(diretorio_finetunning_modelo_final)
model = DistilBertForSequenceClassification.from_pretrained(diretorio_finetunning_modelo_final)

# Carregamento do índice FAISS
print(f"Carregando índice FAISS de {faiss_index_path}...")
faiss_index = faiss.read_index(faiss_index_path)
print(f"Índice FAISS carregado com {faiss_index.ntotal} vetores.")

Carregando modelo finetuned de ../arquivos\finetunning\modelo_final...
Carregando índice FAISS de ../arquivos\embeddings\amazon_products_index.faiss...
Índice FAISS carregado com 788 vetores.


**Processamento de Perguntas e Respostas**

Carregamos funções que encontram o bloco mais relevante de um contexto, identificam produtos relevantes em um DataFrame e classificam a relevância de blocos com base em uma pergunta.

In [4]:
def find_most_relevant_block(question, context):
    """
    Encontra o bloco mais relevante do contexto com base na pergunta.
    
    Args:
        question (str): A pergunta a ser avaliada.
        context (str): O texto do contexto a ser avaliado.
        
    Returns:
        str: O bloco mais relevante traduzido.
    """
    
    relevance_scores = classificar_relevancia_bloco(question, context)
    
    if not relevance_scores:
        return "Nenhum bloco relevante encontrado."

    best_block, best_score = relevance_scores[0]
    best_block_pt = traduzir_texto(best_block)  # Traduzir o bloco para o português
    
    return f"\n{best_block_pt}"


def find_top_relevant_products(question, dataframe, top_n=3):
    """
    Encontra os três produtos mais relevantes com base na pergunta, processando um DataFrame.
    
    Args:
        question (str): A pergunta a ser avaliada.
        dataframe (pd.DataFrame): O DataFrame contendo os livros e seus conteúdos.
        top_n (int): O número de produtos mais relevantes a serem retornados.
        
    Returns:
        list of tuple: Lista dos produtos mais relevantes, com seus blocos mais relevantes e pontuações.
    """
    
    all_relevance_scores = []

    # Use tqdm para adicionar uma barra de progresso
    for _, row in tqdm(dataframe.iterrows(), total=dataframe.shape[0], desc="Processando produtos"):
        titulo = row['title']
        contexto = row['content']
        relevance_scores = classificar_relevancia_bloco(question, contexto)
        if relevance_scores:
            best_block, best_score = relevance_scores[0]  # Melhor bloco
            all_relevance_scores.append((titulo, best_block, best_score))

    all_relevance_scores.sort(key=lambda x: x[2], reverse=True)
    top_produtos = all_relevance_scores[:top_n]

    return top_produtos


def classificar_relevancia_bloco(question, context, block_size=100):
    """
    Classifica a relevância dos blocos de um contexto com base na pergunta.
    
    Args:
        question (str): A pergunta a ser avaliada.
        context (str): O texto do contexto a ser dividido em blocos.
        block_size (int): O número máximo de palavras em cada bloco.
        
    Returns:
        list of tuple: Lista de blocos e suas pontuações de relevância, ordenada pela pontuação.
    """
    
    relevance_scores = []
    blocks = split_context_into_blocks(context, block_size)

    for block in blocks:
        inputs = tokenizer.encode_plus(question, block, return_tensors='pt', max_length=512, truncation=True)
        
        with torch.no_grad():
            outputs = model(**inputs)
        
        logits = outputs.logits
        score = torch.softmax(logits, dim=1).max(dim=1).values.item()  # Pegamos a probabilidade da classe mais provável
        relevance_scores.append((block, score))

    relevance_scores.sort(key=lambda x: x[1], reverse=True)
    
    return relevance_scores

**Teste e Exibição de Resultados**

Usamos uma pergunta específica para testar o código com uma pequena amostra de dados, encontrando o bloco mais relevante e traduzindo a resposta.

In [5]:
# Perguntas específicas
pergunta = "Do que trata-se este produto?"
print(pergunta)

# Exemplo de uso com dados do DataFrame
for _, row in dados.head(10).iterrows():  # Limitar a quantidade para teste
    titulo = row['title']
    contexto = row['content']
    
    print(f"\n--- Título: {titulo} ---")
    
    resposta = find_most_relevant_block(pergunta, contexto)
    print(f"Resposta (pt): {resposta}\n")

Do que trata-se este produto?

--- Título: Rada Cutlery S6S 6-piece Serrated Steak Knives Gift Set ---
Resposta (pt): 
Seis facas serrilhadas para bife. Conjunto para presente (seis facas serrilhadas para bife). Cabo de resina de aço inoxidável preto (melhor tolerância à máquina de lavar louça). Fabricado nos EUA desde 1948. Garantia vitalícia. Facas feitas nos Estados Unidos.


--- Título: Ground Hide Glue, 1 Pound ---
Resposta (pt): 
Ground Hide Glue é um pó finamente moído que é misturado aproximadamente 50/50 com água quente e mantido aquecido durante o uso. Embora essa cola tenha uma pega rápida, ela ainda permite que você reposicione a peça por um longo período antes de endurecer. Ground Hide Glue é amplamente usada em folheados de madeira e na indústria de marcenaria.


--- Título: Presenting Felix the Cat: The Otto Messmer Classics 1919 - 24 ---
Resposta (pt): 
Felix the Cat foi o primeiro superstar animado, e esses primeiros curtas revelam a fonte da popularidade fenomenal do 

Configuramos a pergunta para retornar os três produtos mais relevantes e exibimos os resultados com a descrição traduzida.

In [6]:
pergunta = "Poderia me retornar os três produtos mais relevantes ?"

# Exemplo de uso com dados do DataFrame
top_produtos = find_top_relevant_products(pergunta, dados)

# Exibir os melhores produtos
for i, (titulo, bloco, score) in enumerate(top_produtos, 1):
    bloco_pt = traduzir_texto(bloco)
    print(f"\n--- Produto {i}: {titulo} ---")
    print(f"Descrição traduzida: {bloco_pt}\n")

Processando produtos: 100%|██████████████████████████████████████████████████████████████████████████████| 100000/100000 [4:01:50<00:00,  6.89it/s]



--- Produto 1: Shadow Tag: A Novel ---
Descrição traduzida: Gil. Erdrich alterna habilmente entre trechos desses dois diários e narração em terceira pessoa enquanto ela trama a guerra emocional entre Irene e Gil, e o lado sombrio de Gil se torna cada vez mais aparente enquanto Irene, lutando contra seu próprio alcoolismo, luta para escapar. Erdrich une seus vários temas com uma metáfora intrigante &mdash;riffing sobre crenças nativas americanas sobre retratos como sombras e sombras como almas &mdash;enquanto seu ritmo constante e notável percepção sobre a vida interior das crianças se combinam para fazer deste um romance satisfatório e envolvente. (fev.) Copyright &copy; Reed Business Information, uma divisão da Reed Elsevier Inc. Todos os direitos reservados.


--- Produto 2:  ---
Descrição traduzida: Mary Flower, indicada ao prêmio Blues Music Award de 2008 como "Artista Acústica do Ano", é conhecida por uma visão pessoal única da música roots que mistura ragtime, blues acústico e e