In [1]:
!pip install deep-translator

Defaulting to user installation because normal site-packages is not writeable


In [2]:
from deep_translator import GoogleTranslator
from include.utils import *
from transformers import BertForQuestionAnswering, BertTokenizer

import os
import pandas as pd
import torch

**Objetivo**

O objetivo deste script é demonstrar como usar um modelo BERT pré-treinado para responder a perguntas com base em um conjunto de dados. Este exemplo ilustra o processo de geração de respostas sem técnicas avançadas como fine-tuning ou Retrieval-Augmented Generation (RAG). Utilizamos um modelo de perguntas e respostas para mostrar a aplicação básica dessa técnica.

**Preparação dos dados**

Obtemos o arquivo parquet gerado e aplicamos uma amostragem opcional para limitar o tamanho do dataset, facilitando o teste inicial do fluxo de trabalho.

In [3]:
terminal_width = os.get_terminal_size().columns

diretorio_arquivos = '../arquivos'
parquet_file_path = os.path.join(diretorio_arquivos, 'trn.parquet')

# Carregar DataFrame do Parquet
dados = load_dataframe(parquet_file_path)

# Configurações de amostragem
batch_size = 50
use_sample = True

# Amostrar dados se necessário
if use_sample:
    dados = dados.sample(n=batch_size, random_state=42)

**Carregamento do Modelo e Tokenizador**

Carregando o modelo BERT pré-treinado e o tokenizador, configurando dois modelos: um para codificação de texto e outro para tarefas de perguntas e respostas.

In [4]:
# Carregar o modelo pré-treinado e o tokenizador
model_name = 'bert-large-uncased-whole-word-masking-finetuned-squad'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForQuestionAnswering.from_pretrained(model_name)

Some weights of the model checkpoint at bert-large-uncased-whole-word-masking-finetuned-squad were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


**Definição da Função de Perguntas e Respostas**

Define uma função para gerar respostas com base em uma pergunta e um contexto fornecido. Utiliza o modelo BERT para identificar a resposta mais provável no contexto.

In [5]:
# Inicializar tradutor
translator = GoogleTranslator(source='en', target='pt')

def obter_resposta(pergunta, contexto):
    # Preparar entrada para o modelo
    inputs = tokenizer.encode_plus(
        pergunta,
        contexto,
        return_tensors='pt',
        max_length=512,
        truncation=True
    )

    input_ids = inputs['input_ids']
    attention_mask = inputs['attention_mask']

    # Obter saída do modelo
    outputs = model(input_ids, attention_mask=attention_mask)

    # Encontrar índice inicial e final da resposta
    start_index = torch.argmax(outputs.start_logits)
    end_index = torch.argmax(outputs.end_logits) + 1

    # Obter tokens de resposta
    resposta_tokens = input_ids[0][start_index:end_index]
    resposta = tokenizer.decode(resposta_tokens, skip_special_tokens=True)

    return resposta

def traduzir_texto(texto):
    # Traduzir texto para o português
    traducao = translator.translate(texto)
    return traducao

pergunta = "Qual é a característica principal deste produto ?"

# Criar contextos a partir das amostras
contextos = [f"Title: {row['title']} Content: {row['content']}" for _, row in dados.iterrows()]

# Testar o modelo com as amostras
for _, row in dados.iterrows():
    titulo = row['title']
    contexto = row['content']

    if not contexto.strip():  # Verifica se o contexto está vazio
        print(f"Title: {titulo}")
        print("Context: Nenhum contexto fornecido.")
        print("Resposta: Nenhuma resposta encontrada.\n")
        print('-' * terminal_width)
        continue

    # Traduzir contexto para português
    contexto_pt = traduzir_texto(contexto)

    # Obter resposta
    resposta_en = obter_resposta(pergunta, contexto)

    # Traduzir resposta para português
    resposta_pt = traduzir_texto(resposta_en)

    # Imprimir resultado formatado
    print(f"Title: {titulo}")
    print(f"Contexto em inglês: {contexto}")
    print(f"Contexto traduzido: {contexto_pt}")
    print(f"Resposta em inglês: {resposta_en}")
    print(f"Resposta traduzida: {resposta_pt}\n")
    print('-' * terminal_width)

Title: Yellow Box Women's Yulisa Flip Flop Sandal
Context: Nenhum contexto fornecido.
Resposta: Nenhuma resposta encontrada.

----------------------------------------------------------------------------------------------------------------------------------------------------
Title: Nine West Women's Eastnor Sandal
Context: Nenhum contexto fornecido.
Resposta: Nenhuma resposta encontrada.

----------------------------------------------------------------------------------------------------------------------------------------------------
Title: Roma Costume Women's 1 Piece Santa's Envy-Red White
Context: Nenhum contexto fornecido.
Resposta: Nenhuma resposta encontrada.

----------------------------------------------------------------------------------------------------------------------------------------------------


NameError: name 'resposta' is not defined