In [1]:
# Importando as funções do arquivo baixar_documento.py
from include.baixar_documento import *

import os

**Declaração de variáveis**

Nesta seção, preparamos as variáveis necessárias para sequência do Tech Challenge.

Para geração do json em um dataset, decidimos usar parquet. O formato Parquet é eficiente em termos de armazenamento e desempenho, utilizando compactação e codificação colunar para reduzir o tamanho dos arquivos e melhorar a leitura e escrita. Ele suporta tipos de dados complexos e é amplamente compatível com ferramentas de big data, tornando-o ideal para grandes volumes de dados e análises rápidas.

In [2]:
# Obtém a largura do terminal - uso mais embaixo nos prints
terminal_width = os.get_terminal_size().columns

url = 'https://drive.google.com/uc?id=12zH4mL2RX8iSvH0VCNnd3QxO4DzuHWnK'
diretorio_arquivos = '../arquivos'
json_file_para_extrair = 'trn.json'
parquet_file = "trn.parquet"
gz_file_para_extrair = 'LF-Amazon-1.3M/trn.json.gz'

json_file_path = os.path.join(diretorio_arquivos, json_file_para_extrair)
parquet_file_path = os.path.join(diretorio_arquivos, parquet_file)

**Tratamento arquivo alvo json**

In [3]:
# Verificar se o arquivo JSON já existe
if not os.path.exists(json_file_path):
    # Executando o download e extração
    zip_data = baixar_arquivo_zip(url)
    extracted_file_path = extrair_arquivo_gz_do_zip(zip_data, gz_file_para_extrair, diretorio_arquivos, json_file_para_extrair)
else:
    extracted_file_path = json_file_path

total_linhas_json = contar_linhas_json(extracted_file_path)
print(f"Número total de linhas no json: {total_linhas_json}")

Número total de linhas no json: 2248619


**Geração dataset para finetunning e rag**

In [4]:
# Verifica se o arquivo Parquet já existe
if not os.path.exists(parquet_file_path):
    # Lendo o arquivo JSON extraído usando Pandas
    dados = read_large_json_with_pandas(extracted_file_path, num_lines=None)  # Lê todo o arquivo JSON
    save_dataframe(dados, parquet_file_path)  # Salva o DataFrame em um arquivo Parquet
else:
    # Carregar o DataFrame do arquivo Parquet existente
    dados = load_dataframe(parquet_file_path)

# Imprimindo detalhes necessários
print('-' * terminal_width)
print("\nLista de todas colunas:\n\n", list(dados))
print('-' * terminal_width)
print("\nAmostra dos dados:\n\n", dados.head())
print('-' * terminal_width)
print(f"\nQuantidade de linhas: {dados.shape[0]}. Quantidade de colunas: {dados.shape[1]}")
print('-' * terminal_width)
print("\nTipos de dados das colunas:\n\n", dados.dtypes)
print('-' * terminal_width)
print("\nQuantidade de valores ausentes por coluna:\n\n", dados.isnull().sum())

----------------------------------------------------------------------------------------------------------------------------------------------------

Lista de todas colunas:

 ['uid', 'title', 'content', 'target_ind', 'target_rel']
----------------------------------------------------------------------------------------------------------------------------------------------------

Amostra dos dados:

           uid                                              title  \
0  0000031909                        Girls Ballet Tutu Neon Pink   
1  0000032034                           Adult Ballet Tutu Yellow   
2  0000913154  The Way Things Work: An Illustrated Encycloped...   
3  0001360000                                      Mog's Kittens   
4  0001381245                              Misty of Chincoteague   

                                             content  \
0  High quality 3 layer ballet tutu. 12 inches in...   
1                                                      
2                   

**Teste Inicial com o Modelo**

Objetivo: Verificar se o modelo pré-treinado responde com sentido a uma pergunta baseada nos dados.

Passos:

Carregue o Dataset: Carregue o dataset dados e selecione apenas as colunas uid, title e content.
Escolha uma Pergunta: Faça uma pergunta que deveria ser respondida com base nas informações do dataset.
Teste com o Modelo: Use o modelo pré-treinado para responder a essa pergunta e verifique a relevância da resposta.

In [5]:
dados = dados[['uid', 'title', 'content']]

# Exemplo de pergunta
pergunta = "Qual é a característica principal do produto XYZ?"

# Função para obter resposta do modelo pré-treinado (substitua com sua chamada de API ou modelo)
def obter_resposta(pergunta):
    # Exemplo fictício
    return "Resposta gerada pelo modelo pré-treinado"

# Testar o modelo
resposta = obter_resposta(pergunta)
print("Resposta do modelo pré-treinado:", resposta)

Resposta do modelo pré-treinado: Resposta gerada pelo modelo pré-treinado


**Aplicar RAG para Recuperação e Geração**

Objetivo: Melhorar a precisão das respostas usando recuperação de informações relevantes dos documentos e geração de texto.

Passos:

Preparar o Índice de Recuperação:

Tokenização e Indexação: Use ferramentas como FAISS para criar um índice com os documentos no dataset.
Criação de Embeddings: Gere embeddings dos documentos e adicione ao índice.
Recuperação de Documentos:

Consulta: Quando uma pergunta é feita, recupere documentos relevantes usando o índice.
Geração de Respostas:

Contexto: Passe os documentos recuperados como contexto para o modelo de linguagem gerar a resposta.

In [1]:
!pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu118

Looking in indexes: https://download.pytorch.org/whl/nightly/cu118


In [1]:
!pip install torch torchvision torchaudio transformers
!pip install --upgrade transformers

import transformers
print(transformers.__version__)

Defaulting to user installation because normal site-packages is not writeable
Collecting torch
  Downloading torch-2.4.0-cp311-cp311-win_amd64.whl.metadata (27 kB)
Collecting torchvision
  Downloading torchvision-0.19.0-1-cp311-cp311-win_amd64.whl.metadata (6.1 kB)
Collecting torchaudio
  Downloading torchaudio-2.4.0-cp311-cp311-win_amd64.whl.metadata (6.4 kB)
Collecting transformers
  Using cached transformers-4.44.2-py3-none-any.whl.metadata (43 kB)
Collecting filelock (from torch)
  Using cached filelock-3.15.4-py3-none-any.whl.metadata (2.9 kB)
Collecting sympy (from torch)
  Using cached sympy-1.13.2-py3-none-any.whl.metadata (12 kB)
Collecting networkx (from torch)
  Using cached networkx-3.3-py3-none-any.whl.metadata (5.1 kB)
Collecting fsspec (from torch)
  Using cached fsspec-2024.6.1-py3-none-any.whl.metadata (11 kB)
Collecting numpy<2 (from torchvision)
  Downloading numpy-1.26.4-cp311-cp311-win_amd64.whl.metadata (61 kB)
     ---------------------------------------- 0.0/61.


[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


ModuleNotFoundError: No module named 'transformers'

In [None]:
!pip install transformers

In [None]:
import transformers
print(transformers.__version__)

In [8]:
from faiss import IndexFlatL2
from transformers import AutoTokenizer, AutoModel
import numpy as np

# Tokenizador e modelo pré-treinado
tokenizer = AutoTokenizer.from_pretrained('modelo-pretreinado')
model = AutoModel.from_pretrained('modelo-pretreinado')

# Função para criar embeddings
def criar_embeddings(textos):
    inputs = tokenizer(textos, return_tensors='pt', truncation=True, padding=True)
    with torch.no_grad():
        embeddings = model(**inputs).last_hidden_state.mean(dim=1)
    return embeddings.numpy()

# Criar índice de recuperação
documentos = dados['content'].tolist()
embeddings = criar_embeddings(documentos)
index = IndexFlatL2(embeddings.shape[1])
index.add(embeddings)

# Função de recuperação
def recuperar_documentos(pergunta, k=5):
    pergunta_embedding = criar_embeddings([pergunta])
    distâncias, indices = index.search(pergunta_embedding, k)
    return [documentos[i] for i in indices[0]]

# Função para gerar resposta usando documentos recuperados
def gerar_resposta(pergunta):
    documentos_relevantes = recuperar_documentos(pergunta)
    contexto = " ".join(documentos_relevantes)
    resposta = obter_resposta(f"{contexto} Pergunta: {pergunta}")
    return resposta

# Testar o modelo com RAG
resposta_rag = gerar_resposta(pergunta)
print("Resposta do modelo com RAG:", resposta_rag)

Collecting transformers
  Downloading transformers-4.44.2-py3-none-any.whl.metadata (43 kB)
Downloading transformers-4.44.2-py3-none-any.whl (9.5 MB)
   ---------------------------------------- 0.0/9.5 MB ? eta -:--:--
   ------------- -------------------------- 3.1/9.5 MB 16.8 MB/s eta 0:00:01
   ---------------------------------- ----- 8.1/9.5 MB 21.0 MB/s eta 0:00:01
   ---------------------------------------- 9.5/9.5 MB 19.7 MB/s eta 0:00:00
Installing collected packages: transformers
  Attempting uninstall: transformers
    Found existing installation: transformers 4.44.0
    Uninstalling transformers-4.44.0:
      Successfully uninstalled transformers-4.44.0
Successfully installed transformers-4.44.2


OSError: [WinError 126] Não foi possível encontrar o módulo especificado. Error loading "C:\Users\luiz.santos\AppData\Local\Programs\Python\Python312\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.

**Aplicar Fine-Tuning**

Objetivo: Ajustar o modelo para responder de maneira mais precisa e consistente com o estilo dos documentos.

Passos:

Preparar Dados para Fine-Tuning:

Formatação: Crie um dataset de treinamento a partir das perguntas e respostas baseadas no conteúdo dos documentos.
Fine-Tuning:

Treinamento: Ajuste o modelo pré-treinado usando o dataset preparado.

In [None]:
from transformers import Trainer, TrainingArguments, AutoModelForSequenceClassification

# Preparar o modelo para fine-tuning
modelo_finetuned = AutoModelForSequenceClassification.from_pretrained('modelo-pretreinado')

# Preparar argumentos de treinamento
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='./logs',
)

# Treinar o modelo
trainer = Trainer(
    model=modelo_finetuned,
    args=training_args,
    train_dataset=seu_dataset_de_treinamento,  # Substitua pelo seu dataset
)

trainer.train()

**Resumo**

**Teste Inicial**: Verifique a resposta do modelo pré-treinado para uma pergunta.
    
**RAG**: Use recuperação de documentos e geração de texto para melhorar a precisão das respostas.

**Fine-Tuning**: Ajuste o modelo com base no conteúdo específico para adaptar o estilo e a precisão das respostas.
    
Essas etapas permitem que você teste e ajuste o modelo para obter respostas mais precisas e relevantes com base no seu dataset.