In [1]:
!pip install -r "../requirements.txt"

Defaulting to user installation because normal site-packages is not writeable


In [2]:
from include.utils import *

import numpy as np
import os
import pandas as pd

**Declaração de variáveis**

Nesta seção, preparamos as variáveis necessárias para sequência do Tech Challenge.

Para geração do json em um dataset, decidimos usar parquet. O formato Parquet é eficiente em termos de armazenamento e desempenho, utilizando compactação e codificação colunar para reduzir o tamanho dos arquivos e melhorar a leitura e escrita. Ele suporta tipos de dados complexos e é amplamente compatível com ferramentas de big data, tornando-o ideal para grandes volumes de dados e análises rápidas.

In [3]:
# Obtém a largura do terminal - uso mais embaixo nos prints
terminal_width = os.get_terminal_size().columns

url = 'https://drive.google.com/uc?id=12zH4mL2RX8iSvH0VCNnd3QxO4DzuHWnK'
gz_file_para_extrair = 'LF-Amazon-1.3M/trn.json.gz'

diretorio_arquivos = '../arquivos'
json_file_para_extrair = 'trn.json'

json_file_path = os.path.join(diretorio_arquivos, json_file_para_extrair)
parquet_file_path = os.path.join(diretorio_arquivos, "trn.parquet")

**Tratamento arquivo alvo json**

Verificamos se o arquivo JSON já existe. Se não, baixamos e extraímos o arquivo necessário. Após garantir que o arquivo JSON está disponível, contamos e exibimos o número total de linhas nele.

In [4]:
# Verificar se o arquivo JSON já existe
if not os.path.exists(json_file_path):
    # Executando o download e extração
    zip_data = baixar_arquivo_zip(url)
    extracted_file_path = extrair_arquivo_gz_do_zip(zip_data, gz_file_para_extrair, diretorio_arquivos, json_file_para_extrair)
else:
    extracted_file_path = json_file_path

total_linhas_json = contar_linhas_json(extracted_file_path)
print(f"Número total de linhas no json: {total_linhas_json}")

Número total de linhas no json: 2248619


**Geração dataset para finetunning e rag**

Verificamos se o arquivo Parquet já existe. Se não, lemos o arquivo JSON extraído, removemos colunas desnecessárias para reduzir o tamanho do DataFrame e salvamos o DataFrame em um arquivo Parquet. Se o arquivo Parquet já existir, carregamos o DataFrame diretamente dele.

In [5]:
# Verifica se o arquivo Parquet já existe
if not os.path.exists(parquet_file_path):
    # Lendo o arquivo JSON extraído usando Pandas
    dados = read_large_json_with_pandas(extracted_file_path, num_lines=None)  # Lê todo o arquivo JSON
    dados.drop(columns=['uid','target_ind', 'target_rel'], inplace=True) # removendo as colunas desnecessárias
    
    save_dataframe(dados, parquet_file_path)  # Salva o DataFrame em um arquivo Parquet
else:
    # Carregar o DataFrame do arquivo Parquet existente
    dados = load_dataframe(parquet_file_path)

Lendo JSON: 2.62GB [02:35, 16.9MB/s]                                                                                                             
Salvando DataFrame: 100%|█████████████████████████████████████████████████████████████████████████| 2248619/2248619 [01:33<00:00, 23995.48rows/s]

../arquivos\trn.parquet salvo com sucesso!





In [6]:
# Imprimindo detalhes necessários
print("\nLista de todas colunas:\n\n", list(dados))
print('-' * terminal_width)
print("\nAmostra dos dados:\n\n", dados.head())
print('-' * terminal_width)
print(f"\nQuantidade de linhas: {dados.shape[0]}. Quantidade de colunas: {dados.shape[1]}")
print('-' * terminal_width)
print("\nTipos de dados das colunas:\n\n", dados.dtypes)
print('-' * terminal_width)
print("\nQuantidade de valores ausentes por coluna:\n\n", dados.isnull().sum())


Lista de todas colunas:

 ['title', 'content']
--------------------------------------------------------------------------------------------------------------------------------------------------

Amostra dos dados:

                                                title  \
0                        Girls Ballet Tutu Neon Pink   
1                           Adult Ballet Tutu Yellow   
2  The Way Things Work: An Illustrated Encycloped...   
3                                      Mog's Kittens   
4                              Misty of Chincoteague   

                                             content  
0  High quality 3 layer ballet tutu. 12 inches in...  
1                                                     
2                                                     
3  Judith Kerr&#8217;s best&#8211;selling adventu...  
4                                                     
--------------------------------------------------------------------------------------------------------------------

In [7]:
# Filtrar as linhas que estão vazias na coluna 'content'
conteudos_vazios = dados[dados['content'].isna() | (dados['content'] == '')]

# Exibir o título das primeiras 20 linhas vazias
for i, title in enumerate(conteudos_vazios.head(20)['title'], start=1):
    print(f"Linha {i}: Título: {title}")

Linha 1: Título: Adult Ballet Tutu Yellow
Linha 2: Título: The Way Things Work: An Illustrated Encyclopedia of Technology
Linha 3: Título: Misty of Chincoteague
Linha 4: Título: Hilda Boswell's treasury of children's stories: A new anthology of stories for the young
Linha 5: Título: The Simple Truths of Service: Inspired by Johnny the Bagger
Linha 6: Título: Evaluating Research in Academic Journals - A Practical Guide to Realistic Evaluation (5th Fifth Edition) - By Fred Pyrczak
Linha 7: Título: Dr. Seuss ABC (Dr.Seuss Classic Collection) (Spanish Edition)
Linha 8: Título: Noddy Story Book Treasury
Linha 9: Título: The Book of Daniel
Linha 10: Título: Mksap 16 Audio Companion: Medical Knowledge Self-Assessment Program
Linha 11: Título: The Bayeux Tapestry: The Norman Conquest 1066
Linha 12: Título: Hilda Boswell's Treasury of Fairy Tales
Linha 13: Título: Tales from Brambly Hedge
Linha 14: Título: Crash of Hennington
Linha 15: Título: The Collected Short Stories of Louis L'Amour - The 

In [8]:
# Filtrar as linhas que não estão vazias e exibir as primeiras 20
conteudos_nao_vazios = dados['content'].dropna().replace('', np.nan).dropna()

# Exibir o conteúdo das primeiras 20 linhas não vazias
for i, content in enumerate(conteudos_nao_vazios.head(20), start=1):
    print(f"Linha {i}: Título: {title}\n")
    print(f"Conteúdo: {content}\n")

Linha 1: High quality 3 layer ballet tutu. 12 inches in length

Linha 2: Judith Kerr&#8217;s best&#8211;selling adventures of that endearing (and exasperating) cat Mog have entertained children for more than 30 years. Now, even infants and toddlers can enjoy meeting this loveable feline. These sturdy little board books&#8212;with their bright, simple pictures, easy text, and hand&#8211;friendly formats&#8212;are just the thing to delight the very young. Ages 6 months&#8211;2 years.

Linha 3: Dance tutu for girls ages 2-8 years. Perfect for dance practice, recitals and performances, costumes or just for fun!

Linha 4: In a distant, timeless place, a mysterious prophet walks the sands. At the moment of his departure, he wishes to offer the people gifts but possesses nothing. The people gather round, each asks a question of the heart, and the man's wisdom is his gift. It is Gibran's gift to us, as well, for Gibran's prophet is rivaled in his wisdom only by the founders of the world's grea

In [9]:
num_empty_content = dados['content'].isna().sum()  # Contar valores NaN
num_empty_strings = (dados['content'] == '').sum()  # Contar strings vazias

print(f"Número de entradas com valor NaN na coluna 'content': {num_empty_content}")
print(f"Número de entradas com string vazia na coluna 'content': {num_empty_strings}")

# Filtrar e remover linhas com conteúdo vazio ou NaN na coluna 'content'
dados_limpos = dados[~(dados['content'].isna() | (dados['content'] == ''))]

# Verificar o número de linhas restantes após remoção
num_linhas_restantes = len(dados_limpos)

print(f"Número de entradas restantes após remoção: {num_linhas_restantes}")
save_dataframe(dados_limpos, parquet_file_path)

Número de entradas com valor NaN na coluna 'content': 0
Número de entradas com string vazia na coluna 'content': 749901
Número de entradas restantes após remoção: 1498718


Salvando DataFrame: 100%|█████████████████████████████████████████████████████████████████████████| 1498718/1498718 [00:36<00:00, 40963.70rows/s]

../arquivos\trn.parquet salvo com sucesso!



