# Item 02 | Ingestão de dados

In [10]:
from datasets import load_dataset
import pandas as pd

# Função para filtrar as N primeiras linhas válidas e salvar os IDs das linhas excluídas dentro do intervalo
def salvar_n_linhas_validas_e_excluidas(dataset_name, split, num_linhas, output_csv_validas, output_csv_excluidas):
    # Carregar o dataset do Hugging Face com confiança no código remoto
    dataset = load_dataset(dataset_name, split=split, trust_remote_code=True)
    
    # Converter o dataset em um DataFrame do pandas
    df = dataset.to_pandas()
    
    # Selecionar as primeiras N linhas do dataset (independentemente de serem válidas ou não)
    df_inicial = df.head(num_linhas)
    
    # Criar uma máscara para identificar as linhas válidas:
    # - Linhas onde 'text' e 'title' estão preenchidos
    linhas_validas = (df_inicial['text'] != '') & (df_inicial['title'] != '')
    
    # Separar as linhas válidas
    df_validas = df_inicial[linhas_validas]
    
    # Salvar o DataFrame de linhas válidas em um arquivo CSV
    df_validas.to_csv(output_csv_validas, index=False)
    print(f"Arquivo {output_csv_validas} criado com as {len(df_validas)} linhas válidas (dentro das primeiras {num_linhas} linhas).")
    
    # Identificar as linhas excluídas (dentro do mesmo intervalo)
    df_excluidas = df_inicial[~linhas_validas]
    
    # Salvar os IDs (docid) das linhas excluídas em um arquivo CSV
    df_excluidas[['docid']].to_csv(output_csv_excluidas, index=False)
    print(f"Arquivo {output_csv_excluidas} criado com os IDs das {len(df_excluidas)} linhas excluídas (dentro das primeiras {num_linhas} linhas).")

# Variáveis
dataset_name = "spacemanidol/product-search-corpus"  # Nome do dataset no Hugging Face
split = "train"  # Divisão do dataset (por exemplo, 'train', 'test')
num_linhas = 100  # Número de linhas que você deseja analisar (válidas ou inválidas)
output_csv_validas = "linhas_validas.csv"  # Nome do arquivo CSV de linhas válidas
output_csv_excluidas = "linhas_excluidas.csv"  # Nome do arquivo CSV de linhas excluídas (IDs)

# Chamar a função para salvar as N primeiras linhas válidas e os IDs das linhas excluídas
salvar_n_linhas_validas_e_excluidas(dataset_name, split, num_linhas, output_csv_validas, output_csv_excluidas)


Arquivo linhas_validas.csv criado com as 84 linhas válidas (dentro das primeiras 100 linhas).
Arquivo linhas_excluidas.csv criado com os IDs das 16 linhas excluídas (dentro das primeiras 100 linhas).
