# Item 02 | Ingestão de dados

In [10]:
from datasets import load_dataset
import pandas as pd

# Função para filtrar as N primeiras linhas válidas e salvar os IDs das linhas excluídas dentro do intervalo
def salvar_n_linhas_validas_e_excluidas(dataset_name, split, num_linhas, output_csv_validas, output_csv_excluidas):
    # Carregar o dataset do Hugging Face com confiança no código remoto
    dataset = load_dataset(dataset_name, split=split, trust_remote_code=True)
    
    # Converter o dataset em um DataFrame do pandas
    df = dataset.to_pandas()
    
    # Selecionar as primeiras N linhas do dataset (independentemente de serem válidas ou não)
    df_inicial = df.head(num_linhas)
    
    # Criar uma máscara para identificar as linhas válidas:
    # - Linhas onde 'text' e 'title' estão preenchidos
    linhas_validas = (df_inicial['text'] != '') & (df_inicial['title'] != '')
    
    # Separar as linhas válidas
    df_validas = df_inicial[linhas_validas]
    
    # Salvar o DataFrame de linhas válidas em um arquivo CSV
    df_validas.to_csv(output_csv_validas, index=False)
    print(f"Arquivo {output_csv_validas} criado com as {len(df_validas)} linhas válidas (dentro das primeiras {num_linhas} linhas).")
    
    # Identificar as linhas excluídas (dentro do mesmo intervalo)
    df_excluidas = df_inicial[~linhas_validas]
    
    # Salvar os IDs (docid) das linhas excluídas em um arquivo CSV
    df_excluidas[['docid']].to_csv(output_csv_excluidas, index=False)
    print(f"Arquivo {output_csv_excluidas} criado com os IDs das {len(df_excluidas)} linhas excluídas (dentro das primeiras {num_linhas} linhas).")

# Variáveis
dataset_name = "spacemanidol/product-search-corpus"  # Nome do dataset no Hugging Face
split = "train"  # Divisão do dataset (por exemplo, 'train', 'test')
num_linhas = 100  # Número de linhas que você deseja analisar (válidas ou inválidas)
output_csv_validas = "linhas_validas.csv"  # Nome do arquivo CSV de linhas válidas
output_csv_excluidas = "linhas_excluidas.csv"  # Nome do arquivo CSV de linhas excluídas (IDs)

# Chamar a função para salvar as N primeiras linhas válidas e os IDs das linhas excluídas
salvar_n_linhas_validas_e_excluidas(dataset_name, split, num_linhas, output_csv_validas, output_csv_excluidas)


Arquivo linhas_validas.csv criado com as 84 linhas válidas (dentro das primeiras 100 linhas).
Arquivo linhas_excluidas.csv criado com os IDs das 16 linhas excluídas (dentro das primeiras 100 linhas).


In [12]:
import requests

# Variáveis de autenticação
email = "wendellbarreto@gmail.com"
password = "123456@Qwerty"

# Endpoints da API
auth_url = "https://dadosfera.api.com/auth/signin"  # Substitua pela URL real da API
upload_url = "https://dadosfera.api.com/upload/json"  # Substitua pela URL real da API

# Função para autenticar e obter o token
def autenticar(email, password):
    headers = {'Content-Type': 'application/json'}
    body = {
        "email": email,
        "password": password
    }
    
    response = requests.post(auth_url, json=body, headers=headers)
    
    if response.status_code == 200:
        token = response.json().get('token')
        print("Autenticação bem-sucedida. Token recebido.")
        return token
    else:
        print(f"Erro na autenticação: {response.status_code}")
        print(response.text)
        return None

# Função para fazer upload do arquivo JSON
def upload_json_file(token, file_path):
    headers = {
        'Authorization': f'Bearer {token}'
    }
    
    # Abrir o arquivo JSON e enviar como parte do corpo da requisição
    with open(file_path, 'rb') as file:
        files = {
            'file': (file_path, file, 'application/json')
        }
        response = requests.post(upload_url, headers=headers, files=files)
        
        if response.status_code == 200:
            print("Upload bem-sucedido.")
            print(response.json())
        else:
            print(f"Erro no upload: {response.status_code}")
            print(response.text)

# Autenticação e obtenção do token
token = autenticar(email, password)

# Verifica se a autenticação foi bem-sucedida antes de continuar
if token:
    # Caminho para o arquivo JSON a ser enviado
    json_file_path = "caminho_para_seu_arquivo.json"
    
    # Fazer upload do arquivo JSON
    upload_json_file(token, json_file_path)


{"input":{"id":"c6d412bc-bf81-48ea-a0f1-1dffa382c689","name":"fddfd","plugin":"teste","tables":[{"name":"Objeto 1","columns":["teste","tetse","etee"],"type":"type"}],"created_at":"2024-09-09T21:31:49.504Z","description":"teste"}}
