In [1]:
import re
import json
import os

In [None]:
def create_json_n1(txt_path: str, output_path: str) -> dict:
    """
    Lê um arquivo de texto, extrai blocos de dados formatados e os converte para um arquivo JSON.
    
    - Se o arquivo JSON já existir, verifica se os novos dados já estão presentes.
    - Caso os dados já existam, não faz nenhuma alteração.
    - Caso os dados sejam novos, adiciona ao JSON existente.
    - Se o arquivo JSON não existir, cria um novo arquivo JSON com os dados extraídos.
    
    Parâmetros:
        txt_path (str): Caminho do arquivo de texto de entrada.
        output_path (str): Caminho do arquivo JSON de saída.
    
    Retorna:
        dict: Estrutura de dados resultante contendo a contagem total e os dados extraídos.
    """
    
    with open(txt_path, 'r', encoding='utf-8') as file:
        content = file.read().strip()
    
    blocks = content.split("###")
    new_datas = []
    
    for block in blocks:
        block = block.strip()
        if not block:
            continue
        
        parts = block.split("---")
        if len(parts) == 2:
            text = parts[0].strip()
            texts_list = [t.strip() for t in parts[1].strip().split('\n')]
            new_datas.append({"text": text, "texts": texts_list})
    
    if os.path.exists(output_path):
        with open(output_path, 'r', encoding='utf-8') as file:
            try:
                existing_data = json.load(file)
            except json.JSONDecodeError:
                existing_data = {"count": 0, "datas": []}
    else:
        existing_data = {"count": 0, "datas": []}
    
    existing_texts = {(item["text"], tuple(item["texts"])) for item in existing_data["datas"]}
    
    for item in new_datas:
        if (item["text"], tuple(item["texts"])) not in existing_texts:
            existing_data["datas"].append(item)
    
    existing_data["count"] = len(existing_data["datas"])
    
    with open(output_path, 'w', encoding='utf-8') as output_file:
        json.dump(existing_data, output_file, indent=4, ensure_ascii=False)
    
    return existing_data

In [None]:
txt_path = "../helpers/txt_rase.txt"
output_path = "../databases/db_rase_n12.json"
parsed_data = create_json_n1(txt_path, output_path)
print(f"Resultado salvo em {output_path}")


Resultado salvo em ../databases/db_rase_n12.json
