In [None]:
import os
import json
import re

# Ruta de la carpeta donde están las fichas técnicas en texto
CARPETA_FICHAS = "../assets/"

# Expresiones regulares para identificar secciones clave
SECCIONES = {
    "indicaciones_terapeuticas": r"(?<=Indicaciones terapéuticas:)(.*?)(?=\n[A-Z])",
    "posologia": r"(?<=Posología:)(.*?)(?=\n[A-Z])",
    "contraindicaciones": r"(?<=Contraindicaciones:)(.*?)(?=\n[A-Z])",
    "advertencias_precauciones": r"(?<=Advertencias y precauciones especiales de empleo:)(.*?)(?=\n[A-Z])",
    "interacciones": r"(?<=Interacción con otros medicamentos y otras formas de interacción:)(.*?)(?=\n[A-Z])",
    "fertilidad_embarazo_lactancia": r"(?<=Fertilidad, embarazo y lactancia:)(.*?)(?=\n[A-Z])",
    "efectos_capacidad_conducir": r"(?<=Efectos sobre la capacidad para conducir y utilizar máquinas:)(.*?)(?=\n[A-Z])",
    "reacciones_adversas": r"(?<=Reacciones adversas:)(.*?)(?=\n[A-Z])",
    "codigo_atc": r"(?<=Código ATC:)(.*?)(?=\n[A-Z])",
    "fecha_revision": r"(?<=Fecha de revisión del texto:)(.*?)(?=\n[A-Z])",
}


def parsear_ficha(texto, nombre_archivo):
    """Extrae la información clave de una ficha técnica de medicamento"""
    ficha_json = {
        "nombre": nombre_archivo
    }  # Nombre del archivo como nombre del medicamento

    # Extraer cada sección usando regex
    for key, regex in SECCIONES.items():
        match = re.search(regex, texto, re.DOTALL)
        ficha_json[key] = match.group(1).strip() if match else "No especificado"

    return ficha_json


def procesar_fichas(carpeta):
    """Lee todas las fichas técnicas en la carpeta y genera JSON para cada una"""
    fichas_procesadas = []

    for archivo in os.listdir(carpeta):
        if archivo.endswith(".txt"):  # Suponiendo que las fichas están en archivos .txt
            nombre_medicamento = os.path.splitext(archivo)[
                0
            ]  # Nombre del archivo sin la extensión
            ruta_completa = os.path.join(carpeta, archivo)
            with open(ruta_completa, "r", encoding="utf-8") as f:
                texto = f.read()
                ficha_json = parsear_ficha(texto, nombre_medicamento)
                fichas_procesadas.append(ficha_json)

    return fichas_procesadas


# Procesar todas las fichas y guardar el JSON
fichas_json = procesar_fichas(CARPETA_FICHAS)

with open("fichas_tecnicas.json", "w", encoding="utf-8") as f:
    json.dump(fichas_json, f, ensure_ascii=False, indent=4)

print("Procesamiento finalizado. JSON generado.")