### Paso 1: .doc a .csv

In [45]:
import os
import re
import pandas as pd
from docx import Document
import torch
from tqdm import tqdm

In [46]:
# Ruta a carpeta local con archivos .docx y donde se guardara el archivo .csv
carpeta = "Informes/"
archivo_csv = "documentos_medicos.csv"
datos = []
nuevos_datos = []

In [47]:
def extraer_texto_docx(archivo):
    doc = Document(archivo)
    texto = '\n'.join([p.text for p in doc.paragraphs if p.text.strip() != ""])
    return texto

In [48]:
def extraer_campos(texto):
    paciente = re.search(r"Paciente:\s*(.*)", texto)
    edad = re.search(r"Edad:\s*(\d+)", texto)
    fecha = re.search(r"Fecha de Ingreso:\s*(.*)", texto)
    dx = re.search(r"Diagnóstico Presuntivo:\s*(.*)", texto)
    meds = re.search(r"Medicamentos Recetados:(.*?)(Instrucciones|Firma|$)", texto, re.DOTALL)

    return {
        "paciente": paciente.group(1).strip() if paciente else "",
        "edad": int(edad.group(1)) if edad else "",
        "fecha_ingreso": fecha.group(1).strip() if fecha else "",
        "diagnostico": dx.group(1).strip() if dx else "",
        "medicamentos": meds.group(1).strip().replace("\n", ", ") if meds else ""
    }

In [49]:
# Cargar CSV existente si ya existe
if os.path.exists(archivo_csv):
    df_existente = pd.read_csv(archivo_csv, encoding='utf-8')
else:
    df_existente = pd.DataFrame()

In [50]:
for archivo in os.listdir(carpeta):
    if archivo.endswith(".docx"):
        ruta = os.path.join(carpeta, archivo)
        texto = extraer_texto_docx(ruta)
        campos = extraer_campos(texto)
        campos["archivo"] = archivo
        datos.append(campos)

        # Verificar si el paciente existe
        if not df_existente.empty and campos["paciente"] in df_existente["paciente"].values:
            print(f"Paciente ya registrado: {campos['paciente']} — ignorado.")
        else:
            nuevos_datos.append(campos)

# Agregar y guardar
if nuevos_datos:
    df_nuevos = pd.DataFrame(nuevos_datos)
    df_final = pd.concat([df_existente, df_nuevos], ignore_index=True)
    df_final.to_csv(archivo_csv, index=False, encoding='utf-8')
    print("Datos nuevos agregados al CSV.")
else:
    print("No se encontraron pacientes nuevos.")

Paciente ya registrado: Juan Pérez — ignorado.
No se encontraron pacientes nuevos.


In [51]:
# Guardar en CSV
df = pd.DataFrame(datos)
df.to_csv("documentos_medicos.csv", index=False, encoding='utf-8')

# Mostrar el contenido del CSV
print(df.head())

     paciente  edad        fecha_ingreso                 diagnostico  \
0  Juan Pérez    45  15 de abril de 2025  Posible apendicitis aguda.   

                                        medicamentos    archivo  
0  Paracetamol 500mg: 1 tableta cada 8 horas para...  tets.docx  


In [52]:
# Leer el archivo CSV
df = pd.read_csv("documentos_medicos.csv", encoding='utf-8')

# Mostrar las primeras filas
print(df.head())

     paciente  edad        fecha_ingreso                 diagnostico  \
0  Juan Pérez    45  15 de abril de 2025  Posible apendicitis aguda.   

                                        medicamentos    archivo  
0  Paracetamol 500mg: 1 tableta cada 8 horas para...  tets.docx  


### Paso 2: Entrenar el modelo

In [85]:
import pandas as pd
from transformers import GPT2LMHeadModel, GPT2Tokenizer
from docx import Document

# Cargar el modelo y el tokenizer de GPT-2
model_name = "gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
# Cargar el tokenizador
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# Asignar el `pad_token` como el `eos_token`
tokenizer.pad_token = tokenizer.eos_token

# Asignar el `pad_token` como el `eos_token`
tokenizer.pad_token = tokenizer.eos_token

In [86]:
# Crear un documento de Word para guardar las epicrisis generadas
doc = Document()

In [87]:
# Iterar sobre cada fila del CSV
for index, row in df.iterrows():
    # Extraer información relevante de cada fila (como diagnóstico y medicamentos)
    paciente = row["paciente"]
    edad = row["edad"]
    fecha_ingreso = row["fecha_ingreso"]
    diagnostico = row["diagnostico"]
    medicamentos = row["medicamentos"]

    # Crear un prompt para la epicrisis
    input_text = f"Paciente: {paciente}, Edad: {edad}, Fecha de ingreso: {fecha_ingreso}. Diagnóstico: {diagnostico}. Medicamentos: {medicamentos}. Escribe una epicrisis médica."

    # Tokenizar el texto de entrada
    inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)

    # Obtener el attention_mask del input tokenizado
    attention_mask = inputs.get('attention_mask', None)

    # Generar la salida con atención a los tokens relevantes
    outputs = model.generate(
        inputs['input_ids'],  # Pasar los input_ids
        attention_mask=attention_mask,  # Incluir el attention_mask
        max_length=250,  # Definir el tamaño máximo de la secuencia generada
        num_beams=5,  # Número de haces (beams) para la generación de texto (mejora la calidad)
        no_repeat_ngram_size=2,  # Evitar repeticiones
        early_stopping=True  # Detener la generación si se alcanza un umbral de calidad
    )

    # Decodificar la salida generada
    decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Escribir la epicrisis generada en el documento Word
    doc.add_heading(f"Epicrisis del Paciente: {paciente}", level=1)
    doc.add_paragraph(f"Edad: {edad} años")
    doc.add_paragraph(f"Fecha de Ingreso: {fecha_ingreso}")
    doc.add_paragraph(f"Diagnóstico: {diagnostico}")
    doc.add_paragraph(f"Medicamentos: {medicamentos}")
    doc.add_paragraph(f"Epicrisis Generada: {decoded_output}\n")
    
    # Agregar una línea separadora entre pacientes
    doc.add_paragraph("="*50)

# Guardar el documento Word con las epicrisis generadas
doc.save("epicrisis_generadas.docx")

print("Epicrisis generadas y guardadas en 'epicrisis_generadas.docx'.")


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Epicrisis generadas y guardadas en 'epicrisis_generadas.docx'.
