In [142]:
import os
import fitz  # PyMuPDF
from datetime import datetime
import mimetypes
from minio import Minio
from io import BytesIO
import pandas as pd

In [143]:
# Configuración de MinIO
MINIO_URL = "localhost:9000"  # Cambiar si no es local
ACCESS_KEY = "carlos"  # Cambiar por tu Access Key
SECRET_KEY = "12345678"  # Cambiar por tu Secret Key
BUCKET_NAME = "prueba-udenar" # bucket donde está el archivo
FOLDER_RESULT = "resul_LabJimenez"
FOLDER_PREFIX = "LabJimenez/"  # Carpeta en el bucket

In [144]:
# Crear cliente de MinIO
minio_client = Minio(
    MINIO_URL,
    access_key=ACCESS_KEY,
    secret_key=SECRET_KEY,
    secure=False  # Cambiar a True si usas HTTPS
)

In [145]:
def extract_pdf_content(pdf_document):
    """
    Extrae contenido específico de un archivo PDF ya abierto.

    Args:
        pdf_document (fitz.Document): Documento PDF abierto con PyMuPDF.

    Returns:
        dict: Diccionario con la información extraída.
    """
    extracted_data = {
        "Numero de Informe": None,
        "Nombre del Paciente": None,
        "Identificacion": None,
        "Edad": None,
        "Telefono": None,
        "Fechas Importantes": {
            "Fecha de Toma de Muestra": None,
            "Fecha de Ingreso": None,
            "Fecha de Informe": None
        },
        "Entidad": None,
        "EPS": None,
        "Servicio": None,
        "Muestra Remitida": None,
        "Descripcion Macroscopica": None,
        "Descripcion Microscopica": None,
        "Diagnostico": [],
        "Comentario": None
    }

    try:
        # Leer cada página del PDF
        for page_number in range(pdf_document.page_count):
            page = pdf_document[page_number]
            text = page.get_text("text")
            cleaned_text = " ".join(text.split())
            
            # Extraer información utilizando búsquedas
            if "INFORME NÚMERO:" in cleaned_text:
                extracted_data["Numero de Informe"] = cleaned_text.split("INFORME NÚMERO:")[1].split()[0].strip()
            if "NOMBRE:" in cleaned_text:
                extracted_data["Nombre del Paciente"] = cleaned_text.split("NOMBRE:")[1].split("IDENTIFICACIÓN:")[0].strip()
            if "IDENTIFICACIÓN:" in cleaned_text:
                extracted_data["Identificacion"] = cleaned_text.split("IDENTIFICACIÓN:")[1].split("EDAD:")[0].strip()
            if "EDAD:" in cleaned_text:
                extracted_data["Edad"] = cleaned_text.split("EDAD:")[1].split()[0].strip()
            if "TELÉFONO:" in cleaned_text:
                extracted_data["Telefono"] = cleaned_text.split("TELÉFONO:")[1].split()[0].strip()
            if "FECHA TOMA DE MUESTRA:" in cleaned_text:
                extracted_data["Fechas Importantes"]["Fecha de Toma de Muestra"] = cleaned_text.split("FECHA TOMA DE MUESTRA:")[1].split()[0].strip()
            if "FECHA DE INGRESO:" in cleaned_text:
                extracted_data["Fechas Importantes"]["Fecha de Ingreso"] = cleaned_text.split("FECHA DE INGRESO:")[1].split("FECHA DE INFORME:")[0].strip()
            if "FECHA DE INFORME:" in cleaned_text:
                extracted_data["Fechas Importantes"]["Fecha de Informe"] = cleaned_text.split("FECHA DE INFORME:")[1].split()[0].strip()
            if "ENTIDAD:" in cleaned_text:
                extracted_data["Entidad"] = cleaned_text.split("ENTIDAD:")[1].split("EPS")[0].strip()
            if "EPS:" in cleaned_text:
                extracted_data["EPS"] = cleaned_text.split("EPS:")[1].split("SERVICIO")[0].strip()
            if "SERVICIO:" in cleaned_text:
                extracted_data["Servicio"] = cleaned_text.split("SERVICIO:")[1].split()[0].strip()
            if "MUESTRA REMITIDA:" in cleaned_text:
                extracted_data["Muestra Remitida"] = cleaned_text.split("MUESTRA REMITIDA:")[1].split()[0].strip()
            if "DESCRIPCION MACROSCOPICA:" in cleaned_text:
                extracted_data["Descripcion Macroscopica"] = cleaned_text.split("DESCRIPCION MACROSCOPICA:")[1].split("DESCRIPCION MICROSCOPICA:")[0].strip()
            if "DESCRIPCION MICROSCOPICA:" in cleaned_text:
                extracted_data["Descripcion Microscopica"] = cleaned_text.split("DESCRIPCION MICROSCOPICA:")[1].split("DIAGNOSTICO:")[0].strip()
            if "DIAGNOSTICO:" in cleaned_text:
                diagnostic_section = cleaned_text.split("DIAGNOSTICO:")[1].strip().split("\n")
                extracted_data["Diagnostico"] = [line.strip() for line in diagnostic_section if line.strip()]
            if "COMENTARIO:" in cleaned_text:
                extracted_data["Comentario"] = cleaned_text.split("COMENTARIO:")[1]

    except Exception as e:
        print(f"Error al extraer datos del PDF: {e}")

    return extracted_data


In [146]:
def process_all_files_in_folder(bucket_name, folder_prefix):
    """Procesa todos los archivos en una carpeta específica del bucket."""
    results = []

    try:
        # Listar todos los objetos en el bucket con el prefijo dado
        objects = minio_client.list_objects(bucket_name, prefix=folder_prefix, recursive=True)
        for obj in objects:
            print(f"Procesando archivo: {obj.object_name}")
            response = None
            pdf_document = None
            file_stream = None

            try:
                # Descargar el archivo
                response = minio_client.get_object(bucket_name, obj.object_name)
                file_stream = BytesIO(response.read())

                # Abrir el PDF desde la memoria
                pdf_document = fitz.open(stream=file_stream, filetype="pdf")

                # Extraer contenido y metadatos
                content = extract_pdf_content(pdf_document)  # Pasa solo el pdf_document
                metadata = extract_metadata(file_stream, file_name=obj.object_name)

                # Agregar los datos al resultado
                results.append({
                    "Archivo": obj.object_name,
                    "Numero de Informe": content.get("Numero de Informe"),
                    "Nombre del Paciente": content.get("Nombre del Paciente"),
                    "Identificacion": content.get("Identificacion"),
                    "Edad": content.get("Edad"),
                    "Telefono": content.get("Telefono"),
                    "Fechas Importantes": content.get("Fechas Importantes"),
                    "Entidad": content.get("Entidad"),
                    "EPS": content.get("EPS"),
                    "Servicio": content.get("Servicio"),
                    "Muestra Remitida": content.get("Muestra Remitida"),
                    "Descripcion Macroscopica": content.get("Descripcion Macroscopica"),
                    "Descripcion Microscopica": content.get("Descripcion Microscopica"),
                    "Diagnostico": content.get("Diagnostico"),
                    "Comentario": content.get("Comentario"),
                    "Metadatos": metadata
                })
            except Exception as e:
                print(f"Error procesando {obj.object_name}: {e}")
            finally:
                # Liberar recursos
                if response is not None:
                    response.close()
                    response.release_conn()
                if file_stream is not None:
                    file_stream.close()
                if pdf_document is not None:
                    pdf_document.close()

    except Exception as e:
        print(f"Error al listar los archivos en {bucket_name}/{folder_prefix}: {e}")

    # Convertir resultados en un DataFrame de pandas
    df = pd.DataFrame(results)
    return df

In [147]:
def save_dataframe_to_minio(bucket_name, folder_name, file_name, df):
    """
    Guarda un DataFrame como archivo CSV en una carpeta específica de un bucket de MinIO.

    Args:
        bucket_name (str): Nombre del bucket donde se guardará el archivo.
        folder_name (str): Nombre de la carpeta dentro del bucket.
        file_name (str): Nombre del archivo CSV que se guardará.
        df (pd.DataFrame): DataFrame que será guardado como CSV.
    """
    try:
        # Convertir el DataFrame a un archivo CSV en memoria
        csv_data = df.to_csv(index=False)

        # Convertir los datos CSV a BytesIO para subir a MinIO
        csv_bytes = BytesIO(csv_data.encode('utf-8'))

        # Construir la ruta del archivo en el bucket
        object_name = f"{folder_name}/{file_name}"

        # Subir el archivo al bucket de MinIO
        minio_client.put_object(
            bucket_name=bucket_name,
            object_name=object_name,
            data=csv_bytes,
            length=len(csv_data.encode('utf-8')),
            content_type='text/csv'
        )
        print(f"Archivo {file_name} guardado exitosamente en la carpeta {folder_name} del bucket {bucket_name}.")
    except Exception as e:
        print(f"Error al guardar el archivo {file_name} en MinIO: {e}")



In [148]:
# Ejecutar el procesamiento y obtener un DataFrame
df = process_all_files_in_folder(BUCKET_NAME, FOLDER_PREFIX)
# Nombre del archivo CSV
csv_file_name = "labjimenez.csv"

# Guardar el DataFrame en un bucket de MinIO
save_dataframe_to_minio(BUCKET_NAME, FOLDER_RESULT,csv_file_name, df)



Procesando archivo: LabJimenez/Q02-23-87245177.pdf
Procesando archivo: LabJimenez/Q03-23-30706361.pdf
Procesando archivo: LabJimenez/Q04-23-12952760.pdf
Procesando archivo: LabJimenez/Q05-23-1086329350.pdf
Procesando archivo: LabJimenez/Q06-23-59821509.pdf
Archivo labjimenez.csv guardado exitosamente en la carpeta resul_LabJimenez del bucket prueba-udenar.
