# 1. Recepción de Archivos y Clasificación  
Se implementa una función que recibe un archivo y detecta su tipo.

Librerías utilizadas:
-   os y mimetypes para identificar formatos.
-   pdfplumber y PyMuPDF para PDFs.
-   Pillow para imágenes.
-   pandas y openpyxl para Excel.

In [23]:
import os
import mimetypes

def identificar_tipo_archivo(ruta):
    tipo, _ = mimetypes.guess_type(ruta)
    if tipo:
        tipo_principal, subtipo = tipo.split('/')  # Separa el tipo principal y el subtipo
        if tipo_principal == "image":
            return "imagen"
        elif tipo_principal == "application" and subtipo == "pdf": # Manejo específico para PDF
            return "pdf"
        elif tipo_principal == "application" and "msword" in subtipo or subtipo=="vnd.ms-office":  # Word .doc y .docx
            return "word"
        elif tipo_principal == "application" and "excel" in subtipo or subtipo=="vnd.ms-office": # Excel .xls y .xlsx
            return "excel"
        elif tipo_principal == "text" or subtipo == "csv":  # Texto y CSV
            return "texto"
        elif tipo_principal == "audio":
            return "audio"
        elif tipo_principal == "video":
            return "video"
        elif tipo_principal == "text" and subtipo == "html":
            return "html"
        elif tipo_principal == "text" and subtipo == "css":
            return "css"
        elif tipo_principal == "application" and subtipo == "javascript" or subtipo == "x-javascript":
            return "javascript"
        elif tipo_principal == "application" and subtipo == "json":
            return "json"
        elif tipo_principal == "application" and subtipo == "xml" or subtipo == "atom+xml" or subtipo == "rss+xml": # XML, Atom, RSS
            return "xml"
    return "desconocido"

In [14]:
prueba_pdf = identificar_tipo_archivo('prueba4.pdf')
print(prueba_pdf) 

pdf


# 2. Extracción de Texto según Tipo de Documento

Si es una imagen o PDF escaneado:

- Utilizamos PaddleOCR o EasyOCR.

- Se preprocesa la imagen para mejorar el OCR (ajuste de contraste, umbralización, etc.).

In [4]:
from paddleocr import PaddleOCR
from PIL import Image
import cv2
import numpy as np

def ocr_imagen(ruta):
    ocr = PaddleOCR()
    resultado = ocr.ocr(ruta, cls=True)
    texto_extraido = "\n".join([line[1][0] for line in resultado[0]])
    return texto_extraido

In [5]:
imagen = ocr_imagen('prueba4.pdf')
imagen


[2025/02/03 11:17:38] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=False, use_xpu=False, use_npu=False, use_mlu=False, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, gpu_id=0, image_dir=None, page_num=0, det_algorithm='DB', det_model_dir='C:\\Users\\OPERADOR/.paddleocr/whl\\det\\ch\\ch_PP-OCRv4_det_infer', det_limit_side_len=960, det_limit_type='max', det_box_type='quad', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5, max_batch_size=10, use_dilation=False, det_db_score_mode='fast', det_east_score_thresh=0.8, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_sast_score_thresh=0.5, det_sast_nms_thresh=0.2, det_pse_thresh=0, det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_scale=1, scales=[8, 16, 32], alpha=1.0, beta=1.0, fourier_degree=5, rec_algorithm='SVTR_LCNet', rec_model_dir='C:\\Users\\OPERADOR/.paddleocr/whl\\rec\\ch\\ch_PP-OCRv4_rec_infer', rec_image_inverse=True, rec_image_shape='3, 48, 320', rec_batc

'jansser\n13-Dec-24\nLISTADEPRECIOS\nPRODUCTOSHOSPITALARIOS\nN CERTICodigo\nDescripcion\nPrecio sin Iva\nPrecio conlva\n59671\n459238BALVERSA\n3 mg x 56 comprimidos\n13.598.961.47\n16,454,743.38\n59671\n459239|BALVERSA\n3 mg × 84 comprimidos\n20,398,442.32\n24,682,115.21\n59671\n459241BALVERSA\n4 mg × 28 comprimidos\n9,065,974.44\n10,969,829.07\n59671\n459242|BALVERSA\n4 mg x 56 comprimidos\n18,131,948.52\n21,939,657.71\n59671\n459243BALVERSA\n5 mg x 28 comprimidos\n11,332,468.07\n13,712,286.36\n54054\n385693\nDACOGEN\nINYECTABLE VIAL X 1\n2.825.394.95\n3,418.727.89\n58367\n457399\nDARZALEX\nVIAL 100 mg / 5 ml\n799.644.87\n967.570.29\n58367\n457400\nDARZALEX\nVIAL 400 mg / 20 ml\n3.090.408.39\n3.739.394.15\n59800\n470588\nDARZALEX SC\nsubcutaneo 1800 mg/15 ML x 1 VIAL\n9,271,225.39\n11,218,182.72\n58821\n419439\nERLEADA\n60 MG X 120 COMPRIMIDOS\n6,404,236.13\n7,749. 125.72\n57817\n414886\nIMBRUVICA\n140 mg x 90 capsulas\n9,772,918.20\n11,825,231.02\n57817\n140 mg x 120 capsulas\n13.030

Si es un PDF de texto:

- Se extrae con pdfplumber o PyMuPDF.

In [26]:
import pdfplumber

def extraer_texto_pdf(ruta):
    with pdfplumber.open(ruta) as pdf:
        texto = "\".join([page.extract_text() for page in pdf.pages if page.extract_text()])
    return texto

SyntaxError: unterminated string literal (detected at line 5) (3043304386.py, line 5)

In [27]:
pdf = extraer_texto_pdf('prueba4.pdf')
print(pdf)

MENDOZA 1259 CAPITAL FEDERAL (1428) TEL. 4789-7200 FAX 4788-0139
13-Dec-24
LISTA DE PRECIOS - PRODUCTOS HOSPITALARIOS
N° CERTI Código Descripción Precio sin Iva Precio con Iva
59671 459238BALVERSA 3 mg x 56 comprimidos 13,598,961.47 16,454,743.38
59671 459239BALVERSA 3 mg x 84 comprimidos 20,398,442.32 24,682,115.21
59671 459241BALVERSA 4 mg x 28 comprimidos 9,065,974.44 10,969,829.07
59671 459242BALVERSA 4 mg x 56 comprimidos 18,131,948.52 21,939,657.71
59671 459243BALVERSA 5 mg x 28 comprimidos 11,332,468.07 13,712,286.36
54054 385693DACOGEN INYECTABLE VIAL X 1 2,825,394.95 3,418,727.89
58367 457399DARZALEX VIAL 100 mg / 5 ml 799,644.87 967,570.29
58367 457400DARZALEX VIAL 400 mg / 20 ml 3,090,408.39 3,739,394.15
59800 470588DARZALEX SC subcutáneo 1800 mg/15 ML x 1 VIAL 9,271,225.39 11,218,182.72
58821 419439ERLEADA 60 MG X 120 COMPRIMIDOS 6,404,236.13 7,749,125.72
57817 414886IMBRUVICA 140 mg x 90 cápsulas 9,772,918.20 11,825,231.02
57817 414887IMBRUVICA 140 mg x 120 cápsulas 13,030

Si es un archivo de texto o Excel:

- pandas y openpyxl permiten extraer los datos directamente.

In [8]:
import pandas as pd

def leer_excel(ruta):
    df = pd.read_excel(ruta)
    return df.to_string()

# 3. Procesamiento de Texto con IA (NLP y Normalización)

- Utilizamos BERT, Spacy y Regex para estructurar los datos.

- Se identifican palabras clave como nombres de productos, códigos y cantidades.

In [17]:
import spacy
import re

nlp = spacy.load("es_core_news_sm")

def normalizar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"[^a-zA-Z0-9\s]", "", texto)  # Eliminar caracteres especiales
    doc = nlp(texto)
    tokens = [token.lemma_ for token in doc if not token.is_stop]
    return " ".join(tokens)

In [25]:
pdf_normalizar_texto = normalizar_texto(pdf)
print(pdf_normalizar_texto)

mendozar 1259 capital federal 1428 tel 47897200 fax 47880139 
 13dec24 
 lista precio   producto hospitalario 
 n certi cdigo descripcin precio iva precio iva 
 59671 459238balversa 3 mg x 56 comprimido 1359896147 1645474338 
 59671 459239balversa 3 mg x 84 comprimido 2039844232 2468211521 
 59671 459241balverso 4 mg x 28 comprimido 906597444 1096982907 
 59671 459242balversa 4 mg x 56 comprimido 1813194852 2193965771 
 59671 459243balversa 5 mg x 28 comprimido 1133246807 1371228636 
 54054 385693dacogen inyectable vial x 1 282539495 341872789 
 58367 457399darzalex vial 100 mg   5 ml 79964487 96757029 
 58367 457400darzalex vial 400 mg   20 ml 309040839 373939415 
 59800 470588darzalex sc subcutneo 1800 mg15 ml x 1 vial 927122539 1121818272 
 58821 419439erleada 60 mg x 120 comprimido 640423613 774912572 
 57817 414886imbruvica 140 mg x 90 cpsula 977291820 1182523102 
 57817 414887imbruvica 140 mg x 120 cpsula 1303055832 1576697557 
 54574 415002intelence 200 mg comprimido 60 14303815

# 4. Conversión del Texto Extraído a CSV
- Se estructura en un DataFrame y se guarda en CSV o Excel.

In [20]:
def guardar_csv(datos, nombre_archivo="output.csv"):
    df = pd.DataFrame(datos)
    df.to_csv(nombre_archivo, index=False, encoding="utf-8-sig")

In [21]:
pdf_normalizar_texto  = guardar_csv(pdf_normalizar_texto)

ValueError: DataFrame constructor not properly called!