In [1]:
from pdfquery import PDFQuery
import os 
import pandas as pd

In [21]:
# utils


def listar_archivos(directorio, formato=None):
    """
    Lista los archivos en un directorio dado con un formato específico.
    Si no se especifica un formato, lista todos los archivos.
    Retorna las rutas absolutas.
    """
    directorio = os.path.abspath(directorio)  # ✅ Asegura que el path sea absoluto
    archivos = []
    for file in os.listdir(directorio):
        path_completo = os.path.join(directorio, file)
        if os.path.isfile(path_completo) and (formato is None or file.lower().endswith(formato.lower())):
            archivos.append(path_completo)
    return archivos

def pdf_a_xml(pdf: PDFQuery) -> None:
    pdf.tree.write('data/output.xml', encoding='utf-8', xml_declaration=True, pretty_print=True)
    
def test_func(function):
    for i in archivos[:10:2]:
        pdf = PDFQuery(i)
        pdf.load(0)
        print(function(pdf))

archivos = listar_archivos('testing-data/', '.pdf')  # ✅ lista los
archivos


['c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083924M.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083928Z.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083932L.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083941L.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083944Y.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083949T.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083975S.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083978V.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083980Y.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083981P.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083984S.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data

In [12]:
# archivo

pdf = PDFQuery(archivos[0])
pdf.load(0)
pdf_a_xml(pdf)

In [22]:
# archivo
def get_archivo_nombre(pdf: PDFQuery) -> str:
    """
    Extrae el nombre del archivo PDF.
    """
    nombre = pdf.pq('LTTextLineHorizontal:contains("N°")').next()
    return nombre.text()

test_func(get_archivo_nombre)

25AR083924M
25AR083932L
25AR083944Y
25AR083975S
25AR083980Y


In [32]:
# fecha_emision

def get_fecha_emision(pdf: PDFQuery) -> str:
    """Obtiene la fecha de emision del archivo PDF usando pdfquery.
    """
    fecha_emision_xml = pdf.pq('LTTextLineHorizontal:contains("Fecha Emision")').next()
    return fecha_emision_xml.text()

test_func(get_fecha_emision)

01-MAR-25
02-MAR-25
05-MAR-25
01-MAR-25
01-MAR-25


In [33]:
pdf = PDFQuery(f'testing-data/{archivos[7]}')
pdf.load(0)
#text = pdf.pq('LTTextLineHorizontal:contains("")').text()


pdf_a_xml(pdf)


/ Nome e endereco do transportador


In [37]:
for archivo in archivos:
    pdf = PDFQuery(f'testing-data/{archivo}')
    pdf.load(0) 
    porteador_xml = pdf.pq('LTTextLineHorizontal:contains("Nombre y domicilio del porteador")').next()
    if porteador_xml.text() == "/ Nome e endereco do transportador":
        porteador_xml = porteador_xml.next()
        
    print(porteador_xml.text())

EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
TRANSPORTE CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
PETROLERA ALVEAR S.R.L.
PETROLERA ALVEAR S.R.L.
EXPRESO EL AGUILUCHO S.A.


In [20]:
# PORTEADOR

def get_porteador(pdf) -> str:
    """Obtiene el nombre y domicilio del porteador del archivo PDF usando pdfquery.
    """
    porteador_xml = pdf.pq('LTTextLineHorizontal:contains("Nombre y domicilio del porteador")').next()
    if porteador_xml.text() == "/ Nome e endereco do transportador":
        porteador_xml = porteador_xml.next()
    return porteador_xml.text()

for archivo in archivos:
    pdf = PDFQuery(f'testing-data/{archivo}')
    pdf.load(0)
    print(get_porteador(pdf))

EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
TRANSPORTE CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
TRANSPORTES CRUZ DEL SUR S.A.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.
PETROLERA ALVEAR S.R.L.
PETROLERA ALVEAR S.R.L.
EXPRESO EL AGUILUCHO S.A.


In [35]:
# ciudad_pais_partida

def get_ciudad_pais_partida(pdf) -> str:
    """Obtiene la ciudad de partida del archivo PDF usando pdfquery.
    """
    ciudad_partida_xml = pdf.pq('LTTextLineHorizontal:contains("Aduana, ciudad y pais de partida")').next()
    return ciudad_partida_xml.text()

test_func(get_ciudad_pais_partida)

BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA


In [36]:
# ciudad_pais_destino

def get_ciudad_pais_destino(pdf) -> str:
    """Obtiene la ciudad de destino del archivo PDF usando pdfquery.
    """
    ciudad_destino_xml = pdf.pq('LTTextLineHorizontal:contains("/ Cidade e pais de destino final")').next()
    return ciudad_destino_xml.text()

test_func(get_ciudad_pais_destino)

ITAJAI-BRASIL
ITAJAI-BRASIL
ITAJAI-BRASIL
MONTEVIDEO-URUGUAY
MONTEVIDEO-URUGUAY


In [37]:
# camion_original -> en campo av vergara 6060 no termina de mostrar los datos, no encuentra la linea

def get_camion_original(pdf) -> str:
    """Obtiene el camion original del archivo PDF usando pdfquery.
    """
    x0, y0, x1, y1 = 31.52, 634.96, 306.04, 693.48

    text_elements = pdf.pq(f'LTTextLineHorizontal:in_bbox("{x0},{y0},{x1},{y1}")')
    return text_elements.text().split("proprietario", 1)[-1].strip()

test_func(get_camion_original)


XPRESO EL AGUILUCHO S.A. - NECOCHEA 2601 - ROSARIO - SANTA FE - ARGENTINA
XPRESO EL AGUILUCHO S.A. - NECOCHEA 2601 - ROSARIO - SANTA FE - ARGENTINA
XPRESO EL AGUILUCHO S.A. - NECOCHEA 2601 - ROSARIO - SANTA FE - ARGENTINA
MPRESA DE TTES. DON PEDRO S.R.L. - AV. VERGARA 6060 -
MPRESA DE TTES. DON PEDRO S.R.L. - AV. VERGARA 6060 -


In [38]:
# placa_camion
def get_placa_camion(pdf) -> str:
    """
    Obtiene la placa del camión del archivo PDF usando pdfquery.
    """

    placa_camion_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Placa de Camion")').next()
    return placa_camion_xml.text().strip()

test_func(get_placa_camion)

NDP946
AB251CJ
HJR534
AE667VS
AG028ZS


In [39]:
# placa_semiremolque
def get_placa_semiremolque(pdf):
    """
    Obtiene la placa del semiremolque del archivo PDF usando pdfquery.
    """
    placa_semiremolque_xml = pdf.pq(f'LTTextLineHorizontal:contains("Placa:")').next()
    return placa_semiremolque_xml.text().strip()

test_func(get_placa_semiremolque)

AE891SO
EMR189
FGF446
NLK538
NLK564


In [None]:
# carta_de_porte
def get_carta_porte(pdf):
    """
    Obtiene la carta de porte del archivo PDF usando pdfquery.
    """
    carta_porte_xml = pdf.pq(f'LTTextLineHorizontal:contains("23 N? carta de porte")').next().next()
    return carta_porte_xml.text().strip()

test_func(get_carta_porte)

003AR.398.041358
003AR.398.041359
003AR.398.041360
0032907
0032909


In [41]:
# aduana_destino
def get_aduana_destino(pdf):
    """
    Obtiene la aduana de destino del archivo PDF usando pdfquery.
    """
    aduana_destino_xml = pdf.pq(f'LTTextLineHorizontal:contains("24 Aduana de destino/ Alfandega de destino")').next()
    return aduana_destino_xml.text().strip()

test_func(get_aduana_destino)

1017500-URUGUAIANA-
1017500-URUGUAIANA-
1017500-URUGUAIANA-
FRAY BENTOS-
FRAY BENTOS-


In [42]:
# destinatario

def get_destinatario(pdf):
    """
    Obtiene el destinatario del archivo PDF usando pdfquery.
    """
    destinatario_xml = pdf.pq(f'LTTextLineHorizontal:contains("34 Destinatario / Destinatario")').next()
    return destinatario_xml.text().replace('\n', '').strip()

test_func(get_destinatario)

DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SCBRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SCBRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PRODUTOS QUIMICOS LTDA.PLANT A972 ROD BR-101 700 KM 112 ANDAR 2 GALAPAO 2 SALEIROS (88311-600)ITAJAI - SANTA CATARINA - BRAZIL (CNPJ 60435351000319)
NOLAMIR SARUTA 39 KM 8,4 BARRIO HIPODROMO 20000 MALDONADO URUGUAY
SM RESINAS URUGUAY SA


In [43]:
# valor_FOT

def get_valor_FOT(pdf):
    """
    Obtiene el valor FOT del archivo PDF usando pdfquery.
    """
    valor_FOT_xml = pdf.pq(f'LTTextLineHorizontal:contains("/Valor FOT")').next()
    return float(valor_FOT_xml.text().strip())

test_func(get_valor_FOT)

30240.0
31860.0
31860.0
28490.0
26700.0


In [44]:
# flete_usd

def get_flete_usd(pdf):
    """
    Obtiene el flete en USD del archivo PDF usando pdfquery.
    """
    flete_usd_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Frete em U$S")').next()
    return float(flete_usd_xml.text().strip())

test_func(get_flete_usd)

3511.2
3519.3
3519.3
3100.0
3000.0


In [45]:
# consignatario

def get_consignatario(pdf):
    """
    Obtiene el consignatario del archivo PDF usando pdfquery.
    """
    consignatario_xml = pdf.pq(f'LTTextLineHorizontal:contains("35 Consignatario /Consignatario ")').next()
    return consignatario_xml.text().replace('\n', '').strip()

test_func(get_consignatario)

DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SCBRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SC BRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PRODUTOS QUIMICOS LTDA.PLANT A972 ROD BR-101 700 KM 112 ANDAR 2 GALAPAO 2 SALEIROS (88311-600)ITAJAI - SANTA CATARINA - BRAZIL (CNPJ 60435351000319)
NOLAMIR SARUTA 39 KM 8,4 BARRIO HIPODROMO 20000 MALDONADO URUGUAY
SM RESINAS URUGUAY SA


In [46]:
# tipo_bultos

def get_tipo_bultos(pdf):
    """
    Obtiene el tipo de bultos del archivo PDF usando pdfquery.
    """
    tipo_bultos_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Tipo dos volumes")').next()
    return tipo_bultos_xml.text().strip()

test_func(get_tipo_bultos)

PALETA
PALETA
PALETA
PALETA
PALETA


In [47]:
# cantidad_bultos
def get_cantidad_bultos(pdf):
    """
    Obtiene la cantidad de bultos del archivo PDF usando pdfquery.
    """

    
    cantidad_bultos_xml = pdf.pq(f'LTTextBoxHorizontal:contains("31 Cantidad de bultos ")').next()
    return int(cantidad_bultos_xml.text().strip())

test_func(get_cantidad_bultos)

18
18
18
18
18


In [3]:
# peso_bruto
def get_peso_bruto(pdf):

    """
    Obtiene el peso bruto del archivo PDF usando pdfquery.
    """
    peso_bruto_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Peso bruto")').next()
    return float(peso_bruto_xml.text().strip())

test_func(get_peso_bruto)

27540.0
27540.0
27540.0
27540.0
27540.0


In [4]:
# documentos_anexos

def get_documentos_anexos(pdf):
    """
    Obtiene los documentos anexos del archivo PDF usando pdfquery.
    """
    documentos_anexos_xml = pdf.pq(f'LTTextLineHorizontal:contains("Documentos anexos")').next()
    return documentos_anexos_xml.text().strip()

test_func(get_documentos_anexos)

Destinacion: 25003EC03000670E F. Ofic:25-02-2025
Destinacion: 25003EC03000710W F. Ofic:27-02-2025
Destinacion: 25003EC03000709H F. Ofic:27-02-2025
Destinacion: 25003EC01001118A F. Ofic:26-02-2025
Destinacion: 25003EC03000699P F. Ofic:26-02-2025


In [8]:
# descripcion_mercancia

def get_descripcion_mercancia(pdf):
    """
    Obtiene la descripcion de la mercancia del archivo PDF usando pdfquery.
    """
    descripcion_mercancia_xml = pdf.pq(f'LTTextLineHorizontal:contains("/ Marcas e numeros dos volumes, descric?o das mercadorias")').next()
    return descripcion_mercancia_xml.text().strip()

test_func(get_descripcion_mercancia)

18 PALLETS CONTENIENDO 1.080 BOLSAS DE POLIETILENO QUE DICEN CONTENER(cid:13)
LLDPE 1613.11 POLYETHYLENE RESIN- 25 KG BAGS 60 BAGS ON A PALLET(cid:13)
PESO NETO: 27.000 KILOS(cid:13)
ORDEN 4009299815 -FACTURA DE EXPORTACION 0110-00049111(cid:13)
MARCA: PBB/DOW - PAIS DE ORIGEN Y PROCEDENCIA: ARGENTINA-LIMPIO A BORDO
Primera Fraccion: S - MIC 1ra. Fraccion: 25AR083924M - Cant. Total Bultos: 36
POS. Arancelarias: 3901.40.00
18 PALLETS CONTENIENDO 1.080 BOLSAS DE POLIETILENO QUE DICEN CONTENER (cid:13)
LLDPE 1613.11 POLYETHYLENE RESIN- 25 KG BAGS 60 BAGS ON A PALLET(cid:13)
PESO NETO: 27.000 KILOS(cid:13)
ORDEN 4009299820 -FACTURA DE EXPORTACION 0110-00049155(cid:13)
MARCA: PBB/DOW - PAIS DE ORIGEN Y PROCEDENCIA: ARGENTINA-LIMPIO A BORDO
Primera Fraccion: S - MIC 1ra. Fraccion: 25AR083932L - Cant. Total Bultos: 36
POS. Arancelarias: 3901.40.00
18 PALLETS CONTENIENDO 1.080 BOLSAS DE POLIETILENO QUE DICE CONTENER:(cid:13)
LLDPE 1613 POLYETHYLENE RESIN 25 KG BAG - 60 BAGS/PALLET(cid:13)
PESO

In [14]:
# conductor

def get_conductor(pdf):
    """
    Obtiene el nombre del conductor del archivo PDF usando pdfquery.
    """
    conductor_xml = pdf.pq(f'LTTextLineHorizontal:contains("CONDUCTOR 1")')
    
    return ''.join(conductor_xml.text().strip().split()[2:])

test_func(get_conductor)

LAFERRARA,FABIANDOMINGODOC:DNI22.165.680
PUCHETA,MARTINDOC:DNI28.198.704
MENA,JOSERAMONDOC:DNI18.071.471
LEDESMAALEJANDROMARTINDOC:DNI32.461.334
GAUTORAMONOLEGARIODOC:DNI26.393.930


In [None]:
def extraer_datos_pdf(pdf):
    """
    Extrae los datos del archivo PDF usando pdfquery.
    """
    datos = {
        "archivo": get_archivo_nombre(pdf),
        "fecha_emision": get_fecha_emision(pdf),
        "porteador": get_porteador(pdf),
        "ciudad_pais_partida": get_ciudad_pais_partida(pdf),
        "ciudad_pais_destino": get_ciudad_pais_destino(pdf),
        "camion_original": get_camion_original(pdf),
        "placa_camion": get_placa_camion(pdf),
        "placa_semiremolque": get_placa_semiremolque(pdf),
        "carta_porte": get_carta_porte(pdf),
        "aduana_destino": get_aduana_destino(pdf),
        "destinatario": get_destinatario(pdf),
        "valor_FOT": get_valor_FOT(pdf),
        "flete_usd": get_flete_usd(pdf),
        "consignatario": get_consignatario(pdf),
        "tipo_bultos": get_tipo_bultos(pdf),
        "cantidad_bultos": get_cantidad_bultos(pdf),
        "peso_bruto": get_peso_bruto(pdf),
        "documentos_anexos": get_documentos_anexos(pdf), # FIXEAR CORTAR  F. Ofic:*******
        "descripcion_mercancia": get_descripcion_mercancia(pdf), # FIXEAR SOLO PARTE QUE DICE TENER
        "conductor": get_conductor(pdf)
    }
    return datos



In [23]:
data = []
for archivo in archivos:
    pdf = PDFQuery(f'testing-data/{archivo}')
    pdf.load(0)
    datos = extraer_datos_pdf(pdf)
    data.append(datos)

NameError: name 'get_fecha_emision' is not defined

In [66]:
df = pd.DataFrame(data)
df.to_excel('data/output.xlsx', index=False)

In [23]:
from pdfquery import PDFQuery
import os
from processing import process_pdf
from utils import listar_archivos_pdf
import pandas as pd


# despues dividir por mes y año

def process_all_pdfs(archivos: list)->list:
    try:
        data = list(map(process_pdf, archivos))
    except Exception as e:
        print(f"Error procesando archivos: {e}")
        return None
    
    return data


# de json a dataframe, y luego a excel

# dejar un archivo general

# despues dividir por mes y año

if __name__ == "__main__":
    archivos = listar_archivos_pdf('testing-data/')
    
    lista = process_all_pdfs(archivos)
    df = pd.DataFrame(lista)
    df.to_excel('data/output2.xlsx', index=False)

Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083924M.pdf en 1.19 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083928Z.pdf en 1.04 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083932L.pdf en 1.10 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083941L.pdf en 1.09 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083944Y.pdf en 1.03 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083949T.pdf en 1.06 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083975S.pdf en 1.12 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083978V.pdf en 1.12 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083980Y.pdf en 1.05 segundos
Procesado c:\Users\Usuario\Desktop\Rapha\pdfs-to-excel\testing-data\25AR083981P.pdf en 1.04