In [30]:
from pdfquery import PDFQuery
import os 
import pandas as pd

In [63]:
# utils

def listar_archivos(directorio):
    archivos = []
    for file in os.listdir(directorio):
        if os.path.isfile(os.path.join(directorio, file)):
            archivos.append(file)
    return archivos

def pdf_a_xml(pdf: PDFQuery) -> None:
    pdf.tree.write('data/output.xml', encoding='utf-8', xml_declaration=True, pretty_print=True)
    
def test_func(function):
    for i in archivos[:10:2]:
        pdf = PDFQuery(f'testing-data/{i}')
        pdf.load(0)
        print(function(pdf))

archivos = listar_archivos('testing-data')
archivos


['25AR083924M.pdf',
 '25AR083928Z.pdf',
 '25AR083932L.pdf',
 '25AR083941L.pdf',
 '25AR083944Y.pdf',
 '25AR083949T.pdf',
 '25AR083975S.pdf',
 '25AR083978V.pdf',
 '25AR083980Y.pdf',
 '25AR083981P.pdf',
 '25AR083984S.pdf',
 '25AR083990P.pdf',
 '25AR084001W.pdf',
 '25AR084011A.pdf',
 '25AR084028X.pdf',
 '25AR084032D.pdf',
 '25AR084037X.pdf',
 '25AR084038J.pdf',
 '25AR084040C.pdf',
 '25AR084455M.pdf',
 '25AR084463L.pdf',
 '25AR164141D.pdf']

In [32]:
# fecha_emision

def get_fecha_emision(pdf: PDFQuery) -> str:
    """Obtiene la fecha de emision del archivo PDF usando pdfquery.
    """
    fecha_emision_xml = pdf.pq('LTTextLineHorizontal:contains("Fecha Emision")').next()
    return fecha_emision_xml.text()

test_func(get_fecha_emision)

01-MAR-25
02-MAR-25
05-MAR-25
01-MAR-25
01-MAR-25


In [64]:
pdf = PDFQuery(f'testing-data/{archivos[2]}')
pdf.load(0)
#text = pdf.pq('LTTextLineHorizontal:contains("")').text()
print(pdf.pq('LTTextLineHorizontal:contains("Nombre y domicilio del porteador")').next().text())

pdf_a_xml(pdf)


EXPRESO EL AGUILUCHO S.A.


In [34]:
# PORTEADOR

def get_porteador(pdf) -> str:
    """Obtiene el nombre y domicilio del porteador del archivo PDF usando pdfquery.
    """
    porteador_xml = pdf.pq('LTTextLineHorizontal:contains("Nombre y domicilio del porteador")').next()
    if porteador_xml.text() == "/ Nome e endereco do transportador":
        porteador_xml = porteador_xml.next()
    return porteador_xml.text()

test_func(get_porteador)

EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EXPRESO EL AGUILUCHO S.A.
EMPRESA DE TTES. DON PEDRO S.R.L.
EMPRESA DE TTES. DON PEDRO S.R.L.


In [35]:
# ciudad_pais_partida

def get_ciudad_pais_partida(pdf) -> str:
    """Obtiene la ciudad de partida del archivo PDF usando pdfquery.
    """
    ciudad_partida_xml = pdf.pq('LTTextLineHorizontal:contains("Aduana, ciudad y pais de partida")').next()
    return ciudad_partida_xml.text()

test_func(get_ciudad_pais_partida)

BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA
BAHIA BLANCA-ARGENTINA


In [36]:
# ciudad_pais_destino

def get_ciudad_pais_destino(pdf) -> str:
    """Obtiene la ciudad de destino del archivo PDF usando pdfquery.
    """
    ciudad_destino_xml = pdf.pq('LTTextLineHorizontal:contains("/ Cidade e pais de destino final")').next()
    return ciudad_destino_xml.text()

test_func(get_ciudad_pais_destino)

ITAJAI-BRASIL
ITAJAI-BRASIL
ITAJAI-BRASIL
MONTEVIDEO-URUGUAY
MONTEVIDEO-URUGUAY


In [37]:
# camion_original -> en campo av vergara 6060 no termina de mostrar los datos, no encuentra la linea

def get_camion_original(pdf) -> str:
    """Obtiene el camion original del archivo PDF usando pdfquery.
    """
    x0, y0, x1, y1 = 31.52, 634.96, 306.04, 693.48

    text_elements = pdf.pq(f'LTTextLineHorizontal:in_bbox("{x0},{y0},{x1},{y1}")')
    return text_elements.text().split("proprietario", 1)[-1].strip()

test_func(get_camion_original)


XPRESO EL AGUILUCHO S.A. - NECOCHEA 2601 - ROSARIO - SANTA FE - ARGENTINA
XPRESO EL AGUILUCHO S.A. - NECOCHEA 2601 - ROSARIO - SANTA FE - ARGENTINA
XPRESO EL AGUILUCHO S.A. - NECOCHEA 2601 - ROSARIO - SANTA FE - ARGENTINA
MPRESA DE TTES. DON PEDRO S.R.L. - AV. VERGARA 6060 -
MPRESA DE TTES. DON PEDRO S.R.L. - AV. VERGARA 6060 -


In [38]:
# placa_camion
def get_placa_camion(pdf) -> str:
    """
    Obtiene la placa del camión del archivo PDF usando pdfquery.
    """

    placa_camion_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Placa de Camion")').next()
    return placa_camion_xml.text().strip()

test_func(get_placa_camion)

NDP946
AB251CJ
HJR534
AE667VS
AG028ZS


In [39]:
# placa_semiremolque
def get_placa_semiremolque(pdf):
    """
    Obtiene la placa del semiremolque del archivo PDF usando pdfquery.
    """
    placa_semiremolque_xml = pdf.pq(f'LTTextLineHorizontal:contains("Placa:")').next()
    return placa_semiremolque_xml.text().strip()

test_func(get_placa_semiremolque)

AE891SO
EMR189
FGF446
NLK538
NLK564


In [40]:
# carta_de_porte
def get_carta_porte(pdf):
    """
    Obtiene la carta de porte del archivo PDF usando pdfquery.
    """
    carta_porte_xml = pdf.pq(f'LTTextLineHorizontal:contains("23 N? carta de porte")').next().next()
    return carta_porte_xml.text().strip()

for i in archivos[:10:2]:
    pdf = PDFQuery(f'testing-data/{i}')
    pdf.load(0)
    print(get_carta_porte(pdf))

003AR.398.041358
003AR.398.041359
003AR.398.041360
0032907
0032909


In [41]:
# aduana_destino
def get_aduana_destino(pdf):
    """
    Obtiene la aduana de destino del archivo PDF usando pdfquery.
    """
    aduana_destino_xml = pdf.pq(f'LTTextLineHorizontal:contains("24 Aduana de destino/ Alfandega de destino")').next()
    return aduana_destino_xml.text().strip()

test_func(get_aduana_destino)

1017500-URUGUAIANA-
1017500-URUGUAIANA-
1017500-URUGUAIANA-
FRAY BENTOS-
FRAY BENTOS-


In [42]:
# destinatario

def get_destinatario(pdf):
    """
    Obtiene el destinatario del archivo PDF usando pdfquery.
    """
    destinatario_xml = pdf.pq(f'LTTextLineHorizontal:contains("34 Destinatario / Destinatario")').next()
    return destinatario_xml.text().replace('\n', '').strip()

test_func(get_destinatario)

DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SCBRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SCBRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PRODUTOS QUIMICOS LTDA.PLANT A972 ROD BR-101 700 KM 112 ANDAR 2 GALAPAO 2 SALEIROS (88311-600)ITAJAI - SANTA CATARINA - BRAZIL (CNPJ 60435351000319)
NOLAMIR SARUTA 39 KM 8,4 BARRIO HIPODROMO 20000 MALDONADO URUGUAY
SM RESINAS URUGUAY SA


In [43]:
# valor_FOT

def get_valor_FOT(pdf):
    """
    Obtiene el valor FOT del archivo PDF usando pdfquery.
    """
    valor_FOT_xml = pdf.pq(f'LTTextLineHorizontal:contains("/Valor FOT")').next()
    return float(valor_FOT_xml.text().strip())

test_func(get_valor_FOT)

30240.0
31860.0
31860.0
28490.0
26700.0


In [44]:
# flete_usd

def get_flete_usd(pdf):
    """
    Obtiene el flete en USD del archivo PDF usando pdfquery.
    """
    flete_usd_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Frete em U$S")').next()
    return float(flete_usd_xml.text().strip())

test_func(get_flete_usd)

3511.2
3519.3
3519.3
3100.0
3000.0


In [45]:
# consignatario

def get_consignatario(pdf):
    """
    Obtiene el consignatario del archivo PDF usando pdfquery.
    """
    consignatario_xml = pdf.pq(f'LTTextLineHorizontal:contains("35 Consignatario /Consignatario ")').next()
    return consignatario_xml.text().replace('\n', '').strip()

test_func(get_consignatario)

DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SCBRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PROD QUIMICOSPLANT A972ROD BR-101 700KM 112 ANDAR 2 GALPAO 2 SALEIROS88311-600ITAJAI - SC BRAZIL (CNPJ 60435351000319)
DOW BRASIL IND E COM DE PRODUTOS QUIMICOS LTDA.PLANT A972 ROD BR-101 700 KM 112 ANDAR 2 GALAPAO 2 SALEIROS (88311-600)ITAJAI - SANTA CATARINA - BRAZIL (CNPJ 60435351000319)
NOLAMIR SARUTA 39 KM 8,4 BARRIO HIPODROMO 20000 MALDONADO URUGUAY
SM RESINAS URUGUAY SA


In [46]:
# tipo_bultos

def get_tipo_bultos(pdf):
    """
    Obtiene el tipo de bultos del archivo PDF usando pdfquery.
    """
    tipo_bultos_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Tipo dos volumes")').next()
    return tipo_bultos_xml.text().strip()

test_func(get_tipo_bultos)

PALETA
PALETA
PALETA
PALETA
PALETA


In [47]:
# cantidad_bultos
def get_cantidad_bultos(pdf):
    """
    Obtiene la cantidad de bultos del archivo PDF usando pdfquery.
    """

    
    cantidad_bultos_xml = pdf.pq(f'LTTextBoxHorizontal:contains("31 Cantidad de bultos ")').next()
    return int(cantidad_bultos_xml.text().strip())

test_func(get_cantidad_bultos)

18
18
18
18
18


In [48]:
# peso_bruto
def get_peso_bruto(pdf):

    """
    Obtiene el peso bruto del archivo PDF usando pdfquery.
    """
    peso_bruto_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Peso bruto")').next()
    return float(peso_bruto_xml.text().strip())

test_func(get_peso_bruto)

27540.0
27540.0
27540.0
27540.0
27540.0


In [49]:
# documentos_anexos

def get_documentos_anexos(pdf):
    """
    Obtiene los documentos anexos del archivo PDF usando pdfquery.
    """
    documentos_anexos_xml = pdf.pq(f'LTTextLineHorizontal:contains("Documentos anexos")').next()
    return documentos_anexos_xml.text().strip()

test_func(get_documentos_anexos)

Destinacion: 25003EC03000670E F. Ofic:25-02-2025
Destinacion: 25003EC03000710W F. Ofic:27-02-2025
Destinacion: 25003EC03000709H F. Ofic:27-02-2025
Destinacion: 25003EC01001118A F. Ofic:26-02-2025
Destinacion: 25003EC03000699P F. Ofic:26-02-2025


In [50]:
# descripcion_mercancia

def get_descripcion_mercancia(pdf):
    """
    Obtiene la descripcion de la mercancia del archivo PDF usando pdfquery.
    """
    descripcion_mercancia_xml = pdf.pq(f'LTTextLineHorizontal:contains("/ Marcas e numeros dos volumes, descric?o das mercadorias")').next()
    return descripcion_mercancia_xml.text().strip()

test_func(get_descripcion_mercancia)

18 PALLETS CONTENIENDO 1.080 BOLSAS DE POLIETILENO QUE DICEN CONTENER(cid:13)
LLDPE 1613.11 POLYETHYLENE RESIN- 25 KG BAGS 60 BAGS ON A PALLET(cid:13)
PESO NETO: 27.000 KILOS(cid:13)
ORDEN 4009299815 -FACTURA DE EXPORTACION 0110-00049111(cid:13)
MARCA: PBB/DOW - PAIS DE ORIGEN Y PROCEDENCIA: ARGENTINA-LIMPIO A BORDO
Primera Fraccion: S - MIC 1ra. Fraccion: 25AR083924M - Cant. Total Bultos: 36
POS. Arancelarias: 3901.40.00
18 PALLETS CONTENIENDO 1.080 BOLSAS DE POLIETILENO QUE DICEN CONTENER (cid:13)
LLDPE 1613.11 POLYETHYLENE RESIN- 25 KG BAGS 60 BAGS ON A PALLET(cid:13)
PESO NETO: 27.000 KILOS(cid:13)
ORDEN 4009299820 -FACTURA DE EXPORTACION 0110-00049155(cid:13)
MARCA: PBB/DOW - PAIS DE ORIGEN Y PROCEDENCIA: ARGENTINA-LIMPIO A BORDO
Primera Fraccion: S - MIC 1ra. Fraccion: 25AR083932L - Cant. Total Bultos: 36
POS. Arancelarias: 3901.40.00
18 PALLETS CONTENIENDO 1.080 BOLSAS DE POLIETILENO QUE DICE CONTENER:(cid:13)
LLDPE 1613 POLYETHYLENE RESIN 25 KG BAG - 60 BAGS/PALLET(cid:13)
PESO

In [51]:
# conductor

def get_conductor(pdf):
    """
    Obtiene el nombre del conductor del archivo PDF usando pdfquery.
    """
    conductor_xml = pdf.pq(f'LTTextLineHorizontal:contains("CONDUCTOR 1")')
    return conductor_xml.text().strip()

test_func(get_conductor)

CONDUCTOR 1: LAFERRARA, FABIAN DOMINGO DOC:DNI 22.165.680
CONDUCTOR 1: PUCHETA, MARTIN DOC:DNI 28.198.704
CONDUCTOR 1: MENA, JOSE RAMON DOC:DNI 18.071.471
CONDUCTOR 1: LEDESMA ALEJANDRO MARTIN DOC:DNI 32.461.334
CONDUCTOR 1: GAUTO RAMON OLEGARIO DOC:DNI 26.393.930


In [52]:
def extraer_datos_pdf(pdf):
    """
    Extrae los datos del archivo PDF usando pdfquery.
    """
    datos = {
        "fecha_emision": get_fecha_emision(pdf),
        "porteador": get_porteador(pdf),
        "ciudad_pais_partida": get_ciudad_pais_partida(pdf),
        "ciudad_pais_destino": get_ciudad_pais_destino(pdf),
        "camion_original": get_camion_original(pdf),
        "placa_camion": get_placa_camion(pdf),
        "placa_semiremolque": get_placa_semiremolque(pdf),
        "carta_porte": get_carta_porte(pdf),
        "aduana_destino": get_aduana_destino(pdf),
        "destinatario": get_destinatario(pdf),
        "valor_FOT": get_valor_FOT(pdf),
        "flete_usd": get_flete_usd(pdf),
        "consignatario": get_consignatario(pdf),
        "tipo_bultos": get_tipo_bultos(pdf),
        "cantidad_bultos": get_cantidad_bultos(pdf),
        "peso_bruto": get_peso_bruto(pdf),
        "documentos_anexos": get_documentos_anexos(pdf), # FIXEAR CORTAR  F. Ofic:*******
        "descripcion_mercancia": get_descripcion_mercancia(pdf), # FIXEAR SOLO PARTE QUE DICE TENER
        "conductor": get_conductor(pdf) # FIXEAR CORTAR CONDUCTOR 1
    }
    return datos



In [54]:
data = []
for archivo in archivos:
    pdf = PDFQuery(f'testing-data/{archivo}')
    pdf.load(0)
    datos = extraer_datos_pdf(pdf)
    data.append(datos)

In [66]:
df = pd.DataFrame(data)
df.to_excel('data/output.xlsx', index=False)