In [1]:
from pdfquery import PDFQuery
import os 
import pandas as pd

In [3]:
# utils


def listar_archivos(directorio, formato=None):
    """
    Lista los archivos en un directorio dado con un formato específico.
    Si no se especifica un formato, lista todos los archivos.
    Retorna las rutas absolutas.
    """
    directorio = os.path.abspath(directorio)  # ✅ Asegura que el path sea absoluto
    archivos = []
    for file in os.listdir(directorio):
        path_completo = os.path.join(directorio, file)
        if os.path.isfile(path_completo) and (formato is None or file.lower().endswith(formato.lower())):
            archivos.append(path_completo)
    return archivos

def pdf_a_xml(pdf: PDFQuery) -> None:
    pdf.tree.write('data/output.xml', encoding='utf-8', xml_declaration=True, pretty_print=True)
    
def test_func(function):
    for i in archivos[:10:2]:
        pdf = PDFQuery(i)
        pdf.load(0)
        print(function(pdf))

archivos = listar_archivos('testing-data/', '.pdf')  # ✅ lista los
archivos


['c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083924M.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083928Z.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083932L.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083941L.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083944Y.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083949T.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083975S.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083978V.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083980Y.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083981P.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data\\25AR083984S.pdf',
 'c:\\Users\\Usuario\\Desktop\\Rapha\\pdfs-to-excel\\testing-data

In [None]:
# archivo

pdf = PDFQuery('testing-data/03-MARZO-2025/25AR078530J')
pdf.load(0)
pdf_a_xml(pdf)

In [None]:
# archivo
def get_archivo_nombre(pdf: PDFQuery) -> str:
    """
    Extrae el nombre del archivo PDF.
    """
    nombre = pdf.pq('LTTextLineHorizontal:contains("N°")').next()
    return nombre.text()

test_func(get_archivo_nombre)

In [None]:
# fecha_emision

def get_fecha_emision(pdf: PDFQuery) -> str:
    """Obtiene la fecha de emision del archivo PDF usando pdfquery.
    """
    fecha_emision_xml = pdf.pq('LTTextLineHorizontal:contains("Fecha Emision")').next()
    return fecha_emision_xml.text()

test_func(get_fecha_emision)

In [None]:
pdf = PDFQuery(f'testing-data/{archivos[7]}')
pdf.load(0)
#text = pdf.pq('LTTextLineHorizontal:contains("")').text()


pdf_a_xml(pdf)


In [None]:
for archivo in archivos:
    pdf = PDFQuery(f'testing-data/{archivo}')
    pdf.load(0) 
    porteador_xml = pdf.pq('LTTextLineHorizontal:contains("Nombre y domicilio del porteador")').next()
    if porteador_xml.text() == "/ Nome e endereco do transportador":
        porteador_xml = porteador_xml.next()
        
    print(porteador_xml.text())

In [None]:
# PORTEADOR

def get_porteador(pdf) -> str:
    """Obtiene el nombre y domicilio del porteador del archivo PDF usando pdfquery.
    """
    porteador_xml = pdf.pq('LTTextLineHorizontal:contains("Nombre y domicilio del porteador")').next()
    if porteador_xml.text() == "/ Nome e endereco do transportador":
        porteador_xml = porteador_xml.next()
    return porteador_xml.text()

for archivo in archivos:
    pdf = PDFQuery(f'testing-data/{archivo}')
    pdf.load(0)
    print(get_porteador(pdf))

In [None]:
# ciudad_pais_partida

def get_ciudad_pais_partida(pdf) -> str:
    """Obtiene la ciudad de partida del archivo PDF usando pdfquery.
    """
    ciudad_partida_xml = pdf.pq('LTTextLineHorizontal:contains("Aduana, ciudad y pais de partida")').next()
    return ciudad_partida_xml.text()

test_func(get_ciudad_pais_partida)

In [None]:
# ciudad_pais_destino

def get_ciudad_pais_destino(pdf) -> str:
    """Obtiene la ciudad de destino del archivo PDF usando pdfquery.
    """
    ciudad_destino_xml = pdf.pq('LTTextLineHorizontal:contains("/ Cidade e pais de destino final")').next()
    return ciudad_destino_xml.text()

test_func(get_ciudad_pais_destino)

In [None]:
# camion_original -> en campo av vergara 6060 no termina de mostrar los datos, no encuentra la linea

def get_camion_original(pdf) -> str:
    """Obtiene el camion original del archivo PDF usando pdfquery.
    """
    x0, y0, x1, y1 = 31.52, 634.96, 306.04, 693.48

    text_elements = pdf.pq(f'LTTextLineHorizontal:in_bbox("{x0},{y0},{x1},{y1}")')
    return text_elements.text().split("proprietario", 1)[-1].strip()

test_func(get_camion_original)


In [None]:
# placa_camion
def get_placa_camion(pdf) -> str:
    """
    Obtiene la placa del camión del archivo PDF usando pdfquery.
    """

    placa_camion_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Placa de Camion")').next()
    return placa_camion_xml.text().strip()

test_func(get_placa_camion)

In [None]:
# placa_semiremolque
def get_placa_semiremolque(pdf):
    """
    Obtiene la placa del semiremolque del archivo PDF usando pdfquery.
    """
    placa_semiremolque_xml = pdf.pq(f'LTTextLineHorizontal:contains("Placa:")').next()
    return placa_semiremolque_xml.text().strip()

test_func(get_placa_semiremolque)

In [None]:
# carta_de_porte
def get_carta_porte(pdf):
    """
    Obtiene la carta de porte del archivo PDF usando pdfquery.
    """
    carta_porte_xml = pdf.pq(f'LTTextLineHorizontal:contains("23 N? carta de porte")').next().next()
    return carta_porte_xml.text().strip()

test_func(get_carta_porte)

In [None]:
# aduana_destino
def get_aduana_destino(pdf):
    """
    Obtiene la aduana de destino del archivo PDF usando pdfquery.
    """
    aduana_destino_xml = pdf.pq(f'LTTextLineHorizontal:contains("24 Aduana de destino/ Alfandega de destino")').next()
    return aduana_destino_xml.text().strip()

test_func(get_aduana_destino)

In [None]:
# destinatario

def get_destinatario(pdf):
    """
    Obtiene el destinatario del archivo PDF usando pdfquery.
    """
    destinatario_xml = pdf.pq(f'LTTextLineHorizontal:contains("34 Destinatario / Destinatario")').next()
    return destinatario_xml.text().replace('\n', '').strip()

test_func(get_destinatario)

In [None]:
# valor_FOT

def get_valor_FOT(pdf):
    """
    Obtiene el valor FOT del archivo PDF usando pdfquery.
    """
    valor_FOT_xml = pdf.pq(f'LTTextLineHorizontal:contains("/Valor FOT")').next()
    return float(valor_FOT_xml.text().strip())

test_func(get_valor_FOT)

In [None]:
# flete_usd

def get_flete_usd(pdf):
    """
    Obtiene el flete en USD del archivo PDF usando pdfquery.
    """
    flete_usd_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Frete em U$S")').next()
    return float(flete_usd_xml.text().strip())

test_func(get_flete_usd)

In [None]:
# consignatario

def get_consignatario(pdf):
    """
    Obtiene el consignatario del archivo PDF usando pdfquery.
    """
    consignatario_xml = pdf.pq(f'LTTextLineHorizontal:contains("35 Consignatario /Consignatario ")').next()
    return consignatario_xml.text().replace('\n', '').strip()

test_func(get_consignatario)

In [None]:
# tipo_bultos

def get_tipo_bultos(pdf):
    """
    Obtiene el tipo de bultos del archivo PDF usando pdfquery.
    """
    tipo_bultos_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Tipo dos volumes")').next()
    return tipo_bultos_xml.text().strip()

test_func(get_tipo_bultos)

In [None]:
# cantidad_bultos
def get_cantidad_bultos(pdf):
    """
    Obtiene la cantidad de bultos del archivo PDF usando pdfquery.
    """

    
    cantidad_bultos_xml = pdf.pq(f'LTTextBoxHorizontal:contains("31 Cantidad de bultos ")').next()
    return int(cantidad_bultos_xml.text().strip())

test_func(get_cantidad_bultos)

In [None]:
# peso_bruto
def get_peso_bruto(pdf):

    """
    Obtiene el peso bruto del archivo PDF usando pdfquery.
    """
    peso_bruto_xml = pdf.pq(f'LTTextBoxHorizontal:contains("Peso bruto")').next()
    return float(peso_bruto_xml.text().strip())

test_func(get_peso_bruto)

In [None]:
# documentos_anexos

def get_documentos_anexos(pdf):
    """
    Obtiene los documentos anexos del archivo PDF usando pdfquery.
    """
    documentos_anexos_xml = pdf.pq(f'LTTextLineHorizontal:contains("Documentos anexos")').next()
    return documentos_anexos_xml.text().strip()

test_func(get_documentos_anexos)

In [None]:
# descripcion_mercancia

def get_descripcion_mercancia(pdf):
    """
    Obtiene la descripcion de la mercancia del archivo PDF usando pdfquery.
    """
    descripcion_mercancia_xml = pdf.pq(f'LTTextLineHorizontal:contains("/ Marcas e numeros dos volumes, descric?o das mercadorias")').next()
    return descripcion_mercancia_xml.text().strip()

test_func(get_descripcion_mercancia)

In [None]:
# conductor

def get_conductor(pdf):
    """
    Obtiene el nombre del conductor del archivo PDF usando pdfquery.
    """
    conductor_xml = pdf.pq(f'LTTextLineHorizontal:contains("CONDUCTOR 1")')
    
    return ''.join(conductor_xml.text().strip().split()[2:])

test_func(get_conductor)

In [None]:
def extraer_datos_pdf(pdf):
    """
    Extrae los datos del archivo PDF usando pdfquery.
    """
    datos = {
        "archivo": get_archivo_nombre(pdf),
        "fecha_emision": get_fecha_emision(pdf),
        "porteador": get_porteador(pdf),
        "ciudad_pais_partida": get_ciudad_pais_partida(pdf),
        "ciudad_pais_destino": get_ciudad_pais_destino(pdf),
        "camion_original": get_camion_original(pdf),
        "placa_camion": get_placa_camion(pdf),
        "placa_semiremolque": get_placa_semiremolque(pdf),
        "carta_porte": get_carta_porte(pdf),
        "aduana_destino": get_aduana_destino(pdf),
        "destinatario": get_destinatario(pdf),
        "valor_FOT": get_valor_FOT(pdf),
        "flete_usd": get_flete_usd(pdf),
        "consignatario": get_consignatario(pdf),
        "tipo_bultos": get_tipo_bultos(pdf),
        "cantidad_bultos": get_cantidad_bultos(pdf),
        "peso_bruto": get_peso_bruto(pdf),
        "documentos_anexos": get_documentos_anexos(pdf), # FIXEAR CORTAR  F. Ofic:*******
        "descripcion_mercancia": get_descripcion_mercancia(pdf), # FIXEAR SOLO PARTE QUE DICE TENER
        "conductor": get_conductor(pdf)
    }
    return datos



In [None]:
data = []
for archivo in archivos:
    pdf = PDFQuery(f'testing-data/{archivo}')
    pdf.load(0)
    datos = extraer_datos_pdf(pdf)
    data.append(datos)

In [None]:
df = pd.DataFrame(data)
df.to_excel('data/output.xlsx', index=False)

In [None]:
from pdfquery import PDFQuery
import os
from processing import process_pdf
from utils import listar_archivos_pdf
import pandas as pd


# despues dividir por mes y año

def process_all_pdfs(archivos: list)->list:
    try:
        data = list(map(process_pdf, archivos))
    except Exception as e:
        print(f"Error procesando archivos: {e}")
        return None
    
    return data


# de json a dataframe, y luego a excel

# dejar un archivo general

# despues dividir por mes y año

if __name__ == "__main__":
    archivos = listar_archivos_pdf('testing-data/')
    
    lista = process_all_pdfs(archivos)
    df = pd.DataFrame(lista)
    df.to_excel('data/output2.xlsx', index=False)

In [5]:
from pdfquery import PDFQuery

from scrap_pdf import check_format


for archivo in archivos:
    pdf = PDFQuery(archivo)
    pdf.load(0)
    print(check_format(pdf))


True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
