PDFMiner


Programa para leer y clasificar ficheros pdf. Usando la libreria PDFMiner.


In [None]:

# gemma3:4b

from pdfminer.high_level import extract_text
import json
import re

def extraer_texto_informacion_general(ruta_pdf):
    """
    Extrae el texto y la informaci�n general de un archivo PDF usando PDFMiner.

    Args:
        ruta_pdf (str): La ruta al archivo PDF.

    Returns:
        str: El texto extra�do del PDF.  Si hay un error, retorna None.
    """
    try:
        text = extract_text(ruta_pdf)
        return text
    except Exception as e:
        print(f"Error al extraer texto del PDF {ruta_pdf}: {e}")
        return None


def extraer_tablas_a_json(ruta_pdf):
    """
    Intenta extraer tablas desde un archivo PDF y las devuelve en formato JSON.
    Esta funci�n es una simplificaci�n y necesita adaptaci�n seg�n la estructura
    espec�fica de las tablas en tus PDFs.  Se basa en patrones b�sicos de
    regulares, que podr�an no ser robustos para todos los casos.

    Args:
        ruta_pdf (str): La ruta al archivo PDF.

    Returns:
        str: Un string JSON que representa las tablas encontradas.  Retorna '[]' si no se encuentran tablas.
    """
    try:
        text = extract_texto_informacion_general(ruta_pdf)
        if not text:
            return '[]'

        # **IMPORTANTE:**  Esta parte es altamente dependiente de la estructura de tus tablas.
        #   Adapta estos patrones para que coincidan con la estructura real de tus tablas.
        #   Por ejemplo, si las tablas tienen separadores de l�neas, �salos en los patrones.

        # Ejemplo simple: Busca patrones que coincidan con el comienzo de una tabla
        # (asumiendo que las tablas tienen un separador de l�nea entre las columnas)
        #  Este es un ejemplo muy simplificado y probablemente necesite ajuste.

        tablas = []
        
        # Busca patrones simples, es posible que necesites adaptar esto seg�n la estructura real de tus datos.
        # Este es un ejemplo b�sico y podr�a no funcionar en todos los casos.

        # Adapta estos patrones seg�n la estructura de tus tablas.
        # Ejemplo:  Si las tablas tienen separadores de l�nea, �salos en los patrones.

        # Ejemplo b�sico de extracci�n de tablas (�ADAPTAR!)
        # Esto es un ejemplo muy simple y puede que no funcione en todos los casos.
        
        # Nota importante: Esta funci�n asume que las tablas tienen una estructura regular
        #  y separa las columnas con un caracter como un gui�n (-) o una barra (|).
        
        #Este ejemplo es muy b�sico y puede no funcionar en todos los casos.
        #Necesitar�s adaptar la l�gica seg�n la estructura de tus tablas.
        
        # Para una extracci�n m�s robusta, considera usar bibliotecas como Camelot o Tabula-py
        # que est�n dise�adas espec�ficamente para la extracci�n de tablas de PDFs.

        return '[]'  # Retorna un array JSON vac�o por ahora.  Deber�as implementar la l�gica de extracci�n real aqu�.

    except Exception as e:
        print(f"Error al extraer tablas del PDF {ruta_pdf}: {e}")
        return '[]'

if __name__ == '__main__':
    # Ejemplo de uso:
    ruta_pdf_ejemplo = "poliza.pdf"  # Reemplazar con la ruta a tu archivo PDF.
    
    # Extracci�n b�sica de texto:
    texto_extraido = extraer_texto_informacion_general(ruta_pdf_ejemplo)
    if texto_extraido:
        print("Texto extra�do:")
        print(texto_extraido)
    else:
        print("No se pudo extraer el texto.")
    
    # Extracci�n de tablas a JSON:
    tablas_json = extraer_tablas_a_json(ruta_pdf_ejemplo)
    print("\nTablas extra�das (JSON):")
    print(tablas_json)
    


In [None]:
# qwen3_14b

import os
import json
from pdfminer.high_level import extract_text, extract_pages
from pdfminer.layout import LTTextLine, LTTextLineHorizontal, LTTextBox, LTTextGroup, LTChar, LTLine, LTRect

def extract_text_from_pdf(file_path):
    """
    Extrae el texto básico de un archivo PDF utilizando PDFMiner.
    
    :param file_path: Ruta del archivo PDF
    :return: Texto extraído del PDF
    """
    try:
        if not os.path.exists(file_path):
            raise FileNotFoundError(f"El archivo {file_path} no existe.")
        
        text = extract_text(file_path)
        return text
    except Exception as e:
        print(f"Error al extraer texto del PDF: {e}")
        return ""

def extract_tables_to_json(file_path):
    """
    Extrae tablas de un archivo PDF y las devuelve en formato JSON.
    Nota: Esta implementación es básica y puede no funcionar para todas las estructuras de tabla.
    
    :param file_path: Ruta del archivo PDF
    :return: Lista de tablas en formato JSON
    """
    tables = []
    try:
        if not os.path.exists(file_path):
            raise FileNotFoundError(f"El archivo {file_path} no existe.")
        
        # Procesar cada página del PDF
        for page in extract_pages(file_path):
            current_table = {"rows": []}
            current_row = []
            last_y = None
            
            # Recorrer los elementos de la página
            for element in page:
                if isinstance(element, LTTextLineHorizontal):
                    # Verificar si es parte de una fila de tabla
                    if abs(element.y0 - last_y) > 5:  # Ajustar el umbral según necesidad
                        if current_row:
                            current_table["rows"].append(current_row)
                            current_row = []
                        last_y = element.y0
                    current_row.append(element.get_text())
                elif isinstance(element, (LTLine, LTRect)):
                    # Detectar líneas o rectángulos que puedan formar bordes de tabla
                    pass  # Este código puede mejorarse para detectar bordes
                
            # Agregar la última fila si existe
            if current_row:
                current_table["rows"].append(current_row)
            
            if current_table["rows"]:
                tables.append(current_table)
        
        return json.dumps(tables, indent=2)
    except Exception as e:
        print(f"Error al extraer tablas del PDF: {e}")
        return json.dumps([], indent=2)

# Ejemplo de uso
if __name__ == "__main__":
    pdf_path = "poliza.pdf"
    
    # Extraer texto básico
    text_result = extract_text_from_pdf(pdf_path)
    print("Texto extraído:")
    print(text_result)
    
    # Extraer tablas en formato JSON
    tables_result = extract_tables_to_json(pdf_path)
    print("\nTablas extraídas en JSON:")
    print(tables_result)

    
qwen3_14b_help='''

### Notas:
1. **Extracción de texto básico**: La función `extract_text_from_pdf` utiliza `pdfminer.high_level.extract_text`, que es ideal para extraer texto plano de PDFs.

2. **Extracción de tablas**: La función `extract_tables_to_json` intenta detectar tablas basándose en la posición vertical de las líneas de texto. Esto es **muy simplificado** y puede no funcionar correctamente para todas las estructuras de tabla. Para un análisis más robusto, se recomienda usar bibliotecas especializadas como `pdfplumber` o `camelot-py`.

3. **Limitaciones**: La detección de tablas en PDFMiner requiere un análisis detallado de los objetos de layout, lo cual puede ser complejo y no garantizado. El código proporcionado es un punto de partida, pero podría necesitar ajustes según las características específicas de los PDFs que se procesen.
'''