Camelot
Pregunta :


In [None]:



import camelot
import pandas as pd
from PyPDF2 import PdfReader
import os
# qwen3:8b
def extraer_texto_info(pdf_path):
    """
    Funci�n para extraer texto b�sico y informaci�n general del PDF
    """
    if not os.path.exists(pdf_path):
        return {"error": "El archivo no existe"}
    
    try:
        reader = PdfReader(pdf_path)
        num_paginas = len(reader.pages)
        texto_extraido = ""
        
        for page in reader.pages:
            texto_extraido += page.extract_text() + "\n"
        
        return {
            "num_paginas": num_paginas,
            "texto_extraido": texto_extraido[:500] + "...",  # Limitamos a 500 caracteres
            "formato": "Texto"
        }
    except Exception as e:
        return {"error": str(e)}

def extraer_tablas_json(pdf_path):
    """
    Funci�n para extraer tablas y convertirlas a formato JSON
    """
    if not os.path.exists(pdf_path):
        return {"error": "El archivo no existe"}
    
    try:
        tablas = camelot.read_pdf(pdf_path, pages="all")
        resultados = []
        
        for i, tabla in enumerate(tablas):
            df = tabla.df
            resultados.append({
                "tabla_id": f"tabla_{i+1}",
                "columnas": df.columns.tolist(),
                "filas": df.values.tolist(),
                "formato": "JSON"
            })
        
        return {
            "tablas": resultados,
            "total_tablas": len(tablas),
            "formato": "JSON"
        }
    except Exception as e:
        return {"error": str(e)}

# Ejemplo de uso
if __name__ == "__main__":
    archivo = "poliza.pdf"
    
    # Extraer informaci�n general
    info = extraer_texto_info(archivo)
    print("Informaci�n general del PDF:")
    print(info)
    
    # Extraer tablas en JSON
    tablas_json = extraer_tablas_json(archivo)
    print("\nTablas extra�das:")
    print(tablas_json)


'''

### Caracter�sticas del programa:
1. **Extracci�n de texto b�sico**:
   - Usa `PyPDF2` para leer el contenido textual
   - Devuelve n�mero de p�ginas y muestra del texto extra�do
   - Manejo de errores y validaci�n de archivo

2. **Extracci�n de tablas en JSON**:
   - Usa `camelot` para leer tablas del PDF
   - Convierte cada tabla a un diccionario JSON
   - Incluye identificaci�n de cada tabla y sus datos
   - Manejo de errores y validaci�n de archivo

### Requisitos previos:
```bash
pip install camelot-py[pdf] PyPDF2 pandas
```

### Notas:
- El programa maneja ambos formatos de salida (texto y JSON)
- Limita el texto extra�do a 500 caracteres para evitar sobrecarga
- Devuelve estructuras de datos claras y bien organizadas
- Incluye validaci�n de archivos y manejo de errores

Este programa puede ser extendido para incluir m�s funcionalidades como:
- Exportaci�n a otros formatos (CSV, Excel)
- An�lisis de metadatos del PDF
- Clasificaci�n autom�tica de contenido
- Integraci�n con bases de datos

'''


In [None]:
## Gemma3:latest

import camelot
import pandas as pd

def extraer_informacion_pdf(pdf_path):
  """
  Lee un archivo PDF usando Camelot y extrae informaci�n general y tablas.

  Args:
    pdf_path: La ruta al archivo PDF.

  Returns:
    Un diccionario que contiene:
      - 'text': El texto extra�do del PDF (texto general).
      - 'tables': Una lista de DataFrames de pandas, donde cada DataFrame representa una tabla extra�da.
  """

  try:
    tables = camelot.read_pdf(pdf_path)
    text = ""
    for table in tables:
      text += table.df.to_string() + "\n" # Agrega el contenido de cada tabla
    
    return {'text': text, 'tables': [table.df for table in tables]}
  except Exception as e:
    print(f"Error al leer el PDF: {e}")
    return {'text': None, 'tables': None}


def extraer_tablas_json(pdf_path):
  """
  Lee un archivo PDF usando Camelot y extrae tablas en formato JSON.

  Args:
    pdf_path: La ruta al archivo PDF.

  Returns:
    Una lista de diccionarios JSON, donde cada diccionario representa una tabla extra�da.
    Cada diccionario tiene la clave 'df' que contiene el DataFrame de pandas.
  """
  try:
    tables = camelot.read_pdf(pdf_path)
    json_tables = []
    for table in tables:
      json_table = {'df': table.df.to_dict(orient='records')}
      json_tables.append(json_table)
    return json_tables
  except Exception as e:
    print(f"Error al leer el PDF: {e}")
    return None



if __name__ == '__main__':
  # Ejemplo de uso
  pdf_file = "poliza.pdf"  # Reemplaza con la ruta a tu archivo PDF

  # Extraer informaci�n general y tablas
  resultados = extraer_informacion_pdf(pdf_file)

  if resultados and resultados['text'] is not None:
    print("Texto general del PDF:")
    print(resultados['text'])

    print("\nTablas extra�das:")
    for i, table in enumerate(resultados['tables']):
      print(f"\nTabla {i+1}:")
      print(table)
  elif resultados and resultados['text'] is None:
    print("No se pudieron extraer los datos del PDF")
  else:
    print("No se pudo procesar el PDF.  Aseg�rate de que el archivo PDF exista y que Camelot pueda leerlo.")


  # Ejemplo de como extraer las tablas a JSON
  json_tables = extraer_tablas_json(pdf_file)

  if json_tables:
      print("\nTablas extra�das como JSON:")
      for i, table in enumerate(json_tables):
          print(f"\nTabla {i+1}:")
          print(table)

'''


**Explicaci�n del c�digo:**

1.  **Importaciones:**
    *   `camelot`:  La librer�a principal para la extracci�n de tablas.
    *   `pandas`:  Se utiliza para crear DataFrames, que son estructuras de datos tabulares.

2.  **`extraer_informacion_pdf(pdf_path)`:**
    *   Toma la ruta al archivo PDF como entrada.
    *   Usa `camelot.read_pdf(pdf_path)` para leer el PDF y extraer todas las tablas.
    *   Itera a trav�s de las tablas extra�das.
    *   Convierte cada DataFrame a una cadena utilizando `table.df.to_string()`.
    *   Agrega las cadenas a la variable `text`.
    *   Devuelve un diccionario con las claves 'text' (el texto general) y 'tables' (una lista de los DataFrames).  Tambi�n incluye manejo de errores con `try...except`.

3.  **`extraer_tablas_json(pdf_path)`:**
    *   Toma la ruta al archivo PDF como entrada.
    *   Usa `camelot.read_pdf(pdf_path)` para leer el PDF y extraer todas las tablas.
    *   Itera a trav�s de las tablas extra�das.
    *   Convierte cada DataFrame a un diccionario JSON con la clave 'df'.  `to_dict(orient='records')` convierte el DataFrame a una lista de diccionarios, donde cada diccionario representa una fila.
    *   Agrega los diccionarios a la lista `json_tables`.
    *   Devuelve la lista de diccionarios JSON.  Tambi�n incluye manejo de errores con `try...except`.

4.  **`if __name__ == '__main__':`**:
    *   Este bloque de c�digo se ejecuta solo cuando el script se ejecuta directamente (no cuando se importa como un m�dulo).
    *   Crea un ejemplo de uso de las funciones.
    *   Reemplaza `"ejemplo.pdf"` con la ruta a tu archivo PDF.
    *   Llama a `extraer_informacion_pdf()` y `extraer_tablas_json()`.
    *   Imprime los resultados.  Incluye un bloque `try...except` para manejar errores de lectura del PDF.

**C�mo usarlo:**

1.  **Instala Camelot:**  `pip install camelot-py[cv]` (el `[cv]` es importante para tener OpenCV, que Camelot usa).

2.  **Reemplaza `"ejemplo.pdf"`:**  Cambia esto por la ruta real a tu archivo PDF.

3.  **Ejecuta el script:** `python tu_script.py`

**Consideraciones importantes:**

*   **Camelot requiere OpenCV:** Aseg�rate de instalar `camelot-py[cv]`.
*   **Calidad de la extracci�n:**  La precisi�n de la extracci�n de Camelot depende mucho de la calidad de la disposici�n de las tablas en el PDF.  Si las tablas son complejas o mal formateadas, es posible que la extracci�n no sea precisa.
*   **Ajuste de par�metros:**  Camelot tiene muchos par�metros que puedes ajustar para mejorar la extracci�n.  Consulta la documentaci�n oficial de Camelot para obtener m�s detalles: [https://camelot-py.readthedocs.io/](https://camelot-py.readthedocs.io/)
*   **Manejo de errores:**  El c�digo incluye un manejo b�sico de errores.  Para aplicaciones m�s robustas, es posible que desees agregar un manejo de errores m�s detallado.
*   **Tama�o del PDF:**  Los archivos PDF muy grandes pueden consumir mucha memoria.  Considera usar t�cnicas de procesamiento por lotes si tienes archivos grandes.

'''




In [None]:

# cogito:14b


import camelot
import pandas as pd

def basic_pdf_info(pdf_path):
    """
    Función para extraer información básica del PDF
    
    Args:
        pdf_path (str): Ruta al archivo PDF
        
    Returns:
        dict: Información general sobre el PDF y texto extraído
    """
    try:
        # Leer el PDF
        tables = camelot.read_pdf(pdf_path, flavor='lattice')
        
        basic_info = {
            'number_of_pages': len(tables),
            'tables_detected': [f"Table {i+1}" for i in range(len(tables))],
            'text_preview': []
        }
        
        # Intentar extraer texto de la primera página
        if len(tables) > 0:
            basic_info['text_preview'] = tables[0].df.iloc[:5, :].to_dict()
            
        return basic_info
    
    except Exception as e:
        print(f"Error al procesar el archivo: {e}")
        return None

def extract_tables_to_json(pdf_path):
    """
    Función para extraer tablas del PDF y guardarlas en formato JSON
    
    Args:
        pdf_path (str): Ruta al archivo PDF
        
    Returns:
        list: Lista de diccionarios con las tablas en formato JSON
    """
    try:
        # Leer el PDF
        tables = camelot.read_pdf(pdf_path, flavor='lattice')
        
        json_tables = []
        
        for table in tables:
            # Convertir la tabla a un DataFrame y luego a diccionario
            df_dict = table.df.to_dict()
            
            # Crear estructura JSON para esta tabla
            json_table = {
                'page': table.page,
                'shape': (table.shape[0], table.shape[1]),
                'data': df_dict
            }
            
            json_tables.append(json_table)
        
        return json_tables
    
    except Exception as e:
        print(f"Error al procesar el archivo: {e}")
        return None

# Ejemplo de uso
if __name__ == "__main__":
    pdf_file = "poliza.pdf"
    
    # Ejecutar función para información básica
    basic_info = basic_pdf_info(pdf_file)
    if basic_info:
        print("Información del PDF:")
        for key, value in basic_info.items():
            print(f"{key}: {value}")
        
        print("\nPrimeras 5 filas de la primera tabla (si existe):")
        print(basic_info['text_preview'])
    
    # Ejecutar función para extraer tablas
    tables_json = extract_tables_to_json(pdf_file)
    if tables_json:
        print("\nTablas extraídas en formato JSON:")
        for table in tables_json:
            print(f"\nPágina {table['page']}:")
            print(table['data'])
cogito_14b_help = '''

Este programa incluye:

1. **Función basic_pdf_info()**:
   - Extrae información básica del PDF como número de páginas y tablas detectadas
   - Intenta extraer texto de la primera página si hay tablas detectadas
   - Devuelve un diccionario con la información

2. **Función extract_tables_to_json()**:
   - Extrae todas las tablas del PDF
   - Convierte cada tabla a formato JSON con información adicional (página, forma y datos)
   - Devuelve una lista de diccionarios en formato JSON

3. **Ejemplo de uso**:
   - Muestra cómo utilizar ambas funciones con un archivo PDF dado
   - Imprime la información básica del PDF y las tablas extraídas en formato JSON

Para usar este programa:

1. Asegúrate de tener Camelot instalado: `pip install camelot-py[cv]`
2. Reemplaza "archivo.pdf" por la ruta a tu archivo PDF
3. Ejecuta el script para ver los resultados

El programa maneja errores básicos y proporciona retroalimentación en caso de que algo salga mal durante la extracción.

Notas importantes:
- La calidad del resultado dependerá mucho de la estructura del PDF
- Algunos PDFs pueden no ser procesados correctamente si tienen formatos complejos o imágenes mezcladas con texto
- Se recomienda usar el parámetro `flavor='lattice'` para tablas bien estructuradas y `flavor='stream'` para textos continuos
'''

