In [1]:
# Programa para leer y clasificar ficheros pdf. Usando la libreria PyPDF2. 

#  **Requisitos**:  Instala `PyPDF2` y `pdfplumber`:     
# !pip install PyPDF2 pdfplumber
# !pip install  pdfplumber


In [2]:



 

from PyPDF2 import PdfReader
# from pdfplumber import open as pdf_open
import json

def extraer_texto_y_metadatos(ruta_pdf):
    """
    Funcion para extraer texto y metadatos basicos de un PDF.
    """
    try:
        reader = PdfReader(ruta_pdf)
        texto = ""
        for pagina in reader.pages:
            texto += pagina.extract_text() + "\n"
        
        metadatos = {
            "titulo": reader.metadata.get("/Title", "N/A"),
            "autor": reader.metadata.get("/Author", "N/A"),
            "creado": reader.metadata.get("/CreationDate", "N/A"),
            "modificado": reader.metadata.get("/ModDate", "N/A")
        }
        
        return texto, metadatos
    except Exception as e:
        return str(e), {}

def extraer_tablas_json(ruta_pdf):
    """
    Funcion para extraer tablas de un PDF y devolverlas en formato JSON.
    """
    try:
        tablas = []
        with pdf_open(ruta_pdf) as pdf:
            for pagina in pdf.pages:
                tabla = pagina.extract_table()
                if tabla:
                    tablas.append(tabla)
        
        return json.dumps(tablas, indent=2, ensure_ascii=False)
    except Exception as e:
        return json.dumps({"error": str(e)}, indent=2)

# Ejemplo de uso
if __name__ == "__main__":
    ruta_pdf = "poliza.pdf"
    
    # Extraer texto y metadatos
    texto, metadatos = extraer_texto_y_metadatos(ruta_pdf)
    print("Texto extraido:")
    # print(texto)
    print("\nMetadatos:")
    print(metadatos)
    
    # Extraer tablas en formato JSON
    tablas_json = extraer_tablas_json(ruta_pdf)
    print("\nTablas extraidas (JSON):")    
    print(tablas_json)

    
'''
    
    
    ### Notas:
    
    2. **Funcionalidades**:
       - **`extraer_texto_y_metadatos`**:
         - Extrae texto de todas las paginas.
         - Extrae metadatos basicos como titulo, autor y fechas de creacion/modificacin.
       - **`extraer_tablas_json`**:
         - Extrae tablas de las paginas del PDF.
         - Devuelve las tablas en formato JSON.
    
    3. **Limitaciones**:
       - El reconocimiento de tablas puede no ser perfecto, dependiendo de la calidad del PDF.
       - `pdfplumber` es mas robusto que `PyPDF2` para extraer tablas.

'''




Texto extraido:

Metadatos:
{'titulo': 'N/A', 'autor': 'N/A', 'creado': "D:20230102030139+01'00'", 'modificado': "D:20230102030139+01'00'"}

Tablas extraidas (JSON):
{
  "error": "name 'pdf_open' is not defined"
}


'\n    \n    \n    ### Notas:\n    \n    2. **Funcionalidades**:\n       - **`extraer_texto_y_metadatos`**:\n         - Extrae texto de todas las paginas.\n         - Extrae metadatos basicos como titulo, autor y fechas de creacion/modificacin.\n       - **`extraer_tablas_json`**:\n         - Extrae tablas de las paginas del PDF.\n         - Devuelve las tablas en formato JSON.\n    \n    3. **Limitaciones**:\n       - El reconocimiento de tablas puede no ser perfecto, dependiendo de la calidad del PDF.\n       - `pdfplumber` es mas robusto que `PyPDF2` para extraer tablas.\n\n'

In [None]:



from PyPDF2 import PdfReader

def extraer_texto_y_informacion(pdf_path):
    """
    Lee un archivo PDF y extrae texto y informaci�n general.

    Args:
        pdf_path (str): La ruta al archivo PDF.

    Returns:
        dict: Un diccionario con informaci�n extra�da del PDF, incluyendo:
              - 'texto': El texto completo del PDF.
              - 'num_paginas': N�mero total de p�ginas en el PDF.
    """
    try:
        reader = PdfReader(pdf_path)
        num_paginas = len(reader.pages)
        texto_completo = ""
        for page in reader.pages:
            texto_completo += page.extract_text()

        return {
            'texto': texto_completo,
            'num_paginas': num_paginas
        }
    except Exception as e:
        print(f"Error al procesar el PDF: {e}")
        return None


def extraer_tablas_a_json(pdf_path):
    """
    Implementaci�n b�sica para extraer tablas a JSON (a�n muy simple).
    Esta funci�n es un placeholder y necesita una implementaci�n mucho m�s
    avanzada para extraer tablas reales de un PDF.  En este ejemplo,
    devuelve un JSON simple con una tabla ficticia.

    Args:
        pdf_path (str): La ruta al archivo PDF.

    Returns:
        str: Un string en formato JSON que representa una tabla ficticia.
             Devuelve None si hay un error.
    """
    try:
        #  ESTO ES UN PLACEHOLDER -  Necesita l�gica para identificar y extraer tablas.
        #  En un escenario real, esto implicar�a el uso de bibliotecas
        #  como pdfplumber o tabula-py para analizar la estructura del PDF
        #  y extraer las tablas.

        data = [
            ["Nombre", "Edad", "Ciudad"],
            ["Alice", 30, "Nueva York"],
            ["Bob", 25, "Los �ngeles"],
            ["Charlie", 35, "Chicago"]
        ]
        import json
        return json.dumps(data, indent=4)

    except Exception as e:
        print(f"Error al extraer tablas: {e}")
        return None


if __name__ == '__main__':
    # Ejemplo de uso
    pdf_file = "poliza.pdf"  # Reemplaza con la ruta de tu archivo PDF

    # Extraer texto y informaci�n general
    informacion_pdf = extraer_texto_y_informacion(pdf_file)
    if informacion_pdf:
        print("Informacin del PDF:")
        # print(informacion_pdf)
        print(f"Nmero de paginas: {informacion_pdf['num_paginas']}")

    # Extraer tablas a JSON (placeholder)
    tabla_json = extraer_tablas_a_json(pdf_file)
    if tabla_json:
        print("\nTabla JSON (ejemplo):")
        print(tabla_json)

'''

**Explicacin y Mejoras:**

1. **`extraer_texto_y_informacion(pdf_path)`:**
   - Toma la ruta del archivo PDF como entrada.
   - Utiliza `PdfReader` para leer el PDF.
   - Extrae el texto completo de todas las p�ginas.
   - Devuelve un diccionario con las claves `texto` (el texto completo) y `num_paginas` (el n�mero total de p�ginas).
   - Incluye un bloque `try...except` para manejar posibles errores al leer el PDF.

2. **`extraer_tablas_a_json(pdf_path)`:**
   -  **Placeholder para la extracci�n de tablas:**  Esta funci�n es crucial y *muy* simplificada.  La extracci�n real de tablas de PDF es un problema complejo que generalmente requiere:
      - **Bibliotecas Especializadas:** `pdfplumber` o `tabula-py` son bibliotecas dise�adas para el an�lisis de PDFs y la extracci�n de tablas.
      - **Detecci�n de Estructuras:**  Estas bibliotecas te ayudar�n a identificar las �reas del PDF que contienen tablas.
      - **An�lisis de la Estructura:** Determinar el n�mero de columnas y filas en la tabla.
      - **Extracci�n de Datos:**  Extraer los valores de las celdas.
   - En este ejemplo, simplemente devuelve un JSON de ejemplo (una tabla ficticia) para ilustrar el formato de salida deseado.
   - Incluye un bloque `try...except` para el manejo de errores.

3. **`if __name__ == '__main__':`**:
   - Este bloque de c�digo solo se ejecuta cuando el script se ejecuta directamente (no cuando se importa como un m�dulo).
   - Proporciona un ejemplo de c�mo llamar a las funciones.
   - Establece el nombre del archivo PDF (`archivo.pdf`).  **Debes reemplazar esto con la ruta correcta a tu archivo PDF.**
   - Llama a las funciones de extracci�n y muestra los resultados en la consola.

**C�mo usarlo:**

1. **Instala PyPDF2:**

   pip install PyPDF2


2. **Reemplaza `archivo.pdf`:**  Cambia el valor de `pdf_file` en la secci�n `if __name__ == '__main__':` a la ruta correcta de tu archivo PDF.

3. **Ejecuta el script:**

   python tu_script.py


**Pr�ximos Pasos (Implementaci�n Real de la Extracci�n de Tablas):**

1. **Instala `pdfplumber` o `tabula-py`:**
   
   pip install pdfplumber  # o pip install tabula-py
   

2. **Implementa la l�gica de extracci�n de tablas:**  Utiliza `pdfplumber` o `tabula-py` para:
   - Leer el PDF.
   - Analizar la estructura de las tablas.
   - Extraer los datos de las tablas.
   - Formatear los datos como JSON.

   **Ejemplo usando `pdfplumber` (muy simplificado):**
   python
   import pdfplumber
   # ... (tu c�digo anterior) ...

   def extraer_tablas_a_json(pdf_path):
       try:
           with pdfplumber.open(pdf_path) as pdf:
               for page in pdf.pages:
                   #  Aqu� deber�as implementar la l�gica para
                   #  identificar y extraer las tablas de la p�gina
                   #  usando las funciones de pdfplumber.
                   #  Esto es un placeholder:
                   #  table = pdfplumber.extract_table(page)
                   #  if table:
                   #      return json.dumps(table, indent=4)
                   pass #  No hay tablas en este ejemplo

           return None

       except Exception as e:
           print(f"Error al extraer tablas: {e}")
           return None
'''







In [4]:


# !pip install pypdf2


from PyPDF2 import PdfReader
import json

# Función para extraer texto básico de todas las páginas
def extract_basico_text(pdf_path):
    with open(pdf_path, 'rb') as file:
        reader = PdfReader(file)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
        return text

# Función para extraer y convertir tablas en JSON
def extract_tablas_pdf_to_json(pdf_path):
    with open(pdf_path, 'rb') as file:
        reader = PdfReader(file)

        # Suposición: Buscar elementos gráficos que indiquen las tablas (por ejemplo, bordes)
        # Este paso es complejo y depende del diseño específico de los documentos.
        # Aquí se simplifica asumiendo un diseño simple o que la estructura sea bastante regular.
        tables = []
        for page in reader.pages:
            # Simulación de extracción de tablas; en la práctica, necesitarías un algoritmo más sofisticado.
            if 'table' in str(page):
                table_data = page.extract_table()  # Extractar el contenido de la tabla
                if table_data:  # Asumimos que se obtuvo datos válidos
                    table_as_dict = {
                        'data': table_data,
                        'paginacion': page.number  # Página del PDF donde se encuentra la tabla
                    }
                    tables.append(table_as_dict)

        if tables:
            return json.dumps({'tablas': tables})
        else:
            return "No se encontraron tablas en el documento."

# Ejemplo de uso
if __name__ == "__main__":
    pdf_path = 'poliza.pdf'  # Cambia por el camino real al archivo PDF
    basic_text = extract_basico_text(pdf_path)
    print(f"Texto básico del PDF:\n{basic_text}")

    json_tables = extract_tablas_pdf_to_json(pdf_path)
    if json_tables:
        print(f"Tablas del PDF convertidas a JSON:\n{json_tables}")
    else:
        print("No se encontraron tablas para convertir.")

'''

Este script realiza lo siguiente:

1. `extract_basico_text(pdf_path)`: Lee un archivo PDF y extrae el texto básico de todas las páginas.
2. `extract_tablas_pdf_to_json(pdf_path)`: Lee un archivo PDF y busca tablas dentro del documento. Si encuentra tablas, las convierte a JSON con estructura simplificada y devuelve la lista de tablas en formato JSON.

Es importante destacar que el método `page.extract_table()` de `PyPDF2` no es foolproof y puede requerir ajustes adicionales o un algoritmo más complejo para identificar correctamente las tablas, especialmente si los PDFs tienen estructuras complejas. Este código asume una estructura relativamente simple o regular para demostración.

Además, la detección de las tablas podría requerir el análisis de elementos gráficos específicos (como bordes, celdas, etc.) que den señales claras de la presencia de una tabla. Para casos más complicados, se podría necesitar implementar técnicas adicionales de procesamiento de imagen o análisis de patrones en los datos del PDF.

'''

Texto básico del PDF:
Pag.: 1
 PÓLIZA
nº recibo: 1138591
Línea: 314 OLIVAR
Plan: 2022
Nº Póliza: Ref. Colectivo: 1962797-4 L899315-1 Fecha de entrada en vigor: 16/12/2022
CASTRO FRIAS RAFAEL EDUARDO
e-mail:IRIS AGRICOLANIF:
MADRID
contratacion@iris-agricola.esDATOS DEL TOMADOR
e-mail:
GRANADAG85724532
000000000
SUBVENCIONES SOLICITADASNIF:000000000 28008
Tfnos:Tfnos:
RAFAELCASTROFRIAS@HOTMAIL.COMMADRID
GRANADADATOS DEL ASEGURADO902181023
676593870YERBAGUENA 11
18002075153349KPLAZA DE ESPAÑA          15-6ª
Nº Seg. Social: Tipo de Subvención: Régimen:Blq: Esc:
Blq: Esc:-
-Localidad:
Localidad:Piso/letra:
Piso/letra:
01 - Subvención base
RESUMEN DE COBERTURAS Y GARANTIAS
Módulos: 1B   Todos los riesgos por explotación (calculo de indemnización bienal)
GARANTÍA RIESGOS CUBIERTOS% CAPITAL
ASEGURADOCALCULO
INDEMNIZACION% MINIMO
INDEMNIZABLETIPO
FRANQUICIA% FRANQUICIA GARANTIZADO
Producción primer año Resto de adversidades climáticas 100% Explotación Deducible 60€ 70%
Producción primer año Pe

'\n\nEste script realiza lo siguiente:\n\n1. `extract_basico_text(pdf_path)`: Lee un archivo PDF y extrae el texto básico de todas las páginas.\n2. `extract_tablas_pdf_to_json(pdf_path)`: Lee un archivo PDF y busca tablas dentro del documento. Si encuentra tablas, las convierte a JSON con estructura simplificada y devuelve la lista de tablas en formato JSON.\n\nEs importante destacar que el método `page.extract_table()` de `PyPDF2` no es foolproof y puede requerir ajustes adicionales o un algoritmo más complejo para identificar correctamente las tablas, especialmente si los PDFs tienen estructuras complejas. Este código asume una estructura relativamente simple o regular para demostración.\n\nAdemás, la detección de las tablas podría requerir el análisis de elementos gráficos específicos (como bordes, celdas, etc.) que den señales claras de la presencia de una tabla. Para casos más complicados, se podría necesitar implementar técnicas adicionales de procesamiento de imagen o análisis d