Antes de empezar, debes asegurarte de tener instaladas las siguientes bibliotecas en tu entorno de Colab:
* tabula-py: para leer y extraer tablas de archivos PDF.
* PyPDF2: para leer los metadatos de los archivos PDF.
* pandas: para manipular y trabajar con los datos de la tabla extraída.
* matplotlib: para visualizar los datos de la tabla extraída.

Para instalar estas bibliotecas, puedes ejecutar el siguiente código:

In [2]:
!pip install tabula-py PyPDF2 pandas matplotlib

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting tabula-py
  Downloading tabula_py-2.7.0-py3-none-any.whl (12.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.0/12.0 MB[0m [31m44.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 KB[0m [31m17.7 MB/s[0m eta [36m0:00:00[0m
Collecting distro
  Downloading distro-1.8.0-py3-none-any.whl (20 kB)
Installing collected packages: PyPDF2, distro, tabula-py
Successfully installed PyPDF2-3.0.1 distro-1.8.0 tabula-py-2.7.0


Una vez instaladas las bibliotecas, puedes seguir los siguientes pasos para abrir un archivo PDF y extraer una tabla en un entorno de Google Colaboratory:
1. Carga el archivo PDF en Colab utilizando el siguiente código:

In [3]:
from google.colab import files
uploaded = files.upload()

# Obtiene el nombre del archivo cargado
file_name = list(uploaded.keys())[0]

# Imprime el nombre del archivo cargado
print("El archivo cargado es:", file_name)

Saving descargar.pdf to descargar.pdf
El archivo cargado es: descargar.pdf


El código anterior abrirá una ventana de diálogo donde podrás seleccionar el archivo PDF que deseas cargar. Una vez cargado, se guardará en la variable "uploaded".

2. Lee los metadatos del archivo PDF utilizando la biblioteca PyPDF2:

In [4]:
import io
import google.colab.files as files
from PyPDF2 import PdfReader


# Lee el archivo PDF
pdf = PdfReader(io.BytesIO(uploaded[file_name]))
# Imprime los metadatos del archivo PDF
# Imprime los metadatos del archivo PDF
print(pdf.metadata)

{'/Author': 'Fiserv - Fiserv', '/CreationDate': "D:20230226200929+05'00'", '/Creator': 'PScript5.dll Version 5.2.2', '/ModDate': "D:20230226200928-05'00'", '/Producer': 'Jaws PDF Library 3.62.2936; modified using iText® 7.0.0 ©2000-2016 iText Group NV (AGPL-version)', '/Title': 'ESTADOALDIA_2972270_20230226'}


El código anterior imprimirá los metadatos del archivo PDF, como el título, el autor, la fecha de creación, etc.

3.Utiliza la biblioteca tabula-py para extraer la tabla del archivo PDF:

In [28]:
import tabula
import pandas as pd

# Definir la página de inicio
start_page = 2
finish_page = 3

# Definir los límites de la región de la página que se va a leer
top = 10
left = 10
bottom = 780  
right = 1100


# Leer pagina 2
df1_list = tabula.read_pdf(file_name, pages=start_page, area=[top, left, bottom, right], multiple_tables=True, pandas_options={'header': 1})
# Leer pagina 3
df2_list = tabula.read_pdf(file_name, pages=finish_page, area=[top, left, bottom, right], multiple_tables=True, pandas_options={'header': 1})

# Convertir cada lista en un DataFrame
df1 = pd.concat(df1_list, ignore_index=True)
df2 = pd.concat(df2_list, ignore_index=True)

# Eliminar filas en blanco en el DataFrame df1
df1.dropna(subset=df1.columns, how='all', inplace=True)
# Eliminar filas en blanco en el DataFrame df2
df2.dropna(subset=df2.columns, how='all', inplace=True)

# Unir las dos secciones de la tabla
tabla_completa = pd.concat([df1, df2], ignore_index=True)


# Imprimir la tabla
print(tabla_completa)

Feb 27, 2023 3:26:53 AM org.apache.pdfbox.pdmodel.font.PDType1Font <init>

Feb 27, 2023 3:26:55 AM org.apache.pdfbox.pdmodel.font.PDType1Font <init>



    Número Cuota  Fecha Pago Valor Cuota Pago Capital Pago Intereses  \
0            1.0  2023-03-05  173.847,81    69.029,80     104.818,01   
1            2.0  2023-04-05  173.251,69    69.191,60     104.060,09   
2            3.0  2023-05-05  173.251,69    70.021,33     103.230,36   
3            4.0  2023-06-05  173.251,69    70.861,00     102.390,69   
4            5.0  2023-07-05  173.251,69    71.710,74     101.540,95   
..           ...         ...         ...          ...            ...   
73          74.0  2029-04-05  173.251,69   163.227,31      10.024,38   
74          75.0  2029-05-05  173.251,69   165.184,67       8.067,02   
75          76.0  2029-06-05  173.251,69   167.165,51       6.086,18   
76          77.0  2029-07-05  173.251,69   169.170,11       4.081,58   
77          78.0  2029-08-05  173.251,16   171.198,21       2.052,95   

   Intereses de\rmora Cargo Otros         Saldo  Edad de mora      Estado  
0                0,00  0,00  0,00  8.677.699,97           0

Para guardar la tabla en un archivo CSV, puedes usar el método to_csv de pandas. Por ejemplo:

In [29]:
tabla_completa.to_csv('tabla_completa.csv', index=False)

Esto guardará la tabla completa en un archivo CSV llamado "tabla_completa.csv" en el directorio actual, sin incluir el índice.

Para guardar la tabla en un archivo Excel, puedes usar el método to_excel de pandas. Por ejemplo:



In [30]:
tabla_completa.to_excel('tabla_completa.xlsx', index=False)