<a href="https://colab.research.google.com/github/DrRagasachi/DrRagasachi/blob/main/conversor(colabFINAL)_pdf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
# Instalar pdfplumber en caso de que no esté disponible
!pip install pdfplumber

import pdfplumber
import pandas as pd
import re
import os
from google.colab import files



# Función para limpiar montos (convertir formato 1.234,56 a 1234.56)
def normalize_amount(amount):
    return float(amount.replace(".", "").replace(",", ".")) if amount else None

# Función para extraer los datos de una página
def extract_data_from_page(page_text):
    lines = page_text.split("\n")  # Dividir el texto en líneas
    data = []

    # Expresiones regulares mejoradas
    date_pattern = re.compile(r"\d{2}/\d{2}/\d{2}")
    amount_pattern = re.compile(r"-?\d{1,3}(?:\.\d{3})*(?:,\d{2})")

    for line in lines:
        date_match = date_pattern.search(line)
        fecha = date_match.group() if date_match else None

        amounts = amount_pattern.findall(line)
        credito = normalize_amount(amounts[0]) if len(amounts) > 0 else None
        debito = normalize_amount(amounts[1]) if len(amounts) > 1 else None
        saldo = normalize_amount(amounts[2]) if len(amounts) > 2 else None

        # Extraer la descripción eliminando la fecha y montos de la línea
        descripcion = re.sub(date_pattern, "", line).strip()
        for amt in amounts:
            descripcion = descripcion.replace(amt, "").strip()

        # Solo agregar filas con fecha válida
        if fecha:
            data.append({
                "Fecha": fecha,
                "Descripción": descripcion,
                "Crédito": credito,
                "Débito": debito,
                "Saldo": saldo
            })

    return data

# Función principal para procesar el PDF
def process_pdf(file_path):
    all_data = []

    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            page_text = page.extract_text()
            if page_text:
                all_data.extend(extract_data_from_page(page_text))

    df = pd.DataFrame(all_data)

    # Generar un nombre dinámico para el archivo Excel
    output_filename = "extracto_banco.xlsx"
    df.to_excel(output_filename, index=False)

    print(f"Datos extraídos y guardados en '{output_filename}'.")

    return output_filename

# Subir archivo PDF
uploaded = files.upload()
pdf_filename = list(uploaded.keys())[0]  # Obtener el nombre del archivo subido

# Procesar el PDF y generar Excel
excel_filename = process_pdf(pdf_filename)

# Descargar el archivo Excel
files.download(excel_filename)


Collecting pdfplumber
  Downloading pdfplumber-0.11.5-py3-none-any.whl.metadata (42 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/42.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.5/42.5 kB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20231228 (from pdfplumber)
  Downloading pdfminer.six-20231228-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.1-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.2/48.2 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
Downloading pdfplumber-0.11.5-py3-none-any.whl (59 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.5/59.5 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pdfminer.six-20231228-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━

Saving BANCO GALICIA 102024.pdf to BANCO GALICIA 102024.pdf
Datos extraídos y guardados en 'extracto_banco.xlsx'.


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>