In [None]:
# ========================================
# 1. Instalación de librerías necesarias
# ========================================
!pip uninstall -y fitz
!pip install -U PyMuPDF google-generativeai tqdm rich

# ========================================
# 2. Importación de librerías
# ========================================
import os
import re
import json
import fitz  # PyMuPDF
import pandas as pd
from tqdm import tqdm
from rich import print
import google.generativeai as genai
from IPython.display import display, Image
from google.colab import files

# ========================================
# 3. Configuración de la API de Gemini
# ========================================
genai.configure(api_key="INGRESA TU CLAVE DE API")

# ========================================
# 4. Funciones Auxiliares
# ========================================

def response_json_to_dict(response_text):
    """Extrae un bloque JSON desde una respuesta de Gemini."""
    match = re.search(r"```json\s*(.*?)\s*```", response_text, re.DOTALL)
    if match:
        try:
            return json.loads(match.group(1))
        except json.JSONDecodeError:
            return None
    return None

def pdf_to_images(pdf_path, output_folder, pages):
    """Convierte páginas de un PDF a imágenes PNG."""
    os.makedirs(output_folder, exist_ok=True)
    doc = fitz.open(pdf_path)
    img_paths = []
    for i in pages:
        pix = doc[i].get_pixmap(dpi=300)
        img_path = os.path.join(output_folder, f"page_{i+1}.png")
        pix.save(img_path)
        img_paths.append(img_path)
    return img_paths

def extract_table_from_image(img_path, prompt):
    """Envía imagen a Gemini y devuelve respuesta como texto."""
    model = genai.GenerativeModel("gemini-1.5-flash")
    with open(img_path, "rb") as f:
        image_bytes = f.read()
    response = model.generate_content([
        {"text": prompt},
        {
            "inline_data": {
                "mime_type": "image/png",
                "data": image_bytes
            }
        }
    ])
    return response.text

# ========================================
# 5. Carga del archivo PDF
# ========================================
uploaded = files.upload()
pdf_file = next(iter(uploaded))  # Solo se toma el primer archivo cargado

# ========================================
# 6. Procesamiento del PDF
# ========================================
# Detectar número total de páginas
doc_temp = fitz.open(pdf_file)
total_paginas = doc_temp.page_count
paginas = list(range(total_paginas))
doc_temp.close()

# Convertir PDF a imágenes
output_folder = "imagenes_pdf"
imagenes = pdf_to_images(pdf_file, output_folder, paginas)

# ========================================
# 7. Prompt de extracción
# ========================================
prompt = """
Detecta y extrae cualquier tabla presente en esta imagen, sin asumir encabezados fijos ni nombres de columnas.
Además, extrae el número del documento (ejemplo: F002-00000390) que suele estar en la esquina superior derecha.

Devuélvelo como JSON estructurado en este formato:

{
  "numero_documento": "F002-00000390",
  "detalle": [
    { ... },  // fila 1
    { ... },  // fila 2
    ...
  ]
}

No agregues texto adicional, solo el JSON.
"""

# ========================================
# 8. Extracción de datos desde cada imagen
# ========================================
todas_las_filas = []

for img_path in tqdm(imagenes, desc="Procesando imágenes"):
    texto = extract_table_from_image(img_path, prompt)
    json_result = response_json_to_dict(texto)

    if json_result and "detalle" in json_result:
        try:
            df = pd.DataFrame(json_result["detalle"])
            numero = json_result.get("numero_documento", "SinDocumento")
            df["NroDocumento"] = numero
            todas_las_filas.append(df)
            print(f"[✅] Procesado: {os.path.basename(img_path)} con documento {numero}")
        except Exception as e:
            print(f"[❌] Error procesando {os.path.basename(img_path)}: {e}")

# ========================================
# 9. Consolidación y visualización
# ========================================
if todas_las_filas:
    df_final = pd.concat(todas_las_filas, ignore_index=True)
    df_final.to_csv("facturas_consolidadas.csv", index=False, encoding="utf-8-sig", sep=";")
    print("✅ Archivo consolidado guardado como: facturas_consolidadas.csv")
    display(df_final.head())
else:
    print("[⚠️] No se extrajeron datos válidos.")





Saving CustInvc_711696.pdf to CustInvc_711696 (1).pdf


Procesando imágenes:   0%|          | 0/1 [00:00<?, ?it/s]

Procesando imágenes: 100%|██████████| 1/1 [00:04<00:00,  4.61s/it]


Unnamed: 0,Cantidad,Item,Descripción,Opciones,Rate,Monto,NroDocumento
0,18,PT-0082,OBLEAS CON MANJAR X 240G,,PEN8.474576,PEN152.54,B001-00040402
