## M√©todo: Descargar archivos Parquet y extraer im√°genes

El dataset de Hugging Face est√° en formato Parquet. Como `pyarrow` no funciona en tu sistema, vamos a:
1. Descargar el archivo Parquet directamente
2. Usar una librer√≠a alternativa para leerlo
3. Extraer las im√°genes

In [7]:
# Instalar fastparquet como alternativa a pyarrow
%pip install fastparquet

Collecting fastparquet
  Downloading fastparquet-2024.11.0-cp312-cp312-win_amd64.whl.metadata (4.3 kB)
Collecting cramjam>=2.3 (from fastparquet)
  Downloading cramjam-2.11.0-cp312-cp312-win_amd64.whl.metadata (681 bytes)
Downloading fastparquet-2024.11.0-cp312-cp312-win_amd64.whl (673 kB)
   ---------------------------------------- 0.0/673.3 kB ? eta -:--:--
   ---------------------------------------- 673.3/673.3 kB 4.4 MB/s eta 0:00:00
Downloading cramjam-2.11.0-cp312-cp312-win_amd64.whl (1.7 MB)
   ---------------------------------------- 0.0/1.7 MB ? eta -:--:--
   ---------------------------------------- 1.7/1.7 MB 15.4 MB/s eta 0:00:00
Installing collected packages: cramjam, fastparquet
Successfully installed cramjam-2.11.0 fastparquet-2024.11.0
Note: you may need to restart the kernel to use updated packages.




In [12]:
from os import path


In [8]:
# Descargar el archivo Parquet del dataset
import pandas as pd

repo_id = "katanaml-org/invoices-donut-data-v1"
filename = "data/train-00000-of-00001-a5c51039eab2980a.parquet"

print(f"üì• Descargando archivo Parquet del dataset...")
print(f"   Repositorio: {repo_id}")
print(f"   Archivo: {filename}")

try:
    # Descargar el archivo usando huggingface_hub
    parquet_file = hf_hub_download(
        repo_id=repo_id,
        filename=filename,
        repo_type="dataset"
    )
    
    print(f"‚úÖ Archivo descargado en: {parquet_file}")
    
    # Leer el archivo Parquet usando fastparquet
    df = pd.read_parquet(parquet_file, engine='fastparquet')
    
    print(f"‚úÖ Datos cargados exitosamente")
    print(f"üìä Total de registros: {len(df)}")
    print(f"üìã Columnas: {list(df.columns)}")
    
except Exception as e:
    print(f"‚ùå Error: {e}")
    print(f"\\nüí° Intentando m√©todo alternativo...")

üì• Descargando archivo Parquet del dataset...
   Repositorio: katanaml-org/invoices-donut-data-v1
   Archivo: data/train-00000-of-00001-a5c51039eab2980a.parquet


data/train-00000-of-00001-a5c51039eab298(‚Ä¶):   0%|          | 0.00/167M [00:00<?, ?B/s]

‚úÖ Archivo descargado en: C:\Users\Anuar\.cache\huggingface\hub\datasets--katanaml-org--invoices-donut-data-v1\snapshots\d2cde298e79c94fb05bc320999deb4b7889b0464\data\train-00000-of-00001-a5c51039eab2980a.parquet
‚úÖ Datos cargados exitosamente
üìä Total de registros: 425
üìã Columnas: ['ground_truth', 'image.bytes', 'image.path']


In [20]:
# Extraer y guardar facturas
import json
import io
from pathlib import Path
from PIL import Image
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

# CORRECCI√ìN: Usar Path() correctamente
facturas_dir = Path('../facturas_dataset')
facturas_dir.mkdir(parents=True, exist_ok=True)

num_samples = min(50, len(df))
print(f"\nüíæ Guardando {num_samples} facturas de ejemplo...\n")

for i in range(num_samples):
    try:
        row = df.iloc[i]
        
        # La imagen est√° en la columna 'image.bytes' (no 'image')
        if 'image.bytes' in row:
            image_bytes = row['image.bytes']
            
            # Abrir la imagen desde bytes
            image = Image.open(io.BytesIO(image_bytes))
            
            # Guardar como PNG
            png_path = facturas_dir / f"factura_{i+1}.png"
            image.save(png_path, 'PNG')
            print(f"‚úÖ Guardada imagen: {png_path.name}")
            
            # Convertir a PDF
            pdf_path = facturas_dir / f"factura_{i+1}.pdf"
            c = canvas.Canvas(str(pdf_path), pagesize=letter)
            
            # Calcular dimensiones
            img_width, img_height = image.size
            aspect = img_height / float(img_width)
            page_width, page_height = letter
            display_width = page_width - 40
            display_height = display_width * aspect
            
            if display_height > page_height - 40:
                display_height = page_height - 40
                display_width = display_height / aspect
            
            # Dibujar imagen
            c.drawImage(str(png_path), 20, page_height - display_height - 20,
                       width=display_width, height=display_height)
            c.save()
            print(f"‚úÖ Creado PDF: {pdf_path.name}")
            
            # Guardar metadata
            metadata = {
                "numero": i + 1,
                "ground_truth": row.get('ground_truth', ''),
                "image_path": row.get('image.path', ''),
                "archivos": {
                    "imagen": f"factura_{i+1}.png",
                    "pdf": f"factura_{i+1}.pdf"
                }
            }
            
            metadata_path = facturas_dir / f"factura_{i+1}_metadata.json"
            with open(metadata_path, 'w', encoding='utf-8') as f:
                json.dump(metadata, f, indent=2, ensure_ascii=False)
            
            print(f"‚úÖ Metadata guardada\n")
            
    except Exception as e:
        print(f"‚ùå Error procesando factura {i+1}: {e}\n")
        continue

print(f"\nüéâ Proceso completado!")
print(f"üìÅ Facturas guardadas en: {facturas_dir.absolute()}")


üíæ Guardando 50 facturas de ejemplo...

‚úÖ Guardada imagen: factura_1.png
‚úÖ Creado PDF: factura_1.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_2.png
‚úÖ Creado PDF: factura_2.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_3.png
‚úÖ Creado PDF: factura_3.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_4.png
‚úÖ Creado PDF: factura_4.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_5.png
‚úÖ Creado PDF: factura_5.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_6.png
‚úÖ Creado PDF: factura_6.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_7.png
‚úÖ Creado PDF: factura_7.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_8.png
‚úÖ Creado PDF: factura_8.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_9.png
‚úÖ Creado PDF: factura_9.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_10.png
‚úÖ Creado PDF: factura_10.pdf
‚úÖ Metadata guardada

‚úÖ Guardada imagen: factura_11.png
‚úÖ Creado PDF: factura_11.pdf
‚úÖ Meta

## üéØ Siguiente Paso

Ahora puedes usar las facturas descargadas en la interfaz web:

1. Ve a `http://localhost:3000/login`
2. Inicia sesi√≥n
3. Ve a `http://localhost:3000/extraccion`
4. Carga cualquiera de los archivos PDF de `facturas_dataset/`
5. Observa c√≥mo OpenAI extrae los datos autom√°ticamente
6. Compara con el ground truth en los archivos `_metadata.json`