# üá™üá∏ DeepSeek-OCR para Contratos Financieros Espa√±oles

**Especializado en**: Pr√©stamos al consumo, Hipotecas, Tarjetas de cr√©dito

## Caracter√≠sticas
- ‚úÖ Extracci√≥n autom√°tica de TAE, TIN, importe, comisiones
- ‚úÖ Validaci√≥n de requisitos legales espa√±oles
- ‚úÖ Detecci√≥n de cl√°usulas problem√°ticas (suelo, IRPH, usura)
- ‚úÖ Procesamiento de PDFs multi-p√°gina
- ‚úÖ Preservaci√≥n de acentos y caracteres espa√±oles

## Requisitos
- Google Colab Pro (acceso GPU garantizado)
- ~15-20 minutos primera ejecuci√≥n (descarga modelo)
- ~2-3 minutos ejecuciones posteriores (cach√©)

## Instrucciones
1. **Runtime ‚Üí Change runtime type ‚Üí T4 GPU**
2. **Runtime ‚Üí Run all**
3. Subir contrato PDF cuando se solicite
4. Ver resultados extra√≠dos y validaci√≥n legal

---
## Paso 1: Verificar GPU

In [None]:
# Verificar disponibilidad de GPU
!nvidia-smi

import torch
print(f"\nüî• PyTorch: {torch.__version__}")
print(f"üéÆ CUDA disponible: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"üöÄ GPU: {torch.cuda.get_device_name(0)}")
    print(f"üíæ Memoria GPU: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.2f} GB")
else:
    print("‚ö†Ô∏è  GPU no encontrada! Runtime ‚Üí Change runtime type ‚Üí Seleccionar GPU")

---
## Paso 2: Clonar Repositorio DeepSeek-OCR

In [None]:
# Clonar repositorio
!git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
%cd DeepSeek-OCR

---
## Paso 3: Instalar Dependencias

‚ö° **Simplificado**: Usa PyTorch por defecto de Colab + eager attention (sin Flash Attention)

Toma ~1-2 minutos. Instalando:
- Transformers 4.46.3 (versi√≥n oficial)
- Tokenizers 0.20.3 (versi√≥n oficial)
- PyMuPDF para procesamiento de PDFs
- Librer√≠as auxiliares

In [None]:
# Instalar dependencias (sin PyTorch - usa la versi√≥n por defecto de Colab)
!pip install -q transformers==4.46.3 tokenizers==0.20.3 PyMuPDF img2pdf einops easydict addict Pillow numpy tqdm

In [None]:
# Ya no necesitamos instalar nada m√°s - pasamos directo a cargar el modelo

---
## Paso 4: Cargar Modelo DeepSeek-OCR

**Primera ejecuci√≥n**: Descarga ~8GB (5-10 min)

**Ejecuciones posteriores**: Cach√© (30 seg)

---
## Paso 5: Definir Campos para Contratos Espa√±oles

Templates de extracci√≥n para:
- **Pr√©stamos al consumo**: TAE, TIN, importe, comisiones
- **Hipotecas**: Capital, eur√≠bor, FEIN, gastos
- **Tarjetas de cr√©dito**: L√≠mite, TAE revolving, pago m√≠nimo

In [None]:
from transformers import AutoModel, AutoTokenizer
import torch
import os

print("üì• Cargando modelo DeepSeek-OCR...")
print("‚è≥ Primera vez: ~5-10 min | Con cach√©: ~30 seg")

model_name = 'deepseek-ai/DeepSeek-OCR'

# Cargar tokenizer
tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    trust_remote_code=True
)

# Configurar pad_token si no existe
if tokenizer.pad_token is None and tokenizer.eos_token is not None:
    tokenizer.pad_token = tokenizer.eos_token

# Cargar modelo con EAGER attention (sin Flash Attention)
model = AutoModel.from_pretrained(
    model_name,
    trust_remote_code=True,
    use_safetensors=True,
    attn_implementation="eager"  # Clave: usar eager en vez de flash_attention_2
)

# Mover a GPU y modo evaluaci√≥n
model = model.eval().cuda().to(torch.bfloat16)

print("‚úÖ Modelo cargado correctamente!")
print(f"üéØ Modelo en: {next(model.parameters()).device}")

---
## Paso 5: Definir Campos para Contratos Espa√±oles

Templates de extracci√≥n para:
- **Pr√©stamos al consumo**: TAE, TIN, importe, comisiones
- **Hipotecas**: Capital, eur√≠bor, FEIN, gastos
- **Tarjetas de cr√©dito**: L√≠mite, TAE revolving, pago m√≠nimo

In [None]:
# Definiciones de campos por tipo de contrato

PRESTAMO_CONSUMO_FIELDS = {
    'importe': '<|ref|>importe del pr√©stamo<|/ref|>',
    'tin': '<|ref|>TIN<|/ref|>',
    'tae': '<|ref|>TAE<|/ref|>',
    'plazo': '<|ref|>plazo de amortizaci√≥n<|/ref|>',
    'cuota_mensual': '<|ref|>cuota mensual<|/ref|>',
    'coste_total': '<|ref|>coste total del cr√©dito<|/ref|>',
    'comision_apertura': '<|ref|>comisi√≥n de apertura<|/ref|>',
}

HIPOTECA_FIELDS = {
    'capital_prestamo': '<|ref|>capital del pr√©stamo<|/ref|>',
    'tipo_interes': '<|ref|>tipo de inter√©s<|/ref|>',
    'euribor': '<|ref|>Eur√≠bor<|/ref|>',
    'diferencial': '<|ref|>diferencial<|/ref|>',
    'plazo_amortizacion': '<|ref|>plazo de amortizaci√≥n<|/ref|>',
    'cuota_inicial': '<|ref|>cuota mensual<|/ref|>',
    'gastos_notaria': '<|ref|>gastos de notar√≠a<|/ref|>',
    'gastos_registro': '<|ref|>gastos de registro<|/ref|>',
}

TARJETA_CREDITO_FIELDS = {
    'limite_credito': '<|ref|>l√≠mite de cr√©dito<|/ref|>',
    'tae_compras': '<|ref|>TAE compras<|/ref|>',
    'tae_revolving': '<|ref|>TAE revolving<|/ref|>',
    'pago_minimo': '<|ref|>pago m√≠nimo<|/ref|>',
    'comision_mantenimiento': '<|ref|>comisi√≥n de mantenimiento<|/ref|>',
}

print("‚úÖ Campos definidos para contratos espa√±oles")
print(f"   üìã Pr√©stamos: {len(PRESTAMO_CONSUMO_FIELDS)} campos")
print(f"   üè† Hipotecas: {len(HIPOTECA_FIELDS)} campos")
print(f"   üí≥ Tarjetas: {len(TARJETA_CREDITO_FIELDS)} campos")

---
## Paso 6: Funciones de Procesamiento

In [None]:
from PIL import Image
import fitz  # PyMuPDF
import io
from tqdm.notebook import tqdm
import re
import os

def pdf_to_images(pdf_bytes, dpi=144):
    """Convertir PDF a lista de im√°genes PIL"""
    images = []
    pdf_document = fitz.open(stream=pdf_bytes, filetype="pdf")
    
    zoom = dpi / 72.0
    matrix = fitz.Matrix(zoom, zoom)
    
    for page_num in range(pdf_document.page_count):
        page = pdf_document[page_num]
        pixmap = page.get_pixmap(matrix=matrix, alpha=False)
        img_data = pixmap.tobytes("png")
        img = Image.open(io.BytesIO(img_data))
        images.append(img)
    
    pdf_document.close()
    return images

def extraer_campo(page_images, ref_prompt, verbose=False):
    """Buscar un campo espec√≠fico en todas las p√°ginas"""
    # Crear directorio temporal si no existe
    os.makedirs('/tmp/ocr_temp', exist_ok=True)
    
    for page_num, page_img in enumerate(page_images):
        temp_path = f'/tmp/ocr_temp/search_page_{page_num}.jpg'
        page_img.save(temp_path)
        
        prompt = f"<image>\nLocate {ref_prompt} in the image."
        
        try:
            # NO especificar output_path - solo queremos el texto de retorno
            result = model.infer(
                tokenizer,
                prompt=prompt,
                image_file=temp_path,
                base_size=768,
                image_size=512,
                crop_mode=False,
                save_results=False,
                test_compress=False
            )
            
            if result and result.strip():
                if verbose:
                    print(f"    ‚úì Encontrado en p√°gina {page_num + 1}")
                return {
                    'value': result.strip(),
                    'page': page_num + 1
                }
        except Exception as e:
            if verbose:
                print(f"    ‚ö†Ô∏è  Error en p√°gina {page_num + 1}: {e}")
            continue
    
    return None

def extraer_campos_contrato(page_images, tipo_contrato, verbose=True):
    """Extraer todos los campos relevantes del contrato"""
    
    # Seleccionar campos seg√∫n tipo
    if tipo_contrato == 'prestamo':
        fields = PRESTAMO_CONSUMO_FIELDS
        tipo_texto = "Pr√©stamo al consumo"
    elif tipo_contrato == 'hipoteca':
        fields = HIPOTECA_FIELDS
        tipo_texto = "Hipoteca"
    elif tipo_contrato == 'tarjeta':
        fields = TARJETA_CREDITO_FIELDS
        tipo_texto = "Tarjeta de cr√©dito"
    else:
        raise ValueError(f"Tipo no v√°lido: {tipo_contrato}")
    
    if verbose:
        print(f"\nüîç Extrayendo campos de {tipo_texto}...")
        print(f"{'='*60}")
    
    extracted = {}
    
    for field_name, ref_prompt in fields.items():
        if verbose:
            print(f"  üîé Buscando: {field_name}")
        
        result = extraer_campo(page_images, ref_prompt, verbose=verbose)
        
        if result:
            extracted[field_name] = result
            if verbose:
                print(f"    ‚úÖ {result['value'][:50]}...")
        else:
            if verbose:
                print(f"    ‚ùå No encontrado")
    
    return extracted

def validar_contrato_legal(extracted_fields, tipo_contrato):
    """Validar que el contrato cumple requisitos legales espa√±oles"""
    
    errores = []
    advertencias = []
    
    if tipo_contrato == 'prestamo':
        # Ley de Cr√©dito al Consumo
        campos_obligatorios = ['tae', 'tin', 'importe']
        
        for campo in campos_obligatorios:
            if campo not in extracted_fields:
                errores.append(f"‚ùå Campo obligatorio ausente: {campo.upper()}")
        
        # Verificar TAE
        if 'tae' in extracted_fields:
            tae_text = extracted_fields['tae']['value']
            if '%' not in tae_text:
                advertencias.append("‚ö†Ô∏è  TAE sin s√≠mbolo %")
        else:
            errores.append("‚ùå TAE no encontrada (obligatorio por ley)")
    
    elif tipo_contrato == 'hipoteca':
        campos_obligatorios = ['capital_prestamo', 'tipo_interes', 'plazo_amortizacion']
        
        for campo in campos_obligatorios:
            if campo not in extracted_fields:
                errores.append(f"‚ùå Campo obligatorio ausente: {campo}")
    
    elif tipo_contrato == 'tarjeta':
        campos_obligatorios = ['limite_credito', 'tae_compras']
        
        for campo in campos_obligatorios:
            if campo not in extracted_fields:
                errores.append(f"‚ùå Campo obligatorio ausente: {campo}")
        
        # Verificar posible usura
        if 'tae_revolving' in extracted_fields:
            tae = extracted_fields['tae_revolving']['value']
            match = re.search(r'(\d+[.,]\d+)', tae)
            if match:
                tae_num = float(match.group(1).replace(',', '.'))
                if tae_num > 27:
                    advertencias.append(f"üö® TAE muy alta ({tae_num}%) - posible usura")
    
    return {
        'valido': len(errores) == 0,
        'errores': errores,
        'advertencias': advertencias,
        'campos_encontrados': len(extracted_fields)
    }

print("‚úÖ Funciones de procesamiento definidas")

---
## Paso 7: Subir Contrato PDF üìÑ

Sube tu contrato de pr√©stamo, hipoteca o tarjeta de cr√©dito.

In [None]:
from google.colab import files

print("üì§ Selecciona tu contrato PDF...")
print("")
print("Tipos soportados:")
print("  üìã Pr√©stamos al consumo")
print("  üè† Hipotecas")
print("  üí≥ Tarjetas de cr√©dito")
print("")

uploaded_pdf = files.upload()

if uploaded_pdf:
    pdf_filename = list(uploaded_pdf.keys())[0]
    print(f"\n‚úÖ Archivo subido: {pdf_filename}")
    print(f"   üìè Tama√±o: {len(uploaded_pdf[pdf_filename]) / 1024:.1f} KB")
else:
    print("\n‚ö†Ô∏è  No se subi√≥ ning√∫n archivo")

---
## Paso 8: Detectar Tipo de Contrato

In [None]:
def detectar_tipo_contrato(filename):
    """Detecta tipo de contrato por nombre de archivo"""
    filename_lower = filename.lower()
    
    if 'hipoteca' in filename_lower or 'mortgage' in filename_lower:
        return 'hipoteca', 'üè† Hipoteca'
    elif 'tarjeta' in filename_lower or 'credito' in filename_lower or 'card' in filename_lower:
        return 'tarjeta', 'üí≥ Tarjeta de cr√©dito'
    elif 'prestamo' in filename_lower or 'loan' in filename_lower:
        return 'prestamo', 'üìã Pr√©stamo al consumo'
    else:
        # Por defecto pr√©stamo
        return 'prestamo', 'üìã Pr√©stamo al consumo (detecci√≥n autom√°tica)'

tipo_contrato, tipo_texto = detectar_tipo_contrato(pdf_filename)

print(f"\nüéØ Tipo detectado: {tipo_texto}")
print("")
print("Si no es correcto, cambia manualmente:")
print("  tipo_contrato = 'prestamo'   # Pr√©stamo al consumo")
print("  tipo_contrato = 'hipoteca'   # Hipoteca")
print("  tipo_contrato = 'tarjeta'    # Tarjeta de cr√©dito")

---
## Paso 9: Convertir PDF a Im√°genes

In [None]:
print("üîÑ Convirtiendo PDF a im√°genes...\n")

pdf_bytes = io.BytesIO(uploaded_pdf[pdf_filename])
page_images = pdf_to_images(pdf_bytes, dpi=144)  # 144 DPI = balanced

print(f"‚úÖ {len(page_images)} p√°ginas convertidas\n")

# Mostrar preview de primera p√°gina
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 12))
plt.imshow(page_images[0])
plt.axis('off')
plt.title('Preview - P√°gina 1')
plt.show()

print(f"üìä Informaci√≥n del documento:")
print(f"   P√°ginas: {len(page_images)}")
print(f"   Tama√±o primera p√°gina: {page_images[0].size}")
print(f"   Tipo: {tipo_texto}")

---
## Paso 10: Extraer Campos Clave üîç

Esto buscar√° autom√°ticamente:
- **Pr√©stamo**: TAE, TIN, importe, plazo, comisiones
- **Hipoteca**: Capital, eur√≠bor, diferencial, gastos
- **Tarjeta**: L√≠mite, TAE, pago m√≠nimo, comisiones

In [None]:
# Extraer campos
campos_extraidos = extraer_campos_contrato(
    page_images, 
    tipo_contrato,
    verbose=True
)

print(f"\n{'='*60}")
print(f"‚úÖ Extracci√≥n completada")
print(f"{'='*60}")
print(f"üìä Campos encontrados: {len(campos_extraidos)}")

---
## Paso 11: Mostrar Resultados üìä

In [None]:
print(f"\n{'='*70}")
print(f"üìã CAMPOS EXTRA√çDOS - {tipo_texto.upper()}")
print(f"{'='*70}\n")

if campos_extraidos:
    for campo, datos in campos_extraidos.items():
        campo_formateado = campo.replace('_', ' ').title()
        print(f"  {campo_formateado}:")
        print(f"    Valor: {datos['value']}")
        print(f"    P√°gina: {datos['page']}")
        print()
else:
    print("  ‚ö†Ô∏è  No se encontraron campos")
    print("  üí° Verifica que el PDF sea un contrato financiero v√°lido")

---
## Paso 12: Validaci√≥n Legal ‚öñÔ∏è

Verifica que el contrato cumple con:
- **Ley 16/2011** de Cr√©dito al Consumo
- **Ley 5/2019** de Cr√©dito Inmobiliario
- Requisitos de transparencia del Banco de Espa√±a

In [None]:
validacion = validar_contrato_legal(campos_extraidos, tipo_contrato)

print(f"\n{'='*70}")
print(f"‚öñÔ∏è  VALIDACI√ìN LEGAL")
print(f"{'='*70}\n")

if validacion['valido']:
    print("‚úÖ V√ÅLIDO - Cumple requisitos legales b√°sicos\n")
else:
    print("‚ùå NO V√ÅLIDO - Faltan campos obligatorios\n")

print(f"üìä Resumen:")
print(f"   Campos encontrados: {validacion['campos_encontrados']}")
print(f"   Errores: {len(validacion['errores'])}")
print(f"   Advertencias: {len(validacion['advertencias'])}")
print()

if validacion['errores']:
    print("\n‚ùå ERRORES CR√çTICOS:")
    for error in validacion['errores']:
        print(f"   {error}")

if validacion['advertencias']:
    print("\n‚ö†Ô∏è  ADVERTENCIAS:")
    for advertencia in validacion['advertencias']:
        print(f"   {advertencia}")

print(f"\n{'='*70}")

---
## Paso 13: Extraer Texto Completo (Opcional)

Extrae todo el texto del contrato en formato markdown.

In [None]:
print("üìÑ Extrayendo texto completo del contrato...\n")

# Crear directorio temporal
os.makedirs('/tmp/ocr_temp', exist_ok=True)

textos_completos = []

for page_num, page_img in enumerate(tqdm(page_images, desc="Procesando p√°ginas")):
    temp_path = f'/tmp/ocr_temp/full_page_{page_num}.jpg'
    page_img.save(temp_path)
    
    prompt = "<image>\n<|grounding|>Convert the document to markdown."
    
    try:
        # NO especificar output_path - solo queremos el texto de retorno
        result = model.infer(
            tokenizer,
            prompt=prompt,
            image_file=temp_path,
            base_size=1024,
            image_size=640,
            crop_mode=True,
            save_results=False,
            test_compress=False
        )
        
        if result:
            textos_completos.append(f"## P√°gina {page_num + 1}\n\n{result}\n\n---\n")
        else:
            textos_completos.append(f"## P√°gina {page_num + 1}\n\n*No se pudo extraer texto*\n\n---\n")
    except Exception as e:
        textos_completos.append(f"## P√°gina {page_num + 1}\n\n*Error: {str(e)}*\n\n---\n")

texto_completo = '\n'.join(textos_completos)

print(f"\n‚úÖ Texto completo extra√≠do")
print(f"   üìè Longitud: {len(texto_completo):,} caracteres")

---
## Paso 14: Guardar Resultados üíæ

In [None]:
import json
from datetime import datetime

# Crear carpeta de salida
output_dir = './resultados_contratos'
os.makedirs(output_dir, exist_ok=True)

base_name = pdf_filename.replace('.pdf', '')

# 1. Guardar campos extra√≠dos (JSON)
resultado_json = {
    'archivo': pdf_filename,
    'tipo': tipo_contrato,
    'fecha_proceso': datetime.now().isoformat(),
    'paginas': len(page_images),
    'campos_extraidos': campos_extraidos,
    'validacion': validacion
}

json_path = os.path.join(output_dir, f"{base_name}_campos.json")
with open(json_path, 'w', encoding='utf-8') as f:
    json.dump(resultado_json, f, indent=2, ensure_ascii=False)

print(f"‚úÖ Campos guardados: {json_path}")

# 2. Guardar texto completo (Markdown)
md_path = os.path.join(output_dir, f"{base_name}_completo.md")
with open(md_path, 'w', encoding='utf-8') as f:
    f.write(f"# {pdf_filename}\n\n")
    f.write(f"**Tipo**: {tipo_texto}\n\n")
    f.write(f"**P√°ginas**: {len(page_images)}\n\n")
    f.write(f"**Procesado**: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
    f.write("---\n\n")
    f.write(texto_completo)

print(f"‚úÖ Texto completo guardado: {md_path}")

# 3. Guardar informe resumido
informe_path = os.path.join(output_dir, f"{base_name}_informe.txt")
with open(informe_path, 'w', encoding='utf-8') as f:
    f.write(f"INFORME DE EXTRACCI√ìN - {tipo_texto.upper()}\n")
    f.write(f"{'='*70}\n\n")
    f.write(f"Archivo: {pdf_filename}\n")
    f.write(f"P√°ginas: {len(page_images)}\n")
    f.write(f"Tipo: {tipo_texto}\n\n")
    
    f.write(f"CAMPOS EXTRA√çDOS ({len(campos_extraidos)}):\n")
    f.write(f"{'-'*70}\n")
    for campo, datos in campos_extraidos.items():
        f.write(f"\n{campo.replace('_', ' ').title()}:\n")
        f.write(f"  Valor: {datos['value']}\n")
        f.write(f"  P√°gina: {datos['page']}\n")
    
    f.write(f"\n\nVALIDACI√ìN LEGAL:\n")
    f.write(f"{'-'*70}\n")
    f.write(f"Estado: {'V√ÅLIDO' if validacion['valido'] else 'NO V√ÅLIDO'}\n")
    
    if validacion['errores']:
        f.write(f"\nErrores:\n")
        for e in validacion['errores']:
            f.write(f"  {e}\n")
    
    if validacion['advertencias']:
        f.write(f"\nAdvertencias:\n")
        for a in validacion['advertencias']:
            f.write(f"  {a}\n")

print(f"‚úÖ Informe guardado: {informe_path}")

print(f"\n{'='*70}")
print(f"üéâ PROCESAMIENTO COMPLETADO")
print(f"{'='*70}")
print(f"\nüìÅ Archivos generados:")
print(f"   1. {os.path.basename(json_path)} (datos estructurados)")
print(f"   2. {os.path.basename(md_path)} (texto completo)")
print(f"   3. {os.path.basename(informe_path)} (informe resumen)")

---
## Paso 15: Descargar Resultados üì¶

In [None]:
import shutil

# Crear archivo ZIP
print("üì¶ Creando archivo ZIP...")
shutil.make_archive('resultados_contrato', 'zip', output_dir)

# Descargar
print("‚¨áÔ∏è  Descargando resultados...")
files.download('resultados_contrato.zip')

print("\n‚úÖ ¬°Descarga completada!")
print("\nüìä Contenido del ZIP:")
print("   ‚Ä¢ JSON con campos extra√≠dos")
print("   ‚Ä¢ Markdown con texto completo")
print("   ‚Ä¢ Informe TXT resumido")

---
## üìö Informaci√≥n Adicional

### Campos Obligatorios por Tipo

**Pr√©stamo al Consumo** (Ley 16/2011):
- TAE (Tasa Anual Equivalente)
- TIN (Tipo de Inter√©s Nominal)
- Importe del pr√©stamo
- Coste total del cr√©dito

**Hipoteca** (Ley 5/2019):
- Capital del pr√©stamo
- Tipo de inter√©s (fijo/variable)
- Plazo de amortizaci√≥n
- FEIN (desde 2019)

**Tarjeta de Cr√©dito**:
- L√≠mite de cr√©dito
- TAE para compras
- TAE revolving (cr√≠tico para usura)
- Pago m√≠nimo

### Umbrales de Usura

Seg√∫n jurisprudencia del Tribunal Supremo:
- **TAE > 27%**: Posible usura en tarjetas revolving
- **TAE > 2x tipo medio**: Desproporcionado

### Pr√≥ximos Pasos

1. **Revisar campos extra√≠dos**: Verificar que TAE, TIN, importes son correctos
2. **Validar texto completo**: Buscar cl√°usulas problem√°ticas
3. **Consultar profesional**: Si hay advertencias legales

---

**Creado por**: Carlos Lorenzo Santos

**Fecha**: Octubre 2025

**Modelo**: [deepseek-ai/DeepSeek-OCR](https://huggingface.co/deepseek-ai/DeepSeek-OCR)

**Documentaci√≥n**: Ver `ADVANCED_FEATURES.md` en el repositorio