# Pruebas de Escritorio y Validaci√≥n del API - Endpoint /verificar-persona

Este notebook contiene pruebas interactivas para validar el funcionamiento del endpoint `/verificar-persona` de la API de OCR y validaci√≥n de documentos.

## Objetivos:
- Validar la l√≥gica de puntuaci√≥n de documentos y nombres
- Probar diferentes escenarios de matching
- Verificar el comportamiento con par√°metros opcionales
- Realizar pruebas de integraci√≥n con el API

## 1. Configuraci√≥n del Entorno

In [None]:
# Instalar dependencias si es necesario
# !pip install -r requirements.txt

# Importar librer√≠as necesarias
import requests
import json
import time
from IPython.display import JSON, display, HTML

# Configuraci√≥n del servidor local
BASE_URL = "http://localhost:8000"  # Cambia si usas otro puerto
ENDPOINT = "/verificar-persona"

print("Configuraci√≥n completada")
print(f"API Base URL: {BASE_URL}")
print(f"Endpoint: {ENDPOINT}")

## 2. Funciones de Utilidad

In [None]:
def verificar_persona_api(nombre, documento, texto_evaluar, usar_bono=True, umbral_fuzzy=0.88):
    """
    Funci√≥n para hacer requests al endpoint /verificar-persona
    """
    url = f"{BASE_URL}{ENDPOINT}"
    params = {
        "usar_bono": str(usar_bono).lower(),
        "umbral_fuzzy": umbral_fuzzy
    }
    
    payload = {
        "nombre": nombre,
        "documento": documento,
        "texto_evaluar": texto_evaluar
    }
    
    try:
        response = requests.post(url, json=payload, params=params)
        return {
            "status_code": response.status_code,
            "success": response.status_code == 200,
            "data": response.json() if response.status_code == 200 else None,
            "error": response.text if response.status_code != 200 else None
        }
    except Exception as e:
        return {
            "status_code": None,
            "success": False,
            "data": None,
            "error": str(e)
        }

def mostrar_resultado(resultado, titulo="Resultado", mostrar_json=True):
    """
    Funci√≥n para mostrar resultados de manera formateada
    """
    print(f"\n{'='*50}")
    print(f"{titulo}")
    print(f"{'='*50}")
    
    if resultado["success"]:
        print(f"‚úÖ Status: {resultado['status_code']}")
        data = resultado["data"]
        print(f"üìä Score Total: {data['score']}/100")
        print(f"\nüìã Componentes:")
        print(f"   üìÑ Documento: {data['componentes']['documento']} pts")
        print(f"   üë§ Nombre: {data['componentes']['nombre']} pts")
        print(f"   üéØ Bono proximidad: {data['componentes']['bono_proximidad']} pts")
        
        if data['doc_match']['numero_encontrado']:
            print(f"\nüîç Documento encontrado: {data['doc_match']['numero_encontrado']}")
        
        if data['tokens_encontrados']:
            print(f"üîç Tokens de nombre encontrados: {', '.join(data['tokens_encontrados'])}")
            
        # Mostrar detalles del nombre
        if 'nombre_match' in data and 'detalles' in data['nombre_match']:
            print(f"\nüìù Detalles del matching de nombre:")
            for detalle in data['nombre_match']['detalles']:
                print(f"   - '{detalle['token']}': {detalle['tipo']}")
        
        # Mostrar JSON completo si se solicita
        if mostrar_json:
            print(f"\nüìÑ JSON Response completo:")
            print(json.dumps(data, indent=2, ensure_ascii=False))
    else:
        print(f"‚ùå Error: {resultado['error']}")
        print(f"Status Code: {resultado['status_code']}")
        if mostrar_json and resultado.get("error"):
            print(f"\nüìÑ Error Response:")
            print(resultado["error"])

def probar_caso(nombre, documento, texto, titulo, usar_bono=True, umbral_fuzzy=0.88, mostrar_json=True):
    """
    Funci√≥n para probar un caso espec√≠fico
    """
    resultado = verificar_persona_api(nombre, documento, texto, usar_bono, umbral_fuzzy)
    mostrar_resultado(resultado, titulo, mostrar_json)
    return resultado

## 3. Pruebas de Escritorio - L√≥gica de Puntuaci√≥n

### Reglas de Puntuaci√≥n:
- **Documento**: 60 pts (completo) / 45 pts (primeros 6 d√≠gitos) / 0 pts
- **Nombre**: 40 pts distribuidos entre tokens √∫tiles
- **Bono proximidad**: +5 pts m√°ximo si documento encontrado y ‚â•50% tokens nombre
- **Total**: M√°ximo 100 pts

In [None]:
# Prueba 1: Matching completo (esperado: 100 pts)
resultado1 = probar_caso(
    nombre="juan perez",
    documento="123456789",
    texto="juan perez documento 123456789",
    titulo="Prueba 1: Matching Completo"
)

In [None]:
# Prueba 2: Matching parcial de documento (esperado: 85 pts)
resultado2 = probar_caso(
    nombre="juan",
    documento="123456789",
    texto="juan documento 123456",
    titulo="Prueba 2: Documento Parcial + Nombre"
)

In [None]:
# Prueba 3: Sin matching (esperado: 0 pts)
resultado3 = probar_caso(
    nombre="pedro",
    documento="999999999",
    texto="juan documento 123456",
    titulo="Prueba 3: Sin Matching"
)

In [None]:
# Prueba 4: Matching difuso de nombre (esperado: ‚â•60 pts)
resultado4 = probar_caso(
    nombre="juan",
    documento="123456789",
    texto="juanito documento 123456789",
    titulo="Prueba 4: Matching Difuso de Nombre"
)

## 4. Pruebas con Par√°metros Opcionales

In [None]:
# Prueba 5: Sin bono de proximidad
resultado5 = probar_caso(
    nombre="juan perez",
    documento="123456789",
    texto="juan perez documento 123456789",
    titulo="Prueba 5: Sin Bono de Proximidad",
    usar_bono=False
)

In [None]:
# Prueba 6: Umbral fuzzy m√°s estricto
resultado6 = probar_caso(
    nombre="juan",
    documento="123456789",
    texto="juanito documento 123456789",
    titulo="Prueba 6: Umbral Fuzzy Estricto (0.95)",
    umbral_fuzzy=0.95
)

## 5. Pruebas de Edge Cases

In [None]:
# Prueba 7: Datos vac√≠os
resultado7 = probar_caso(
    nombre="",
    documento="",
    texto="",
    titulo="Prueba 7: Datos Vac√≠os"
)

In [None]:
# Prueba 8: Texto con ruido
resultado8 = probar_caso(
    nombre="maria garcia",
    documento="987654321",
    texto="en el documento de maria garcia numero 987654321 se encuentra la informacion solicitada",
    titulo="Prueba 8: Texto con Ruido"
)

In [None]:
# Prueba 9: Nombre con stopwords
resultado9 = probar_caso(
    nombre="juan de la cruz",
    documento="111222333",
    texto="juan cruz documento 111222333",
    titulo="Prueba 9: Nombre con Stopwords"
)

## 6. Pruebas de Rendimiento

In [None]:
# Prueba de rendimiento con m√∫ltiples requests
def prueba_rendimiento(num_requests=10):
    print(f"\nüöÄ Ejecutando {num_requests} requests para medir rendimiento...")
    
    tiempos = []
    for i in range(num_requests):
        start_time = time.time()
        resultado = verificar_persona_api(
            "juan perez", "123456789", "juan perez documento 123456789"
        )
        end_time = time.time()
        tiempos.append(end_time - start_time)
        
        if not resultado["success"]:
            print(f"‚ùå Request {i+1} fall√≥")
            break
    
    if tiempos:
        avg_time = sum(tiempos) / len(tiempos)
        min_time = min(tiempos)
        max_time = max(tiempos)
        
        print(f"\nüìä Estad√≠sticas de Rendimiento:")
        print(f"   Promedio: {avg_time:.4f} segundos")
        print(f"   M√≠nimo: {min_time:.4f} segundos")
        print(f"   M√°ximo: {max_time:.4f} segundos")
        print(f"   Total requests exitosos: {len(tiempos)}/{num_requests}")

# Ejecutar prueba de rendimiento
prueba_rendimiento(5)

## 7. Validaci√≥n del API - Checklist

In [None]:
# Funci√≥n para validar que el API est√© funcionando correctamente
def validar_api():
    print("üîç Validando funcionamiento del API...\n")
    
    checks = [
        {
            "name": "API reachable",
            "test": lambda: requests.get(f"{BASE_URL}/").status_code == 200
        },
        {
            "name": "Endpoint /verificar-persona exists",
            "test": lambda: verificar_persona_api("test", "test", "test")["status_code"] is not None
        },
        {
            "name": "Full match returns 100",
            "test": lambda: verificar_persona_api("juan", "123", "juan 123")["data"]["score"] == 100
        },
        {
            "name": "No match returns 0",
            "test": lambda: verificar_persona_api("xxx", "999", "yyy 111")["data"]["score"] == 0
        },
        {
            "name": "Response structure correct",
            "test": lambda: all(key in verificar_persona_api("a", "b", "c")["data"] for key in ["score", "componentes", "doc_match", "nombre_match"])
        }
    ]
    
    passed = 0
    total = len(checks)
    
    for check in checks:
        try:
            result = check["test"]()
            if result:
                print(f"‚úÖ {check['name']}")
                passed += 1
            else:
                print(f"‚ùå {check['name']}")
        except Exception as e:
            print(f"‚ùå {check['name']}: Error - {str(e)}")
    
    print(f"\nüìä Resultado: {passed}/{total} checks pasaron")
    
    if passed == total:
        print("üéâ ¬°API validado exitosamente!")
    else:
        print("‚ö†Ô∏è  Algunos checks fallaron. Revisa la configuraci√≥n.")

# Ejecutar validaci√≥n
validar_api()

## 8. Instrucciones de Uso

### Para usar este notebook:

1. **Iniciar el servidor API**:
   ```bash
   cd /ruta/a/pdf2Image
   uvicorn app.main:app --reload
   ```

2. **Ejecutar las celdas** en orden desde la celda 1

3. **Verificar resultados** en las salidas de cada celda

4. **Personalizar pruebas** modificando los par√°metros en las funciones de prueba

### Casos de prueba incluidos:
- ‚úÖ Matching completo (100 pts)
- ‚úÖ Matching parcial (85 pts)
- ‚úÖ Sin matching (0 pts)
- ‚úÖ Matching difuso
- ‚úÖ Par√°metros opcionales
- ‚úÖ Edge cases
- ‚úÖ Rendimiento
- ‚úÖ Validaci√≥n del API

### Notas importantes:
- Aseg√∫rate de que el servidor est√© corriendo en `http://localhost:8000`
- Los textos deben estar **previamente limpiados** (sin tildes, min√∫sculas)
- El endpoint espera JSON con campos: `nombre`, `documento`, `texto_evaluar`
- Par√°metros opcionales: `usar_bono` (boolean), `umbral_fuzzy` (float)
- **JSON Response**: Cada prueba muestra el JSON completo de respuesta para inspecci√≥n detallada