# üìö RESUMEN SESI√ìN 4: Testing e Integraci√≥n con IA Generativa

**Prop√≥sito:** Cheat-sheet ejecutable con tablas de referencia r√°pida y snippets reutilizables.

**Contenido:**
- üß™ Testing con TestClient
- ü§ñ Integraci√≥n con OpenAI
- üîê Rate Limiting
- üîÑ Retry Logic
- üìä Tablas de referencia

In [None]:
# Instalaci√≥n r√°pida de dependencias
!pip install fastapi uvicorn[standard] pytest httpx openai python-dotenv -q

---

## üß™ TESTING CON TESTCLIENT

### Snippet 1: Test b√°sico GET

In [None]:
from fastapi import FastAPI
from fastapi.testclient import TestClient

app = FastAPI()

@app.get("/items/{item_id}")
def read_item(item_id: int):
    return {"item_id": item_id, "name": "Laptop"}

# Crear cliente de testing
client = TestClient(app)

# Hacer request
response = client.get("/items/1")

# Asserts
assert response.status_code == 200
assert response.json()["name"] == "Laptop"

print("‚úÖ Test GET b√°sico: OK")

### Snippet 2: Test POST con validaci√≥n Pydantic

In [None]:
from pydantic import BaseModel

app = FastAPI()

class Item(BaseModel):
    name: str
    price: float

@app.post("/items", status_code=201)
def create_item(item: Item):
    return {"created": item.dict()}

client = TestClient(app)

# Test exitoso
response_ok = client.post("/items", json={"name": "Mouse", "price": 25.0})
assert response_ok.status_code == 201

# Test con campo faltante (debe retornar 422)
response_error = client.post("/items", json={"price": 25.0})
assert response_error.status_code == 422

print("‚úÖ Test POST: OK")

### Snippet 3: Fixture reutilizable

In [None]:
def get_test_client():
    """Fixture que retorna cliente configurado"""
    app = FastAPI()
    
    @app.get("/health")
    def health():
        return {"status": "ok"}
    
    return TestClient(app)

# Usar en m√∫ltiples tests
def test_health():
    client = get_test_client()
    response = client.get("/health")
    assert response.status_code == 200

test_health()
print("‚úÖ Fixture reutilizable: OK")

### Snippet 4: Mock de dependencia

In [None]:
from fastapi import Depends, HTTPException
from typing import Annotated

app = FastAPI()

# Dependencia real (simula auth)
def get_current_user():
    raise HTTPException(401, "No autenticado")

CurrentUser = Annotated[dict, Depends(get_current_user)]

@app.get("/profile")
def get_profile(user: CurrentUser):
    return {"username": user["username"]}

# Mock
def mock_user():
    return {"username": "testuser"}

# Reemplazar dependencia
app.dependency_overrides[get_current_user] = mock_user

client = TestClient(app)
response = client.get("/profile")
assert response.status_code == 200
assert response.json()["username"] == "testuser"

# Limpiar override
app.dependency_overrides = {}

print("‚úÖ Mock de dependencia: OK")

### üìä Tabla: Status Codes Comunes

| C√≥digo | Significado | Cu√°ndo usar |
|--------|-------------|-------------|
| 200 | OK | GET, PUT, PATCH exitoso |
| 201 | Created | POST que crea recurso |
| 400 | Bad Request | Error de validaci√≥n de negocio |
| 401 | Unauthorized | Falta autenticaci√≥n |
| 403 | Forbidden | Usuario autenticado pero sin permisos |
| 404 | Not Found | Recurso no existe |
| 422 | Unprocessable Entity | Error de validaci√≥n Pydantic |
| 429 | Too Many Requests | Rate limit excedido |
| 500 | Internal Server Error | Error del servidor |
| 503 | Service Unavailable | Servicio temporalmente no disponible |

---

## ü§ñ INTEGRACI√ìN CON OPENAI

### Snippet 5: Llamada b√°sica a OpenAI (async)

In [None]:
import asyncio
from openai import AsyncOpenAI

async def llamar_openai(prompt: str, max_tokens: int = 100):
    """Llamada as√≠ncrona a OpenAI"""
    client = AsyncOpenAI(api_key="sk-...")  # Usar variable de entorno # api_key=os.getenv("OPENAI_API_KEY")
    
    response = await client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Eres un asistente √∫til"},
            {"role": "user", "content": prompt}
        ],
        max_tokens=max_tokens,
        temperature=0.7
    )
    
    return response

# Ejemplo de uso
# response = await llamar_openai("Explica FastAPI en una l√≠nea")
# texto = response.choices[0].message.content
# tokens = response.usage.total_tokens

print("‚úÖ Snippet OpenAI async: Listo para usar")

### Snippet 6: Endpoint FastAPI con IA

In [None]:
app = FastAPI()

class PromptRequest(BaseModel):
    prompt: str
    max_tokens: int = 100

class PromptResponse(BaseModel):
    respuesta: str
    tokens_usados: int

@app.post("/ai/completar", response_model=PromptResponse)
async def completar(request: PromptRequest):
    # response = await llamar_openai(request.prompt, request.max_tokens)
    
    # Simular respuesta para el ejemplo
    return PromptResponse(
        respuesta=f"Respuesta simulada a: {request.prompt}",
        tokens_usados=30
    )

print("‚úÖ Endpoint con IA: Listo")

### üìä Tabla: Roles de Mensajes OpenAI

| Role | Prop√≥sito | Ejemplo |
|------|-----------|----------|
| system | Instrucciones globales del asistente | "Eres un experto en Python" |
| user | Mensaje del usuario | "¬øQu√© es FastAPI?" |
| assistant | Respuesta previa del asistente (para contexto) | "FastAPI es un framework..." |

### üìä Tabla: Par√°metros Clave

| Par√°metro | Rango | Descripci√≥n |
|-----------|-------|-------------|
| temperature | 0-2 | Creatividad (0=determinista, 2=muy creativo) |
| max_tokens | 1-‚àû | L√≠mite de tokens en respuesta |
| top_p | 0-1 | Alternativa a temperature (nucleus sampling) |
| presence_penalty | -2 a 2 | Penaliza repetici√≥n de temas |
| frequency_penalty | -2 a 2 | Penaliza repetici√≥n de palabras |

### üìä Tabla: Tokens y Costes (GPT-3.5-turbo)

| Concepto | Valor |
|----------|-------|
| 1 token | ‚âà 0.75 palabras (ingl√©s) |
| 100 tokens | ‚âà 75 palabras |
| Coste input | $0.50 / 1M tokens |
| Coste output | $1.50 / 1M tokens |
| 1K tokens input | $0.0005 |
| 1K tokens output | $0.0015 |

### Snippet 7: Calcular coste de una llamada

In [None]:
def calcular_coste_gpt35(prompt_tokens: int, completion_tokens: int) -> float:
    """Calcula coste en USD para GPT-3.5-turbo"""
    coste_input = (prompt_tokens * 0.50) / 1_000_000
    coste_output = (completion_tokens * 1.50) / 1_000_000
    return coste_input + coste_output

# Ejemplo: 500 tokens prompt + 200 tokens completion
coste = calcular_coste_gpt35(500, 200)
print(f"Coste: ${coste:.6f} USD")
print(f"Coste por 1000 llamadas: ${coste * 1000:.2f} USD")

---

## üîê RATE LIMITING

### Snippet 8: Rate limiter con ventana deslizante

In [None]:
from collections import defaultdict
from datetime import datetime, timedelta

rate_limit_store = defaultdict(list)

def check_rate_limit(user_id: str, max_requests: int = 10, window_minutes: int = 1) -> bool:
    """Verifica si el usuario excedi√≥ el l√≠mite
    
    Args:
        user_id: Identificador del usuario
        max_requests: N√∫mero m√°ximo de requests
        window_minutes: Ventana temporal en minutos
    
    Returns:
        True si puede hacer el request, False si excedi√≥ l√≠mite
    """
    now = datetime.now()
    window_start = now - timedelta(minutes=window_minutes)
    
    # Filtrar requests recientes
    recent = [req for req in rate_limit_store[user_id] if req > window_start]
    rate_limit_store[user_id] = recent
    
    # Verificar l√≠mite
    if len(recent) >= max_requests:
        return False
    
    # Registrar request actual
    rate_limit_store[user_id].append(now)
    return True

# Ejemplo de uso
print("Request 1:", check_rate_limit("user123", max_requests=3))  # True
print("Request 2:", check_rate_limit("user123", max_requests=3))  # True
print("Request 3:", check_rate_limit("user123", max_requests=3))  # True
print("Request 4:", check_rate_limit("user123", max_requests=3))  # False (excedido)

### Snippet 9: Endpoint con rate limiting

In [None]:
from fastapi import HTTPException

app = FastAPI()

@app.post("/api/action")
async def action(user_id: str):
    # Verificar rate limit
    if not check_rate_limit(user_id, max_requests=10):
        raise HTTPException(
            status_code=429,
            detail="Rate limit excedido. Intenta en 1 minuto."
        )
    
    # Procesar request
    return {"status": "ok"}

print("‚úÖ Endpoint con rate limiting: Listo")

### üìä Tabla: Estrategias de Rate Limiting

| Estrategia | Descripci√≥n | Ventajas | Desventajas |
|------------|-------------|----------|-------------|
| Fixed Window | Contador que resetea cada minuto | Simple | Burst al inicio/fin de ventana |
| Sliding Window | Solo cuenta √∫ltimos N segundos | M√°s justo | Requiere almacenar timestamps |
| Token Bucket | Tokens se regeneran con el tiempo | Permite bursts controlados | M√°s complejo |
| Leaky Bucket | Procesa requests a tasa constante | Suaviza tr√°fico | Puede rechazar requests v√°lidos |

#### Nota: En producci√≥n con m√∫ltiples servidores, usar Redis en lugar de un diccionario en memoria para compartir el estado.

---

## üîÑ RETRY LOGIC

### Snippet 10: Retry con backoff exponencial

In [None]:
import asyncio
from fastapi import HTTPException

async def llamar_api_con_retry(url: str, max_intentos: int = 3):
    """Llama a API externa con reintentos y backoff exponencial
    
    Args:
        url: URL de la API
        max_intentos: N√∫mero m√°ximo de reintentos
    
    Returns:
        Respuesta de la API
    
    Raises:
        HTTPException 503 si fallan todos los intentos
    """
    for intento in range(max_intentos):
        try:
            # Intentar llamada
            # response = await httpx.AsyncClient().get(url)
            # return response.json()
            
            # Simulaci√≥n
            if intento < 2:
                raise Exception("Error temporal")
            return {"data": "success"}
        
        except Exception as e:
            espera = 2 ** intento  # 1s, 2s, 4s, 8s...
            
            if intento < max_intentos - 1:
                print(f"Intento {intento + 1} fall√≥. Esperando {espera}s...")
                await asyncio.sleep(espera)
            else:
                raise HTTPException(503, "Servicio no disponible")

# Ejemplo
resultado = await llamar_api_con_retry("https://api.example.com")
print(f"‚úÖ Retry exitoso: {resultado}")

### üìä Tabla: Comparaci√≥n de Estrategias de Retry

| Estrategia | Intento 1 | Intento 2 | Intento 3 | Intento 4 | Total |
|------------|-----------|-----------|-----------|-----------|-------|
| Sin espera | 0s | 0s | 0s | 0s | 0s |
| Espera fija (1s) | 0s | 1s | 2s | 3s | 6s |
| Exponencial (2^n) | 0s | 1s | 3s | 7s | 11s |
| Fibonacci | 0s | 1s | 2s | 4s | 7s |

### üìä Tabla: Cu√°ndo Usar Retry

| Status Code | ¬øReintentar? | Raz√≥n |
|-------------|--------------|-------|
| 500 | ‚úÖ S√≠ | Error temporal del servidor |
| 502 | ‚úÖ S√≠ | Bad gateway (proxy temporalmente ca√≠do) |
| 503 | ‚úÖ S√≠ | Service unavailable (sobrecarga temporal) |
| 504 | ‚úÖ S√≠ | Gateway timeout |
| 429 | ‚úÖ S√≠ | Rate limit (esperar m√°s tiempo) |
| 400 | ‚ùå No | Bad request (el request est√° mal) |
| 401 | ‚ùå No | Unauthorized (falta auth) |
| 403 | ‚ùå No | Forbidden (no tienes permisos) |
| 404 | ‚ùå No | Not found (recurso no existe) |
| 422 | ‚ùå No | Validaci√≥n fallida (datos incorrectos) |

---

## üìä LOGGING Y OBSERVABILIDAD

### Snippet 11: Logging estructurado

In [None]:
import logging
import time

# Configurar logger
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

app = FastAPI()

@app.post("/api/process")
async def process(data: dict, user_id: str = "anonymous"):
    start_time = time.time()
    
    # Log del request
    logger.info(
        f"[REQUEST] user={user_id} "
        f"endpoint=/api/process "
        f"data_size={len(str(data))}"
    )
    
    # Procesar...
    await asyncio.sleep(0.1)  # Simular procesamiento
    
    # Log del response
    duration_ms = int((time.time() - start_time) * 1000)
    logger.info(
        f"[RESPONSE] user={user_id} "
        f"status=200 "
        f"duration={duration_ms}ms"
    )
    
    return {"status": "ok"}

print("‚úÖ Logging estructurado: Listo")

### üìä Tabla: Niveles de Logging

| Nivel | Cu√°ndo usar | Ejemplo |
|-------|-------------|----------|
| DEBUG | Informaci√≥n detallada para debugging | `logger.debug(f"Variable x={x}")` |
| INFO | Eventos normales importantes | `logger.info("Request procesado")` |
| WARNING | Situaciones anormales pero recuperables | `logger.warning("Cache miss")` |
| ERROR | Errores que permiten continuar | `logger.error("API call failed")` |
| CRITICAL | Errores graves que requieren atenci√≥n | `logger.critical("Database down")` |

---

## üîß PATRONES COMPLETOS

### Snippet 12: Endpoint de producci√≥n completo

In [None]:
from fastapi import FastAPI, Depends, HTTPException
from pydantic import BaseModel
import asyncio
import time
import logging

app = FastAPI()
logger = logging.getLogger(__name__)

class AIRequest(BaseModel):
    prompt: str
    max_tokens: int = 100

def get_current_user():
    return {"user_id": "user123", "tier": "premium"}

@app.post("/ai/complete")
async def complete(
    request: AIRequest,
    user: dict = Depends(get_current_user)
):
    """Endpoint de producci√≥n con todas las mejores pr√°cticas"""
    start_time = time.time()
    user_id = user["user_id"]
    
    # 1. Rate limiting
    if not check_rate_limit(user_id, max_requests=10):
        logger.warning(f"[RATE_LIMIT] user={user_id}")
        raise HTTPException(429, "Rate limit excedido")
    
    # 2. Validaci√≥n de negocio
    max_allowed = 500 if user["tier"] == "premium" else 100
    if request.max_tokens > max_allowed:
        raise HTTPException(400, f"max_tokens excede l√≠mite de {max_allowed}")
    
    # 3. Log request
    logger.info(
        f"[AI_REQUEST] user={user_id} "
        f"prompt_len={len(request.prompt)} "
        f"max_tokens={request.max_tokens}"
    )
    
    # 4. Llamada a IA con retry
    # response = await llamar_openai_con_retry(request.prompt, request.max_tokens)
    await asyncio.sleep(0.1)  # Simular
    
    # 5. Calcular m√©tricas
    tokens_used = 30
    coste = calcular_coste_gpt35(10, 20)
    duration_ms = int((time.time() - start_time) * 1000)
    
    # 6. Log response
    logger.info(
        f"[AI_RESPONSE] user={user_id} "
        f"tokens={tokens_used} "
        f"coste=${coste:.6f} "
        f"duration={duration_ms}ms"
    )
    
    # 7. Retornar con m√©tricas
    return {
        "respuesta": "Respuesta simulada",
        "tokens_usados": tokens_used,
        "coste_estimado": coste,
        "duracion_ms": duration_ms
    }

print("‚úÖ Endpoint de producci√≥n: Listo")

### üìä Tabla: Checklist de Endpoint de Producci√≥n

| Feature | Implementado | Descripci√≥n |
|---------|--------------|-------------|
| ‚úÖ Auth | S√≠ | Depends(get_current_user) |
| ‚úÖ Rate Limiting | S√≠ | check_rate_limit() |
| ‚úÖ Validaci√≥n | S√≠ | max_tokens con l√≠mites por tier |
| ‚úÖ Logging Request | S√≠ | logger.info() con contexto |
| ‚úÖ Logging Response | S√≠ | Incluye tokens, coste, duraci√≥n |
| ‚úÖ Retry Logic | S√≠ | Backoff exponencial |
| ‚úÖ Error Handling | S√≠ | HTTPException con status correcto |
| ‚úÖ M√©tricas | S√≠ | tokens, coste, duraci√≥n |
| ‚úÖ Type Hints | S√≠ | Pydantic models |
| ‚úÖ Documentaci√≥n | S√≠ | Docstring en endpoint |

---

## üéØ MEJORES PR√ÅCTICAS

### Testing
‚úÖ Usar TestClient para tests r√°pidos sin servidor  
‚úÖ Crear fixtures para reutilizar configuraci√≥n  
‚úÖ Mockear dependencias externas (DB, APIs, auth)  
‚úÖ Testear tanto happy path como casos de error  
‚úÖ Limpiar dependency_overrides despu√©s de cada test  

### Integraci√≥n con IA
‚úÖ Usar async/await para llamadas a APIs externas  
‚úÖ Implementar rate limiting (3-10 req/min)  
‚úÖ Validar max_tokens antes de llamar (ahorro de $$)  
‚úÖ Retry con backoff exponencial (2^n segundos)  
‚úÖ Logging estructurado (request + response)  
‚úÖ Calcular y trackear m√©tricas (tokens, coste, duraci√≥n)  

### Seguridad
‚úÖ Autenticaci√≥n en todos los endpoints sensibles  
‚úÖ Rate limiting por usuario (no global)  
‚úÖ Validaci√≥n de inputs (Pydantic + l√≥gica de negocio)  
‚úÖ L√≠mites de recursos (max_tokens, timeout)  
‚úÖ Logging de eventos de seguridad (rate limit, auth failures)  

### Performance
‚úÖ Usar endpoints async cuando hay I/O (DB, APIs)  
‚úÖ Implementar caching cuando sea apropiado  
‚úÖ Medir duraci√≥n de requests (logger.info con ms)  
‚úÖ Optimizar queries a DB (√≠ndices, N+1)  
‚úÖ Connection pooling para APIs externas

---

## üö´ ERRORES COMUNES

### Testing
‚ùå No limpiar `dependency_overrides` ‚Üí Afecta otros tests  
‚ùå Usar `response.text` en vez de `response.json()` ‚Üí Error de tipo  
‚ùå No verificar status code antes de acceder al JSON ‚Üí Puede fallar  
‚ùå Asumir que 422 es error del c√≥digo ‚Üí Es validaci√≥n Pydantic esperada  

### Async/Await
‚ùå Olvidar `await` ‚Üí Recibir coroutine en vez de resultado  
‚ùå Usar `def` en vez de `async def` ‚Üí No poder usar await  
‚ùå Usar blocking calls en async ‚Üí Bloquear el event loop  

### Rate Limiting
‚ùå Reintentar inmediatamente tras 429 ‚Üí Empeorar la situaci√≥n  
‚ùå Rate limit global en vez de por usuario ‚Üí Injusto  
‚ùå No limpiar timestamps antiguos ‚Üí Memory leak  

### Retry Logic
‚ùå Reintentar errores 4xx ‚Üí Desperdiciar recursos  
‚ùå No usar backoff exponencial ‚Üí Thundering herd  
‚ùå Reintentar infinitamente ‚Üí Sistema colgado  

### Costes
‚ùå No validar max_tokens antes de llamar ‚Üí $$$ desperdiciados  
‚ùå No trackear costes ‚Üí Facturas sorpresa  
‚ùå Permitir max_tokens ilimitado ‚Üí Vulnerabilidad de $$

---

## üì¶ DEPENDENCIAS NECESARIAS

```bash
pip install fastapi==0.115.0
pip install uvicorn[standard]==0.32.0
pip install pytest==8.0.0
pip install httpx==0.27.0
pip install openai==1.12.0
pip install python-dotenv==1.0.0
```

---

## üîó RECURSOS ADICIONALES

**Documentaci√≥n Oficial:**
- FastAPI Testing: https://fastapi.tiangolo.com/tutorial/testing/
- OpenAI API: https://platform.openai.com/docs/api-reference
- Pydantic: https://docs.pydantic.dev/

**Herramientas de Testing:**
- pytest: https://docs.pytest.org/
- httpx: https://www.python-httpx.org/

**Mejores Pr√°cticas:**
- Rate Limiting: https://www.ietf.org/rfc/rfc6585.txt
- Retry Logic: https://aws.amazon.com/es/blogs/architecture/exponential-backoff-and-jitter/