# Task 9 (Alternativo): Caching inteligente en herramientas (tools)

## Objetivo
Aprender a a√±adir **caching inteligente** a una herramienta para agentes, de forma que:
- La **primera llamada** sea lenta (simula API/c√°lculo costoso)
- Las **siguientes llamadas equivalentes** sean r√°pidas (cache hit)
- Tengamos **TTL** (caducidad), **m√©tricas** (hits/misses) y **observabilidad** por consola

### Por qu√© merece la pena contarlo
En producci√≥n, la mayor parte del coste/latencia suele estar en:
- llamadas a APIs / BBDD
- herramientas costosas
- o prompts repetidos.

Un cach√© bien dise√±ado reduce **latencia**, **coste** y **tasa de errores** (timeouts / rate limits).

In [None]:
import os
import time
import json
import hashlib
from typing import Annotated
from pydantic import Field
from dotenv import load_dotenv
from agent_framework import ChatAgent
from agent_framework.openai import OpenAIChatClient

load_dotenv()
base_url = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key = os.getenv("AZURE_OPENAI_API_KEY")
model_id = os.getenv("AZURE_OPENAI_DEPLOYMENT")

print("=" * 80)
print("‚úÖ Entorno configurado")
print(f"üìç Modelo: {model_id}")
print("=" * 80)

‚úÖ Entorno configurado
üìç Modelo: gpt-4


## Concepto: cach√© por par√°metros (no por prompt)

La forma m√°s robusta de cachear en un agente con tools es **cachear el resultado de la tool** usando
una clave derivada de sus **par√°metros estructurados** (los que el agente extrae).

Ventajas:
- Dos prompts distintos que implican el mismo c√°lculo terminan en la misma clave
- Evitas caches fr√°giles basados en texto libre
- Puedes a√±adir TTL e invalidaci√≥n por versi√≥n de herramienta

In [2]:
class TTLCache:
    def __init__(self, ttl_seconds: float, max_entries: int = 256):
        self.ttl_seconds = float(ttl_seconds)
        self.max_entries = int(max_entries)
        self._store: dict[str, tuple[float, object]] = {}
        self.hits = 0
        self.misses = 0

    def get(self, key: str):
        now = time.time()
        item = self._store.get(key)
        if item is None:
            self.misses += 1
            return None

        expires_at, value = item
        if now >= expires_at:
            # Caducado
            self._store.pop(key, None)
            self.misses += 1
            return None

        self.hits += 1
        return value

    def set(self, key: str, value):
        if len(self._store) >= self.max_entries:
            # Evicci√≥n simple: elimina un elemento cualquiera (suficiente para workshop)
            self._store.pop(next(iter(self._store)))
        self._store[key] = (time.time() + self.ttl_seconds, value)

    def stats(self) -> str:
        return f"hits={self.hits}, misses={self.misses}, entries={len(self._store)}"

CACHE_VERSION = "v1"
CACHE_NAVEGACION = TTLCache(ttl_seconds=8, max_entries=128)
print("‚úÖ TTLCache inicializado (TTL=8s)")

‚úÖ TTLCache inicializado (TTL=8s)


## Tool: c√°lculo warp con simulaci√≥n de coste (y cach√©)

Esta tool hace dos cosas:
- **Simula coste** con `time.sleep()` (como si llamara a una API o motor de c√°lculo)
- **Cachea** por par√°metros para que llamadas equivalentes sean instant√°neas

In [3]:
def _make_cache_key(operacion: str, factor_warp: float, distancia_anos_luz: float) -> str:
    payload = {
        "v": CACHE_VERSION,
        "op": str(operacion).strip().lower(),
        # Canonicalizamos floats para evitar claves distintas por 6 vs 6.0
        "warp": round(float(factor_warp), 3),
        "dist": round(float(distancia_anos_luz), 6),
    }
    blob = json.dumps(payload, sort_keys=True, ensure_ascii=False)
    return hashlib.sha256(blob.encode("utf-8")).hexdigest()

def calcular_trayectoria_warp_cacheada(
    operacion: Annotated[str, Field(description="La operaci√≥n: calcular_velocidad, calcular_distancia, calcular_tiempo, o calcular_energia")],
    factor_warp: Annotated[float, Field(description="Factor warp (1-9.99)")],
    distancia_anos_luz: Annotated[float, Field(description="Distancia en a√±os luz")],
) -> float:
    """C√°lculos warp con caching por par√°metros."""

    key = _make_cache_key(operacion, factor_warp, distancia_anos_luz)
    cached = CACHE_NAVEGACION.get(key)
    if cached is not None:
        print(f"‚ö° [CACHE HIT] {operacion} warp={factor_warp} dist={distancia_anos_luz} | {CACHE_NAVEGACION.stats()}")
        return float(cached)

    print(f"üê¢ [CACHE MISS] Ejecutando tool... {operacion} warp={factor_warp} dist={distancia_anos_luz}")
    # Simular coste de c√°lculo / llamada a servicio externo
    time.sleep(1.5)

    # F√≥rmula simplificada
    if operacion == "calcular_velocidad":
        resultado = factor_warp ** 3
    elif operacion == "calcular_distancia":
        resultado = distancia_anos_luz * (factor_warp ** 3)
    elif operacion == "calcular_tiempo":
        velocidad_efectiva = factor_warp ** 3
        resultado = 0 if velocidad_efectiva == 0 else (distancia_anos_luz / velocidad_efectiva) * 365.25
    elif operacion == "calcular_energia":
        resultado = (factor_warp ** 4) * distancia_anos_luz
    else:
        resultado = 0

    CACHE_NAVEGACION.set(key, float(resultado))
    print(f"üíæ [CACHE STORE] guardado | {CACHE_NAVEGACION.stats()}")
    return float(resultado)

print("‚úÖ Tool definida: calcular_trayectoria_warp_cacheada")

‚úÖ Tool definida: calcular_trayectoria_warp_cacheada


## Registrar la tool en un agente

Instrucci√≥n importante: forzamos que el agente use la tool para preguntas de navegaci√≥n, para que el cach√© se vea en el log.

In [4]:
agent = ChatAgent(
    chat_client=OpenAIChatClient(
        base_url=base_url,
        api_key=api_key,
        model_id=model_id,
    ),
    name="ComputadoraEnterpriseCache",
    instructions=(
        "Eres la computadora de navegaci√≥n de la USS Enterprise-D. ",
        "SIEMPRE usa la herramienta calcular_trayectoria_warp_cacheada para c√°lculos warp. ",
        "Responde en una sola l√≠nea, en espa√±ol, con el resultado num√©rico y la unidad cuando aplique.",
    ),
    tools=calcular_trayectoria_warp_cacheada,
)
print("‚úÖ Agente creado con tool cacheada")

‚úÖ Agente creado con tool cacheada


## Demo: misma pregunta, dos veces (cache hit visible)

Medimos el tiempo total de `agent.run()` y observamos los logs de la tool:
- Primera vez: `CACHE MISS` + ~1.5s
- Segunda vez: `CACHE HIT` + casi instant√°neo

In [5]:
async def medir(consulta: str):
    t0 = time.perf_counter()
    r = await agent.run(consulta)
    dt = time.perf_counter() - t0
    print(f"‚è±Ô∏è Tiempo total: {dt:.2f}s")
    print(f"üñ•Ô∏è Respuesta: {r.text}")
    return dt

consulta_a = "Computadora, ¬øcu√°nto tardaremos en llegar a Vulcano a warp 6 si est√° a 16 a√±os luz?"
consulta_b = "Dime el tiempo de viaje a 16 a√±os luz viajando a warp 6"

print("\n--- PRIMERA LLAMADA (espera CACHE MISS) ---")
await medir(consulta_a)

print("\n--- SEGUNDA LLAMADA (mismo c√°lculo, distinto prompt; espera CACHE HIT) ---")
await medir(consulta_b)


--- PRIMERA LLAMADA (espera CACHE MISS) ---
üê¢ [CACHE MISS] Ejecutando tool... calcular_tiempo warp=6.0 dist=16.0
üíæ [CACHE STORE] guardado | hits=0, misses=1, entries=1
‚è±Ô∏è Tiempo total: 3.89s
üñ•Ô∏è Respuesta: A velocidad warp 6, tomar√≠a aproximadamente 27.06 d√≠as llegar a Vulcano, que est√° a 16 a√±os luz de distancia.

--- SEGUNDA LLAMADA (mismo c√°lculo, distinto prompt; espera CACHE HIT) ---
‚ö° [CACHE HIT] calcular_tiempo warp=6.0 dist=16.0 | hits=1, misses=1, entries=1
‚è±Ô∏è Tiempo total: 1.20s
üñ•Ô∏è Respuesta: Viajando a warp 6, el tiempo estimado para recorrer 16 a√±os luz ser√≠a aproximadamente 27.06 d√≠as.


1.2038841999601573

## Demo: caducidad (TTL)

El cache tiene TTL=8s. Si esperamos lo suficiente, volvemos a ver `CACHE MISS`.

In [6]:
print("\nEsperando 9s para forzar expiraci√≥n...")
time.sleep(9)
print("\n--- TERCERA LLAMADA (despu√©s del TTL; espera CACHE MISS) ---")
await medir(consulta_a)
print("\nüìä Stats finales cache: " + CACHE_NAVEGACION.stats())


Esperando 9s para forzar expiraci√≥n...

--- TERCERA LLAMADA (despu√©s del TTL; espera CACHE MISS) ---
üê¢ [CACHE MISS] Ejecutando tool... calcular_tiempo warp=6.0 dist=16.0
üíæ [CACHE STORE] guardado | hits=1, misses=2, entries=1
‚è±Ô∏è Tiempo total: 3.31s
üñ•Ô∏è Respuesta: A warp 6, tardaremos aproximadamente 27.06 d√≠as en llegar a Vulcano, que est√° a 16 a√±os luz de distancia.

üìä Stats finales cache: hits=1, misses=2, entries=1


## Takeaways (para contar en el workshop)

- Cachear **tools** es m√°s estable que cachear prompts (la clave es estructurada)
- TTL evita respuestas obsoletas y sirve como invalidaci√≥n simple
- Las m√©tricas (hits/misses) te dicen si el cach√© aporta valor
- En producci√≥n, el siguiente paso es cach√© distribuido (Redis) + claves por tenant/usuario + trazas