# DeepEval demo en Binder (deepeval_demo.ipynb)

Este cuaderno muestra dos rutas:
1) **Sin API keys** (usando `JsonCorrectnessMetric`, no requiere LLM).
2) **Con API key** (usando m√©tricas con LLM como `AnswerRelevancyMetric` y `GEVal`).

> **Sugerencia**: Si est√°s en Binder, este repo debe incluir un `requirements.txt` (ya preparado) para que el entorno se construya autom√°ticamente.

In [14]:

# === Instalaci√≥n/Comprobaci√≥n de dependencias ===
import importlib, sys, subprocess

def pip_install(*packages):
    subprocess.check_call([sys.executable, '-m', 'pip', 'install', '-q', '-U', *packages])

try:
    import deepeval  # noqa
except Exception:
    pip_install('deepeval', 'python-dotenv')

print('Entorno listo ‚úÖ')


In [15]:
from getpass import getpass
import os

os.environ ["OPENAI_API_KEY"] = getpass("Pega aqu√≠ tu clave API: ")

Pega aqu√≠ tu clave API:  ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑


## Parte A ¬∑ Evaluaci√≥n **sin API keys** (JsonCorrectnessMetric)
`JsonCorrectnessMetric` valida que el `actual_output` cumpla un **esquema JSON** (Pydantic). 
No utiliza un LLM, por lo que funciona sin configurar claves.

In [16]:

from pydantic import BaseModel, RootModel
from typing import List
from deepeval import evaluate
from deepeval.test_case import LLMTestCase
from deepeval.metrics import JsonCorrectnessMetric
from openai import OpenAI


client = OpenAI()  # lee la clave de OPENAI_API_KEY 

# Definimos el esquema esperado
class Item(BaseModel):
    name: str
    price: float

class ItemList(RootModel[List[Item]]):
    pass

metric = JsonCorrectnessMetric(
    expected_schema=ItemList,
    model="gpt-4o-mini",
    include_reason=False,   # no usamos LLM para la 'reason'
    strict_mode=True        # exige coincidencia exacta de esquema
)

# Dos casos de prueba: uno correcto y otro incorrecto
ok_output = '[{"name": "Cuaderno", "price": 3.5}, {"name": "Bol√≠grafo", "price": 1.2}]'
ko_output = '{"name": "Cuaderno", "price": "tres"}'  # NO es lista y price no es float

test_cases = [
    LLMTestCase(input='Devu√©lveme una lista de art√≠culos', actual_output=ok_output),
    LLMTestCase(input='Devu√©lveme una lista de art√≠culos', actual_output=ko_output),
]

# Ejecutamos la evaluaci√≥n
_ = evaluate(test_cases=test_cases, metrics=[metric])


## Parte B ¬∑ M√©tricas con **LLM** (requiere API key)
Las m√©tricas como `AnswerRelevancyMetric` o `GEVal` usan un **LLM como juez**. 
Por defecto DeepEval utiliza modelos de OpenAI; configura `OPENAI_API_KEY` (o usa otro proveedor soportado) antes de ejecutar.

In [17]:

# Ejemplo con AnswerRelevancyMetric + GEval
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.test_case import LLMTestCase, LLMTestCaseParams
from deepeval import evaluate

answer_relevancy = AnswerRelevancyMetric(
    threshold=0.7,
    model='gpt-4o-mini',      # puedes cambiar a otro modelo soportado
    include_reason=True,
)
tc = LLMTestCase(
    input="What if these shoes don't fit?",
    actual_output='We offer a 30-day full refund at no extra cost.',
    expected_output="You're eligible for a free full refund within 30 days of purchase.",
)

_ = evaluate([tc], [answer_relevancy])


---
### Notas
- Para ejecutar m√©tricas con LLM **sin OpenAI**, revisa la documentaci√≥n de modelos soportados (Anthropic, Gemini, Ollama, etc.) y pasa `model=...` al crear la m√©trica.
- Este cuaderno est√° preparado para ejecutarse en Binder si tu repo incluye `requirements.txt`.