In [1]:
import asyncio
import os
import random
from typing import Optional, Tuple
from uuid import UUID

from clickhouse_connect import get_client
from tensorzero import AsyncTensorZeroGateway, InferenceResponse
from tqdm.asyncio import tqdm_asyncio

In [2]:
CLICKHOUSE_URL = os.getenv("CLICKHOUSE_URL")

# Example: "http://localhost:8123/tensorzero" ("https://user:password@host:port/database")
assert CLICKHOUSE_URL is not None, "CLICKHOUSE_URL is not set"

In [3]:
tensorzero_client = AsyncTensorZeroGateway("http://localhost:3000", timeout=5.0)

In [7]:
with open("nounlist.txt", "r") as file:
    nouns = [line.strip() for line in file]
    random.shuffle(nouns)

print(f"There are {len(nouns)} nouns in the list of haiku topics.")

There are 6801 nouns in the list of haiku topics.


In [8]:
async def write_grade_haiku(
    topic: str,
    client: AsyncTensorZeroGateway,
) -> Optional[Tuple[str, bool, UUID]]:
    # Infer against the TensorZero gateway using the write_haiku function
    # This will naturally sample from the variants configured in `tensorzero.toml`
    try:
        haiku_result: InferenceResponse = await client.inference(
            function_name="write_haiku",
            input={
                "messages": [
                    {
                        "role": "user",
                        "content": [{"type": "text", "value": {"topic": topic}}],
                    }
                ]
            },
        )
    except Exception as e:
        print(e)
        return None

    # The LLM is instructed to conclude with the haiku, so we extract the last 3 lines
    haiku_text = haiku_result.content[0].text
    haiku_lines = haiku_text.strip().split("\n")
    haiku_text = "\n".join(haiku_lines[-3:])
    inference_id = haiku_result.inference_id

    # Judge the haiku using a separate TensorZero function, but we can use the same episode_id to associate these inferences
    try:
        judge_result: InferenceResponse = await client.inference(
            function_name="judge_haiku",
            input={
                "messages": [
                    {
                        "role": "user",
                        "content": [
                            {
                                "type": "text",
                                "value": {"topic": topic, "haiku": haiku_text},
                            }
                        ],
                    }
                ]
            },
            episode_id=haiku_result.episode_id,
        )
    except Exception as e:
        print(e)
        return None

    score = judge_result.output.parsed["score"]
    return haiku_text, score, inference_id

In [9]:
# Run a bunch of haiku writing and grading tasks concurrently
max_concurrent_requests = 50
num_requests = 500
semaphore = asyncio.Semaphore(max_concurrent_requests)


async def ratelimited_write_grade_haiku(noun, client):
    async with semaphore:
        return await write_grade_haiku(noun, client)


tasks = [
    ratelimited_write_grade_haiku(noun, tensorzero_client)
    for noun in nouns[:num_requests]
]
results = await tqdm_asyncio.gather(*tasks)

  6%|█████████████▏                                                                                                                                                                                                      | 31/500 [00:06<00:41, 11.22it/s]







  8%|████████████████▌                                                                                                                                                                                                   | 39/500 [00:06<00:22, 20.35it/s]









  9%|███████████████████                                                                                                                                                                                                 | 45/500 [00:06<00:22, 20.27it/s]








 10%|████████████████████▎                                                                                                                                                                                               | 48/500 [00:06<00:26, 17.37it/s]







 11%|████████████████████████▏                                                                                                                                                                                           | 57/500 [00:09<01:43,  4.30it/s]





 13%|████████████████████████████▍                                                                                                                                                                                       | 67/500 [00:10<00:55,  7.78it/s]




 15%|███████████████████████████████▍                                                                                                                                                                                    | 74/500 [00:10<00:37, 11.36it/s]




 16%|█████████████████████████████████                                                                                                                                                                                   | 78/500 [00:10<00:32, 12.81it/s]






 18%|█████████████████████████████████████▋                                                                                                                                                                              | 89/500 [00:12<00:49,  8.35it/s]






 19%|████████████████████████████████████████▎                                                                                                                                                                           | 95/500 [00:12<00:36, 11.09it/s]





 19%|█████████████████████████████████████████▏                                                                                                                                                                          | 97/500 [00:12<00:44,  9.14it/s]





 20%|█████████████████████████████████████████▉                                                                                                                                                                          | 99/500 [00:13<00:44,  9.02it/s]





 21%|███████████████████████████████████████████▍                                                                                                                                                                       | 103/500 [00:13<00:36, 10.98it/s]





 25%|████████████████████████████████████████████████████▎                                                                                                                                                              | 124/500 [00:15<00:31, 12.09it/s]





 27%|████████████████████████████████████████████████████████▌                                                                                                                                                          | 134/500 [00:16<00:27, 13.35it/s]




 27%|█████████████████████████████████████████████████████████▍                                                                                                                                                         | 136/500 [00:16<00:34, 10.61it/s]




 28%|██████████████████████████████████████████████████████████▏                                                                                                                                                        | 138/500 [00:17<00:37,  9.60it/s]




 29%|█████████████████████████████████████████████████████████████▏                                                                                                                                                     | 145/500 [00:17<00:38,  9.28it/s]




 30%|██████████████████████████████████████████████████████████████▉                                                                                                                                                    | 149/500 [00:18<00:37,  9.35it/s]





 32%|███████████████████████████████████████████████████████████████████▌                                                                                                                                               | 160/500 [00:19<00:25, 13.31it/s]





 35%|█████████████████████████████████████████████████████████████████████████                                                                                                                                          | 173/500 [00:20<00:23, 13.73it/s]




 36%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                                      | 181/500 [00:21<00:36,  8.64it/s]




 38%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                                   | 188/500 [00:22<00:30, 10.12it/s]




 38%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                  | 190/500 [00:22<00:34,  8.91it/s]




 39%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                | 195/500 [00:22<00:33,  9.01it/s]





 39%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                                               | 197/500 [00:23<00:34,  8.66it/s]




 41%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                            | 205/500 [00:24<00:28, 10.50it/s]







 42%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                          | 209/500 [00:24<00:25, 11.22it/s]




 42%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                                          | 211/500 [00:24<00:30,  9.55it/s]





 43%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 213/500 [00:24<00:33,  8.63it/s]




 43%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 215/500 [00:25<00:41,  6.88it/s]






 44%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 222/500 [00:25<00:17, 15.51it/s]






 45%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                    | 225/500 [00:25<00:15, 17.78it/s]




 46%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 228/500 [00:26<00:17, 15.36it/s]




 47%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 233/500 [00:26<00:18, 14.30it/s]




 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 248/500 [00:27<00:20, 12.38it/s]




 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 250/500 [00:27<00:21, 11.61it/s]




 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 262/500 [00:30<00:33,  7.08it/s]




 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 267/500 [00:30<00:21, 10.94it/s]




 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 271/500 [00:31<00:22, 10.33it/s]




 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 276/500 [00:31<00:17, 12.59it/s]





 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 285/500 [00:31<00:12, 17.87it/s]






 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 288/500 [00:32<00:11, 18.17it/s]




 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 300/500 [00:33<00:17, 11.53it/s]




 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 304/500 [00:33<00:19, 10.31it/s]





 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 307/500 [00:34<00:33,  5.82it/s]




 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 314/500 [00:35<00:28,  6.45it/s]




 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 319/500 [00:36<00:19,  9.52it/s]




 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 325/500 [00:36<00:17,  9.95it/s]





 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 327/500 [00:36<00:16, 10.26it/s]




 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 329/500 [00:37<00:17,  9.60it/s]




 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 334/500 [00:37<00:14, 11.65it/s]






 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 341/500 [00:37<00:08, 19.06it/s]









 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 344/500 [00:38<00:12, 12.83it/s]




 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 346/500 [00:38<00:17,  8.71it/s]





 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 348/500 [00:39<00:20,  7.24it/s]






 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 352/500 [00:39<00:17,  8.35it/s]





 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 360/500 [00:39<00:10, 13.58it/s]




 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 364/500 [00:40<00:10, 12.56it/s]





 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 377/500 [00:41<00:17,  7.16it/s]





 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 383/500 [00:42<00:16,  7.22it/s]




 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 386/500 [00:43<00:15,  7.31it/s]





 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 393/500 [00:43<00:10, 10.69it/s]





 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 396/500 [00:43<00:08, 12.33it/s]







 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 398/500 [00:44<00:16,  6.13it/s]





 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 400/500 [00:44<00:16,  6.19it/s]




 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 409/500 [00:45<00:09,  9.27it/s]






 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 413/500 [00:46<00:08, 10.34it/s]




 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 417/500 [00:46<00:07, 11.83it/s]






 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 419/500 [00:46<00:06, 12.29it/s]





 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 424/500 [00:47<00:07, 10.10it/s]






 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 428/500 [00:47<00:06, 11.93it/s]





 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 433/500 [00:48<00:05, 11.79it/s]





 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 438/500 [00:48<00:03, 17.65it/s]








 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 441/500 [00:48<00:04, 12.30it/s]




 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 443/500 [00:48<00:05, 10.96it/s]




 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 445/500 [00:49<00:05,  9.36it/s]




 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 448/500 [00:49<00:07,  6.61it/s]






 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 459/500 [00:51<00:03, 10.35it/s]




 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 465/500 [00:52<00:04,  8.45it/s]






 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 473/500 [00:52<00:01, 15.55it/s]





 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 486/500 [00:53<00:01, 13.88it/s]




 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 492/500 [00:54<00:00, 11.88it/s]







 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 496/500 [00:54<00:00,  9.28it/s]





100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 499/500 [00:55<00:00,  5.59it/s]




100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [00:56<00:00,  8.87it/s]







In [11]:
async def send_haiku_feedback(
    client: AsyncTensorZeroGateway, inference_id: UUID, score: bool
):
    await client.feedback(
        metric_name="haiku_score", inference_id=inference_id, value=score
    )

In [12]:
# Send feedback to the haiku grading function
results = [result for result in results if result is not None]
tasks = [
    send_haiku_feedback(tensorzero_client, result[2], result[1]) for result in results
]
await tqdm_asyncio.gather(*tasks);

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 332/332 [00:01<00:00, 177.48it/s]


In [13]:
clickhouse_client = get_client(dsn=CLICKHOUSE_URL)

In [14]:
# Query the inferences and feedback from the database and join them on the inference ID
df = clickhouse_client.query_df("""SELECT 
    i.variant_name, 
    i.input, 
    i.output, 
    b.value
FROM 
    Inference i
JOIN 
    BooleanMetricFeedback b ON i.id = b.target_id
WHERE 
    i.function_name = 'write_haiku'""")

In [15]:
# Print the average score for each variant
df.groupby("variant_name")["value"].mean()

variant_name
initial_prompt_gpt4o_mini    0.153614
Name: value, dtype: float64