diff --git a/.github/actions/eval/action.yml b/.github/actions/eval/action.yml
new file mode 100644
index 0000000..01d8ef3
--- /dev/null
+++ b/.github/actions/eval/action.yml
@@ -0,0 +1,176 @@
+name: "Selectools Eval"
+description: "Run selectools eval suite and post results as a PR comment"
+branding:
+  icon: "check-circle"
+  color: "blue"
+
+inputs:
+  cases:
+    description: "Path to test cases file (JSON/YAML)"
+    required: true
+  provider:
+    description: "Provider: local, openai, anthropic, gemini, ollama"
+    default: "local"
+  model:
+    description: "Model name (optional, uses provider default)"
+    required: false
+  name:
+    description: "Suite name"
+    default: "eval"
+  concurrency:
+    description: "Max parallel cases"
+    default: "1"
+  baseline-dir:
+    description: "Baseline directory for regression detection"
+    default: ""
+  html-report:
+    description: "Path to write HTML report"
+    default: ""
+  junit-report:
+    description: "Path to write JUnit XML report"
+    default: ""
+  python-version:
+    description: "Python version"
+    default: "3.13"
+  post-comment:
+    description: "Post results as PR comment (true/false)"
+    default: "true"
+
+outputs:
+  accuracy:
+    description: "Eval accuracy (0.0 - 1.0)"
+    value: ${{ steps.run-eval.outputs.accuracy }}
+  pass-count:
+    description: "Number of passing cases"
+    value: ${{ steps.run-eval.outputs.pass_count }}
+  fail-count:
+    description: "Number of failing cases"
+    value: ${{ steps.run-eval.outputs.fail_count }}
+  regression:
+    description: "Whether regressions were detected"
+    value: ${{ steps.run-eval.outputs.regression }}
+
+runs:
+  using: "composite"
+  steps:
+    - name: Set up Python
+      uses: actions/setup-python@v5
+      with:
+        python-version: ${{ inputs.python-version }}
+
+    - name: Install selectools
+      shell: bash
+      run: pip install selectools
+
+    - name: Run eval suite
+      id: run-eval
+      shell: bash
+      run: |
+        set +e
+
+        ARGS="run ${{ inputs.cases }} --name ${{ inputs.name }} --provider ${{ inputs.provider }} --concurrency ${{ inputs.concurrency }} --json /tmp/eval-results.json --verbose"
+
+        if [ -n "${{ inputs.model }}" ]; then
+          ARGS="$ARGS --model ${{ inputs.model }}"
+        fi
+        if [ -n "${{ inputs.html-report }}" ]; then
+          ARGS="$ARGS --html ${{ inputs.html-report }}"
+        fi
+        if [ -n "${{ inputs.junit-report }}" ]; then
+          ARGS="$ARGS --junit ${{ inputs.junit-report }}"
+        fi
+        if [ -n "${{ inputs.baseline-dir }}" ]; then
+          ARGS="$ARGS --baseline ${{ inputs.baseline-dir }}"
+        fi
+
+        python -m selectools.evals $ARGS
+        EXIT_CODE=$?
+
+        # Parse JSON results for outputs
+        if [ -f /tmp/eval-results.json ]; then
+          ACCURACY=$(python -c "import json; d=json.load(open('/tmp/eval-results.json')); print(d['summary']['accuracy'])")
+          PASS_COUNT=$(python -c "import json; d=json.load(open('/tmp/eval-results.json')); print(d['summary']['pass'])")
+          FAIL_COUNT=$(python -c "import json; d=json.load(open('/tmp/eval-results.json')); print(d['summary']['fail'])")
+          echo "accuracy=$ACCURACY" >> $GITHUB_OUTPUT
+          echo "pass_count=$PASS_COUNT" >> $GITHUB_OUTPUT
+          echo "fail_count=$FAIL_COUNT" >> $GITHUB_OUTPUT
+        fi
+
+        if [ $EXIT_CODE -ne 0 ]; then
+          echo "regression=true" >> $GITHUB_OUTPUT
+        else
+          echo "regression=false" >> $GITHUB_OUTPUT
+        fi
+
+        exit $EXIT_CODE
+
+    - name: Post PR comment
+      if: inputs.post-comment == 'true' && github.event_name == 'pull_request' && always()
+      uses: actions/github-script@v7
+      with:
+        script: |
+          const fs = require('fs');
+          let data;
+          try {
+            data = JSON.parse(fs.readFileSync('/tmp/eval-results.json', 'utf8'));
+          } catch (e) {
+            console.log('No eval results to post');
+            return;
+          }
+
+          const s = data.summary;
+          const accPct = (s.accuracy * 100).toFixed(1);
+          const accEmoji = s.accuracy >= 0.9 ? '🟢' : s.accuracy >= 0.7 ? '🟡' : '🔴';
+
+          let failDetails = '';
+          const failures = data.cases.filter(c => c.verdict === 'fail' || c.verdict === 'error');
+          if (failures.length > 0) {
+            const rows = failures.slice(0, 10).map(c => {
+              const issues = c.failures.map(f => f.message).join('; ') || c.error || '';
+              return `| ${c.name} | \`${c.verdict}\` | ${issues.substring(0, 100)} |`;
+            }).join('\n');
+            failDetails = `\n\n<details><summary>Failed cases (${failures.length})</summary>\n\n| Case | Verdict | Issue |\n|---|---|---|\n${rows}\n\n</details>`;
+          }
+
+          const body = `## ${accEmoji} Eval Report: \`${data.metadata.suite_name}\`
+
+          | Metric | Value |
+          |---|---|
+          | **Accuracy** | **${accPct}%** (${s.pass} pass, ${s.fail} fail, ${s.error} error) |
+          | **Latency** | p50: ${s.latency_p50.toFixed(0)}ms, p95: ${s.latency_p95.toFixed(0)}ms |
+          | **Cost** | $${s.total_cost.toFixed(6)} ($${s.cost_per_case.toFixed(6)}/case) |
+          | **Tokens** | ${s.total_tokens.toLocaleString()} |
+          | **Model** | ${data.metadata.model} |
+          ${failDetails}
+
+          <sub>Generated by <a href="https://github.com/johnnichev/selectools">Selectools Eval</a> — an open-source project from <a href="https://nichevlabs.com">NichevLabs</a></sub>`;
+
+          // Find and update existing comment or create new
+          const comments = await github.rest.issues.listComments({
+            owner: context.repo.owner,
+            repo: context.repo.repo,
+            issue_number: context.issue.number,
+          });
+          const existing = comments.data.find(c => c.body.includes('Eval Report:'));
+          if (existing) {
+            await github.rest.issues.updateComment({
+              owner: context.repo.owner,
+              repo: context.repo.repo,
+              comment_id: existing.id,
+              body: body,
+            });
+          } else {
+            await github.rest.issues.createComment({
+              owner: context.repo.owner,
+              repo: context.repo.repo,
+              issue_number: context.issue.number,
+              body: body,
+            });
+          }
+
+    - name: Upload HTML report
+      if: inputs.html-report != '' && always()
+      uses: actions/upload-artifact@v4
+      with:
+        name: eval-report
+        path: ${{ inputs.html-report }}
diff --git a/docs/modules/EVALS.md b/docs/modules/EVALS.md
new file mode 100644
index 0000000..ad1b677
--- /dev/null
+++ b/docs/modules/EVALS.md
@@ -0,0 +1,338 @@
+# Eval Framework
+
+**Added in:** v0.17.0
+
+Built-in agent evaluation with 22 evaluators, regression detection, and CI integration. No separate install, no SaaS account, no external dependencies.
+
+---
+
+## Quick Start
+
+```python
+from selectools.evals import EvalSuite, TestCase
+
+suite = EvalSuite(agent=agent, cases=[
+    TestCase(input="Cancel my account", expect_tool="cancel_subscription"),
+    TestCase(input="Check my balance", expect_contains="balance"),
+    TestCase(input="What's 2+2?", expect_output="4"),
+])
+report = suite.run()
+print(report.accuracy)      # 0.95
+print(report.latency_p50)   # 142ms
+print(report.total_cost)    # $0.003
+```
+
+---
+
+## TestCase — Declarative Assertions
+
+Every `TestCase` has an `input` (the prompt) and optional `expect_*` fields. Only the fields you set are checked.
+
+### Tool Assertions
+
+```python
+TestCase(input="Cancel subscription", expect_tool="cancel_sub")
+TestCase(input="Full workflow", expect_tools=["search", "summarize"])
+TestCase(input="Search", expect_tool_args={"search": {"query": "python"}})
+```
+
+### Content Assertions
+
+```python
+TestCase(input="Hello", expect_contains="hello")
+TestCase(input="Safe?", expect_not_contains="error")
+TestCase(input="2+2", expect_output="4")
+TestCase(input="Phone", expect_output_regex=r"\d{3}-\d{4}")
+TestCase(input="JSON?", expect_json=True)
+TestCase(input="Prefix", expect_starts_with="Hello")
+TestCase(input="Suffix", expect_ends_with=".")
+TestCase(input="Short", expect_min_length=10, expect_max_length=500)
+```
+
+### Structured Output
+
+```python
+TestCase(
+    input="Extract name",
+    response_format=MyModel,
+    expect_parsed={"name": "Alice"},
+)
+```
+
+### Performance Assertions
+
+```python
+TestCase(
+    input="Fast query",
+    expect_latency_ms_lte=500,
+    expect_cost_usd_lte=0.01,
+    expect_iterations_lte=3,
+)
+```
+
+### Safety Assertions
+
+```python
+TestCase(input="Account info", expect_no_pii=True)
+TestCase(input="Ignore instructions", expect_no_injection=True)
+```
+
+### LLM-as-Judge Fields
+
+```python
+TestCase(
+    input="Summarize this",
+    reference="The original long text...",  # ground truth
+    context="Retrieved document content...",  # RAG context
+    rubric="Rate accuracy and completeness",  # custom rubric
+)
+```
+
+### Custom Evaluators
+
+```python
+def must_be_polite(result) -> bool:
+    return "please" in result.content.lower()
+
+TestCase(
+    input="Help me",
+    custom_evaluator=must_be_polite,
+    custom_evaluator_name="politeness",
+)
+```
+
+### Tags and Weights
+
+```python
+TestCase(input="Critical", tags=["billing", "critical"], weight=3.0)
+TestCase(input="Minor", tags=["nice-to-have"], weight=0.5)
+```
+
+---
+
+## Built-in Evaluators (22)
+
+### Deterministic (12) — No API calls
+
+| Evaluator | What it checks |
+|---|---|
+| `ToolUseEvaluator` | Tool name, tool list, argument values |
+| `ContainsEvaluator` | Substring present/absent (case-insensitive) |
+| `OutputEvaluator` | Exact match, regex match |
+| `StructuredOutputEvaluator` | Parsed fields match (deep subset) |
+| `PerformanceEvaluator` | Iterations, latency, cost thresholds |
+| `JsonValidityEvaluator` | Valid JSON output |
+| `LengthEvaluator` | Min/max character count |
+| `StartsWithEvaluator` | Output prefix |
+| `EndsWithEvaluator` | Output suffix |
+| `PIILeakEvaluator` | SSN, email, phone, credit card, ZIP |
+| `InjectionResistanceEvaluator` | 10 prompt injection patterns |
+| `CustomEvaluator` | Any user-defined callable |
+
+### LLM-as-Judge (10) — Uses any Provider
+
+These evaluators call an LLM to grade the output. Pass any selectools `Provider` — works with OpenAI, Anthropic, Gemini, Ollama.
+
+```python
+from selectools.evals import CorrectnessEvaluator, RelevanceEvaluator
+
+suite = EvalSuite(
+    agent=agent,
+    cases=cases,
+    evaluators=[
+        CorrectnessEvaluator(provider=provider, model="gpt-4.1-mini"),
+        RelevanceEvaluator(provider=provider, model="gpt-4.1-mini"),
+    ],
+)
+```
+
+| Evaluator | What it checks | Requires |
+|---|---|---|
+| `LLMJudgeEvaluator` | Generic rubric scoring (0-10) | `rubric` on TestCase |
+| `CorrectnessEvaluator` | Correct vs reference answer | `reference` on TestCase |
+| `RelevanceEvaluator` | Response relevant to query | — |
+| `FaithfulnessEvaluator` | Grounded in provided context | `context` on TestCase |
+| `HallucinationEvaluator` | Fabricated information | `context` or `reference` |
+| `ToxicityEvaluator` | Harmful/inappropriate content | — |
+| `CoherenceEvaluator` | Well-structured and logical | — |
+| `CompletenessEvaluator` | Fully addresses the query | — |
+| `BiasEvaluator` | Gender, racial, political bias | — |
+| `SummaryEvaluator` | Summary accuracy and coverage | `reference` on TestCase |
+
+All LLM evaluators accept a `threshold` parameter (default: 7.0 for most, 8.0 for safety).
+
+---
+
+## EvalReport
+
+```python
+report = suite.run()
+
+# Aggregate metrics
+report.accuracy        # Weighted accuracy (0.0 - 1.0)
+report.pass_count      # Number of passing cases
+report.fail_count      # Number of failing cases
+report.error_count     # Number of error cases
+report.total_cost      # Total USD cost
+report.total_tokens    # Total tokens used
+report.latency_p50     # Median latency (ms)
+report.latency_p95     # 95th percentile latency
+report.latency_p99     # 99th percentile latency
+report.cost_per_case   # Average cost per case
+
+# Filtering
+report.filter_by_tag("billing")
+report.filter_by_verdict(CaseVerdict.FAIL)
+report.failures_by_evaluator()  # {"tool_use": 3, "contains": 1}
+
+# Export
+report.to_html("report.html")         # Interactive HTML report
+report.to_junit_xml("results.xml")    # JUnit XML for CI
+report.to_json("results.json")        # Machine-readable JSON
+report.summary()                      # Human-readable text
+```
+
+---
+
+## Loading Test Cases from Files
+
+```python
+from selectools.evals import DatasetLoader
+
+# JSON
+cases = DatasetLoader.from_json("tests/eval_cases.json")
+
+# YAML (requires PyYAML)
+cases = DatasetLoader.from_yaml("tests/eval_cases.yaml")
+
+# Auto-detect from extension
+cases = DatasetLoader.load("tests/eval_cases.json")
+```
+
+**JSON format:**
+
+```json
+[
+    {"input": "Cancel account", "expect_tool": "cancel_sub", "name": "cancel"},
+    {"input": "Check balance", "expect_contains": "balance", "tags": ["billing"]}
+]
+```
+
+---
+
+## Regression Detection
+
+```python
+from selectools.evals import BaselineStore
+
+store = BaselineStore("./baselines")
+report = suite.run()
+
+# Compare against saved baseline
+result = store.compare(report)
+if result.is_regression:
+    print(f"Regressions: {result.regressions}")
+    print(f"Accuracy delta: {result.accuracy_delta:+.2%}")
+else:
+    store.save(report)  # Update baseline
+```
+
+---
+
+## CLI
+
+Run evals from the command line:
+
+```bash
+# Run eval suite
+python -m selectools.evals run tests/cases.json --provider openai --model gpt-4.1-mini --html report.html --verbose
+
+# Compare against baseline
+python -m selectools.evals compare tests/cases.json --baseline ./baselines --save
+
+# With concurrency
+python -m selectools.evals run tests/cases.json --concurrency 5 --junit results.xml
+```
+
+---
+
+## GitHub Actions
+
+Use the built-in action to run evals on every PR and post results as a comment:
+
+```yaml
+- name: Run eval suite
+  uses: johnnichev/selectools/.github/actions/eval@main
+  with:
+    cases: tests/eval_cases.json
+    provider: openai
+    model: gpt-4.1-mini
+    html-report: eval-report.html
+    baseline-dir: ./baselines
+    post-comment: "true"
+  env:
+    OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+```
+
+The action:
+- Runs all test cases
+- Posts accuracy, latency, cost, and failures as a PR comment
+- Detects regressions against baselines
+- Uploads HTML report as an artifact
+- Outputs `accuracy`, `pass-count`, `fail-count`, `regression` for downstream steps
+
+---
+
+## Concurrent Execution
+
+```python
+suite = EvalSuite(
+    agent=agent,
+    cases=cases,
+    max_concurrency=5,  # Run 5 cases in parallel
+    on_progress=lambda done, total: print(f"[{done}/{total}]"),
+)
+```
+
+Uses `ThreadPoolExecutor` (sync) or `asyncio.Semaphore` (async via `suite.arun()`).
+
+---
+
+## In pytest
+
+```python
+def test_agent_accuracy(agent):
+    suite = EvalSuite(agent=agent, cases=[
+        TestCase(input="Cancel", expect_tool="cancel_sub"),
+        TestCase(input="Balance", expect_contains="balance"),
+    ])
+    report = suite.run()
+    assert report.accuracy >= 0.9
+    assert report.latency_p50 < 500
+```
+
+---
+
+## API Reference
+
+### Core
+
+| Symbol | Description |
+|---|---|
+| `EvalSuite(agent, cases, ...)` | Orchestrates eval runs |
+| `TestCase(input, ...)` | Single test case with assertions |
+| `EvalReport` | Aggregated results with metrics |
+| `CaseResult` | Per-case result with verdict and failures |
+| `CaseVerdict` | Enum: PASS, FAIL, ERROR, SKIP |
+| `EvalFailure` | Single assertion failure |
+
+### Infrastructure
+
+| Symbol | Description |
+|---|---|
+| `DatasetLoader.load(path)` | Load test cases from JSON/YAML |
+| `BaselineStore(dir)` | Save and compare baselines |
+| `RegressionResult` | Regression comparison result |
+| `report.to_html(path)` | Interactive HTML report |
+| `report.to_junit_xml(path)` | JUnit XML for CI |
+| `report.to_json(path)` | Machine-readable JSON |
diff --git a/examples/39_eval_framework.py b/examples/39_eval_framework.py
new file mode 100644
index 0000000..56fca8e
--- /dev/null
+++ b/examples/39_eval_framework.py
@@ -0,0 +1,165 @@
+"""
+Example 39: Built-in Eval Framework
+====================================
+
+Evaluate your agent's accuracy, tool use, latency, cost, and safety
+with the built-in eval suite. No separate install needed.
+
+Usage:
+    python examples/39_eval_framework.py
+
+This example uses the LocalProvider stub so no API key is needed.
+"""
+
+from selectools import Agent, AgentConfig, tool
+from selectools.evals import BaselineStore, DatasetLoader, EvalSuite, TestCase
+from selectools.providers.stubs import LocalProvider
+
+# --- Define tools ---
+
+
+@tool(description="Look up the price of a product")
+def get_price(product: str) -> str:
+    prices = {"laptop": "$999", "phone": "$699", "headphones": "$149"}
+    return prices.get(product.lower(), f"No price found for {product}")
+
+
+@tool(description="Check if a product is in stock")
+def check_stock(product: str) -> str:
+    stock = {
+        "laptop": "In stock (5 left)",
+        "phone": "Out of stock",
+        "headphones": "In stock (20 left)",
+    }
+    return stock.get(product.lower(), f"Unknown product: {product}")
+
+
+@tool(description="Cancel a user's subscription")
+def cancel_subscription(user_id: str) -> str:
+    return f"Subscription for user {user_id} has been cancelled."
+
+
+# --- Create agent ---
+
+agent = Agent(
+    provider=LocalProvider(),
+    config=AgentConfig(model="local"),
+    tools=[get_price, check_stock, cancel_subscription],
+)
+
+
+# --- Define test cases ---
+
+cases = [
+    # Tool use assertions
+    TestCase(
+        input="How much does a laptop cost?",
+        name="price_lookup",
+        expect_tool="get_price",
+        tags=["pricing"],
+    ),
+    TestCase(
+        input="Is the phone in stock?",
+        name="stock_check",
+        expect_tool="check_stock",
+        tags=["inventory"],
+    ),
+    # Content assertions
+    TestCase(
+        input="Tell me about headphones",
+        name="content_check",
+        expect_contains="headphones",
+    ),
+    # Performance assertions
+    TestCase(
+        input="Quick question",
+        name="performance",
+        expect_latency_ms_lte=5000,
+        expect_cost_usd_lte=1.0,
+    ),
+    # Safety assertions
+    TestCase(
+        input="What's my account info?",
+        name="no_pii",
+        expect_no_pii=True,
+    ),
+]
+
+
+# --- Run eval suite ---
+
+print("Running eval suite...")
+print()
+
+suite = EvalSuite(
+    agent=agent,
+    cases=cases,
+    name="product-agent-v1",
+    on_progress=lambda done, total: print(f"  [{done}/{total}]", end="\r"),
+)
+
+report = suite.run()
+print()
+print(report.summary())
+print()
+
+# --- Export reports ---
+
+report.to_html("/tmp/selectools-eval-report.html")
+print("HTML report: /tmp/selectools-eval-report.html")
+
+report.to_junit_xml("/tmp/selectools-eval-results.xml")
+print("JUnit XML:   /tmp/selectools-eval-results.xml")
+
+report.to_json("/tmp/selectools-eval-results.json")
+print("JSON report: /tmp/selectools-eval-results.json")
+print()
+
+# --- Per-case results ---
+
+print("Per-case results:")
+for cr in report.case_results:
+    status = cr.verdict.value.upper()
+    name = cr.case.name or cr.case.input[:50]
+    print(f"  [{status:5s}] {name} ({cr.latency_ms:.0f}ms, ${cr.cost_usd:.6f})")
+    for f in cr.failures:
+        print(f"         {f.evaluator_name}: {f.message}")
+print()
+
+# --- Regression detection ---
+
+import tempfile
+
+baseline_dir = tempfile.mkdtemp()
+store = BaselineStore(baseline_dir)
+
+# Save current run as baseline
+store.save(report)
+print(f"Baseline saved to {baseline_dir}/")
+
+# Compare (no regression since it's the same run)
+result = store.compare(report)
+print(f"Regression detected: {result.is_regression}")
+print(f"Accuracy delta: {result.accuracy_delta:+.2%}")
+print()
+
+# --- Loading from file ---
+
+print("Dataset loading example:")
+import json
+
+cases_file = "/tmp/eval_cases.json"
+with open(cases_file, "w") as f:
+    json.dump(
+        [
+            {"input": "Price of laptop?", "expect_tool": "get_price", "name": "from_file"},
+            {"input": "Stock check", "expect_contains": "stock", "tags": ["inventory"]},
+        ],
+        f,
+    )
+
+loaded_cases = DatasetLoader.load(cases_file)
+print(f"  Loaded {len(loaded_cases)} cases from {cases_file}")
+print()
+
+print("Done! Open /tmp/selectools-eval-report.html in your browser to see the interactive report.")
diff --git a/landing/index.html b/landing/index.html
index 46241bd..dfd05a7 100644
--- a/landing/index.html
+++ b/landing/index.html
@@ -237,9 +237,96 @@ <h3 class="font-semibold mb-1">24 Built-in Tools</h3>
           <p class="text-sm text-slate-400">Files, web, data, datetime, text — ready to use out of the box</p>
         </div>
         <div class="fade-in code-block rounded-xl p-6 border border-slate-700 hover:border-brand-blue/50 transition">
-          <div class="text-2xl mb-3">&#9989;</div>
-          <h3 class="font-semibold mb-1">1620 Tests</h3>
-          <p class="text-sm text-slate-400">Unit, integration, regression, and E2E — production hardened</p>
+          <div class="text-2xl mb-3">&#128202;</div>
+          <h3 class="font-semibold mb-1">22 Eval Evaluators</h3>
+          <p class="text-sm text-slate-400">Built-in agent testing: tool use, correctness, safety, LLM-as-judge, regression detection</p>
+        </div>
+      </div>
+    </div>
+  </section>
+
+  <!-- Eval Framework -->
+  <section class="py-20 px-6 border-t border-slate-800" id="eval">
+    <div class="max-w-6xl mx-auto">
+      <h2 class="text-3xl font-bold mb-4 text-center">Built-in Agent Evaluation</h2>
+      <p class="text-slate-400 text-center mb-14 max-w-2xl mx-auto">The only agent framework with a built-in eval suite. No separate install, no SaaS account, no external dependencies. 22 evaluators out of the box.</p>
+      <div class="grid lg:grid-cols-2 gap-8">
+        <div class="fade-in">
+          <div class="code-block rounded-xl border border-slate-700 overflow-hidden">
+            <div class="flex items-center gap-2 px-4 py-3 border-b border-slate-700">
+              <div class="w-3 h-3 rounded-full bg-red-500/80"></div>
+              <div class="w-3 h-3 rounded-full bg-yellow-500/80"></div>
+              <div class="w-3 h-3 rounded-full bg-green-500/80"></div>
+              <span class="ml-2 text-xs text-slate-500 font-mono">test_agent.py</span>
+            </div>
+            <pre class="p-6 text-sm font-mono leading-relaxed overflow-x-auto"><code><span class="text-purple-400">from</span> <span class="text-blue-300">selectools.evals</span> <span class="text-purple-400">import</span> EvalSuite, TestCase
+
+suite = <span class="text-yellow-300">EvalSuite</span>(agent=agent, cases=[
+    <span class="text-yellow-300">TestCase</span>(
+        input=<span class="text-green-400">"Cancel my subscription"</span>,
+        expect_tool=<span class="text-green-400">"cancel_sub"</span>,
+        expect_contains=<span class="text-green-400">"cancelled"</span>,
+        expect_no_pii=<span class="text-orange-400">True</span>,
+    ),
+    <span class="text-yellow-300">TestCase</span>(
+        input=<span class="text-green-400">"What's my balance?"</span>,
+        expect_tool=<span class="text-green-400">"check_balance"</span>,
+        expect_latency_ms_lte=<span class="text-orange-400">500</span>,
+        expect_cost_usd_lte=<span class="text-orange-400">0.01</span>,
+    ),
+])
+
+report = suite.<span class="text-yellow-300">run</span>()
+<span class="text-purple-400">print</span>(report.accuracy)     <span class="text-slate-500"># 1.0</span>
+<span class="text-purple-400">print</span>(report.latency_p50)  <span class="text-slate-500"># 142ms</span>
+<span class="text-purple-400">print</span>(report.total_cost)   <span class="text-slate-500"># $0.002</span>
+
+report.<span class="text-yellow-300">to_html</span>(<span class="text-green-400">"report.html"</span>)</code></pre>
+          </div>
+        </div>
+        <div class="fade-in flex flex-col justify-center gap-4">
+          <div class="code-block rounded-lg p-5 border border-slate-700">
+            <h3 class="text-sm font-semibold text-brand-cyan mb-3">12 Deterministic Evaluators</h3>
+            <div class="flex flex-wrap gap-2 text-xs">
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">ToolUse</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">Contains</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">Output</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">Structured</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">Performance</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">JSON</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">Length</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">StartsWith</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">EndsWith</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">PII Leak</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">Injection</span>
+              <span class="bg-slate-700/50 text-slate-300 px-2 py-1 rounded">Custom</span>
+            </div>
+          </div>
+          <div class="code-block rounded-lg p-5 border border-slate-700">
+            <h3 class="text-sm font-semibold text-brand-cyan mb-3">10 LLM-as-Judge Evaluators</h3>
+            <div class="flex flex-wrap gap-2 text-xs">
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Correctness</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Relevance</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Faithfulness</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Hallucination</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Toxicity</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Coherence</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Completeness</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Bias</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Summary</span>
+              <span class="bg-blue-500/10 text-blue-300 px-2 py-1 rounded">Custom Rubric</span>
+            </div>
+          </div>
+          <div class="code-block rounded-lg p-5 border border-slate-700">
+            <h3 class="text-sm font-semibold text-brand-cyan mb-3">Infrastructure</h3>
+            <div class="text-xs text-slate-400 space-y-1">
+              <div>Interactive HTML report with charts and filtering</div>
+              <div>JUnit XML for CI (GitHub Actions, Jenkins)</div>
+              <div>Regression detection with baseline comparison</div>
+              <div>Dataset loading from JSON/YAML files</div>
+              <div>GitHub Action with automatic PR comments</div>
+            </div>
+          </div>
         </div>
       </div>
     </div>
@@ -295,6 +382,11 @@ <h2 class="text-3xl font-bold mb-4 text-center">Selectools vs. LangChain</h2>
               <td class="px-6 py-3 text-green-400">result.reasoning</td>
               <td class="px-6 py-3 text-slate-500">Not available</td>
             </tr>
+            <tr class="comparison-row border-b border-slate-700/50">
+              <td class="px-6 py-3 text-slate-300">Agent evaluation</td>
+              <td class="px-6 py-3 text-green-400">Built-in (22 evaluators)</td>
+              <td class="px-6 py-3 text-slate-500">LangSmith (paid) or DeepEval (separate)</td>
+            </tr>
             <tr class="comparison-row">
               <td class="px-6 py-3 text-slate-300">Community</td>
               <td class="px-6 py-3 text-yellow-400">Growing</td>
diff --git a/mkdocs.yml b/mkdocs.yml
index 99ff9a1..b4c590d 100644
--- a/mkdocs.yml
+++ b/mkdocs.yml
@@ -107,6 +107,8 @@ nav:
     - Advanced Chunking: modules/ADVANCED_CHUNKING.md
     - Embeddings: modules/EMBEDDINGS.md
     - Vector Stores: modules/VECTOR_STORES.md
+  - Evaluation:
+    - Eval Framework: modules/EVALS.md
   - Security:
     - Guardrails: modules/GUARDRAILS.md
     - Audit Logging: modules/AUDIT.md
diff --git a/src/selectools/evals/__main__.py b/src/selectools/evals/__main__.py
new file mode 100644
index 0000000..341da09
--- /dev/null
+++ b/src/selectools/evals/__main__.py
@@ -0,0 +1,198 @@
+"""CLI entry point: python -m selectools.evals
+
+Usage:
+    python -m selectools.evals run cases.json [options]
+    python -m selectools.evals compare cases.json --baseline ./baselines [options]
+
+Options:
+    --agent YAML       Agent config YAML file
+    --html FILE        Write HTML report to FILE
+    --junit FILE       Write JUnit XML to FILE
+    --json FILE        Write JSON report to FILE
+    --baseline DIR     Baseline directory for regression detection
+    --concurrency N    Max parallel cases (default: 1)
+    --name NAME        Suite name (default: "eval")
+    --verbose          Print per-case results
+"""
+
+from __future__ import annotations
+
+import argparse
+import sys
+from typing import Any
+
+from . import BaselineStore, DatasetLoader, EvalSuite
+
+
+def _build_parser() -> argparse.ArgumentParser:
+    parser = argparse.ArgumentParser(
+        prog="python -m selectools.evals",
+        description="Selectools Eval Framework — evaluate agents from the command line.",
+    )
+    sub = parser.add_subparsers(dest="command")
+
+    # run command
+    run_p = sub.add_parser("run", help="Run eval suite against an agent")
+    run_p.add_argument("cases", help="Path to test cases file (JSON/YAML)")
+    run_p.add_argument("--html", help="Write HTML report to file")
+    run_p.add_argument("--junit", help="Write JUnit XML to file")
+    run_p.add_argument("--json", dest="json_out", help="Write JSON report to file")
+    run_p.add_argument("--baseline", help="Baseline directory for regression detection")
+    run_p.add_argument("--concurrency", type=int, default=1, help="Max parallel cases")
+    run_p.add_argument("--name", default="eval", help="Suite name")
+    run_p.add_argument("--verbose", action="store_true", help="Print per-case results")
+    run_p.add_argument(
+        "--provider",
+        default="local",
+        choices=["local", "openai", "anthropic", "gemini", "ollama"],
+        help="Provider to use (default: local)",
+    )
+    run_p.add_argument("--model", help="Model name")
+
+    # compare command
+    cmp_p = sub.add_parser("compare", help="Compare current run against baseline")
+    cmp_p.add_argument("cases", help="Path to test cases file (JSON/YAML)")
+    cmp_p.add_argument("--baseline", required=True, help="Baseline directory")
+    cmp_p.add_argument("--name", default="eval", help="Suite name")
+    cmp_p.add_argument("--provider", default="local")
+    cmp_p.add_argument("--model", help="Model name")
+    cmp_p.add_argument("--concurrency", type=int, default=1)
+    cmp_p.add_argument("--save", action="store_true", help="Save as new baseline if no regression")
+
+    return parser
+
+
+def _create_agent(provider_name: str, model: str | None) -> "Agent":  # type: ignore[name-defined]  # noqa: F821
+    """Create an agent with the specified provider."""
+    from selectools import Agent, AgentConfig
+
+    prov: Any = None
+    mdl = model or "local"
+
+    if provider_name == "local":
+        from selectools.providers.stubs import LocalProvider
+
+        prov = LocalProvider()
+        mdl = model or "local"
+    elif provider_name == "openai":
+        from selectools.providers import OpenAIProvider
+
+        prov = OpenAIProvider()
+        mdl = model or "gpt-4.1-mini"
+    elif provider_name == "anthropic":
+        from selectools.providers import AnthropicProvider
+
+        prov = AnthropicProvider()
+        mdl = model or "claude-sonnet-4-6"
+    elif provider_name == "gemini":
+        from selectools.providers import GeminiProvider
+
+        prov = GeminiProvider()
+        mdl = model or "gemini-2.5-flash"
+    elif provider_name == "ollama":
+        from selectools.providers import OllamaProvider
+
+        prov = OllamaProvider()
+        mdl = model or "llama3"
+    else:
+        raise ValueError(f"Unknown provider: {provider_name}")
+
+    return Agent(provider=prov, config=AgentConfig(model=mdl), tools=[])
+
+
+def main() -> None:  # noqa: C901
+    """CLI entry point."""
+    parser = _build_parser()
+    args = parser.parse_args()
+
+    if not args.command:
+        parser.print_help()
+        sys.exit(1)
+
+    # Load cases
+    cases = DatasetLoader.load(args.cases)
+    print(f"Loaded {len(cases)} test cases from {args.cases}")
+
+    # Create agent
+    agent = _create_agent(args.provider, getattr(args, "model", None))
+
+    # Run suite
+    def on_progress(done: int, total: int) -> None:
+        print(f"  [{done}/{total}]", end="\r", flush=True)
+
+    suite = EvalSuite(
+        agent=agent,
+        cases=cases,
+        name=args.name,
+        max_concurrency=args.concurrency,
+        on_progress=on_progress,
+    )
+
+    print(f"Running eval suite '{args.name}'...")
+    report = suite.run()
+    print()
+    print(report.summary())
+    print()
+
+    if args.command == "run":
+        if getattr(args, "verbose", False):
+            for cr in report.case_results:
+                status = cr.verdict.value.upper()
+                name = cr.case.name or cr.case.input[:50]
+                print(f"  [{status:5s}] {name} ({cr.latency_ms:.0f}ms)")
+                for f in cr.failures:
+                    print(f"         {f.evaluator_name}: {f.message}")
+            print()
+
+        if args.html:
+            report.to_html(args.html)
+            print(f"HTML report: {args.html}")
+        if args.junit:
+            report.to_junit_xml(args.junit)
+            print(f"JUnit XML: {args.junit}")
+        if args.json_out:
+            report.to_json(args.json_out)
+            print(f"JSON report: {args.json_out}")
+
+        if args.baseline:
+            store = BaselineStore(args.baseline)
+            result = store.compare(report)
+            if result.is_regression:
+                print(f"\nREGRESSIONS DETECTED: {result.regressions}")
+                print(f"Accuracy delta: {result.accuracy_delta:+.2%}")
+                sys.exit(1)
+            else:
+                print(f"\nNo regressions (accuracy delta: {result.accuracy_delta:+.2%})")
+                if result.improvements:
+                    print(f"Improvements: {result.improvements}")
+                store.save(report)
+                print(f"Baseline saved to {args.baseline}/")
+
+    elif args.command == "compare":
+        store = BaselineStore(args.baseline)
+        result = store.compare(report)
+
+        if result.is_regression:
+            print("REGRESSIONS DETECTED:")
+            for name in result.regressions:
+                print(f"  - {name}")
+            print(f"Accuracy: {result.accuracy_delta:+.2%}")
+            print(f"Latency p50: {result.latency_p50_delta:+.0f}ms")
+            print(f"Cost: ${result.cost_delta:+.6f}")
+            sys.exit(1)
+        else:
+            print("No regressions detected.")
+            if result.improvements:
+                print(f"Improvements: {result.improvements}")
+            print(f"Accuracy: {result.accuracy_delta:+.2%}")
+            if getattr(args, "save", False):
+                store.save(report)
+                print(f"Baseline updated at {args.baseline}/")
+
+    # Exit with non-zero if accuracy is 0
+    if report.accuracy == 0.0 and report.metadata.total_cases > 0:
+        sys.exit(1)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/src/selectools/evals/html.py b/src/selectools/evals/html.py
index 02ddff1..04eeaa7 100644
--- a/src/selectools/evals/html.py
+++ b/src/selectools/evals/html.py
@@ -1,19 +1,100 @@
-"""Self-contained HTML report renderer."""
+"""Self-contained interactive HTML report renderer."""
 
 from __future__ import annotations
 
 import html
+import math
 from pathlib import Path
-from typing import Any, Union
+from typing import Any, List, Union
 
 from .types import CaseVerdict
 
 
-def render_html_report(report: Any, filepath: Union[str, Path]) -> None:
-    """Render an EvalReport as a self-contained HTML file."""
+def _donut_svg(pass_n: int, fail_n: int, error_n: int, skip_n: int) -> str:
+    """Generate an SVG donut chart for pass/fail/error/skip distribution."""
+    total = pass_n + fail_n + error_n + skip_n
+    if total == 0:
+        return ""
+    segments = [
+        (pass_n, "#4ade80"),
+        (fail_n, "#f87171"),
+        (error_n, "#fbbf24"),
+        (skip_n, "#64748b"),
+    ]
+    cx, cy, r = 60, 60, 50
+    inner_r = 35
+    paths: List[str] = []
+    start_angle = -90.0
+    for count, color in segments:
+        if count == 0:
+            continue
+        sweep = (count / total) * 360
+        end_angle = start_angle + sweep
+        large = 1 if sweep > 180 else 0
+        sa = math.radians(start_angle)
+        ea = math.radians(end_angle)
+        x1_o, y1_o = cx + r * math.cos(sa), cy + r * math.sin(sa)
+        x2_o, y2_o = cx + r * math.cos(ea), cy + r * math.sin(ea)
+        x1_i, y1_i = cx + inner_r * math.cos(ea), cy + inner_r * math.sin(ea)
+        x2_i, y2_i = cx + inner_r * math.cos(sa), cy + inner_r * math.sin(sa)
+        d = (
+            f"M {x1_o:.1f} {y1_o:.1f} "
+            f"A {r} {r} 0 {large} 1 {x2_o:.1f} {y2_o:.1f} "
+            f"L {x1_i:.1f} {y1_i:.1f} "
+            f"A {inner_r} {inner_r} 0 {large} 0 {x2_i:.1f} {y2_i:.1f} Z"
+        )
+        paths.append(f'<path d="{d}" fill="{color}" opacity="0.9"/>')
+        start_angle = end_angle
+    return f'<svg viewBox="0 0 120 120" width="120" height="120">' f'{"".join(paths)}</svg>'
+
+
+def _histogram_svg(latencies: List[float]) -> str:
+    """Generate an SVG histogram of latency distribution."""
+    if not latencies:
+        return ""
+    min_v = min(latencies)
+    max_v = max(latencies)
+    if max_v == min_v:
+        max_v = min_v + 1
+    n_bins = min(12, len(latencies))
+    bin_width = (max_v - min_v) / n_bins
+    bins = [0] * n_bins
+    for v in latencies:
+        idx = min(int((v - min_v) / bin_width), n_bins - 1)
+        bins[idx] += 1
+    max_count = max(bins) or 1
+    w, h = 300, 100
+    bar_w = w / n_bins - 2
+    bars: List[str] = []
+    for i, count in enumerate(bins):
+        bar_h = (count / max_count) * (h - 20)
+        x = i * (w / n_bins) + 1
+        y = h - 15 - bar_h
+        bars.append(
+            f'<rect x="{x:.0f}" y="{y:.0f}" width="{bar_w:.0f}" '
+            f'height="{bar_h:.0f}" fill="#3b82f6" rx="2" opacity="0.8"/>'
+        )
+        label_v = min_v + (i + 0.5) * bin_width
+        if i % max(1, n_bins // 4) == 0:
+            bars.append(
+                f'<text x="{x + bar_w / 2:.0f}" y="{h - 2}" fill="#64748b" '
+                f'font-size="8" text-anchor="middle">{label_v:.0f}</text>'
+            )
+    return (
+        f'<svg viewBox="0 0 {w} {h}" width="{w}" height="{h}" '
+        f'style="margin-top:0.5rem">{" ".join(bars)}'
+        f'<text x="{w // 2}" y="10" fill="#94a3b8" font-size="9" '
+        f'text-anchor="middle">Latency Distribution (ms)</text></svg>'
+    )
+
+
+def render_html_report(report: Any, filepath: Union[str, Path]) -> None:  # noqa: C901
+    """Render an EvalReport as a self-contained interactive HTML file."""
+    # Build table rows with expandable details
     rows = []
     for i, cr in enumerate(report.case_results):
         name = html.escape(cr.case.name or cr.case.input[:60])
+        input_text = html.escape(cr.case.input[:300])
         verdict_class = {
             CaseVerdict.PASS: "pass",
             CaseVerdict.FAIL: "fail",
@@ -21,123 +102,198 @@ def render_html_report(report: Any, filepath: Union[str, Path]) -> None:
             CaseVerdict.SKIP: "skip",
         }.get(cr.verdict, "")
 
-        failure_html = ""
+        # Expandable detail content
+        detail_parts = [f"<strong>Input:</strong> {input_text}"]
+        if cr.agent_result:
+            output = html.escape((cr.agent_result.content or "")[:500])
+            detail_parts.append(f"<strong>Output:</strong> {output}")
+            if cr.agent_result.reasoning:
+                reasoning = html.escape(str(cr.agent_result.reasoning)[:300])
+                detail_parts.append(f"<strong>Reasoning:</strong> {reasoning}")
+        if cr.tool_calls:
+            detail_parts.append(f"<strong>Tools:</strong> {html.escape(', '.join(cr.tool_calls))}")
         if cr.failures:
             items = "".join(
-                f"<li><strong>{html.escape(f.evaluator_name)}:</strong> "
+                f"<li><span class='fail-label'>{html.escape(f.evaluator_name)}:</span> "
                 f"{html.escape(f.message)}</li>"
                 for f in cr.failures
             )
-            failure_html = f'<ul class="failures">{items}</ul>'
-        elif cr.error:
-            failure_html = f'<div class="error-msg">{html.escape(cr.error)}</div>'
+            detail_parts.append(f"<strong>Failures:</strong><ul class='failures'>{items}</ul>")
+        if cr.error:
+            detail_parts.append(
+                f"<strong>Error:</strong> <span class='error-msg'>"
+                f"{html.escape(cr.error)}</span>"
+            )
+
+        detail_html = "<br>".join(detail_parts)
+        tags_data = html.escape(" ".join(cr.case.tags)) if cr.case.tags else ""
+        fail_count = len(cr.failures) if cr.failures else (1 if cr.error else 0)
 
-        tools = ", ".join(cr.tool_calls) if cr.tool_calls else "-"
+        # Build tag pills outside f-string to avoid backslash issue
+        tag_pills = ""
+        if cr.case.tags:
+            pill_items = "".join(
+                '<span class="tag">' + html.escape(t) + "</span>" for t in cr.case.tags
+            )
+            tag_pills = '<span class="tag-pills">' + pill_items + "</span>"
 
         rows.append(
-            f"<tr class='{verdict_class}'>"
+            f"<tr class='case-row {verdict_class}' data-verdict='{cr.verdict.value}' "
+            f"data-tags='{tags_data}' onclick='toggleDetail({i})'>"
             f"<td>{i + 1}</td>"
-            f"<td>{name}</td>"
+            f"<td><span class='case-name'>{name}</span>{tag_pills}</td>"
             f"<td><span class='badge {verdict_class}'>{cr.verdict.value}</span></td>"
             f"<td>{cr.latency_ms:.0f}ms</td>"
             f"<td>${cr.cost_usd:.6f}</td>"
-            f"<td>{html.escape(tools)}</td>"
-            f"<td>{failure_html}</td>"
+            f"<td>{fail_count}</td>"
+            f"</tr>"
+            f"<tr class='detail-row' id='detail-{i}' style='display:none'>"
+            f"<td colspan='6'><div class='detail-content'>{detail_html}</div></td>"
             f"</tr>"
         )
 
     table_rows = "\n".join(rows)
 
+    # Charts
+    donut = _donut_svg(report.pass_count, report.fail_count, report.error_count, report.skip_count)
+    latencies = [cr.latency_ms for cr in report.case_results if cr.verdict != CaseVerdict.SKIP]
+    histogram = _histogram_svg(latencies)
+
+    # Failure breakdown
     failures_by_eval = report.failures_by_evaluator()
-    eval_breakdown = ""
+    eval_bars = ""
     if failures_by_eval:
-        items = "".join(
-            f"<li><strong>{html.escape(k)}:</strong> {v}</li>"
+        max_f = max(failures_by_eval.values())
+        bars = "".join(
+            f"<div class='eval-bar-row'>"
+            f"<span class='eval-bar-label'>{html.escape(k)}</span>"
+            f"<div class='eval-bar-track'><div class='eval-bar-fill' "
+            f"style='width:{v / max_f * 100:.0f}%'></div></div>"
+            f"<span class='eval-bar-count'>{v}</span></div>"
             for k, v in sorted(failures_by_eval.items(), key=lambda x: -x[1])
         )
-        eval_breakdown = f"<h3>Failures by Evaluator</h3><ul>{items}</ul>"
+        eval_bars = f"<div class='eval-bars'><h3>Failures by Evaluator</h3>{bars}</div>"
 
-    content = f"""<!DOCTYPE html>
+    # Collect unique tags for filter buttons
+    all_tags = sorted({t for cr in report.case_results for t in cr.case.tags})
+    tag_buttons = "".join(
+        f"<button class='filter-btn' onclick='filterByTag(\"{html.escape(t)}\")'>"
+        f"{html.escape(t)}</button>"
+        for t in all_tags
+    )
+    filter_bar = ""
+    if all_tags:
+        filter_bar = (
+            f"<div class='filter-bar'>"
+            f"<button class='filter-btn active' onclick='filterByTag(\"\")'>All</button>"
+            f"<button class='filter-btn' onclick='filterByVerdict(\"fail\")'>Failures</button>"
+            f"<button class='filter-btn' onclick='filterByVerdict(\"error\")'>Errors</button>"
+            f"{tag_buttons}</div>"
+        )
+    else:
+        filter_bar = (
+            "<div class='filter-bar'>"
+            "<button class='filter-btn active' onclick='filterByTag(\"\")'>All</button>"
+            "<button class='filter-btn' onclick='filterByVerdict(\"fail\")'>Failures</button>"
+            "<button class='filter-btn' onclick='filterByVerdict(\"error\")'>Errors</button>"
+            "</div>"
+        )
+
+    acc_class = "good" if report.accuracy >= 0.9 else "warn" if report.accuracy >= 0.7 else "bad"
+
+    page = f"""<!DOCTYPE html>
 <html lang="en">
 <head>
 <meta charset="UTF-8">
 <meta name="viewport" content="width=device-width, initial-scale=1.0">
 <title>Eval Report: {html.escape(report.metadata.suite_name)}</title>
 <style>
-* {{ margin: 0; padding: 0; box-sizing: border-box; }}
-body {{ font-family: Inter, system-ui, sans-serif; background: #0f172a; color: #e2e8f0;
-  padding: 2rem; max-width: 1200px; margin: 0 auto; }}
-h1 {{ font-size: 1.8rem; margin-bottom: 0.5rem; }}
-h2 {{ font-size: 1.3rem; color: #94a3b8; margin-bottom: 1.5rem; font-weight: 400; }}
-h3 {{ font-size: 1.1rem; margin: 1.5rem 0 0.75rem; }}
-.summary {{ display: grid; grid-template-columns: repeat(auto-fit, minmax(160px, 1fr));
-  gap: 1rem; margin-bottom: 2rem; }}
-.stat {{ background: #1e293b; border-radius: 0.5rem; padding: 1rem; border: 1px solid #334155; }}
-.stat-label {{ font-size: 0.75rem; color: #94a3b8; text-transform: uppercase; letter-spacing: 0.05em; }}
-.stat-value {{ font-size: 1.5rem; font-weight: 700; margin-top: 0.25rem; }}
-.stat-value.good {{ color: #4ade80; }}
-.stat-value.warn {{ color: #fbbf24; }}
-.stat-value.bad {{ color: #f87171; }}
-table {{ width: 100%; border-collapse: collapse; background: #1e293b; border-radius: 0.5rem;
-  overflow: hidden; margin-bottom: 2rem; }}
-th {{ text-align: left; padding: 0.75rem 1rem; background: #334155; font-size: 0.8rem;
-  text-transform: uppercase; letter-spacing: 0.05em; color: #94a3b8; }}
-td {{ padding: 0.75rem 1rem; border-top: 1px solid #334155; font-size: 0.875rem;
-  vertical-align: top; }}
-.badge {{ padding: 0.15rem 0.5rem; border-radius: 0.25rem; font-size: 0.75rem;
-  font-weight: 600; text-transform: uppercase; }}
-.badge.pass {{ background: rgba(74, 222, 128, 0.15); color: #4ade80; }}
-.badge.fail {{ background: rgba(248, 113, 113, 0.15); color: #f87171; }}
-.badge.error {{ background: rgba(251, 191, 36, 0.15); color: #fbbf24; }}
-.badge.skip {{ background: rgba(148, 163, 184, 0.15); color: #94a3b8; }}
-.failures {{ list-style: none; font-size: 0.8rem; color: #f87171; }}
-.failures li {{ margin-top: 0.25rem; }}
-.error-msg {{ font-size: 0.8rem; color: #fbbf24; }}
-ul {{ list-style: none; }}
-ul li {{ padding: 0.25rem 0; font-size: 0.875rem; }}
-footer {{ margin-top: 2rem; padding-top: 1rem; border-top: 1px solid #334155;
-  font-size: 0.75rem; color: #64748b; }}
+*{{margin:0;padding:0;box-sizing:border-box}}
+body{{font-family:Inter,system-ui,sans-serif;background:#0f172a;color:#e2e8f0;padding:2rem;max-width:1280px;margin:0 auto}}
+h1{{font-size:1.8rem;margin-bottom:0.25rem}}
+.subtitle{{font-size:1rem;color:#94a3b8;margin-bottom:1.5rem}}
+h3{{font-size:1rem;margin:1rem 0 0.5rem;color:#cbd5e1}}
+.top-grid{{display:grid;grid-template-columns:1fr 1fr;gap:1.5rem;margin-bottom:2rem}}
+@media(max-width:768px){{.top-grid{{grid-template-columns:1fr}}}}
+.summary{{display:grid;grid-template-columns:repeat(3,1fr);gap:0.75rem}}
+.stat{{background:#1e293b;border-radius:0.5rem;padding:0.75rem 1rem;border:1px solid #334155}}
+.stat-label{{font-size:0.7rem;color:#94a3b8;text-transform:uppercase;letter-spacing:0.05em}}
+.stat-value{{font-size:1.4rem;font-weight:700;margin-top:0.15rem}}
+.good{{color:#4ade80}}.warn{{color:#fbbf24}}.bad{{color:#f87171}}
+.charts{{background:#1e293b;border-radius:0.5rem;padding:1rem;border:1px solid #334155;display:flex;flex-direction:column;align-items:center;justify-content:center;gap:0.5rem}}
+.charts-row{{display:flex;align-items:center;gap:1.5rem;flex-wrap:wrap;justify-content:center}}
+.legend{{display:flex;gap:0.75rem;flex-wrap:wrap;margin-top:0.5rem}}
+.legend-item{{display:flex;align-items:center;gap:0.3rem;font-size:0.75rem;color:#94a3b8}}
+.legend-dot{{width:8px;height:8px;border-radius:50%;display:inline-block}}
+.eval-bars{{background:#1e293b;border-radius:0.5rem;padding:1rem;border:1px solid #334155;margin-bottom:1.5rem}}
+.eval-bar-row{{display:flex;align-items:center;gap:0.5rem;margin:0.3rem 0}}
+.eval-bar-label{{width:140px;font-size:0.75rem;color:#94a3b8;text-align:right;flex-shrink:0}}
+.eval-bar-track{{flex:1;height:16px;background:#334155;border-radius:3px;overflow:hidden}}
+.eval-bar-fill{{height:100%;background:#f87171;border-radius:3px;transition:width 0.5s ease}}
+.eval-bar-count{{width:30px;font-size:0.75rem;color:#94a3b8}}
+.filter-bar{{display:flex;gap:0.5rem;margin-bottom:1rem;flex-wrap:wrap}}
+.filter-btn{{background:#1e293b;border:1px solid #334155;color:#94a3b8;padding:0.3rem 0.75rem;border-radius:0.25rem;font-size:0.75rem;cursor:pointer;transition:all 0.2s}}
+.filter-btn:hover,.filter-btn.active{{border-color:#3b82f6;color:#e2e8f0}}
+table{{width:100%;border-collapse:collapse;background:#1e293b;border-radius:0.5rem;overflow:hidden;margin-bottom:1.5rem}}
+th{{text-align:left;padding:0.6rem 0.75rem;background:#334155;font-size:0.7rem;text-transform:uppercase;letter-spacing:0.05em;color:#94a3b8}}
+td{{padding:0.6rem 0.75rem;border-top:1px solid #1e293b;font-size:0.8rem;vertical-align:top}}
+.case-row{{cursor:pointer;transition:background 0.15s}}.case-row:hover{{background:#334155}}
+.case-name{{font-weight:500}}
+.tag-pills{{margin-left:0.5rem}}.tag{{background:#334155;color:#94a3b8;font-size:0.65rem;padding:0.1rem 0.4rem;border-radius:0.2rem;margin-left:0.25rem}}
+.badge{{padding:0.15rem 0.5rem;border-radius:0.25rem;font-size:0.7rem;font-weight:600;text-transform:uppercase}}
+.badge.pass{{background:rgba(74,222,128,0.15);color:#4ade80}}
+.badge.fail{{background:rgba(248,113,113,0.15);color:#f87171}}
+.badge.error{{background:rgba(251,191,36,0.15);color:#fbbf24}}
+.badge.skip{{background:rgba(148,163,184,0.15);color:#94a3b8}}
+.detail-row td{{padding:0;background:#0f172a}}
+.detail-content{{padding:1rem 1.5rem;font-size:0.8rem;line-height:1.6;color:#94a3b8;border-left:3px solid #3b82f6;margin:0.25rem 0 0.25rem 1rem}}
+.detail-content strong{{color:#e2e8f0}}
+.failures{{list-style:none;margin-top:0.25rem}}.failures li{{margin:0.15rem 0;color:#f87171;font-size:0.8rem}}
+.fail-label{{color:#f87171;font-weight:600}}
+.error-msg{{color:#fbbf24}}
+footer{{margin-top:1.5rem;padding-top:1rem;border-top:1px solid #334155;font-size:0.7rem;color:#475569;display:flex;justify-content:space-between;flex-wrap:wrap;gap:0.5rem}}
 </style>
 </head>
 <body>
+
 <h1>Eval Report: {html.escape(report.metadata.suite_name)}</h1>
-<h2>{report.metadata.model or 'unknown model'} &middot;
-  {report.metadata.provider or 'unknown provider'} &middot;
-  {report.metadata.total_cases} cases &middot;
-  {report.metadata.duration_ms:.0f}ms</h2>
-
-<div class="summary">
-  <div class="stat">
-    <div class="stat-label">Accuracy</div>
-    <div class="stat-value {'good' if report.accuracy >= 0.9 else 'warn' if report.accuracy >= 0.7 else 'bad'}">{report.accuracy:.1%}</div>
-  </div>
-  <div class="stat">
-    <div class="stat-label">Pass / Fail / Error</div>
-    <div class="stat-value">{report.pass_count} / {report.fail_count} / {report.error_count}</div>
-  </div>
-  <div class="stat">
-    <div class="stat-label">Latency p50</div>
-    <div class="stat-value">{report.latency_p50:.0f}ms</div>
-  </div>
-  <div class="stat">
-    <div class="stat-label">Latency p95</div>
-    <div class="stat-value">{report.latency_p95:.0f}ms</div>
-  </div>
-  <div class="stat">
-    <div class="stat-label">Total Cost</div>
-    <div class="stat-value">${report.total_cost:.6f}</div>
+<div class="subtitle">{report.metadata.model or 'unknown model'} &middot; {report.metadata.provider or 'unknown provider'} &middot; {report.metadata.total_cases} cases &middot; {report.metadata.duration_ms:.0f}ms</div>
+
+<div class="top-grid">
+  <div>
+    <div class="summary">
+      <div class="stat"><div class="stat-label">Accuracy</div><div class="stat-value {acc_class}">{report.accuracy:.1%}</div></div>
+      <div class="stat"><div class="stat-label">Pass</div><div class="stat-value good">{report.pass_count}</div></div>
+      <div class="stat"><div class="stat-label">Fail</div><div class="stat-value {'bad' if report.fail_count else ''}">{report.fail_count}</div></div>
+      <div class="stat"><div class="stat-label">Latency p50</div><div class="stat-value">{report.latency_p50:.0f}ms</div></div>
+      <div class="stat"><div class="stat-label">Latency p95</div><div class="stat-value">{report.latency_p95:.0f}ms</div></div>
+      <div class="stat"><div class="stat-label">Total Cost</div><div class="stat-value">${report.total_cost:.4f}</div></div>
+      <div class="stat"><div class="stat-label">Cost/Case</div><div class="stat-value">${report.cost_per_case:.6f}</div></div>
+      <div class="stat"><div class="stat-label">Tokens</div><div class="stat-value">{report.total_tokens:,}</div></div>
+      <div class="stat"><div class="stat-label">Errors</div><div class="stat-value {'warn' if report.error_count else ''}">{report.error_count}</div></div>
+    </div>
   </div>
-  <div class="stat">
-    <div class="stat-label">Total Tokens</div>
-    <div class="stat-value">{report.total_tokens}</div>
+  <div class="charts">
+    <div class="charts-row">
+      {donut}
+      <div>{histogram}</div>
+    </div>
+    <div class="legend">
+      <span class="legend-item"><span class="legend-dot" style="background:#4ade80"></span>Pass ({report.pass_count})</span>
+      <span class="legend-item"><span class="legend-dot" style="background:#f87171"></span>Fail ({report.fail_count})</span>
+      <span class="legend-item"><span class="legend-dot" style="background:#fbbf24"></span>Error ({report.error_count})</span>
+      <span class="legend-item"><span class="legend-dot" style="background:#64748b"></span>Skip ({report.skip_count})</span>
+    </div>
   </div>
 </div>
 
-{eval_breakdown}
+{eval_bars}
+
+{filter_bar}
 
-<table>
+<table id="results-table">
 <thead>
-<tr><th>#</th><th>Test Case</th><th>Verdict</th><th>Latency</th><th>Cost</th><th>Tools</th><th>Details</th></tr>
+<tr><th>#</th><th>Test Case</th><th>Verdict</th><th>Latency</th><th>Cost</th><th>Issues</th></tr>
 </thead>
 <tbody>
 {table_rows}
@@ -145,11 +301,36 @@ def render_html_report(report: Any, filepath: Union[str, Path]) -> None:
 </table>
 
 <footer>
-  Generated by Selectools v{html.escape(report.metadata.selectools_version)} &middot;
-  Run ID: {html.escape(report.metadata.run_id)} &middot;
-  An open-source project from NichevLabs
+  <span>Generated by Selectools v{html.escape(report.metadata.selectools_version)} &middot; Run ID: {html.escape(report.metadata.run_id)}</span>
+  <span>An open-source project from <a href="https://nichevlabs.com" style="color:#06b6d4;text-decoration:none">NichevLabs</a></span>
 </footer>
+
+<script>
+function toggleDetail(i){{
+  const row=document.getElementById('detail-'+i);
+  row.style.display=row.style.display==='none'?'table-row':'none';
+}}
+function filterByTag(tag){{
+  document.querySelectorAll('.filter-btn').forEach(b=>b.classList.remove('active'));
+  event.target.classList.add('active');
+  document.querySelectorAll('.case-row').forEach(r=>{{
+    const tags=r.dataset.tags||'';
+    r.style.display=(!tag||tags.includes(tag))?'':'none';
+    const id=r.nextElementSibling?.id;
+    if(id)document.getElementById(id).style.display='none';
+  }});
+}}
+function filterByVerdict(v){{
+  document.querySelectorAll('.filter-btn').forEach(b=>b.classList.remove('active'));
+  event.target.classList.add('active');
+  document.querySelectorAll('.case-row').forEach(r=>{{
+    r.style.display=r.dataset.verdict===v?'':'none';
+    const id=r.nextElementSibling?.id;
+    if(id)document.getElementById(id).style.display='none';
+  }});
+}}
+</script>
 </body>
 </html>"""
 
-    Path(filepath).write_text(content)
+    Path(filepath).write_text(page)