[P2] Build Code2TestBench harness + validate metrics

## Problem
Proposal §7 promises Code2TestBench and headline metrics (70% acceptance, 80% first-run pass). No benchmark harness exists; metrics are unvalidated.

## Tasks
- [ ] Harness: run generation against sample repos (flask, requests) with their real tests hidden.
- [ ] Measure acceptance rate, first-run pass rate, diagnostic accuracy.
- [ ] Record results in docs; reconcile with proposal targets.

## Acceptance
Reproducible benchmark command + a results table committed.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[P2] Build Code2TestBench harness + validate metrics #14

Problem

Tasks

Acceptance

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

[P2] Build Code2TestBench harness + validate metrics #14

Description

Problem

Tasks

Acceptance

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions