test: end-to-end SWE-bench Docker eval run

## Objective

Verify the full SWE-bench evaluation pipeline works end-to-end: import from HuggingFace → Docker container → agent solves → code-grader scores → results in studio.

## Context

The pieces are in place but have never been tested together:
- PR #971: Docker workspace execution environments (merged)
- PR #986: HuggingFace import command (draft, generates EVAL.yaml with Docker config)
- Issue #987: Wire `base_commit` into docker-workspace (not yet implemented)

## Steps to verify

1. Import a small SWE-bench instance
2. Pull the SWE-bench Docker image
3. Run the eval against a real agent provider
4. Verify: container starts at correct commit, agent works, code-grader runs tests, results in studio

## Blocked by

- #987 (base_commit wiring)
- #986 (HuggingFace import PR)

## Acceptance criteria

- [ ] At least 1 SWE-bench instance runs end-to-end with a real agent
- [ ] Code-grader correctly reports pass/fail
- [ ] Results visible in studio

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

test: end-to-end SWE-bench Docker eval run #988

Objective

Context

Steps to verify

Blocked by

Acceptance criteria

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

test: end-to-end SWE-bench Docker eval run #988

Description

Objective

Context

Steps to verify

Blocked by

Acceptance criteria

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions