GitHub - ChicagoHAI/llm-coverage-efficiency-codex: Artificial Intelligence research: LLMs increases coverage not efficiency | Generated by Idea Explorer on 2025-11-23

Overview

Experiments on whether LLM copilots improve efficiency or mainly expand coverage. We run multi-attempt code generation on MBPP+ using DeepSeek-Coder-6.7B and evaluate with EvalPlus base/augmented tests.

Key Findings

Multi-attempt sampling (5 shots) doubled base correctness on MBPP (pass@1 0.35 → pass@5 0.70); plus tests rose 0.25 → 0.55.
Half of successful tasks passed only after the first attempt, showing coverage—not first-try speed—drives gains.
Latency to first pass averaged ~5s vs. ~3.3s per single attempt, so efficiency gains are modest while coverage leaps.

How to Reproduce

Activate env: source .venv/bin/activate
Run experiment (MBPP by default): python notebooks/coverage_vs_efficiency.py
- Config variables (dataset, task_count, attempts, temperature) are at the top of notebooks/coverage_vs_efficiency.py.
Outputs:
- Metrics: results/metrics.json
- Samples: results/mbpp_samples.jsonl
- Eval records: results/mbpp_eval.json
- Plots: results/plots/mbpp_pass_rates.png, results/plots/mbpp_success_attempts.png

File Structure

planning.md — research plan.
notebooks/coverage_vs_efficiency.py — generation + evaluation script.
results/ — metrics, eval logs, plots, analysis summaries.
datasets/ — pre-downloaded MBPP/HumanEval data.
code/ — cloned evalplus/human-eval baselines (unused directly; evalplus installed).

Notes

Torch GPU build (torch==2.5.1+cu124) is installed; script auto-uses GPU if available.
To switch to HumanEval, set dataset = "humaneval" in the script; adjust task_count/temperature as desired.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.idea-explorer		.idea-explorer
code		code
datasets		datasets
logs		logs
notebooks		notebooks
papers		papers
results		results
src/research_workspace		src/research_workspace
.gitignore		.gitignore
.resource_finder_complete		.resource_finder_complete
README.md		README.md
REPORT.md		REPORT.md
literature_review.md		literature_review.md
planning.md		planning.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
resources.md		resources.md
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Overview

Key Findings

How to Reproduce

File Structure

Notes

About

Uh oh!

Releases

Packages

Languages

ChicagoHAI/llm-coverage-efficiency-codex

Folders and files

Latest commit

History

Repository files navigation

Overview

Key Findings

How to Reproduce

File Structure

Notes

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages