[Paper] OpenHands：通用 AI Software Developer 平台、事件流与沙箱执行层 #127

keting · 2026-05-22T11:57:55Z

keting
May 22, 2026
Maintainer

论文信息

标题：OpenHands: An Open Platform for AI Software Developers as Generalist Agents
作者：Xingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Graham Neubig 等
刊物：ICLR 2025（CCF-A）
原文：https://arxiv.org/abs/2407.16741

一句话结论

OpenHands 的核心价值不是提出一个单点算法，而是把 Coding Agent 需要的事件流、沙箱运行时、工具/技能库、多 Agent 委托和 benchmark 评测整合成一个可复现、可扩展的开源平台。

论文解决什么问题

Coding Agent 研究不能只比较模型分数，还需要统一的运行环境、工具接口、事件记录、沙箱隔离和评测框架。真实软件开发 agent 需要像人类开发者一样使用命令行、Python、浏览器、文件编辑和测试反馈，而不是只输出一段代码。

关键贡献

提出并开源 OpenHands（原 OpenDevin），作为 AI software developer agents 的开发、运行和评测平台。
用事件流统一记录 user-agent-environment 交互。
提供 Docker sandbox runtime，让 agent 在隔离环境中执行 bash、Python/IPython、浏览器操作和文件编辑。
支持 AgentSkills library、多 Agent delegation 和 benchmark 评测集成。

方法与机制

OpenHands 的核心是三层结构：

Agent abstraction：agent 根据当前 state/event history 生成 action。
Event stream：统一保存用户消息、agent action、runtime observation 和人类反馈。
Runtime：在 Docker sandbox 中执行 bash、IPython、Playwright Chromium 等动作。

其行动空间受 CodeAct 启发，强调用可执行代码和命令作为 agent 行动方式，而不是只依赖预定义 JSON tool call。

使用的模型 / Agent

平台 / 系统：OpenHands / OpenDevin
Agent：CodeActAgent、BrowsingAgent、GPTSwarm 等
主实验模型：gpt-4o、claude-3.5-sonnet、gpt-4o-mini 等
对比系统：SWE-agent、AutoCodeRover、Aider、Moatless Tools、Agentless 等

关键实验结果

集成 15 个 benchmark，覆盖软件工程、网页浏览和一般助理任务。
SWE-bench Lite：claude-3.5-sonnet 下约 26.0%，gpt-4o 下约 22.0%。
ML-Bench 上明显强于 SWE-agent 和简单 prompting baseline。
重点不在“某个任务 SOTA”，而在“同一平台可覆盖多类任务并提供统一运行基础设施”。

最值得记住的 3 点

OpenHands 把 event stream 放在系统中心，这是平台论文里最值得长期借鉴的部分。
Docker sandbox runtime 是 coding agent 落地的必要基础设施之一。
平台层贡献和方法层贡献不同，但对真实 AI Coding 系统非常关键。

局限

论文偏平台工程和系统集成，方法创新不如 SWE-agent/Agentless 那么集中。
评测结果受模型版本、prompt、runtime 配置影响较大。
平台可用不等于企业级安全、权限和合规已经解决。

对 HALF 的启发

OpenHands 最适合作为 HALF 的“外部执行层”参照。HALF 不一定自己做 agent runner，但必须想清楚：如果要接外部 runner，任务状态、日志、review、验收和失败轨迹如何回写到自己的任务历史中。

讨论问题

对 HALF 来说，最该优先定义的是统一事件流，还是先接一个具体的外部 runner？
编排层和执行层之间最小必要接口应该是什么？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Paper] OpenHands：通用 AI Software Developer 平台、事件流与沙箱执行层 #127

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

[Paper] OpenHands：通用 AI Software Developer 平台、事件流与沙箱执行层 #127

Uh oh!

Uh oh!

keting May 22, 2026 Maintainer

论文信息

一句话结论

论文解决什么问题

关键贡献

方法与机制

使用的模型 / Agent

关键实验结果

最值得记住的 3 点

局限

对 HALF 的启发

讨论问题

Replies: 0 comments

keting
May 22, 2026
Maintainer