You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
论文信息
一句话结论
OpenHands 的核心价值不是提出一个单点算法,而是把 Coding Agent 需要的事件流、沙箱运行时、工具/技能库、多 Agent 委托和 benchmark 评测整合成一个可复现、可扩展的开源平台。
论文解决什么问题
Coding Agent 研究不能只比较模型分数,还需要统一的运行环境、工具接口、事件记录、沙箱隔离和评测框架。真实软件开发 agent 需要像人类开发者一样使用命令行、Python、浏览器、文件编辑和测试反馈,而不是只输出一段代码。
关键贡献
方法与机制
OpenHands 的核心是三层结构:
其行动空间受 CodeAct 启发,强调用可执行代码和命令作为 agent 行动方式,而不是只依赖预定义 JSON tool call。
使用的模型 / Agent
关键实验结果
claude-3.5-sonnet下约 26.0%,gpt-4o下约 22.0%。最值得记住的 3 点
局限
对 HALF 的启发
OpenHands 最适合作为 HALF 的“外部执行层”参照。HALF 不一定自己做 agent runner,但必须想清楚:如果要接外部 runner,任务状态、日志、review、验收和失败轨迹如何回写到自己的任务历史中。
讨论问题
Beta Was this translation helpful? Give feedback.
All reactions