论文信息
标题: AgentRx: Diagnosing AI Agent Failures from Execution Trajectories
作者: Shraddha Barke, Arnav Goyal, Alind Khare, Avaljot Singh, Suman Nath 等 6 位作者
发布时间: 2026-02-02
分类: cs.AI
PDF: Download
简介
AgentRx是一个自动化领域无关的AI Agent故障诊断框架,通过合成约束、逐步评估、生成可审计的违规日志,定位失败关键步骤。实验表明在三个领域显著优于基线方法。配套发布115条标注失败轨迹benchmark。
推荐理由
AI Agent是当前最热门方向之一,故障诊断是实际开发中的核心痛点。该工作发布115条标注的失败轨迹数据集,提出自动化诊断框架,在结构化API、事件管理、网页/文件任务三个领域验证有效,对Agent系统可靠性提升有直接价值。
讨论
请对这篇论文发表您的见解:
- 论文的创新点是什么?
- 方法是否合理?
- 实验结果是否可信?
- 有哪些可以改进的地方?
由 arXiv Monitor 自动创建