[论文讨论] AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

## 论文信息

**标题**: [AgentRx: Diagnosing AI Agent Failures from Execution Trajectories](https://arxiv.org/abs/2602.02475v1)
**作者**: Shraddha Barke, Arnav Goyal, Alind Khare, Avaljot Singh, Suman Nath 等 6 位作者
**发布时间**: 2026-02-02
**分类**: cs.AI
**PDF**: [Download](https://arxiv.org/pdf/2602.02475v1.pdf)

## 简介

AgentRx是一个自动化领域无关的AI Agent故障诊断框架，通过合成约束、逐步评估、生成可审计的违规日志，定位失败关键步骤。实验表明在三个领域显著优于基线方法。配套发布115条标注失败轨迹benchmark。

## 推荐理由

AI Agent是当前最热门方向之一，故障诊断是实际开发中的核心痛点。该工作发布115条标注的失败轨迹数据集，提出自动化诊断框架，在结构化API、事件管理、网页/文件任务三个领域验证有效，对Agent系统可靠性提升有直接价值。

## 讨论

请对这篇论文发表您的见解：
- 论文的创新点是什么？
- 方法是否合理？
- 实验结果是否可信？
- 有哪些可以改进的地方？

---
_由 arXiv Monitor 自动创建_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[论文讨论] AgentRx: Diagnosing AI Agent Failures from Execution Trajectories #22

论文信息

简介

推荐理由

讨论

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[论文讨论] AgentRx: Diagnosing AI Agent Failures from Execution Trajectories #22

Description

论文信息

简介

推荐理由

讨论

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions