Skip to content

checkup 评分由 LLM 计算,存在跳步或算错的风险 #56

@nnn228085-star

Description

@nnn228085-star

问题描述
checkup 命令依赖 LLM 执行 7 项检查、计算 5 个维度的分数、应用权重并写入 JSON。LLM 可能"偷懒"——跳过某些检查、用估算代替实测——导致健康分数不准确,且没有任何提示表明结果是估算出来的。

建议修复方案
agentguard checkup --json 实现为纯脚本模式。LLM 只负责调用脚本、读取结构化输出并提供解读,不参与计算和评分过程。

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions