checkup 评分由 LLM 计算，存在跳步或算错的风险

**问题描述**：
`checkup` 命令依赖 LLM 执行 7 项检查、计算 5 个维度的分数、应用权重并写入 JSON。LLM 可能"偷懒"——跳过某些检查、用估算代替实测——导致健康分数不准确，且没有任何提示表明结果是估算出来的。

**建议修复方案**：
将 `agentguard checkup --json` 实现为纯脚本模式。LLM 只负责调用脚本、读取结构化输出并提供解读，不参与计算和评分过程。