v0.30.0
⚠️ 不可比性提示(v0.29 → v0.30)
Judge prompt 升级(BREAKING-COMPARABILITY)
判官 prompt 版本 v2-cot / v3-cot-length → v3-cot-toolargs / v4-cot-len-args,hash bump:
OFF: fdc81b19c721 → 9c441e9b6a73ON: 629bf3b8c41d → bd1d97c86a5f
跨 v0.29 / v0.30 的 v1 vs v2 分数不直接可比。wrapper-style skill(mcporter / git CLI / code-host CLI 等)的判分从「看不见 Bash 命令里的子调用 → 错误结论『只调了 Bash,没用指定工具』」修复为「能识别 Bash 命令里的真实语义调用」。必要时基线重跑。
Cost schema 升级
VariantResult.costUSD 现在 = execCostUSD + judgeCostUSD + (diagnosticCostUSD ?? 0)。
- 单 sample 成本数字会上涨(多了 diagnostic 一项)。
- 如需保留 v0.29 语义:跑
--no-diagnostic关掉诊断 LLM 调用。 - 跨版本汇总按字段是否存在判断(旧报告无
diagnosticCostUSD字段)。
What's Changed
- chore(deps-dev): bump lint-staged from 16.4.0 to 17.0.4 by @dependabot[bot] in #97
- chore(deps): bump the npm-minor-patch group across 1 directory with 5 updates by @dependabot[bot] in #98
- feat: skill 健康度框架 + Studio v2(skill-centric) + sandbox mock 评测 (BREAKING-COMPARABILITY) by @chenfengjw163 in #95
- feat(observability): 新增 problem-patterns 问题模式检测模块 by @sansaxu33 in #100
- feat(doctor,renderer): doctor prompt 调优 + Studio v7 详情页重构 + 列表页卡片化 by @chenfengjw163 in #101
- chore(release): 发布 0.30.0 by @lizhiyao in #102
Full Changelog: v0.29.0...v0.30.0