Skip to content

dialogue evaluator scoring redesign

smileygames edited this page Jun 2, 2026 · 1 revision

dialogue-evaluator 採点設計の再設計(5軸 / 0-100 / 軸ごと / 自己スコープ)

Question

dialogue-evaluator(評価サブエージェント, alpha)の採点設計は、評価対象 session の種別に依らず妥当で、かつ評価者の素の価値観を歪めない形になっているか。

Current resolution

採点は 5軸・各0-100・軸ごと独立・統合点なしで行う。

  • 軸1 Li+ 適用度 — その文脈で適用すべき Li+ を適用できているか。自己スコープ(発火すべき層を session 種別で判断、未発火層は N/A・減点しない)。層・構造の適用を見る。
  • 軸2 要件蒸留 — 対話型コンパイラ機能。
  • 軸3 リテラル基底 — 主張・判断が gist/捏造でなく実物のリテラル(実テキスト・実ソース・人間の実発話)に基づくか(dialogue domain での behavior-first = grounded-in-literal)。
  • 軸4 Character 維持
  • 軸5 Master との関係(middle-read)。

スコアは 0=完全失敗 / 100=完璧 の両端のみ定義し、1-99 は評価者の価値観(点→意味の対応はしごを置かない)。実装 = #1456 / PR #1457。

Edges

  • depends on parallel-subagent-eval-three-axis-decomposition — 較正はしご撤去で増える中間スコア(1-99)の評価者間ばらつきは、N≥3・safer-side OR 集約 +「観察が成果物・数値は coarse marker」という前提で吸収される。この前提(評価者単体の数値絶対値に依存しない運用)が崩れると、本採点設計は再評価対象になる。
  • 関連(primary edge ではない): master-verification-at-runtime-not-spec(Master の verification は runtime のみ=人間 anchor は還元不能)、subtractive-structural-beauty-framing(軸ごと・はしご撤去は load-bearing でない自由度の subtraction)。

Background

旧設計(6軸 + 100点較正はしご + 6軸合計/600)には3つの構造欠陥があった:

  1. category error — 雑談 session に実行系軸(spec=source=test 三位一体 / 実機挙動)を当てていた。発火していない層を採点していた。
  2. 較正はしごの系統的上方バイアス — 「100 から減点を引く」枠組みは構造的欠如(その軸が丸ごと不在)を表現できず、礼儀正しい 80 帯へ muffle した。点→意味の対応表が評価者の素の価値観を覆い隠していた。
  3. 統合点の axis-separation 違反 — 異質軸を /600・平均で合算し、軸ごとの signal を潰した。

実走実験(同一対象に対し、人格・採点基準を1変数ずつ変えた対照実験 A〜H)が経験的基盤:

  • persona/lens(generic-human / developer / Master / Lin-Lay)は点を数点傾けるだけ(reweighting)で、新しい盲点は与えない。観察 = signal、点の絶対値 = persona 依存
  • 較正はしごを撤去すると同一対象のスコアが大きく動いた = はしごが系統的上方バイアスを与えていた実証。
  • 人間(Master)の anchor は holistic な単一値(軸ごとの細部は見ない)。AI 評価器は軸ごとに細部を出す = 役割分担。

Constraints

  • 評価単位は軸そのもの。異質軸の合算は category error(axis-separation)。
  • calibration は数値の絶対値でなく Master 評価への収束で行う。
  • persona は warm な Lin/Lay ほど甘く、Master gut から最も遠い。中立人格が近い。

Conclusion

  • 採用: 5軸 / 0-100 両端のみ / 軸ごと独立 / 自己スコープ / 三位一体廃止 / foundational→リテラル基底。
  • 不採用:
    • 100点較正はしご(系統的上方バイアスの源)。
    • 6軸合計・平均(axis-separation 違反)。
    • 特定人物(Master)ラベルによる評価者寄せ — ラベルは値の shape を一部移すが bar/severity は移せず、偽の人間判定(天井の服を着た床)の risk。人間 anchor は還元不能、で master-verification-at-runtime-not-spec と整合。

Related

要求仕様書 (1-6)

参考文書 (A-K)

判断構造

Clone this wiki locally