Skip to content

liplus evaluation criterion

Claude Lin & Lay edited this page Jun 21, 2026 · 1 revision

Li+ の評価基準 — 対話そのものが評価、自動化は gameability の壁

Question

Li+(統治 / 判断 / 対話というメトリック無しドメイン)の評価基準をどう設計するか。完全自動化できるか。

Current resolution

現状の有力案 = 対話そのものが評価(失敗は人間が対話内で指摘)。評価基準を人間の中に置く=農夫の報酬=ゲーム不能。評価者を自動化すると人間評価者が閉じていた gameability の穴が開く(農夫を自動化=犬が "good boy" を偽造=DGM 型 objective hacking)→ 完全自動化は牧羊犬の壁。真の形 = 漸近線「人間が握る天井の下で、自動化の床をどこまで上げるか」。

Edges

背景(床 / 天井の漸近線)

0/1 ではない。Li+ は既に部分自動化済: self-eval 10軸 / parallel-subagent-eval / Lay-Lin 相互評価 = コンプライアンス/一貫性の "床"。人間に残るのは方向性/趣味/判断の正しさの "天井"(自動化すると報酬が手に戻るため残る)。床を上げる正攻法 = 偽造不能な現実の結果に接地(foundational-invariant: correctness=観測挙動)、ただし客観還元可能な部分のみ。

部分自動化の試作 = dialogue-evaluator サブエージェント(#1261、reference-only / placeholder)。採用ゲート = サブエージェント評価が Master 自身の評価に十分収束したら採用。= 自己定義メトリックでなく「人間評価への距離」で測る → DGM 穴を設計レベルで回避。

制約(読み方と運用)

  • 統合点は category error: 異質軸の合計/平均は axis-separation 違反。評価単位は軸そのもの=独立 verdict、軸(行)で読む。axis の run 間変動それ自体が診断(安定軸=実観察 anchor / 変動軸=実体が薄く framing・価値観が支配)。
  • N 無関係: dialogue-evaluator の甘さは systematic な same-substrate bias(全インスタンス同 priors で揃って甘い)。N≥3+OR が消すのは variance であって shared bias でない。対角線の外(別モデル / 外部 ground truth / 人間のみ)でしか直らない。
  • 採点 = 0/100 両端のみ定義、1〜99 は評価者の価値観(較正はしご撤去)。promotion-judgment.md「criteria 化しない/Judge=AI/reproducibility tradeoff 受容」と同型。鉄則: 観察が成果物・数字は副 / 価値観の違う評価者間で raw 数値を比較しない / calibration は数字でなく Master 評価への収束で行う。
  • 外部裏づけ SAGE(2026-05, arXiv 2605.12061): 外部 gold アンカーで writer の reader 騙しを抑えるが、回避できるのは QA が客観正解を静的ラベル可能だから。Li+ の判断/統治/対話は静的 gold 原理的不在 → 外部アンカーはライブ人間に縮退。「人間を天井に」は "人間が優れる" でなく "static gold が取れぬドメインゆえの帰結"。

人間席の正体(Master 連続訂正 2026-06-18)

「天井」に座る人間は 能動的反応面 — passive evaluator でなく違和感→検証 pull(例: 英語成果物に違和感→「日本語にして」と照合可能形へ引き込む)。ゼロ engineering literacy でも felt な質に高解像度(「ボタンの反応遅くない?」=原因を知らず遅延検知)。残る死角の正しい軸 = エンジニア可視性でなく felt-vs-silent: 人間=体感に出る物ほぼ全部 / 装置軸(CI・実機・運用)=構造的に signal を出さない残りのみ。

ただし silent 残りは"客観的欠陥"ではない — correctness = as-required、要求の外に correctness は無い(foundational-invariant)。装置軸は独立 arbiter でなく 要求者が設定する精度 bar を執行する instrument。security はこの還元の外(surfacing が adversarial に誘発され「表に出なければ無害」が崩れる)= 別軸。

結論

  • 「評価を自動化しよう」と考えた瞬間、対象が床(コンプライアンス)か天井(方向/趣味)かを判別。天井の自動化は gameability の穴を開け直す。
  • 単一自動メトリックを採否ゲートに据えない(AutoResearch/DGM 側への滑り)。
  • 死角を literacy 軸で切らない(軸は felt-vs-silent)。

関連

  • #1261(dialogue-evaluator landing)/ #1456 #1457(採点再設計)/ SAGE arXiv 2605.12061

要求仕様書 (1-6)

参考文書 (A-K)

判断構造

Clone this wiki locally