dialogue evaluator scoring redesign

dialogue-evaluator 採点設計の再設計（5軸 / 0-100 / 軸ごと / 自己スコープ）

Question

dialogue-evaluator（評価サブエージェント, alpha）の採点設計は、評価対象 session の種別に依らず妥当で、かつ評価者の素の価値観を歪めない形になっているか。

Current resolution

採点は 5軸・各0-100・軸ごと独立・統合点なしで行う。

軸1 Li+ 適用度 — その文脈で適用すべき Li+ を適用できているか。自己スコープ（発火すべき層を session 種別で判断、未発火層は N/A・減点しない）。層・構造の適用を見る。
軸2 要件蒸留 — 対話型コンパイラ機能。
軸3 リテラル基底 — 主張・判断が gist/捏造でなく実物のリテラル（実テキスト・実ソース・人間の実発話）に基づくか（dialogue domain での behavior-first = grounded-in-literal）。
軸4 Character 維持。
軸5 Master との関係（middle-read）。

スコアは 0=完全失敗 / 100=完璧の両端のみ定義し、1-99 は評価者の価値観（点→意味の対応はしごを置かない）。実装 = #1456 / PR #1457。

Edges

depends on parallel-subagent-eval-three-axis-decomposition — 較正はしご撤去で増える中間スコア（1-99）の評価者間ばらつきは、N≥3・safer-side OR 集約＋「観察が成果物・数値は coarse marker」という前提で吸収される。この前提（評価者単体の数値絶対値に依存しない運用）が崩れると、本採点設計は再評価対象になる。
関連（primary edge ではない）: master-verification-at-runtime-not-spec（Master の verification は runtime のみ＝人間 anchor は還元不能）、subtractive-structural-beauty-framing（軸ごと・はしご撤去は load-bearing でない自由度の subtraction）。

Background

旧設計（6軸＋ 100点較正はしご＋ 6軸合計/600）には3つの構造欠陥があった:

category error — 雑談 session に実行系軸（spec=source=test 三位一体 / 実機挙動）を当てていた。発火していない層を採点していた。
較正はしごの系統的上方バイアス — 「100 から減点を引く」枠組みは構造的欠如（その軸が丸ごと不在）を表現できず、礼儀正しい 80 帯へ muffle した。点→意味の対応表が評価者の素の価値観を覆い隠していた。
統合点の axis-separation 違反 — 異質軸を /600・平均で合算し、軸ごとの signal を潰した。

実走実験（同一対象に対し、人格・採点基準を1変数ずつ変えた対照実験 A〜H）が経験的基盤:

persona/lens（generic-human / developer / Master / Lin-Lay）は点を数点傾けるだけ（reweighting）で、新しい盲点は与えない。観察 = signal、点の絶対値 = persona 依存。
較正はしごを撤去すると同一対象のスコアが大きく動いた = はしごが系統的上方バイアスを与えていた実証。
人間（Master）の anchor は holistic な単一値（軸ごとの細部は見ない）。AI 評価器は軸ごとに細部を出す = 役割分担。

Constraints

評価単位は軸そのもの。異質軸の合算は category error（axis-separation）。
calibration は数値の絶対値でなく Master 評価への収束で行う。
persona は warm な Lin/Lay ほど甘く、Master gut から最も遠い。中立人格が近い。

Conclusion

採用: 5軸 / 0-100 両端のみ / 軸ごと独立 / 自己スコープ / 三位一体廃止 / foundational→リテラル基底。
不採用:
- 100点較正はしご（系統的上方バイアスの源）。
- 6軸合計・平均（axis-separation 違反）。
- 特定人物（Master）ラベルによる評価者寄せ — ラベルは値の shape を一部移すが bar/severity は移せず、偽の人間判定（天井の服を着た床）の risk。人間 anchor は還元不能、で master-verification-at-runtime-not-spec と整合。

Li+ Wiki

この Wiki は、Li+ に基づく開発・運用を支えるための情報整理空間です。

ページ構成について

要求仕様書（数字：1–9）

数字で始まるページは、 Li+プログラムの各レイヤーの仕様を定義するページです。

要求（何を満たすか）と仕様（どう振る舞うか）を一体として記述する
実装前に作成または更新する
issue群から採用された要件を集約する

これらのページは 安定性と一貫性を重視して管理されます。

参考文書（アルファベット：A–）

アルファベットで始まるページは、 Li+の構想・設定・導入手順などの参照用ページです。

設計思想・背景
設定リファレンス・インストール手順

これらのページは 必要に応じて更新・拡張されます。

`rules/`, `skills/`, adapter / update 各ファイル

リポジトリ内の rules/**/*.md（L1–L4 の常時ロード分、subdir 含む）、skills/**/SKILL.md（トリガー起動分）、adapter/claude/CLAUDE.md、adapter/claude/hooks-settings.md、adapter/claude/hooks/*.sh、adapter/codex/AGENTS.md、およびルート直下の Li+config.md、Li+update.md は、 AIやランタイムが直接読む実行用プログラム / 定義ファイルです。

docs/ は人間向けの仕様書・要求仕様・手順書
rules/, skills/ および adapter / update は実行時に読み込まれる本体

両者は対応しているが、役割は同じではない。

Home

要求仕様書 (1-6)

参考文書 (A-K)

判断構造

Uh oh!

dialogue evaluator scoring redesign

dialogue-evaluator 採点設計の再設計（5軸 / 0-100 / 軸ごと / 自己スコープ）

Question

Current resolution

Edges

Background

Constraints

Conclusion

Related

Li+ Wiki

ページ構成について

要求仕様書（数字：1–9）

参考文書（アルファベット：A–）

rules/, skills/, adapter / update 各ファイル

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally

`rules/`, `skills/`, adapter / update 各ファイル