liplus evaluation criterion

Li+ の評価基準 — 対話そのものが評価、自動化は gameability の壁

Question

Li+（統治 / 判断 / 対話というメトリック無しドメイン）の評価基準をどう設計するか。完全自動化できるか。

Current resolution

現状の有力案 = 対話そのものが評価（失敗は人間が対話内で指摘）。評価基準を人間の中に置く＝農夫の報酬＝ゲーム不能。評価者を自動化すると人間評価者が閉じていた gameability の穴が開く（農夫を自動化＝犬が "good boy" を偽造＝DGM 型 objective hacking）→ 完全自動化は牧羊犬の壁。真の形 = 漸近線「人間が握る天井の下で、自動化の床をどこまで上げるか」。

Edges

depends on: master-verification-at-runtime-not-spec — 人間 anchor は還元不能、static gold 不在ゆえライブ人間に縮退
relates to: dialogue-evaluator-scoring-redesign — 部分自動化の実装側 = この基準の床を上げる試み
relates to: liplus-judgment-learning-telos — 人間=天井という現状の正直な限界に対し、judgment-learning がそのギャップを閉じにいく instrument
relates to: liplus-selfevolution-lineage — AutoResearch ループをメトリック無しドメインへ拡張

背景（床 / 天井の漸近線）

0/1 ではない。Li+ は既に部分自動化済: self-eval 10軸 / parallel-subagent-eval / Lay-Lin 相互評価 = コンプライアンス/一貫性の "床"。人間に残るのは方向性/趣味/判断の正しさの "天井"（自動化すると報酬が手に戻るため残る）。床を上げる正攻法 = 偽造不能な現実の結果に接地（foundational-invariant: correctness=観測挙動）、ただし客観還元可能な部分のみ。

部分自動化の試作 = dialogue-evaluator サブエージェント（#1261、reference-only / placeholder）。採用ゲート = サブエージェント評価が Master 自身の評価に十分収束したら採用。= 自己定義メトリックでなく「人間評価への距離」で測る → DGM 穴を設計レベルで回避。

制約（読み方と運用）

統合点は category error: 異質軸の合計/平均は axis-separation 違反。評価単位は軸そのもの＝独立 verdict、軸（行）で読む。axis の run 間変動それ自体が診断（安定軸=実観察 anchor / 変動軸=実体が薄く framing・価値観が支配）。
N 無関係: dialogue-evaluator の甘さは systematic な same-substrate bias（全インスタンス同 priors で揃って甘い）。N≥3+OR が消すのは variance であって shared bias でない。対角線の外（別モデル / 外部 ground truth / 人間のみ）でしか直らない。
採点 = 0/100 両端のみ定義、1〜99 は評価者の価値観（較正はしご撤去）。promotion-judgment.md「criteria 化しない／Judge=AI／reproducibility tradeoff 受容」と同型。鉄則: 観察が成果物・数字は副 / 価値観の違う評価者間で raw 数値を比較しない / calibration は数字でなく Master 評価への収束で行う。
外部裏づけ SAGE（2026-05, arXiv 2605.12061）: 外部 gold アンカーで writer の reader 騙しを抑えるが、回避できるのは QA が客観正解を静的ラベル可能だから。Li+ の判断/統治/対話は静的 gold 原理的不在 → 外部アンカーはライブ人間に縮退。「人間を天井に」は "人間が優れる" でなく "static gold が取れぬドメインゆえの帰結"。

人間席の正体（Master 連続訂正 2026-06-18）

「天井」に座る人間は 能動的反応面 — passive evaluator でなく違和感→検証 pull（例: 英語成果物に違和感→「日本語にして」と照合可能形へ引き込む）。ゼロ engineering literacy でも felt な質に高解像度（「ボタンの反応遅くない?」＝原因を知らず遅延検知）。残る死角の正しい軸 = エンジニア可視性でなく felt-vs-silent: 人間＝体感に出る物ほぼ全部 / 装置軸(CI・実機・運用)＝構造的に signal を出さない残りのみ。

ただし silent 残りは"客観的欠陥"ではない — correctness = as-required、要求の外に correctness は無い（foundational-invariant）。装置軸は独立 arbiter でなく 要求者が設定する精度 bar を執行する instrument。security はこの還元の外（surfacing が adversarial に誘発され「表に出なければ無害」が崩れる）= 別軸。

結論

「評価を自動化しよう」と考えた瞬間、対象が床(コンプライアンス)か天井(方向/趣味)かを判別。天井の自動化は gameability の穴を開け直す。
単一自動メトリックを採否ゲートに据えない（AutoResearch/DGM 側への滑り）。
死角を literacy 軸で切らない（軸は felt-vs-silent）。

Li+ Wiki

この Wiki は、Li+ に基づく開発・運用を支えるための情報整理空間です。

ページ構成について

要求仕様書（数字：1–9）

数字で始まるページは、 Li+プログラムの各レイヤーの仕様を定義するページです。

要求（何を満たすか）と仕様（どう振る舞うか）を一体として記述する
実装前に作成または更新する
issue群から採用された要件を集約する

これらのページは 安定性と一貫性を重視して管理されます。

参考文書（アルファベット：A–）

アルファベットで始まるページは、 Li+の構想・設定・導入手順などの参照用ページです。

設計思想・背景
設定リファレンス・インストール手順

これらのページは 必要に応じて更新・拡張されます。

`rules/`, `skills/`, adapter / update 各ファイル

リポジトリ内の rules/**/*.md（L1–L4 の常時ロード分、subdir 含む）、skills/**/SKILL.md（トリガー起動分）、adapter/claude/CLAUDE.md、adapter/claude/hooks-settings.md、adapter/claude/hooks/*.sh、adapter/codex/AGENTS.md、およびルート直下の Li+config.md、Li+update.md は、 AIやランタイムが直接読む実行用プログラム / 定義ファイルです。

docs/ は人間向けの仕様書・要求仕様・手順書
rules/, skills/ および adapter / update は実行時に読み込まれる本体

両者は対応しているが、役割は同じではない。

Home

要求仕様書 (1-6)

参考文書 (A-K)

判断構造

Uh oh!

liplus evaluation criterion

Li+ の評価基準 — 対話そのものが評価、自動化は gameability の壁

Question

Current resolution

Edges

背景（床 / 天井の漸近線）

制約（読み方と運用）

人間席の正体（Master 連続訂正 2026-06-18）

結論

関連

Li+ Wiki

ページ構成について

要求仕様書（数字：1–9）

参考文書（アルファベット：A–）

rules/, skills/, adapter / update 各ファイル

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

`rules/`, `skills/`, adapter / update 各ファイル