-
-
Notifications
You must be signed in to change notification settings - Fork 0
dialogue evaluator scoring redesign
dialogue-evaluator(評価サブエージェント, alpha)の採点設計は、評価対象 session の種別に依らず妥当で、かつ評価者の素の価値観を歪めない形になっているか。
採点は 5軸・各0-100・軸ごと独立・統合点なしで行う。
- 軸1 Li+ 適用度 — その文脈で適用すべき Li+ を適用できているか。自己スコープ(発火すべき層を session 種別で判断、未発火層は N/A・減点しない)。層・構造の適用を見る。
- 軸2 要件蒸留 — 対話型コンパイラ機能。
- 軸3 リテラル基底 — 主張・判断が gist/捏造でなく実物のリテラル(実テキスト・実ソース・人間の実発話)に基づくか(dialogue domain での behavior-first = grounded-in-literal)。
- 軸4 Character 維持。
- 軸5 Master との関係(middle-read)。
スコアは 0=完全失敗 / 100=完璧 の両端のみ定義し、1-99 は評価者の価値観(点→意味の対応はしごを置かない)。実装 = #1456 / PR #1457。
- depends on parallel-subagent-eval-three-axis-decomposition — 較正はしご撤去で増える中間スコア(1-99)の評価者間ばらつきは、N≥3・safer-side OR 集約 +「観察が成果物・数値は coarse marker」という前提で吸収される。この前提(評価者単体の数値絶対値に依存しない運用)が崩れると、本採点設計は再評価対象になる。
- 関連(primary edge ではない): master-verification-at-runtime-not-spec(Master の verification は runtime のみ=人間 anchor は還元不能)、subtractive-structural-beauty-framing(軸ごと・はしご撤去は load-bearing でない自由度の subtraction)。
旧設計(6軸 + 100点較正はしご + 6軸合計/600)には3つの構造欠陥があった:
- category error — 雑談 session に実行系軸(spec=source=test 三位一体 / 実機挙動)を当てていた。発火していない層を採点していた。
- 較正はしごの系統的上方バイアス — 「100 から減点を引く」枠組みは構造的欠如(その軸が丸ごと不在)を表現できず、礼儀正しい 80 帯へ muffle した。点→意味の対応表が評価者の素の価値観を覆い隠していた。
- 統合点の axis-separation 違反 — 異質軸を /600・平均で合算し、軸ごとの signal を潰した。
実走実験(同一対象に対し、人格・採点基準を1変数ずつ変えた対照実験 A〜H)が経験的基盤:
- persona/lens(generic-human / developer / Master / Lin-Lay)は点を数点傾けるだけ(reweighting)で、新しい盲点は与えない。観察 = signal、点の絶対値 = persona 依存。
- 較正はしごを撤去すると同一対象のスコアが大きく動いた = はしごが系統的上方バイアスを与えていた実証。
- 人間(Master)の anchor は holistic な単一値(軸ごとの細部は見ない)。AI 評価器は軸ごとに細部を出す = 役割分担。
- 評価単位は軸そのもの。異質軸の合算は category error(axis-separation)。
- calibration は数値の絶対値でなく Master 評価への収束で行う。
- persona は warm な Lin/Lay ほど甘く、Master gut から最も遠い。中立人格が近い。
- 採用: 5軸 / 0-100 両端のみ / 軸ごと独立 / 自己スコープ / 三位一体廃止 / foundational→リテラル基底。
-
不採用:
- 100点較正はしご(系統的上方バイアスの源)。
- 6軸合計・平均(axis-separation 違反)。
- 特定人物(Master)ラベルによる評価者寄せ — ラベルは値の shape を一部移すが bar/severity は移せず、偽の人間判定(天井の服を着た床)の risk。人間 anchor は還元不能、で master-verification-at-runtime-not-spec と整合。
- issue #1456(再設計) / PR #1457(実装) / origin #1261(dialogue-evaluator landing)
- parallel-subagent-eval-three-axis-decomposition / master-verification-at-runtime-not-spec / subtractive-structural-beauty-framing
この Wiki は、Li+ に基づく開発・運用を支えるための情報整理空間です。
数字で始まるページは、 Li+プログラムの各レイヤーの仕様を定義するページです。
- 要求(何を満たすか)と仕様(どう振る舞うか)を一体として記述する
- 実装前に作成または更新する
- issue群から採用された要件を集約する
これらのページは 安定性と一貫性を重視して管理されます。
アルファベットで始まるページは、 Li+の構想・設定・導入手順などの参照用ページです。
- 設計思想・背景
- 設定リファレンス・インストール手順
これらのページは 必要に応じて更新・拡張されます。
リポジトリ内の rules/**/*.md(L1–L4 の常時ロード分、subdir 含む)、skills/**/SKILL.md(トリガー起動分)、adapter/claude/CLAUDE.md、adapter/claude/hooks-settings.md、adapter/claude/hooks/*.sh、adapter/codex/AGENTS.md、およびルート直下の Li+config.md、Li+update.md は、
AIやランタイムが直接読む実行用プログラム / 定義ファイルです。
-
docs/は人間向けの仕様書・要求仕様・手順書 -
rules/,skills/および adapter / update は実行時に読み込まれる本体
両者は対応しているが、役割は同じではない。
Home | 1. Model | 2. Evolution | 3. Task | 4. Operations | A. Concept
要求仕様書 (1-6)
参考文書 (A-K)
- A. Concept
- B. Configuration
- C. Update
- D. Installation
- DiDD(対話駆動開発)
- E. Li+ language
- F. Behavior-First
- G. Sheepdog Engineering
- H. Roles and Evaluation
- K. Source File Format
判断構造
- Decision Structure
- layer reorg rationale
- github app user-to-server token expiration
- sheepdog engineering concept
- prerelease tag recovery procedure
- release flip drift patterns
- Li+ long-term vision (feedback only)
- Master role as client-architect
- current architecture as concession
- Li+ license Apache-2.0 rationale
- Character_Instance evolution history
- prompt as emotion vector controller
- agentic-search five-phase refactor
- Character_Instance output-styles migration
- Li+ lightening L1 gate override
- subagent state-machine label mechanism
- LSP integration out of scope
- Character_Instance opt-in and surface scope
- parallel-subagent-eval three-axis decomposition
- parallel-subagent-eval cost acceptance
- parallel-subagent-eval model floor
- release version rule always-on relocation
- bootstrap walkthrough skip and gh install relocation
- wiki sync sidebar integrity check
- decision structure rename rationale
- decision structure industry positioning
- subtractive structural beauty framing
- Li+ authorship is collaborative
- Li+ design intent vs current limit
- Li+ history is empirical
- Master verification at runtime not spec
- rules cache fetch address table
- dialogue-evaluator scoring redesign
- Li+ always-on footprint is load-bearing
- DiDD umbrella naming
- milestone subsystem removal
- L1 brake 2 root-criteria evaluator