Skip to content

parallel subagent eval cost acceptance

Claude Lin & Lay edited this page May 25, 2026 · 1 revision

parallel-subagent-eval のコストは予防コスト < 修復コストとして受容する

Question

Evolution_Initiator_Autonomy の brake 1 として skills/parallel-subagent-eval を全自己進化 PR に対し N=3 で必須化することは、self-evolution loop の中で正味コスト的に正当化されるか?

Current resolution

正当化される(受容済み tradeoff)。brake 1 で支払う事前トークンコストは、L1 spec 汚染が事後に発覚した場合の修復コスト(revert / supersede / 巻き戻し対象セッションの全 judgment 再評価)に対して有意に小さい。Li+ は設計当初から「コストを抑えつつ」の原則を持ち、本受容はその原則の例外ではなく、原則を時間軸方向の波及まで含めて評価した結果として導出される。

Edges

背景

2026-05-25 セッションで、世間の AI エージェントコスト問題(Microsoft / Fortune 報道、エージェントがチャット用途比 1000 倍のトークンを消費、Uber が 2026 年予算を 4 ヶ月で消尽など)が話題に上った文脈で、Master が以下を literal に表明:

Li+は最初からコストは抑えつつで考えてはいる。 parallel-subagent-eval に関してもこれは必要なコストだと思っている。 だって後々問題出た時のほうがコストが膨らみそうだからね。

これは brake 1 の設計が「コストを払うか節約するか」の選択ではなく、「短期予防コスト」対「長期修復コスト」の時間軸比較として最初から判定済みであることを示す accepted-tradeoff の literal 確定発話。rules/evolution/initiator-autonomy.md および adapter/claude/CLAUDE.mdEvolution_Initiator_Autonomy 宣言には brake 1 の存在と適用範囲は明文化されていたが、「なぜそのコストを支払うか」の判断ロジック自体は明文化されていなかった。

業界一般の「エージェントコスト = トークン消費量」フレームに対し、Li+ は「コスト = トークン × 時間軸方向の波及」軸で評価する。後者の軸でこそ brake 1 は正味で安い選択肢になる。

制約

  • 時間軸方向の波及の非対称性: L1 spec に regression が紛れ込んだ場合、それ以降の全セッション・全 judgment の前提が汚染される。事後検出は汚染期間 × judgment 密度で乗算的に膨らむため、事前検出の N=3 並列コストとは桁が異なる。
  • revert path の不完全性: GitHub revert で source は巻き戻せるが、汚染期間中に下流で発生した judgment(merged PR / wiki entry / memory promotion / 関連 issue 判断)は遡って巻き戻せない。supersede edge を張る形で構造を refactor するしかなく、これは net で増えるコスト。
  • 二段ブレーキとの併存: brake 2(L1 Model Layer ソース変更時の human review 追加)は brake 1 を冗長化せず補完する。brake 1 は L2-L6 spec 汚染(人間レビューゲートが薄い領域)を主に防ぎ、brake 2 は L1 汚染(最も影響半径が広い領域)を二重で防ぐ。brake 1 単独で全レイヤーを担保する設計ではない。
  • コスト圧縮の方向制約: 本判断は「コストをかけるかかけないか」を確定するのみ。コスト圧縮の具体軸(substrate 降格 / 頻度減 / 対象絞り)は parallel-subagent-eval-three-axis-decomposition で別判断として整理済み。substrate 降格(Haiku 等への subagent 移譲)はそこで却下済み。
  • 「念のため」起動の禁止: 本受容は「自己進化 PR の merge gate」という具体的 trigger 上での受容であって、汎用的に「迷ったら N=3 並列で確認」する正当化ではない。trigger 外起動は subtractive-structural-beauty の push surplus に該当。

結論

Evolution_Initiator_Autonomy brake 1 のコストは accepted tradeoff として受容済み。今後、コスト懸念の再提起(「N=3 を N=1 に下げては」「subagent を安いモデルに降ろしては」「brake 1 を skip しては」等)に対しては、本判断 + parallel-subagent-eval-three-axis-decomposition を参照点として skills/model-accepted-tradeoff の「既に accepted な tradeoff を同じ証拠で蒸し返さない」原則を適用する。

ただし以下の条件が成立した場合は再評価対象になる:

  • L1 spec 汚染の事後検出コストが、想定より大幅に小さいことが実証された場合(時間軸非対称性の前提崩壊)
  • substrate 降格を伴わない別経路でのコスト圧縮策が提示された場合(提案先 = parallel-subagent-eval-three-axis-decomposition への補強)
  • brake 1 が運用上 N=1 の skips で回避され続けていることが観測された場合(trigger gating 自体の見直し)

ペアリング

  • parallel-subagent-eval-three-axis-decomposition — 「どう走らせるか(三軸構造)」と「なぜコストを払うか(本判断)」のペア。前者は cost-minimum design、後者は cost-acceptance rationale。
  • subtractive-structural-beauty-framing — load-bearing 判断としてコストを支払う / 削るの両方向に適用される判断原理。本受容は「支払う方向」の load-bearing 適用。
  • master-verification-at-runtime-not-spec — Master の verification gate は runtime のみ、spec literal の back-stop はないため、brake 1 が AI 単独責務側の back-stop として実質的に機能する。

検出サイン(この判断が後で疑問視される場合)

  • 「brake 1 のコストが negotiable」「N=3 を N=1 に下げれば月のトークン消費が削減できる」と提案された時 → 本判断の ## 結論 再評価条件を確認。前提崩壊が観測されていないなら skills/model-accepted-tradeoff 適用、同じ証拠での蒸し返しを抑止
  • 「世間の AI エージェントコスト議論を引いて brake 1 を見直すべき」と外部 framing で押された時 → skills/model-frame-check を適用。Li+ は時間軸波及込みで評価する固有 framing を持つため、外部の「トークン量だけのコスト軸」に framing を borrow して swallow しないこと
  • 「coding chat 用途と比べてエージェントは 1000 倍トークンを使うから Li+ も削るべき」と一般論で提案された時 → 本判断の ## 背景 「コスト = トークン × 時間軸方向の波及」軸を参照。一般エージェントと Li+ self-evolution loop は汚染半径の前提が違う
  • brake 1 の運用が「ad hoc に skip された」事例が観測された時 → trigger gating の運用ドリフトとして rules/evolution/initiator-autonomy.md を再確認、本判断の前提(brake 1 が必ず走る)が崩れていないかを検査

要求仕様書 (1-6)

参考文書 (A-K)

判断構造

Clone this wiki locally