Skip to content

Latest commit

 

History

History
4116 lines (2936 loc) · 328 KB

数学_ゲーム理論_Note.md

File metadata and controls

4116 lines (2936 loc) · 328 KB

ゲーム理論 [Game Theory]

ゲーム理論 [Game Theory] に関してのマイノートです。逐次追加予定です。

twitter_ _ _161001

目次 [Contents]

  1. ゲーム理論 [Game Theory]
    1. 概要
    2. 全体 MAP 図
    3. 戦略形ゲーム [game in staregic form] / 標準形ゲーム [game in normal form]
      1. ナッシュ均衡点 [Nash equilibrium point]
        1. ゼロ和ゲームでのナッシュ均衡点と鞍点
        2. 戦略の支配とナッシュ均衡点
        3. 囚人のジレンマとナッシュ均衡点
        4. パレート最適 [Parete optimal]
        5. ナッシュ均衡点の一意性
      2. 混合戦略 [mixed strategy] と期待利得 [expected payoff]
        1. (純戦略における)ナッシュ均衡点の非存在性
        2. 純戦略 [pure strategy] と混合戦略 [mixed stratey]
        3. 戦略形ゲームの混合拡大 [mixed extension] されたゲーム
        4. 混合戦略による実現可能集合 [feasible set]
      3. 角谷の不動点定理 [Kakutani fixed point theorem] とナッシュ均衡点の存在
      4. ミニマックス定理とゼロ和2人ゲームにおけるナッシュ均衡点の存在性
      5. ナッシュ均衡点の具体的な計算
        1. 最適応答対応からのナッシュ均衡点の計算方法
        2. maxmin戦略, minmax戦略からのナッシュ均衡点の計算方法
        3. シャープレイによるラベル法を用いた、ナッシュ均衡点の計算
      6. 「複数均衡」、「均衡選択」の問題
        1. 利得支配 [payoff dominate] とリスク支配 [risk dominate]
      7. 戦略形ゲームの応用例
        1. クールノー複占市場
    4. 展開形ゲーム [game in extensive form]
      1. 展開形ゲームを構成する要素(ゲームのルール)
        1. ゲームの木 [game tree]
        2. プレイヤー分割 [player partition]
        3. 偶然手番の確率分布族
        4. 情報分割
        5. 利得関数
        6. ゲームのルールと情報完備ゲーム、情報不完備ゲーム
      2. 展開形ゲームにおける戦略の概念とナッシュ均衡点
        1. (展開形ゲームにおける)純戦略 [pure strategy]
        2. (展開形ゲームにおける)混合戦略 [mixed strategy]
        3. 局所戦略 [local strategy] と行動戦略 [behavior strategy]
        4. 行動戦略と期待利得
        5. 展開形ゲームの戦略形ゲームへの標準化
        6. 展開形ゲームの戦略とナッシュ均衡点
      3. 展開形ゲームの分解と合成
        1. 展開形ゲームの部分ゲーム
        2. 展開形ゲームの縮約ゲーム [truncated game]
        3. 展開形ゲームの分解と合成に関するナッシュ均衡点の基本的な定理
      4. 完全情報ゲーム
      5. 完全記憶ゲーム
      6. 情報のインフレーション
    5. ゲームの解とナッシュ均衡点の拡張
      1. 部分ゲーム完全均衡点 [sub game perfect equilibrium point]
      2. 完全均衡点 [perfect equilibrium point]
        1. 変動ゲーム [perturbed game] と完全均衡点 [perfect equilibrium point]
        2. ベイジアン意思決定理論の立場からの完全均衡点
        3. 完全均衡点の計算方法
      3. 逐次均衡点 [sequential equilibrium point]
        1. 逐次均衡点の計算
      4. (弱)完全ベイジアン均衡点 [(weakly) perfect Bayesian equilibrium point]
      5. 完全均衡点の存在定理
      6. 戦略の支配と完全均衡点
      7. 戦略の安定性と強完全均衡点
      8. 各種均衡点の応用例
    6. 情報不完備ゲーム [game with incomplete information]
      1. 情報不完備ゲームの定式化
      2. ベイジアンゲームと情報不完備ゲーム
      3. ベイジアン均衡点
      4. ベイジアンゲームの例
      5. 相関均衡点
    7. 繰り返しゲーム [repeated game]
      1. 繰り返し囚人のジレンマ
      2. (無限回)繰り返しゲームの定式化
      3. フォーク定理(繰り返しゲームにおけるナッシュ均衡点の基本定理)
      4. 完全フォーク定理
      5. 有限回繰り返しゲーム
    8. 交渉ゲーム
      1. 交渉問題の定式化
      2. ナッシュ交渉解 [Nash bargaining solution]
      3. 非協力交渉モデル1(要求ゲーム)
      4. 非協力交渉モデル2(提案応答ゲーム)
    9. 協力ゲーム
      1. 協力ゲームの定式化
      2. コアの理論
    10. 進化ゲーム [evolutionary game]
      1. 進化的に安定な戦略 [ESS : evolutionaly stable strategy]
      2. レプリケータ・ダイナミクス [RD : replicator dynamics]
        1. レプリケータ・ダイナミクスの解の性質
        2. レプリケータ・ダイナミクスの例
      3. 社会進化の動学ゲーム
        1. 社会進化の動学ゲームの解の性質
    11. 参考文献

ゲーム理論 [Game Theory]

■ 概要

ゲーム理論 [game theory] とは、
社会システムなどの様々なシステムにおいて、複数の意思決定主体、或いは行動主体(プレイヤーという)が存在し、
各々のプレイヤーが十分に合理的 [rational] であるという前提の元、ある一定の目的の実現に対し、相互に依存しながらそれを達成することを目指す状況。
即ち、ゲーム的状況 [game situations] を数理モデルで定式化することで、このシステムの分析、解析、予想に応用するものである。

尚、ここで言う合理的とは、具体的には、

  1. 各プレイヤーが、利得の最大化を目指す。
  2. 相手の状況を可能な限り推測した上で、自身の行動を最適化する。
  3. 各プレイヤーが、相手のプレイヤーも同じく合理的であるという前提の元、行動を最適化する。

ということを指す。
とは言え、実際の社会システム等においては、プレイヤーは必ずしも合理的であるとは言いかねる。
従って、これをうまくモデル化するにあたって、理想的な合理性の前提を緩和し、その合理性が様々な形で限定されている(=限定合理性 [bounded rationality])という前提のもとで、理論を構築するアプローチも存在する。


ここで、ゲーム理論で扱うゲーム、及びゲーム的状況は、以下のようなゲームに分類される。

  • ゲームの利得 [payoff] 、効用 [utitly] で分類

    • ゼロ和ゲーム(ゼロサムゲーム) [zero-sum game]
      プレイヤーの目的が完全に相反し、ゲームにおける利得の合計がゼロになるようなゲーム。
    • 非ゼロ和ゲーム [non-zero-sum game]
      ゼロサムゲームとは異なり、プレイヤーの目的が完全には相反しておらず、ゲームにおける利得の合計が非ゼロになるようなゲーム。
      一般に、社会システムにおけるゲーム的状況は、この非ゼロ和ゲームとなっていることが多い。
  • ゲームのルール(プレイヤーの人数、目的、選択可能な行動等の規約)で分類1

    • 情報完備ゲーム [game with complete information]
      ゲームに参加する全てのプレイヤーが、ゲームのルールを完全に知っており、
      更に、全てのプレイヤーが、他のプレイヤーがこの事(全てのルールを知っている事)を相互に認識しているようなゲーム的状況にあるゲーム。
      尚、この際のゲームのルールは、プレイヤー間の共有知識 [common knowledge] であるという。
      チェス、将棋といったボードゲーム、野球などのスポーツは、この情報完備ゲームの典型的な例である。
    • 情報非完備ゲーム [game with incomplete information]
      情報完備ゲームとは異なり、ゲームのルールがプレイヤー間の共有知識となっていないようなゲーム的状況にあるゲーム。
      一般に、社会システムにおけるゲーム的状況は、この情報非完備ゲームとなっていることが多い。
  • ゲームのルールで分類2

    • 非協力ゲーム [noncooperative game]
      ゲームの各プレイヤーが、以下の2つのルールを満たすようなゲーム的状況にあるゲーム。
      (1) プレイヤー間でのコミュニケーションが不可能
      (2) 拘束力のある合意(協力)が可能でない
      従って、プレイヤーは各々独立した戦略を決定する(or ぜざる負えない)ことになり、 この前提のもとに、ゲームの解としての均衡解 [equilibrium point](ナッシュ均衡)の概念が生じる。
    • 協力ゲーム [cooperative game]
      非協力ゲームとは異なり、ゲームの各プレイヤーが互いに拘束力のある合意(協力)を行うことが出来るようなゲーム的状況にあるゲーム。
      ここで、この協力ゲームは、非協力ゲームとは完全に相反するものではなく、非協力ゲームの枠組みを使用するゲームとみなすことが出来ることに注意が必要である。
      即ち、例えば、プレイヤーの協力をその実現(協力の実現)に至るまでのプロセスから考えた場合、 協力を得るための交渉に先立って、個々のプレイヤーは誰と協力すべきか?又、協力するにあたってどのくらいの利得を要求するか?等の個々のプレイヤーに独立した意思決定、即ち非協力ゲームを行うことになる。
      このように、協力ゲームは、協力成立までのプロセスも考慮することで、非協力ゲームの枠組みを使用することになる。
  • ゲームに対する数理モデル化の手法で分類

    • 戦略形ゲーム [game in strategic form] / 標準形ゲーム [game in normal form]
      ゲーム理論におけるに最も基本的な数理モデルで、
      各プレイヤーの戦略と利得の関係を関数を用いて定式化する手法。
    • 展開形ゲーム [game in extensive form]
      ゲームにおける戦略(選択)の時系列を木構造を用いて記述することにより、
      ゲームの動的な構造(ダイナミクス)や情報構造を定式化する手法。
    • 提携形ゲーム [game in coalitional form]
      プレイヤーの様々な提携にとって、実現可能な総利得の集合を記述し、提携行動の分析に用いる。

■ 戦略形ゲーム [game in staregic form] / 標準形ゲーム [game in normal form]

戦略形ゲーム(標準形ゲーム)とは、先に記述したように、ゲーム理論における最も基本的な数理モデルであり、 ゲーム理論が扱うゲーム的状況(=プレイヤーの利得が自身の戦略のみならず相手の戦略にも依存するような相互依存なシステム)を、関数や行列を用いて定式化するものである。

ここでは、まず、市場シェアという1つのゲームを例を元に、この戦略形ゲームの基本的な性質(特に、ナッシュ均衡点)を見ていく。

(例)市場シェアゲーム

image

2つのプレイヤー(企業)A 社, B 社が市場競争しているとする。
両社は共に、現時点で 50% の市場シェアを占有しているが、もし1社のみ新製品を発売するという戦略をとれば、 市場シェアを 70% 獲得することが出来るが、両社ともに新製品を販売するという戦略をとってしまった場合、市場シェアは現在と同じ 50% ずつという結果になってしまう。このような相互依存関係を表で書くと、上表のようになる。

この市場シェアゲームのように、
プレイヤーの戦略と利得(ここでは市場シェア)の関係によって定義されるゲームを、戦略形ゲームという。

より一般的には、戦略形 n 人ゲームは以下のような要素の組 G として定義される。

image

  • image はプレイヤー集合(各々の要素番号がプレイヤー番号を表す)
  • image はプレイヤー i の選択可能な戦略、或いは戦略の集合
  • image は、戦略 S の直積集合 image 上の関数

ゲームは次のようにプレイ(ゲームプレイ)される。

  1. 任意のプレイヤー i は、他のプレイヤーの戦略 image の選択を知らずに、自らの戦略 image を選択する。
  2. その結果、プレイヤー i は利得 image を得る。
  3. そして、任意のプレイヤーの目的である、自らの利得の最大化に従って戦略を選択する。
  4. 尚、image で定義される戦略形ゲームのゲームプレイにおいて、G の各要素 N(任意のプレイヤー), S(任意の戦略), f(任意の利得) は、全てのプレイヤーが完全に知っている(共有知識)であるとする。

戦略形ゲーム image において、

  • 全てのプレイヤーの戦略集合 image が有限と時、有限ゲームであるといい、
  • 全てのプレイヤーの戦略集合 image が無限と時、無限ゲームであるという。

本項で扱うのは、主に有限ゲームである。


戦略形ゲーム image において、
全ての戦略の組 image に対して、
image  が成り立つ時、このゲームをゼロサムゲーム [zero-sum game] という。

この関係式が成り立たない(右辺が 0 でない)、
即ち、
image  が成り立つ時、このゲームを非ゼロサムゲーム [non-zero-sum game] という。
特に、右辺が定数 K となるとき、
即ち、
image  が成り立つ時、このゲームを定和ゲーム [constant-sum game] であるという。


非ゼロ和2人ゲーム(戦略形ゲーム) G において、
プレイヤー1とプレイヤー2の戦略集合が、それぞれ image , image であるとき、
このゲーム G の利得関数 f は、以下のような双行列 [bimatrix] で表現することが出来る。

image

この双行列 A において、プレイヤー1は行を選択し、プレイヤー2は列を選択するという意味となる。
そして、双行列 A の (i,j) 成分 image は、左側の数字 image がプレイヤー1の利得、左側の数字 image がプレイヤー2の利得を表している。

※ 尚、この双行列は、この非ゼロ和2人ゲーム G において、利得関数 f に対応していることより、利得行列 [payoff matrix]ともいう。
そして、非ゼロ和2人ゲーム G が、この利得行列 A を用いて表現(定式化)出来ることより、双行列ゲーム [bimatrix game] ともいう。


ゲームがゼロ和ゲームのとき、
双行列 A の各成分に対し、image の関係が成り立つことになる。
この時、表記の利便性から、双行列 A におけるプレイヤー2の利得 image を省略して表記することが多い。
つまり、ゼロ和ゲームの場合の双行列は、以下のようにプレイヤー1のみの利得行列で記載出来る。

image



◎ ナッシュ均衡点 [Nash equilibrium point]

非協力ゲームでは、ゲームにおいて、各プレイヤーが合理的であるという前提のもとに、
「個々のプレイヤーが、他のプレイヤーがどのような戦略を選択するかを予想した上で、自身の最適な戦略を選択する」 という行動を、 如何にして解析するか?が大きなテーマである。
この問題を解析するにあたって、重要な概念が、ゲームにおける解の概念、即ち、ナッシュ均衡点 [Nash's equlibrium point] の概念となる。

以下、この詳細を見ていく。

今、戦略形 n 人ゲーム image において、
全ての戦略の組を image とし、 プレイヤー i に対し、この全戦略の組から第 i 成分 image を除いた戦略の組(つまり、自身以外の戦略の組)を image とおく。
すると、全戦略の組 image に関する、プレイヤー i の利得は image と書ける。

このとき、
image

image

このナッシュ均衡点 image でゲームがプレイされると、ゲームのプレイは、この点 image で均衡することになる。

ナッシュ均衡点でゲームのプレイが均衡していく様子を見るために以下の図を示す。

image

  1. まず始めに、
    プレイヤー1がプレイヤー2の戦略を image であると予想とし、
    プレイヤー2がプレイヤー1の戦略を image であると予想としたとする。
  2. すると、
    プレイヤー1の合理的な選択は、プレイヤー2の戦略 image に対する最適応答 image となる。
    同様にして、プレイヤー2の合理的な選択は、プレイヤー1の戦略 image に対する最適応答 image となる。
  3. すると、更に、
    プレイヤー1の合理的な選択は、プレイヤー2の戦略 image に対する最適応答 image となる。
    同様にして、プレイヤー2の合理的な選択は、プレイヤー1の戦略 image に対する最適応答 image となる。
  4. 以下同様の原理の繰り返しで、プレイヤー1とプレイヤー2の推論は、互いに最適応答となりうる状態、
    即ち、ナッシュ均衡点 image に到達する。

そして、このナッシュ均衡点で互いの推論が停止する(均衡点)といった動作となる。


☆ ゼロ和ゲームでのナッシュ均衡点と鞍点 [saddle point]

次に、このナッシュ均衡点に関しての、いくつかの性質を見てみる。

image

☆ 戦略の支配とナッシュ均衡点

次に、ナッシュ均衡点が、具体的にどの戦略の組になるのかを調べる際に有用な考えである戦略の支配について見てみる。

image

ここで、プレイヤー i の戦略 image が、別の戦略 image に支配されるとき、 この戦略 image は、他のプレイヤーのどのような戦略の組に対しても最適応答とはなり得ない。 従って、ナッシュ均衡点は支配される戦略を含まない!

☆ 囚人のジレンマとナッシュ均衡点

戦略形ゲームの有名な例として、囚人のジレンマ [prisoner's dilemma] というゲームがある。
これは、以下の表のような利得関係にあるゲームである。

(例)囚人のジレンマ
image

このゲームのプレイヤー(囚人)は、物理的に隔離されており、互いにコミュニケーションが取れないために、 両者にとって最も合理的である解と思われる互いに黙秘するという合意を事前に得ることが出来ない。(非協力ゲーム)

上表の刑期を利得(利得行列)で置き換えた表の "1例" として、以下のようなものを考える。

image

上表の利得行列より、2人の囚人にとって、自白という戦略 image は、黙秘 image という戦略を支配していることが分かる。

image

従って、先の支配戦略とナッシュ均衡点の関係性より、
ナッシュ均衡点は、image という戦略の組となる。

この囚人のジレンマの例のように、ナッシュ均衡点は、必ずしもプレイヤー全員の利得を最大化するような解ではないことに注意が必要である。

☆ パレート最適 [Pareto optimal]

先の囚人のジレンマの例で見たように、ナッシュ均衡点は、必ずしもプレイヤー全員の利得を最大化するようなゲームの解ではない。
このプレイヤー全員の利得を最大化するような解に該当するのは、以下のパレート最適性の概念となる。

image

先の囚人のジレンマでの、ナッシュ均衡点 image は、全体の利得を最大化しておらずパレート最適ではないことが分かる。


☆ ナッシュ均衡点の一意性

先の囚人のジレンマの例では、ナッシュ均衡点は一意(1つ、1箇所)に決まるが、
次の男女の争いのゲームに例が示すように、一般的に、ナッシュ均衡点は必ずしも一意に決まるわけではない。

(例)男女の争い [battle of sexes]

image

男性(プレイヤー1)と女性(プレイヤー2)が、ある夜のデートの行き先として、
ボクシングを見に行くか?或いは、バレエを見に行くか?の選択肢(戦術)を持っている。
男性はボクシングを好み、女性はバレエを好むとする。 しかしながら、この2人にとって、各々が好きなほうを見に出かけるより、一緒に出かけるほうが価値が高いとする。
このようなゲームの利得行列の一例を表した表が、上表のようになる。

この表より、ナッシュ均衡点は、(ボクシング, ボクシング)=(2,1), (バレエ,バレエ)=(1,2) の2つとなっており、
ナッシュ均衡点は、一意に決まるわけではないことが分かる。
又、この2つのナッシュ均衡点は、パレート最適であることも分かる。
(但し、この2つのナッシュ均衡点のどちらかを選択するか?において、男女間で利害が発生する。)


◎ 混合戦略 [mixed strategy] と期待利得 [expected payoff]

☆ (純戦略における)ナッシュ均衡点の非存在性

ナッシュ均衡点は、戦略形ゲームにおいて (純戦略の範囲では) 必ずしも存在するとは限らない。
そのことを以下のコイン合わせゲームで見てみる。

(例)コイン合わせゲーム [matching pennies]

image

このゲームの内容は、以下のようなものである。
プレイヤー1と2が、100円硬貨をトスしたものが、表か裏かを予想する。
この時、

  1. 2人が共に同じ面を予想したら、プレイヤー2の勝利となり、プレイヤー1はプレイヤー2に 100 円支払う。
  2. 逆に、2人が違う面を予想したらプレイヤー1の勝利となり、プレイヤー2はプレイヤー1に 100 円支払う。

このゲームは、ゼロ和2人ゲームであり、利得行列を図示すると、上表のようになる。

この表(利得行列)から分かるように、このゲームでは、ナッシュ均衡点は存在しない。
即ち、どの戦略の組においても、戦略を変更する動機をもつプレイヤーが存在している。


☆ 純戦略 [pure strategy] と混合戦略 [mixed stratey]

今までは、ある戦略を確定的に1つ選択する方法を考えてきたが、これを純戦略という。
これに対して、ある確率分布に従って戦術の選択を行う方法が考えられるが、これを混合戦略という。

以下、先のコイン合わせゲームにおける混合戦略を考える。
プレイヤー image は、image をコインの表を選ぶ確率とすると、image がコインの裏を選ぶ確率となり、 混合戦略は image で表せる。

このとき、各々の純戦略の組が選択される確率(実現確率)の分布は、以下の表のように書ける。

(例)コイン合わせゲームにおける、実現確率の分布

image

戦略形ゲームにおいて、各プレイヤーが混合戦略を用いる時、
プレイヤーの利得の確率分布 image(=混合戦略 image が純戦略 image に与える確率) が定まる。

このような状況下で、プレイヤーの利得の確率分布 image をどのように評価して意思決定するか?によってゲームの振る舞いは異なってくるが、
ここでは、プレイヤーは利得の期待値(=期待利得)を最大化するように行動すると仮定することにする。
(このような仮定を期待効用仮説という。)


☆ 戦略形ゲームの混合拡大 [mixed extension] されたゲーム

image

期待利得関数 image は、先の定義より、

image

と書けるので、 直積集合 image 上で連続(滑らかに繋がっている)で、各変数 q_j に関して線形な関数である。 (image のときは直線、image のときは平面)


☆ 混合戦略による実現可能集合 [feasible set]

戦略形ゲームの混合拡大(されたゲーム)では、利得として、期待利得を考えるので、
次に、プレイヤーの実現可能な期待利得ベクトルの集合(=混合戦略による実現可能集合)を考える。

image


以下、幾つかの代表的な戦略形ゲームにおいて、実現可能集合がどのようになるか具体的に見てみる。

(例)囚人のジレンマにおける実現可能集合
image
image

囚人のジレンマにおける実現可能集合は、上表の利得行列より、上図のような凸集合になる。
利得行列の表と実現可能集合の図から分かるように、
この囚人のジレンマにおけるナッシュ均衡点の利得ベクトルは (自白,自白)=(-3,-3) である。
尚、このナッシュ均衡点はパレート最適ではない。


(例)男女の争いにおける実現可能集合
image
image

男女争いゲームにおける実現可能集合は、上表の利得行列より、上図のような非凸集合になる。(詳細は後述)
(※ナッシュ均衡点は、この例のように必ずしも凸集合になるとは限らない。

そして、利得行列の表と、実現可能集合の図より分かるように、
この男女ゲームにおけるナッシュ均衡点の利得ベクトルは、 (ボクシング,バレエ)=(2,1), (バレエ, ボクシング)=(1,2) の2点となる。

以下、上図の実現可能集合の算出過程を示す。

まず、プレイヤー1(男性)がボクシングを選択する確率を image プレイヤー2(女性)がボクシングを選択する確率を image とすると、

プレイヤー1の期待利得 image は、
image

同様にして、プレイヤー2の期待利得 image は、
image

今、image とおくと、
image
x と y は、image の解であるので、
image
image を代入すると(途中計算略)
image


◎ 角谷の不動点定理 [Kakutani fixed point theorem] とナッシュ均衡点の存在

先のコイン合わせのゲームのように、
ナッシュ均衡点は、(戦略形ゲームにおいて)”純戦略の範囲では” 必ずしも存在するとは限らない。 しかしながら、
混合戦略まで拡大して考えると、ナッシュ均衡点は、少なくとも1つは存在する!
このことは、角谷の不動点定理を用いて、証明することが出来る。

以下、そのことの詳細を見ていく。

まず、その為の前段階として、最適応答対応なるものを定義する。
image

この最適応答対応と不動点に関して、以下の定理が成り立つ。
image

☆ 角谷の不動点定理

image

☆ 角谷の不動点定理に関した補足事項

image

image

☆ ナッシュ均衡点の存在性の定理

この角谷の不動点定理を用いて、戦略形ゲームにおけるナッシュ均衡点の存在を証明することが出来る。
image

(証明)
最適応答対応(写像)B と、その不動点 image に関しての定理より、
(混合戦略の組 image がナッシュ均衡点 ⇔ image が不動点。即ち、image が成り立つ)
最適応答対応 B が、角谷の不動点定理の条件(コンパクトな凸性、上半連続性)を満たすことを示せば良い。

記載中...



◎ ミニマックス定理とゼロ和2人ゲームにおけるナッシュ均衡点の存在性

ゼロ和2人ゲームにおける、ナッシュ均衡点の存在は、鞍点の存在と同値となるが、
これは更に、ミニマックス定理と同値となる。

以下、そのことの詳細を見ていく。

☆ 保証水準、maxmin 戦略、minmax 戦略

image

image

image

image

image

この2つの定理より、ミニマックス定理が成り立つ。
image



◎ ナッシュ均衡点の計算方法

ゼロ和2人ゲームにおける、ナッシュ均衡点の具体的な計算方法について示す。

☆ 最適応答対応からのナッシュ均衡点の計算方法

いま、以下の表のようなゼロ和2人ゲームがあったとする。
image

ここで、各利得値(利得行列の値)は、
image
image という条件を満たすとする。

まず、混合戦略によるナッシュ均衡点を計算するための前段階として、 各プレイヤーの最適応答対応を求める。

プレイヤー i (i=1,2) の混合戦略を image とすると、

プレイヤー1の純戦略と期待利得の関係は、以下の表のようになる。
image

従って、プレイヤー1の最適応答対応
image は、
image の関係より、
image
ここで、
image
image とおいている。

同様にして、
プレイヤー2の純戦略と期待利得の関係は、以下の表のようになり、
image

従って、プレイヤー2の最適応答対応
image は、
image の関係より、
image
ここで、
image
image とおいている。

このプレイヤー1とプレイヤー2の最適応答対応 image を図示すると、以下のようになる。
image

よって、このゲームのナッシュ均衡点は、上図(オレンジの点)より、

  • 純戦略の組 image
  • 及び、混合戦略の組 image

が該当する。


☆ maxmin戦略, minmax戦略からのナッシュ均衡点の計算方法

次に、このゼロ和2人ゲームのナッシュ均衡点を maxmin戦略, minmax戦略から導出してみる。

(例)コイン合わせゲーム(ゼロ和2人ゲーム)
image
image

プレイヤー1の期待利得関数 image は、
image となる。
よって、プレイヤー1の maxmin 戦略は、
image
と書けるが、期待利得関数 image の(確率変数 image に関する)線形性より、
min 項の最小化は、image 或いは image の条件下で実現される。(=線形なので、端っこの条件時に最小化)
即ち、
image
を満たす解 image が、プレイヤー1の maxmin 戦略となる。

この maxmin 式を図で書くと、以下の図のようになる。
image

上図より、プレイヤー1の maxmin 戦略となる image は、image となる。


同様にして、
プレイヤー2の期待利得関数 image は、
image となる。

プレイヤー2の minmax 戦略は、
image
と書けるが、期待利得関数 image の(確率変数 image に関する)線形性より、
max 項の最大化は、image 或いは image の条件下で実現される。(=線形なので、端っこの条件時に最小化)
即ち、
image
を満たす解 image が、プレイヤー2の minmax 戦略となる。

この minmax 式を図で書くと、以下の図のようになる。
image

上図より、プレイヤー2の minmax 戦略となる image は、image となる。

まとめると、
プレイヤー1の maxmin 戦略は、image
プレイヤー2の minmax 戦略は、image
となり、両者は一致しているので、
ミニマックス定理より、この点 image はナッシュ均衡点となる。



☆ シャープレイによるラベル法を用いた、ナッシュ均衡点の計算

記載中...



◎ 「複数均衡」、「均衡選択」の問題

これまでの戦略形ゲームにおけるナッシュ均衡点の例で見てきたように、
一般に、戦略形ゲームにおいて、ナッシュ均衡点は複数存在するが、
それらの内、どの均衡点が、ゲームにおいて実際に実現されるか?という結論は、
ナッシュ均衡点の理論のみでは導けていない。

この複数個のナッシュ均衡点の内、
どの均衡点がゲームにおいて実際に実現されるかの原理を提供する理論(枠組み)は、「複数均衡」、「均衡選択」の問題 と呼ばれる。

以下、この枠組みの初歩的な内容を見ていく。

☆ 利得支配 [payoff dominate] とリスク支配 [risk dominate]

まず、以下2人ゲームを例を考える。

(例)2人ゲームの利得関数表
image

このゲームのナッシュ均衡点は、
imageimage となるが、
均衡点 A では、均衡点 B より、大きな利得を得ることが出来る。

このとき、ナッシュ均衡点 A はナッシュ均衡点 B を利得支配 [payoff dominate] するという。
(※先の、戦略の支配、パレート最適と同様の概念)

合理的なプレイヤーは、利得支配するほうのナッシュ均衡点 A を選択すると考えられるので、
このゲームにおいて、実際に実現されるナッシュ均衡点は、image となる。


次に、別の2人ゲームの例を考える。

(例)2人ゲームの利得関数表
image

このゲームにおいてもナッシュ均衡点は、
imageimage となるが、

先の例とは異なり、2つのナッシュ均衡点の間に利得支配の関係性は存在しない。
従って、どちらの均衡点がゲームの解となるのか?このままでは不明である。
(プレイヤーが、どちらの均衡点を選択するか迷ってしまう。)

これは例えば、
プレイヤー1は均衡点 A のほうが、均衡点 B より、より高い利得を得ることが出来るが、
プレイヤー2の立場は逆であり、それ故に、相手が均衡点 B に従えば、戦略 (a,b) の組が選択されてしまい、
結果的に、利得が 0 になってしまうというリスクが存在する。
といった具合である。

このリスクによって、選択するナッシュ均衡を判断できないか? というのが、
リスク支配 [risk dominate] の基本的な概念である。

具体的には、この例の場合、

  • プレイヤー1にとって、
    プレイヤー2が、均衡点 A に従う(選択する)確率 p が 3/(5+3)=0.375 以上であると予想できる場合、
    戦略 a の期待利得は、戦略 b の期待利得を上回るため、均衡点 A を選択したほうが良い。
  • 同様に、プレイヤー2にとって、
    プレイヤー1が、均衡点 B に従う(選択する)確率 p が 2/(6+2)=0.25 以上であると予想できる場合、
    戦略 b の期待利得は、戦略 a の期待利得を上回るため、均衡点 A を選択したほうが良い。
  • ここで、各プレイヤーが、
    相手プレイヤーの戦略選択の確率 p が一様分布(ランダム分布)であると予想できるとき、
    プレイヤー1がリスクを背負っも、均衡点 A を選択したほうが良い確率が 1−0.375=0.675 であるのに対し、
    プレイヤー2がリスクを背負っも、均衡点 B を選択したほうが良い確率が 1−0.25=0.75 である。
  • 従って、この2つの確率 0.675, 0.75 を比較して、どちらの均衡点を選択すべきか推論する。
    即ち、 0.75 > 0.675 なので、プレイヤー1は、自らがリスクを賭けて均衡点 A を選択する動機よりも強い動機で、
    相手プレイヤー2が、均衡点 B を選択するであるうと推論し、結果、均衡点 A ではなく B を選択する。
    同様にプレイヤー2も、プレイヤー1のこのような推論を推論し、自らの選択として、均衡点 B を選択する。
  • 最終的に、2人のプレイヤーは、均衡点 B を選択し、このゲームの2つの均衡点の解として、均衡点 B が選択される。
    このとき、ナッシュ均衡点 B は、ナッシュ均衡点 A をリスク支配するという。
  • ここで、0.75 > 0.625 の関係は、6/((6+2))> 5/((5+3)) 又は 6×3>5×2 の関係より算出されており、同値である。
    つまり、2つの均衡点の内、(プレイヤーの)均衡点からの 離脱損失 [deviation loss] の積 が大きいほうの均衡点が、
    他の均衡点をリスク支配していると考えることが出来る。

この 2×2 の非ゼロ和ゲームにおけるリスク支配の概念を一般化すると、以下のように定義できる。
image


均衡選択の問題が複雑となる大きな原因は、
この利得支配とリスク支配の対象が、ゲームによっては、それぞれ対立してしまうことに起因する。

例えば、以下のような非ゼロ和2人ゲームを考える。

(例)非ゼロ和2人ゲームの利得関数表
image

このゲームにおいてもナッシュ均衡点は、
imageimage となるが、

これまでの例とは異なり、
ナッシュ均衡点 A は、ナッシュ均衡点 B を利得支配するが、
逆に、ナッシュ均衡点 B は、ナッシュ均衡点 A をリスク支配している。

即ち、
プレイヤー1,2共に、均衡点 A を選択すれば、均衡点 B より大きな利得を得ることが出来る( A が B を利得支配)が、
均衡点 A を選択すると、利得が 9 → 0 になるリスクが存在する。( B が A をリスク支配)

このように、利得支配とリスク支配が対立してしまうようなゲームにおいては、
利得支配とリスク支配のどちらをどの程度優先させるべきか?という問題が生じる。
この問題は、プレイヤーが利得支配とリスク支配のどちら行動原理を、ゲーム理論の前提である合理性の概念として採用するかに依存するが、
ハーサニとゼルテンの理論では、利得支配を優先させる。
又、これはとは別に、進化ゲームなどの、より広義のアプローチから、均衡点の選択の問題を取り扱う手法も存在する。



◎ 戦略形ゲームの応用例

☆ クールノー複占市場

企業1と企業2という2つの企業が、同質な財を市場に供給しているとする。

企業 i (=1,2) の供給量を image とし、
財の価格 p は、市場(逆)需要関数
image により定まるとする。
image

又、企業 i の費用関数を
image
image : 企業 i が、財1単位を生産するための限界費用)

このときの企業 i の利潤関数は、
image となるとする。

そして、企業1と企業2は利潤(利得)の最大化を目的として、各々の供給量を調整する。

供給量の組 image がクールノー=ナッシュ均衡 [Carnot-Nash equilibrium] であるとは、
利潤関数 image に関して、
image
が成り立つときのことを言う。

以下、このクールノー=ナッシュ均衡の値を、具体的に求めてみる。

まず、企業1の利潤関数
image

を、image の値の範囲によって場合分けすると、

image

そして、この利潤関数より、企業1の最適応答対応
image は、
image

同様にして、企業2の最適応答対応は、
image

企業1と企業2の最適応答対応 image を図示すると、以下のようになる。
image
上図の最適応答対応 image の交点 E は、クールノー=ナッシュ均衡となり、
image となる。



■ 展開形ゲーム [game in extensive form]

ゲームにおける戦略(選択)の時系列を木構造を用いて記述することにより、
ゲームの動的な構造(ダイナミクス)や情報構造を定式化する手法。
より詳細には、プレイヤーの幾つかの手番の系列と、各手番でのプレイヤーによる選択を木構造でモデル化する。

まず、クールノー複占市場を例に、この展開形ゲームを構築してみる。

(例)不確実性下での複占市場
以下のような系(不確実性下での複占市場)を考える。

  1. 企業1と企業2が同質財を生産し、市場に供給している。

  2. 各企業 i の財の供給量の選択は、

    • 高水準:image
    • 低水準:image
      の2通りであるとする。
  3. 財の価格は、市場需要関数に依存して定まるが、
    市場の状態に、 好景気(G)と不景気(B)の2種類の状態(景気)があり、
    この景気状態によって、需要関数が上下にシフトし、財の価格が変動する。

  4. 結果的に、企業の利潤は、2つの企業の供給量と市場の状態(好景気 or 不景気)に依存する。

この系における、企業の意思決定のプロセスを、以下の図のような木構造(ゲームの木という)で表現する。
image

上図のゲームの木において、

  1. まず、木の底点 image は、このゲームの出発点であり、
    このノードで市場の状態である、 好景気(G)と不景気(B)が決定され、
    この状態によって、左右に枝分かれする。
    この際、好景気(G) or 不景気(B)になる確率は、何れも 1/2 であり、等確率で発生する。
    このような偶然メカニズムを総称して、自然 [nature] と呼び、
    自然が発生する手番を、偶然手番 [chance move] と呼ぶ。

  2. 木の定点で市場の状態が定まると、ゲームのフェイズは、
    次に、好景気(G)or 不景気(B)に依存して、分岐ノード image に移行する。
    このノードでは、企業1の手番(意思決定)である供給量の調整が行われ、
    高水準:image or 低水準:image が選択される。

  3. 次に、ゲームのフェイズは、 市場の状態、及び企業1の手番に依存して、分岐ノード image に移行する。
    このノードでは、企業2の手番(意思決定)である供給量の調整が行われ、
    高水準:image or 低水準:image が選択される。

  4. 最後に、ゲームのフェイズは、
    先の企業2の手番の選択によって、木の末端ノードに到着し、
    各企業は、ノードに対応した利得を得た後(上図では、上側の数字が企業1の利得、下側の数字が企業2の利得を示している。)、ゲームは終了する。

展開形ゲームを構成する要素(ゲームのルール)

展開形ゲームとは、この例のようなゲームの木を用いて記述されるゲームの1つの表現形式であり、
形式的には、以下の5つの要素の組
image

  • K : ゲームの木
  • P : プレイヤーの分割
  • p : 偶然手番の確率分布族
  • U : 情報分割
  • h : 利得関数

から構成され、この5つの要素を、ゲームのルールという。

① ゲームの木 [game tree] : K

image
ゲームの木(K) は、上図のように、初期点 0 を持つ有限な有向木であり、
点(ノード)と枝(エッジ)から構成される。
任意の点 x へ初期点 0 を結ぶ枝とその点(ノード)の系列を、点 x へのパス(道)という。
ゲームの木では、任意の点 x に対して、初期点 0 からのパスは一意に決まる。

ここで、

  • 任意の異なる点 x, y に対し、点 y が点 x へのパス上に存在するとき、
    x は y の後にある、或いは、y は x の前にあるといい、x > y で表現する。
  • x > y で、特に x と y が1つの枝で結合されているとき、x と y ノードは隣接しており、
    x を y の直後の点、或いは、y を x の直前の点という。
  • 点 w が x > w となる点 x を持たない、即ち末端ノードにあるとき、
    w を木の頂点といい、この頂点からなる集合を W で表す。
  • 木のノードの内、頂点以外の点を、手番 [move] といういい、
    その全体を集合 X で表す。
  • 手番 x に対して、x と x の直後の点を結ぶ1本の枝を、
    手番 x における選択肢 [alternative] といい、その全体(2本)を A(x) で表す。

そして、ゲームの木の1つの頂点に対し、初期点 0 とその頂点を結ぶパスを、ゲームのプレイという。
言い換えると、ゲームの木におけるゲームのプレイとは、
初期点 0 から始まって、各手番でプレイヤーが1つの選択肢を選択することによって、
ゲームが進行し、最後に1つの頂点に到達してゲーム終了することである。

② プレイヤー分割 [player partition] : P

image

プレイヤー分割 image は、ゲームの木 K の手番全体である X の分割の1つである。(上図参照)
0 以外の添字 i =1,2, ... ,n は、このゲームに参加するプレイヤーを表し、集合 image は、プレイヤー i の手番の全体を表す。
又、集合 image は、ゲームにおける偶然手番の全体の集合を表す。
(偶然手番では、プレイヤーの意志とは無関係にある偶然メカニズムにより、枝の選択が行われる。)

すると、

  1. image
  2. 任意の2人のプレイヤー分割 image に対して、image
  3. image
    の関係が成り立つ。

③ 偶然手番の確率分布族 : p

image

ゲームの全ての偶然手番 image に対して、
x での選択肢の集合 A(x) 上の、1つの確率分布 image が定められている。
この確率分布 image が、x の各選択肢 image に付与する確率を image と書くと、
image

の関係が成り立つ。(確率の定義より)

この偶然手番での確率分布 image の具体的な形は、
過去のデータからの(客観的な)統計的手法で推定される確率分布であったり、
プレイヤーが自らの限定的な情報や知識から、主観的な判断により推定される確率分布であったりする。

④ 情報分割:U

image
プレイヤーが、ある手番でどのような選択を行うかは、
そのゲームにおける、それ以前の手番(プレイ)の結果で得られる情報に大きく依存する。
このような構造をモデルに取り入れるために、情報分割の概念を導入する。
以下、その詳細について。

情報分割 image は、image の更なる分割(細分割)であり、
image
が成り立つ。そして、この情報分割 image に属する集合 image を、プレイヤー i の情報集合という。

そして、このプレイヤー i の情報集合 u に、以下のような性質を持たせる。
今、ゲームのプレイにより、プレイヤー i の情報集合 u 中に手番 x に到達したとする。
このとき、このプレイヤー i は、
(性質1) 情報集合 u のある手番 x に到達したことを知ることが出来る。
(性質2) しかし、情報集合 u の数ある手番の中で、どの手番に到達したか?は知ることが出来きない。

この2つの性質により、プレイヤーはそれぞれの手番において、
ゲームの過去のプレイに関して把握している情報を定義することが出来る。

更に、次の2つの性質が、情報集合の意味から必要とされる。
(性質3)情報集合 u は、同じプレイと2回以上交点してはならない。
(性質4)情報集合 u に含まれる全ての手番は、同じ数の枝(選択肢)を持つ。
(性質5)情報分割 image に属する全ての情報集合は、ただ1つの偶然手番から構成される。

例えば、(性質3)or(性質5)が満たされない情報分割のケースとして、以下の図のようなケースが考えられる。
image
情報分割をこのように分割してしまった場合、
プレイヤーは、初期点 0 での行動の選択を把握することが出来ないことになるが、
これは、今考えてるゲームの条件としては適切ではない。

⑤ 利得関数:h

image
利得関数 h は、ゲームの木 K の各頂点 image に対して、
利得ベクトル image を対応させる。
(この利得ベクトルの第 i 成分は、プレイヤー i の利得を表している。)

☆ ゲームのルールと情報完備ゲーム、情報不完備ゲーム

展開形ゲームは、(先に見たように)
5つの要素(ゲームの木、プレイヤー分割、偶然手番の確率分布族、情報分割、利得関数)で構成されるが、
これらの5つの要素を、(展開形ゲームにおける)ゲームのルールという。

展開形ゲームのプレイにおいて、
各プレイヤーは、このゲームのルールを知っているか否か?の違いは、このプレイに大きな影響を及ぼす。
従って、この情報の違いにより、展開形ゲームを分類する。

具体的には、以下の共有知識なるものを定義する。

  • 共有知識
    「ゲームのルールを全てのプレイヤー完全に知っていて、更に、他のプレイヤーもゲームのルールを知っている。」
    という事実を、全てのプレイヤーが共通に知っていると仮定する。
    このとき、このゲームのルールは、全てのプレイヤーの共有知識であるという。

そして、共有知識の有無でゲームを、情報完備ゲーム or 情報不完備ゲームに分類する。

  • (展開形ゲームの)情報完備ゲーム [game with complete information]
    ゲームのルールが、全てのプレイヤーの共有知識である(=全てのプレイヤーが共有知識を持っている)
    ようなゲーム的状況にある展開形ゲーム
  • (展開形ゲームの)情報不完備ゲーム [game with incomplete information]
    ゲームのルールが、必ずしも全てのプレイヤーの共有知識でない(=全てのプレイヤーが共有知識を持っているとは限らない)
    ようなゲーム的状況にある展開形ゲーム


◎ 展開形ゲームにおける戦略の概念とナッシュ均衡点

展開形ゲームでは、一般的に、
各プレイヤーが複数の手番を持ち、実際にゲームをプレイする前に、各手番でどのような選択を行うのかを計画することが出来る。
このようなプレイヤーの行動、選択計画を、(展開形ゲームにおける)戦略という。
ここでは、この戦略の概念に含まれる、(展開形ゲームにおける)純戦略混合戦略局所戦略行動戦略を見ていく。

☆ (展開形ゲームにおける)純戦略 [pure strategy]

image

例えば、先の複占市場のゲームにおいては、
image

企業1(プレイヤー分割 image の情報分割 image が対応)の純戦略は、
image
の4通り存在する。

一方、企業2(プレイヤー分割 image の情報分割 image が対応)の純戦略は、
image
の2通りのみである。(情報分割が image のみであるため)
尚、この企業2の情報分割が image のみであるということは、
企業2が、この分割内のどの手番に存在しているのか把握出来ないことを意味する。
即ち、企業2は、市場の状態(好景気 or 不景気)や、それに応じた企業1の供給量(高水準 or 低水準)を把握できない。
それ故に、企業2の戦略は、上表の2種類しか存在し得ない。

☆ (展開形ゲームにおける)混合戦略 [mixed strategy]

image

例えば、先の複占市場のゲームにおいては、
企業1の混合戦略 image は、それぞれ以下の表のようになり、
image
image となる。

一方、企業2の混合戦略 q_2 は、それぞれ以下の表のようになり、
image
image
となる。

☆ 局所戦略 [local strategy] と行動戦略 [behaivor strategy]

image

例えば、複占市場ゲームにおいては、
企業1の局所戦略は、それぞれ以下の表のようになり、
image
行動戦略 image は、これらの局所戦略の組み合わせである、
image
となる。

一方、企業2の局所戦略は、それぞれ以下の表のようになり、
image
行動戦略 image は、これらの局所戦略の組み合わせである、
image
となる。

☆ 行動戦略と期待利得

展開形ゲームにおける期待利得を導入するための前段階として、いくつかの定義を行う。
image

  • image
    プレイヤーの行動戦略の組。
  • image
    プレイヤー i が、情報分割の集合 image において、枝(選択肢)image を選択する確率。
  • image
    ゲームの木の頂点 image に対して、初期点 0 から w へのパス上に存在する全ての枝の集合。
    この集合 image は、偶然手番の枝の集合 image と、プレイヤー i のプレイヤー分割上の枝の集合 image から構成される。
  • image
    偶然手番の枝の集合 image に含まれる(偶然手番の)全ての枝 e が選択される確率。
    即ち、
    image

行動戦略の組 image に従って、ゲームがプレイされる場合において、
ゲームの木の頂点 image に到達する確率、
即ち、行動戦略 b の組の元での、頂点 w の実現確率 [realizization probability] は、
image
で定義される。
そして、image の場合、頂点 w は、行動戦略 b の元で到達可能であるという。


又、純戦略の組 image の元での、
頂点 w の実現確率 image は、
image


更に、混合戦略の組 image によってゲームがプレイされる時の、
頂点 w が到達される確率 image は、
image


これらの実現確率、到達可能な頂点を用いて、展開形ゲームにおける期待利得を定義すること出来る。
即ち、
プレイヤーの行動戦略、或いは混合戦略の組を image とすると、
この戦略の組に対する、プレイヤー i の期待利得 image は、
image
ここで、image は、この戦略の組 image の元での、頂点 w の実現確率となっており、
この期待利得の式は、到達可能な頂点での利得の期待値となっていることが分かる。
(「頂点wの実現確率」×「その頂点における利得」を各頂点について計算し和をとったもの)

☆ 展開形ゲームの戦略形ゲームへの標準化

展開形ゲームにおける、プレイヤーの戦略と期待利得の概念から、
展開形ゲームから戦略形ゲームへの標準化を考えることが出来る。

image

例えば、先の複占市場の場合、
image
上図の展開形ゲームから、以下の表のような戦略形ゲームを構築することが出来る。
image

☆ 展開形ゲームの戦略とナッシュ均衡点

戦略形ゲームにおいて、ナッシュ均衡点を定義することが出来たが、
展開形ゲームの同様に、ナッシュ均衡点を定義することが出来る。

image


◎ 展開形ゲームの分解と合成

チェスや将棋などを展開形ゲームで記述すると、そのモデルは大規模で複雑なものとなり、
当然、このような展開形ゲームを解析することが困難になってくる。
このような大規模な展開形ゲームを解析するのに有効な手法として、ゲームの分解と合成という手段がある。

以下、複占市場のゲームを例に、このゲームの分解と合成を見ていく。

先の複占市場のゲームにおいて、
企業1、企業2共に、市場の状態(不景気:B、好景気:G)を知ることが出来るケースを考える。
(※先の複占市場のゲームでは、企業1のみ市場の状態を知ることが出来きていた。)

このケースにおける展開形ゲームの木は、以下の図のようになる。
image

一方、先の複占市場ゲームにおいて、企業1のみが、景気の状態を知ることが出来ていたモデルは、以下の図のようになる。
image

2つを比較すると、企業2の情報分割が、image のように1つ → 2つになっていることが分かる。

複占市場のゲームにおいて、企業1、2共に景気の状態を知ることが出来るモデルの図において、
赤字の枠で囲んだ箇所は、展開形ゲームの木の一部であるが、
この部分のみで1つの小さな展開形ゲームの木の構造をなしていることが分かる。
このような部分木を、展開形ゲームの部分ゲームという。

☆ 展開形ゲームの部分ゲーム

より一般的には、展開形ゲームの部分ゲームを以下のように定義することが出来る。
image

(例)部分ゲームを構成する展開形ゲーム
image

(例)部分ゲームを構成しない(出来ない)展開形ゲーム
image

☆ 部分ゲームの行動戦略

展開形ゲームの部分ゲームは、それ自身で1つのより小さな展開形ゲームを構成しているため、
展開形ゲームのときと同じように、部分ゲームに対しても、その行動戦略というものが定義出来る。

image

☆ 展開形ゲームの縮約ゲーム [truncated game]

image

例えば、先の複占市場ゲームにおいて、
部分ゲームでの行動戦略の組として、image が取られた場合の縮約ゲームは、以下の図のようになる。
image
image

記載中...

☆ 展開形ゲームの分解と合成に関するナッシュ均衡点の基本的な定理

ここでは、展開形ゲームの部分ゲームと縮約ゲームの概念を用いて、
展開形ゲームの分解と合成に関する、ナッシュ均衡点の基本的な定理を見ていく。

そのために、まず以下の(部分ゲームの)到達可能性を定義する。
image

展開形ゲームの分解に関する、ナッシュ均衡点の基本的な定理は、
以下のような、展開形ゲームにおけるナッシュ均衡点の分解定理と呼ばれるものである。
image

この展開形ゲームにおけるナッシュ均衡点の分解定理がもたらす重要な意味は、
展開形ゲームのナッシュ均衡点は、均衡プレイ上 [on-equilibrium play] (=行動戦略がナッシュ均衡点であるようなゲームプレイ)にある全ての部分ゲームに、ナッシュ均衡点を導く(=元の展開形ゲームでのナッシュ均衡点から、部分ゲームでのナッシュ均衡点を構築できる)ということである!
これはまた、逆説的に言うと、ナッシュ均衡点は、均衡プレイ上にない [off-equilibruim play] 部分ゲームには、必ずしもナッシュ均衡点を導かないということでもある。


次に、展開形ゲームの合成に関する、ナッシュ均衡点の基本的な定理を見ていく。
これは、以下のような、展開形ゲームにおけるナッシュ均衡点の合成定理と呼ばれるものである。
image

この展開形ゲームにおけるナッシュ均衡点の合成定理より、
部分ゲームにおけるナッシュ均衡点と、縮約ゲームにおけるナッシュ均衡点を合成することにより、
元の展開形ゲーム全体におけるナッシュ均衡点が得られることが分かる!


以下、この展開形ゲームにおけるナッシュ均衡点の合成定理の応用例として、
先の複占市場ゲームを考える。

まず、この展開形ゲームにおける部分ゲームとして、以下の図のような部分ゲームを考えると、
image

この部分ゲームにおける利得関数は、以下の表のようになる。
image
この表より、部分ゲームでのナッシュ均衡点は image となることが分かる。

次に、この部分ゲームとその行動戦略で縮約したゲームは、以下の図のようになる。
image
この縮約ゲームにおける利得関数は、以下の表のようになる。
image
この表より、縮約ゲームでのナッシュ均衡点は image となることが分かる。

従って、この部分ゲームのナッシュ均衡点 image と縮約ゲームのナッシュ均衡点 image から構成される、
元の展開形ゲームの行動戦略の組 image は、
ナッシュ均衡点の合成定理より、ナッシュ均衡点になる。


◎ 完全情報ゲーム [game with perfect information]

展開形ゲームの重要なサブクラスの1つに、完全情報ゲームがある。
この完全情報ゲームにおいては、純戦略によるナッシュ均衡点が必ず存在する。
以下、そのことを見ていく。

まず、完全情報ゲームの定義を行う。
image


この完全情報ゲームにおいて成り立つナッシュ均衡点に関する定理が、
以下の完全情報ゲームの基本定理と呼ばれるものである。
image

この完全情報の基本定理が導く重要な結論は、
完全情報ゲームでは、偶然手番の確率分布や利得関数がどのような形状であろうとも、
純戦略によるナッシュ均衡点が少なくとも1つ存在するということである。
このようなゲームは、確定的 [determinate] であると呼ばれるが、
この言葉を用いると、この定理は、完全情報ゲームが確定的であることを示している。
又、この定理を逆説的に言うと、
完全情報ゲームの木の長さが無限の長さで、かつ利得関数が複雑な形の関数になる場合は、
必ずしも、純戦略によるナッシュ均衡点が存在するとは限らないことが知られている。


この完全情報の基本定理は、また、純戦略によるナッシュ均衡点の具体的な計算方法も示してくれる。
即ち、
最初に、ゲームの木の頂点に1番近い手番の最適行動を求め、
次に、この求められた最適行動を前提として、木の頂点に2面目に近い手番でプレイヤーの最適行動を求める。
以下、これらの処理を順次繰り返し、
最後に、ゲームの初期点でのプレイヤーの最適行動を求める。
結果として、得られたプレイヤーの最適行動は、この完全情報ゲームにおける純戦略でのナッシュ均衡点となる。
といった具合である。

このように、完全情報ゲームにおいて、
木の頂点から初期点に向かって、順次、各情報分割の集合での最適行動を求め、
それらを合成(=次の最適行動の前提)して、ゲーム全体でのナッシュ均衡点を構成していく手法を、
後向き帰納法 [backward indutcion] という。


(例)男女の争いゲーム(レディーファーストのルール)
image
男女ゲームの争いゲームにおいて、レディーファーストルールを適用して、
ゲームのプレイにおいて、最初に女性がプレイ出来るようにする。
すると、男性は、女性の選択を知った上で、自身の選択を行うことになるので、
このゲームは、完全情報ゲームとなる。(下図)
image

後ろ向き帰納法に従って、このゲームにおける純戦略のナッシュ均衡点を求めると、
まず、女性が、自身の最適行動である、バレエを選択する。
次に、男性が、女性のバレエの選択を知った上での自身の最適行動であるバレエを選択する。
そして、この選択(純戦略)の組 (バレエ,バレエ)=(1,2) が、このゲームにおけるナッシュ均衡点となっている。
尚、レディーファーストルールを適用しない男女ゲームにおいては、
ナッシュ均衡点は、(ボクシング,ボクシング)=(2,1) , (バレエ, バレエ)=(1,2) の2つしていたが、
レディーファーストルールを適用することで、
女性により望ましい選択である (バレエ, バレエ)=(1,2) が選択されていることが分かる。


■ ゲームの解とナッシュ均衡点の拡張

ここでは、まず、ゲーム理論における解の意味を改めて考えることで、
従来のナッシュ均衡点より強い意味での均衡点の存在を定義する。

image

記載中...

◎ 部分ゲーム完全均衡点 [sub game perfect equilibrium point]

まず、以下のチェーンストアゲームの例を考える。
image
image

  • あるチェーンストアが A 町に支店をもっており、ある商品をこの町で独占販売している。
  • この市場に対し、ある事業家が、以下の2通りの選択をとり得る。
    • 「小売店を開業し、チェーンストアと同じ商品を販売する。(IN)」
    • 「他の事業に資金を投資する。(OUT)」
  • 事業家が、小売店を開業しない場合(OUT)、
    • チェーンストアは、独占利得5を得ることが出来る。
    • 一方、事業家は、他の事業投資の結果、確実に利潤1を得ることが出来る。
  • 事業家が、小売店を開業する場合(IN)、
    • チェーンストアの経営戦略として、以下の2通りの選択をとり得る。
      • 「小売店と協調する。(CO)」
      • 「商品の値段を値下げし、小売店と競合する。(AG)」
    • チェーンストアが、小売店と協調する場合、双方は共に、利潤2を得ることが出来る。
    • 一方、チェーンストアが、小売店と競合する場合、双方で値下げ競争が行われ、
      その結果、利潤は共に0になってしまう。

このゲームの全ての手番は、ただ1つの情報分割の集合から構成されているので、
このゲームは、完全情報ゲームとなる。

従って、純戦略によるナッシュ均衡点が、必ず存在する。
このナッシュ均衡点を後ろ向き帰納法で求めると、純戦略の組
image
はナッシュ均衡点となることが分かる。

又、利潤関数の表より、
image
もナッシュ均衡点になることが分かる。


ここで、この2つのナッシュ均衡点の意味を考える。
1つ目のナッシュ均衡点 image では、
「事業家は、小売店を開業し、チェーンストアは小売店と協調する」という意味での均衡状態にある。

2つ目のナッシュ均衡点 image では、
「チェーンストアが、仮に事業家が小売店を開業すれば値下げ競争で対抗してくることを知った上で、
事業家は、これを回避して、他の事業に投資する。」という意味での均衡状態にある。

この2つのナッシュ均衡点は、このゲームの解として適切なのか?を3つの視点から考えてみる。
その結果、2つ目のナッシュ均衡点 image は、
このチェーンストアゲームの解としては、適切でないことが分かる(後述)

  1. 第1の視点(ゲームの情報分割集合でのプレイヤーの利得最大化行動に基づく視点)
    1つ目の視点は、ゲームの情報分割集合でのプレイヤーの利得最大化行動に基づく視点である。
    2つ目のナッシュ均衡点 image では、チェーンストアは、AG の選択を行うが、
    これはチェーンストアの情報分割の集合内での利得最大化行動(CO⇒利得2,AG⇒利得0)に反している。
    このチェーンストアの情報分割の集合は、2つ目のナッシュ均衡点のゲームプレイ(事業家 OUT の選択)において、
    到達されない情報分割ではあるが、チェーンストアの行動自体が最初の事業家の選択に影響を与える。
    従って、この手番がゲームプレイで到達されなくとも、チェーンストアの行動は利得最大化行動に基づかなくてはならない。
    image
    更に、事業家が、チェーンストアの最適行動が CO であることを合理的に予想するならば、
    2つ目のナッシュ均衡点の行動 OUT ではなく、IN を選択し、より高い利得を得る(利潤:1 → 2)ように行動する考えられる。
    その意味で、2つ目のナッシュ均衡点は、離脱する動機を持つ(=自己拘束性をもたない)。
    従って、この意味(自己拘束性をもたない)でも、このゲームの解として不適切であると言える。

  2. 第2の視点(プレイヤーの合理性の微小な不完全さに対する安定性)
    2つ目の視点は、プレイヤーの合理性の微小な不完全さに対する安定性に関する視点である。
    一般的なゲーム理論では、プレイヤーは完全な合理性に基づき意思決定を行う主体としてモデル化される。(行動の模範的理論)
    今、このチェーンストアのゲームにおいて、事業家の合理性に僅かな不完全さが加わり、
    ナッシュ均衡点 image のゲームプレイにおいて、
    過って微小な確率ではあるが、OUT → IN に選択する可能性が発生したとする。
    このとき、微小な確率ではあるが、チェーンストアの情報分割集合にゲームが到達し、
    期待利得を最大化するチェーンストアの行動は、AG → CO に変化してしまう。
    このように、2つ目のナッシュ均衡点は、プレイヤーの合理性の僅かな変化に対し不安定であり、
    この観点からも、2つ目のナッシュ均衡点、このゲームの解として不適切であると言える。

  3. 第3の視点(戦略の支配の観点からの視点)
    3つ目の視点は、戦略の支配の考えに基づく視点である。
    チェーンストアの戦略 AG は、利得関数の表から分かるように、戦略 CO に支配されている戦略である。
    従って、チェーンストアの意思決定において、支配戦略 CO を選択するのが妥当であり、
    この意味からも、2つ目のナッシュ均衡点は、このゲームの解として不適切であると考えられる。

以上、3つの視点から、2つ目のナッシュ均衡点 image が、このゲームの解として不適切であることを見てきたが、
逆に、1つ目のナッシュ均衡点 image は、この3つの視点で要求される事項を満たしており、
このゲームの解として 適切であると考えられる。

そして、2つ目のナッシュ均衡点の問題点を改めて見直してみると、
この問題点は、”均衡プレイにおいて、到達されない部分ゲームでの、ナッシュ均衡点を導かない” ことに帰着されることが分かる。
先の展開形ゲームにおけるナッシュ均衡点の分解定理で見てきたように、
ナッシュ均衡点は、均衡プレイによって、到達可能な部分ゲームに対しては、ナッシュ均衡点を導く。
従って、このチェーンストアゲームにおけるナッシュ均衡点の解としての不完全(不適切)さを解消するためには、
”均衡プレイによって到達されない部分ゲームに対しても、
ナッシュ均衡点を導くようにナッシュ均衡点を概念を強くしたものを定義し、
これをゲームの解として採用すればよい” ことが分かる。


このナッシュ均衡点の概念を強くしたものが、以下の部分ゲーム完全均衡点である。
image

この定義に基づくと、先のチェーンストアゲームにおいて、
2つ目のナッシュ均衡点 image は、ナッシュ均衡点を導かない部分ゲームが存在するため、部分ゲーム完全均衡点でない。
一方、1つ目のナッシュ均衡点 image は、全ての部分ゲームに対しナッシュ均衡点を導くため、部分ゲーム完全均衡点である。(下図参照)
image


展開形ゲームにおけるナッシュ均衡点の重要な定理として、
展開形ゲームにおけるナッシュ均衡点の分解定理と合成定理があったが、
この部分ゲーム完全均衡点に関しても、これに該当する定理が成り立つ。
image

この部分ゲーム完全均衡点の分解、合成定理は、言い換えると、

  1. 展開形ゲームにおける部分ゲーム完全均衡点は、
    部分ゲームと縮約ゲームにおける、それぞれの部分ゲーム完全均衡点に分解することが出来る。

  2. 逆に、部分ゲームと縮約ゲームにおける、それぞれの部分ゲーム完全均衡点を合成することにより、
    元の展開形ゲームにおける部分ゲーム完全均衡点を構成することが出来る。

ということを示している。


次に、部分ゲーム完全均衡点の存在性に関する定理を示す。
image

尚、この定理の証明は、

  1. 部分ゲームが、極小(部分ゲームが、それ自身以外の部分ゲームを含まない)である場合に対し、
    この部分ゲームでのナッシュ均衡点を求める。
  2. 先の部分ゲームでのナッシュ均衡点を前提として、
    2番目に大きな部分ゲームに対し、ナッシュ均衡点を求める。
  3. 以下、この操作を繰り返し、それらを合成することで、ゲーム全体での部分ゲーム完全均衡点を求める。

という手順で証明することが出来る。(詳細略)
この手法は、部分ゲーム完全均衡点に関する後向き帰納法と呼ばれる。


◎ 完全均衡点 [perfect equilibrium point]

☆ 変動ゲーム [perturbed game] と完全均衡点 [perfect equilibrium point]

部分ゲームナッシュ均衡点は、完全情報ゲームのように、
多くの部分ゲームを持つようなゲームの分析においては、非常に有効となる。
しかしながら、展開形ゲームが、それ自身以外に部分ゲームを持たないようなゲームにおいては、
ナッシュ均衡点と部分ゲーム完全均衡点は同値となる。

この点から予想されるように、
一般の展開形ゲームにおいて、部分ゲーム完全均衡点は、ゲームの解として不適切となる可能性が考えられる。

以下、そのことの詳細を見ていく。


まず、以下の図のような3人展開形ゲーム image を考える。
image
この展開形ゲーム image における、プレイヤー i(i=1,2,3) の行動戦略を
image
とする。
又、プレイヤー全体の行動戦略の組を image と書くことにする。

このゲームは、上図から分かるように、
image 自身以外の部分ゲームをもたないので(プレイヤー1,2,3を含む部分ゲームは、展開形ゲーム全体のみ)、
ナッシュ均衡点と部分ゲーム完全均衡点は一致する。
従って、ナッシュ均衡点を求めてみる。


まず、プレイヤー1の期待利得の計算式
image
の関係式より、期待利得の式を計算し、(途中計算略)

又、プレイヤー1の最適応答対応は、
image
の関係式に、計算した期待利得の式を適用すると、

プレイヤー1の最適応答対応は、
image
となる。

同様にして、
プレイヤー2の最適応答対応は、
image
プレイヤー3の最適応答対応は、
image

これらのプレイヤー1,2,3の最適応答対応の式を、グラフ化すると以下の図のようになる。

  • プレイヤー1の最適応答対応のグラフ
    image
  • プレイヤー2の最適応答対応のグラフ
    image
  • プレイヤー3の最適応答対応のグラフ
    image

上図の各最適応答対応のグラフにおいて、
例えば、プレイヤー1の最適応答対応のグラフで、
R と表示している領域は、その領域でのプレイヤー2と3の行動戦略の組 image に対しての、
プレイヤー1の最適応答が R であることを示している。
又、R と L の領域の境界線上は、最適応答が R or L であることを示している。

そして、2つのタイプのナッシュ均衡点をそれぞれ、
●:タイプ1のナッシュ均衡点 image
○:タイプ2のナッシュ均衡点 image
で示している。


この2つのタイプのナッシュ均衡点(●、○)に対して、(先のチェーンストアゲームの時と同様にして)
プレイヤーの利得最大化行動、及びプレイヤーの合理性の微小な不完全さに対する安定性の観点から、
これらのナッシュ均衡点の、ゲームの解としての妥当性を調べてみる。

まず、タイプ2のナッシュ均衡点(○)の代表点として、
純戦略による均衡点 image を考える。(上図で赤丸○で記載)

image

  • このナッシュ均衡点での均衡プレイでは、上図(オレンジ線の箇所)のように、
    プレイヤー1が L を選択し、プレイヤー2が R を選択し、利得ベクトル (3,2,2) が得られる。
  • プレイヤー2の情報分割集合は、この均衡プレイでは到達されないが、
    タイプ2のナッシュ均衡点 image に従い、
    もし自分の手番(=プレイヤー2の情報分割集合)が到達された場合、R を選択する。
  • しかしながら、このプレイヤー2の選択 R は、
    タイプ2のナッシュ均衡点 image に従い、プレイヤー3の行動が R であることを前提とした場合の、
    利得最大化行動に反する。(プレイヤー2自身の利得が、4 → 1 になってしまうため)
    この意味で、タイプ2のナッシュ均衡点 image は、このゲームの解としての不適切である。
  • 又、タイプ2のナッシュ均衡点 image のゲームプレイにおいて、
    もしプレイヤー1が、過って微小な確率ではあるが、L → R を選択する可能性が発生したとする。
    このとき、プレイヤー2の利得最大化行動は、R ではなく L に変化してしまう。
    このように、このタイプ2のナッシュ均衡点 image は、
    プレイヤーの合理性の僅かな変化に対し、不安定であり、
    この観点からも、タイプ2のナッシュ均衡点 image は、ゲームの解としての不適切である。

次に、タイプ1のナッシュ均衡点(●)image に対しても、
プレイヤーの利得最大化行動、及びプレイヤーの合理性の微小な不完全さに対する安定性の観点から、
これらのナッシュ均衡点の、ゲームの解としての妥当性を調べてみる。

image

  • タイプ1のナッシュ均衡点 image での均衡プレイでは、上図(オレンジ線の箇所)のように、
    プレイヤー1は R を選択し、プレイヤー2は R を選択し、利得ベクトル (1,1,1) が得られる。
  • プレイヤー3の情報分割集合は到達されないが、
    タイプ1のナッシュ均衡点 image に従い、
    プレイヤー3は、もし自分の手番(=プレイヤー2の情報分割集合)が到達された場合に、
    確率 image の範囲で R を選択する。(最適応答対応のグラフ中のタイプ1のナッシュ均衡点●より)
    image
  • プレイヤー3の情報分割集合が到達された場合において、
    右側の手番(=初期点で R → プレイヤー2の手番で L の選択後の手番)が到達された場合は、
    プレイヤー3の利得最大化行動は L である。(プレイヤー3の利得が 0 → 1)
    一方、左側の手番(=初期点で L 選択後の手番)が到達された場合は、
    その利得最大化行動は R である。(プレイヤー3の利得が 0 → 2)
  • しかしながら、”プレイヤー3はこの2つのどちらの分岐点にゲームのプレイが到達されているか知らないので”
    (=2つの手番はプレイヤー3の同じ情報分割集合内)、
    プレイヤー3の確率 image の範囲で R を選択するといった、タイプ1のナッシュ均衡点に基づく均衡戦略は、自身の利得最大化行動に反しているとは言えない。
    (少なくとも、タイプ2のナッシュ均衡点での利得最大化行動との背反に比べればましである。)
    従って、このゲームの解としては、タイプ2のナッシュ均衡点より、タイプ1のナッシュ均衡点のほうが望ましい。

これら2つのタイプのナッシュ均衡点の議論より、
プレイヤーの利得最大化行動、或いは、プレイヤーの合理性の微小な不完全さに対する安定性の観点から、
部分ゲーム完全均衡点の概念を更に強くする必要性があると考えられるが、

ここで問題になるのは、
情報分割集合が複数の分岐点を含むような展開形ゲームにおいて、
均衡プレイによって到達されない [off-equilibrium play] 情報分割集合での利得最大化行動をどのように定義すればよいのか?
ということである。
この問題は、先のタイプ1のナッシュ均衡点の安定性の議論で見たきたように、
情報分割集合が複数の分岐点を含む場合、プレイヤー自身がどの分岐点にゲームが到達されたのか知りえないことに起因する。
(情報分割集合が、先のチェーンストアゲームのときのように、単一の分岐点のみを含む場合であれば、どの分岐点に到達されたのか?という問題は発生しないので、このような問題は発生しない。)


この問題の解決策として、まず始めに思いつくのが、ベイジアンの考えに従った意思決定である(ベイジアン意思決定理論)。
即ち、「プレイヤーは、情報分割集合内のどの分岐点に到達されたのか?を”主観的な予想”(=主観確率)で意思決定し、その予想のもとで利得最大化行動を行うようにする。」といった解決法である。
しかしながら、このような情報分割集合が複数の分岐点を含むゲームにおいては、
そもそもこの主観確率を定めるにあたっての判断材料が存在せず、主観確率を特定化して定式化することが出来ない。
従って、このベイジアン意思決定に基づくアプローチは、このゲームにおいて有効ではない。
※ 尚、このベイジアンによるアプローチは、後述で定義する変動ゲームの枠組みでは、
(ベイズの公式を適用する際に、分母項が常に正の値となることにより、)有効となる。(後述)

☆ 変動ゲーム [perturbed game]

この問題の解決策の別のアプローチとして、
プレイヤーの合理性の微小な不完全さに安定性の観点に基づくアプローチが考えられる。
このアプローチにより、プレイヤーの利得最大化行動と矛盾するようなナッシュ均衡点を除外した、
完全均衡点の概念を導出(定義)することが出来る。(後述)

展開形ゲームにおけるプレイヤーの不完全を、以下の意味で設定する。
image

プレイヤー i の情報分割集合 image に対して、
このプレイヤー i の合理性が、ある微小な正の確率 image で破綻し、
更に、情報分割集合 image における全ての枝 image を、確率 image で選択してしまう。

このとき、この同時確率(合理性が破綻し、かつ、枝 c を選択してしまう確率)は、
確率の乗積した image となるが、

これを、この展開形ゲームの情報分割集合において、枝 c を選択する確率 image に組み込むと、
image

という戦略の制限条件となる。
この制約条件により、枝 c を選択してしまう確率は常に 0 より大きくなるので、
プレイヤーは純戦略を取ることが出来ず、戦略が一定の確率以上で変動することになる。

その意味で、戦略の選択に、このような制約が加わった展開形ゲームを、変動ゲーム [perturbed game] といい。
image
で表す。

☆ 完全均衡点 [perfect equilibrium point]

そして、この変動ゲーム image に対しても、(展開形ゲーム Γ のときと同様にして)
ナッシュ均衡点が定義出来るが、
展開形ゲーム image の完全均衡点は、変動ゲーム image におけるナッシュ均衡点の極限点として、
以下のように定義出来る。

image

この完全均衡点の定義より、
プレイヤーの合理性が微小な不安定を持ち、その結果、展開形ゲームが変動ゲームに変化した場合においても、
展開形ゲームの完全均衡点は、変動ゲームでのナッシュ均衡点に連続的に近づきながら収束し、
又、変動要因である η が 0 に近づき、その結果、戦略が変動しなくなる。
この意味で、完全均衡点は、プレイヤー合理性の微小な不安定に対して安定である と言える。


☆ ベイジアン意思決定理論の立場からの完全均衡点

先の展開形ゲームにおける完全均衡点の導出では、
変動ゲームに対する合理性の微小な不完全さに対する安定性の観点から導出した。
ここでは、
変動ゲームの導入により、ベイジアンのアプローチ(ベイジアン意思決定理論)から、
完全均衡点における、プレイヤーの最適行動(利得最大化)を定義出来ることを示す。
尚、以下の議論では、展開形ゲームが、完全記憶ゲームであることを前提とする。


展開形ゲーム image の変動ゲームを image とし、
この変動ゲームにおける、行動戦略の組を image とする。

この行動戦略の組 image のもとで、変動ゲーム image の手番 x が到達される確率を image とおく。
このとき、変動ゲームにおいては、手番 x の到達確率は常に正の値となる。
(変動ゲームでは、行動戦略がある一定の確率で変動するため、どの手番も到達可能になるため。)

又、行動戦略の組 image のもとで、プレイヤー i の情報分割集合 u が到達される確率を
image
で定義する。

image

そして、行動戦略の組 image のもとで、
プレイヤー i の情報分割集合 u が到達され、かつ、u 内の手番 x が到達される条件付き確率を考える。
この条件付き確率は、ベイズの公式を用いて、

image

ここで着目すべきことは、
ベイズの公式から、情報分割集合 u 内の手番 x が到達された条件付き確率を得ることが出来るということは、
情報分割集合 u のどの手番に到達しているかの(主観確率の一種である)事後確率を会得したこと
を意味している点である。

そして、変動ゲームでは、
行動戦略の組 image のもとで情報分割集合 u が到達される確率 image の値が、常に正の値であるために、
ベイズの公式の分母項が 0 でないため、上記ベイズの公式は常に定義可能である。
このことが、ベイジアンのアプローチからの完全均衡点での最適行動(利得最大化)の設定を可能にする。(後述)


image

行動戦略の組 image のもとで、
手番 x が到達された後、頂点 z が到達される条件付き確率は、
image
と書ける。

変動ゲーム image での行動戦略の組 image に対して、
プレイヤー i の ”情報分割集合 u での” 条件付き期待利得 は、
image
で表現できる。


ここで、これまでの議論をまとめると、
変動ゲームにおいて、 情報分割集合 u に、ゲームのプレイが到達された時に、
プレイヤー i の、ベイジアン意思決定理論に基づく最適行動とは、
他のプレイヤーの行動を前提として、
ベイズの公式で与えられる、情報分割集合 u 内の手番 x が到達される事後確率 image のもとでの、
条件付き期待利得 image を最大化する行動戦略である。

次に、変動ゲームでのナッシュ均衡点では、
ゲームのプレイが、どの情報分割集合に到達してされようとも、
全てのプレイヤーは、上記の意味での最適行動を選択することを示す。

image

この定理(変動ゲームにおけるナッシュ均衡点1)より、
変動ゲームにおけるナッシュ均衡点では、 全てのプレイヤーは、各々の情報分割集合 u に到達したときの条件付き期待利得を最大化するように行動することが分かるが、
これは、先のチェーンストアゲームでみたように、
変動ゲームではない通常の展開形ゲームでのナッシュ均衡点では、必ずしも成り立たない性質である。


先の定理(変動ゲームにおけるナッシュ均衡点1)は、
プレイヤーの各情報分割集合 u 内での条件付き期待利得の最大化を行っている。
これは言い換えると、
この条件付き期待利得の最大化が、情報分割集合 u 以降の全ての情報分割集合での全ての局所戦略を、 同時に選択されることで得られることを表している。

そこで、次の定理(変動ゲームにおけるナッシュ均衡点2)で、
変動ゲームにおいて、プレイヤーのゲーム全体での期待利得の最大化は、
個々の情報分割集合内での局所戦略による期待利得の最大化によって得られることを示す。

image


この2つの変動ゲームにおけるナッシュ均衡点の定理より、
変動ゲームにおいて、以下の2つのことは同値となることが分かる。

  1. 情報分割集合 u 以降の全ての局所戦略を同時に選択することで得られる”大域的な意味での”利得最大化
  2. 情報分割集合 u 以降の各情報分割集合内での、
    局所戦略の選択による”局所的な意味での”利得最大化を逐次、繰り返して得られる利得最大化

これは、動的計画法における最適化原理に対応した挙動である。


☆ 完全均衡点の計算

以下の3人展開形ゲームを用いて、完全均衡点の具体的な計算方法を示す。

image

展開形ゲーム Γ の変動ゲーム image において、
プレイヤー i(=1,2,3) の行動戦略(行動 R を選択する確率)image は、
image
の制約を受ける。

ここで、展開形ゲーム Γ における、各プレイヤーの最適応答は、
image
であったが(途中計算略)、

変動ゲーム image においては、各プレイヤーの最適応答対応は、
image
となる。

以下、image の値によって、3つのケースに場合分けして考える。

  1. image の場合のナッシュ均衡点

    • この場合、プレイヤー2の最適応答対応 image の式より、image となる。
    • image が十分に 0 に近い場合(image)、
      image となるが、
      このとき、プレイヤー1の最適応答対応 image の条件の右辺は、image となり、
      今の image の条件と合わせて、image の関係が成り立つ。
      従って、プレイヤー1の最適応答対応 image の式より、image の関係が成り立つ。
    • このとき、プレイヤー3の最適応答対応 image の条件式は、
      左辺が、image
      右辺は、image
      となり、プレイヤー3の最適応答対応 image の式は、
      image
      と書き換えられる。
    • この内、今の条件 image と矛盾しないのは、
      • image の場合で、image
      • image の場合で、image
        の2通りである。
  2. image の場合のナッシュ均衡点

    • この場合、プレイヤー2の最適応答対応 image の式より、image となる。
    • 又、プレイヤー1の最適応答対応 image の条件は、image となり、
      プレイヤー1の最適応答対応 image の式より、image の関係が成り立つ。
    • 一方、今の条件 image を満たすためには、
      プレイヤー3の最適応答対応 image の条件式は、image となる。
      左辺:image
      右辺:image
      image
      image より、
      image が成り立つ。
  3. image の場合のナッシュ均衡点

    • この場合、プレイヤー2の最適応答対応 image の式より、image となる。
    • image が十分に 0 に近い場合(image)、
      image となるが、
      このとき、プレイヤー1の最適応答対応 image の条件は、image となり、
      プレイヤー1の最適応答対応 image の式より、image の関係が成り立つ。
    • このとき、プレイヤー3の最適応答対応 image の条件式は、
      左辺が、image
      右辺は、image
      となり、プレイヤー3の最適応答対応 image の式は、
      image
      と書き換えられる。
    • image が十分に 0 に近い場合( image )、
      image の関係が成り立つが、
      このときの、プレイヤー3の最適応答対応 image は、image となり、
      これは、今の条件 image と矛盾する。
      従って、このケース( image )では、ナッシュ均衡点は存在しない。

これら3つのケースでの(変動ゲームでの)ナッシュ均衡点 image をまとめると、以下のようになる。

  • image が成り立つ場合、
    この変動ゲームでのナッシュ均衡点は、image

  • image が成り立つ場合、
    この変動ゲームでのナッシュ均衡点は、image

  • image が成り立つ場合、
    この変動ゲームでのナッシュ均衡点は、image

の極限操作にて、これらのナッシュ均衡点は、

  • image

  • image

  • image

に収束する。

変動ゲームにおいて、ナッシュ均衡点に収束するので、
image
は、元の展開形ゲームにおける完全均衡点である。



◎ 逐次均衡点 [sequential equilibrium point]

先のプレイヤーの合理性の微小な不完全さに対する安定性の観点からの完全均衡点の定義、
及び、ベイジアン意思決定理論の立場からの完全均衡点における最適行動の設定では、
変動ゲームというゲームを導入することにより、
ベイズの公式を用いて、この情報分割集合内でのプレイヤーの事後確率の設定が可能になり、
結果、その予想のもとでの利得最大化、及びナッシュ均衡点、その極限としての完全均衡点を構築することが出来た。

しかしながら、このような操作(変動ゲームの導入、ベイジアンに基づく予想形成)を用いて、
完全均衡点を具体的に計算することは必ずしも容易ではないという問題点が存在する。

この問題を解決策として、
期待利得最大化と予想形成の手続きを分離することにより、
完全均衡点よりも弱い均衡点の概念である、逐次均衡点の概念を定義出来る。
そして、この逐次均衡点をゲームの解として算出する方法がある。

以下、この逐次均衡点の詳細を見ていく。


そのための前段階として、
まず、主観確率の一種である事後確率に基づく予想という意味合いでの ”信念” という用語を定義する。

image

展開形ゲーム Γ での行動戦略の組 image と信念(事後確率) ρ が与えられたとき、
プレイヤー i の情報分割集合 image における条件付き期待利得は、
image
で表現できる。


展開形ゲーム Γ において行動戦略の組 image が、全ての枝に正の確率を付与する場合、
すべての選択肢が選択される可能性があるため、
このときの行動戦略の組 b を、完全に確率的 [completely mixed] であるという。

又、行動戦略の組 image が、完全に確率的であるとき、
ベイズの公式の分母項が常に正の値になるので、このベイズの公式を用いて、
行動戦略 b のもとで、信念(事後確率) ρ が付与する情報分割集合 u 中の手番 x が選択される条件付き確率 image が定義できる。
このような信念 ρ を、行動戦略 b から導かれる信念(事後確率) という。


この展開形ゲームにおける信念の概念を導入することにより、
展開形ゲームにおけるゲームの解としての逐次均衡点を定義できる。

image


逐次均衡点の定義では、
逐次均衡点となる戦略の変動は、プレイヤーの予想形成(=逐次均衡点の定義の1つ目の条件)のみに適用され、
逐次均衡点の定義の2つ目の条件である、プレイヤーの最適行動(=利得最大化)の条件とは独立である。

従って、行動戦略の組 b に対して、
この b と整合的な(=逐次均衡点の定義の1つ目の条件が成り立つ)予想 ρ が見つかれば、
この行動戦略の組が逐次均衡点であることを調べるのは、比較的簡単である。

このことを、先の展開形3人ゲームの例で見てみる。

  • タイプ2のナッシュ均衡点:image
    image
    このタイプ2のナッシュ均衡点でのゲームプレイ(均衡プレイ)では、
    プレイヤー2の情報分割集合は到達されないが、(上図参照)
    プレイヤー2の情報分割集合は、ただ1つの手番しか含まないので、
    仮に予想に反して、このプレイヤー2の情報分割集合が到達された場合においても、
    プレイヤー2は、このただ1つの手番に確率1を付与するような、自明な信念 ρ を持つ。
    この信念 ρ は、明らかに収束済みであるので、
    このプレイヤー2の自明な信念 ρ は、タイプ2のナッシュ均衡点(行動戦略)image と整合的である。
    しかしながら、プレイヤー2の均衡戦略 R は、プレイヤー3の均衡戦略 R に対して最適でない(利得:4 → 1)ので、
    (逐次均衡点の条件2より)タイプ2のナッシュ均衡点 image は、逐次均衡点でない。

  • タイプ1のナッシュ均衡点:image
    image
    このタイプ1のナッシュ均衡点でのゲームプレイ(均衡プレイ)では、
    プレイヤー3の情報分割集合のみが到達されない。(上図参照)
    以下、タイプ1のナッシュ均衡点(行動戦略)と整合的な信念を求める。

    • プレイヤー3の情報分割集合は、2つの手番を持つが、右側の手番(0 → R → L)を x とおく。
    • タイプ1のナッシュ均衡点に収束する完全に確率的である行動戦略の列を image とする。
    • ここで、この行動戦略の列 image の k 番目の要素 image において、
      • プレイヤー1が L を選択する確率(=微小な不完全さによる変動確率)を image とする。
      • プレイヤー2が L を選択する確率(=微小な不完全さによる変動確率)を image とする。
      • プレイヤー3が R を選択する確率(=微小な不完全さによる変動確率)を image とする。
      • ここで、k → ∞ の操作で、この合理性の微小な不完全さによる変動確率 image は、0 に収束するとする。
    • 行動戦略 image のもとで、プレイヤー3の情報分割集合 u が到達され、その内部の手番 x が到達される条件付き確率は、 ベイズの公式より、
      image
    • この条件付き確率 image が k → ∞ の操作で収束するならば、逐次均衡点の条件1(整合性)を満たし、
      この条件付き確率 image は、プレイヤー3の整合的な信念となる。
    • 今、全ての k に対して、image が成り立つとする。(a は 0 以上の実数)
      このとき、条件付き確率 image は、k → ∞ の極限で、
      image
      の値に収束する
    • この収束値 a/(a+1) は、区間 [0,1] で連続なので確率となり、
      情報分割集合でのプレイヤー3の全ての信念は、タイプ1のナッシュ均衡点と整合的である。
      image
    • 次に、このナッシュ均衡点の最適性(逐次均衡点の条件2)を調べる。
      プレイヤー3の信念が、手番 x に与える確率を p とすると、
      R と L に対する、プレイヤー3の条件付き期待利得は、それぞれ 2×(1−p) と 1×p となるので、
      2(1−p) ≤ p
      即ち、2/3 ≤ p ≤ 1 ならば、
      プレイヤー3の均衡戦略 L は、信念に対して最適である。
    • プレイヤー1とプレイヤー2の情報分割集合が、タイプ1のナッシュ均衡点により到達可能であり、
      又、このナッシュ均衡点の行動戦略は、自明な信念で、他のプレイヤーの均衡戦略に対して最適である。
      プレイヤー3の結果(ナッシュ均衡点と整合な信念の存在とその最適性)と合わせて、
      このタイプ1のナッシュ均衡点は、逐次均衡点であると言える。


☆ 逐次均衡点の計算

以下の3人展開形ゲームを用いて、逐次均衡点の具体的な計算方法を示す。

image

この展開形ゲーム Γ において、
プレイヤー3の情報分割集合は、右側と左側の2つの手番を持つ。
(=どちらの手番にゲームのプレイが到達されているのか知りえない。)

ゲームのプレイにより、この情報分割集合が到達された際に、
どの手番が到達されているのか?に関するプレイヤーの信念(事後確率)を、

image

  • image : プレイヤー3の情報分割集合に内、右側の手番に付与される確率(=右側の手番が到達されているとする主観確率)
  • image : プレイヤー3の情報分割集合に内、左側の手番に付与される確率(=左側の手番が到達されているとする主観確率)

この信念 μ のもとでの、プレイヤー3の最適行動(利得最大化行動)は、
image
となる。(途中計算略)

以下、この確率 image の範囲で場合分けして考える。

  • image の場合

    • このときの、プレイヤー3の最適応答は、上式より、image (R)
    • すると、これに対するプレイヤー2の最適応答は、image (L)
    • 更に、これらに対する、プレイヤー1の最適応答は、image (R)
    • 結果的に、最適応答の行動戦略として、image : (R,L,R) が得られる。
    • しかしながら、このときの、プレイヤー3の信念 image は、
      image であるため、収束しておらず、この最適応答の行動戦略 b と整合的でない。
    • 従って、プレイヤー3の信念 μ に対する、逐次均衡点は存在しない。
  • image の場合

    • このときの、プレイヤー3の最適応答は、(プレイヤー3の最適応答の式より)image
    • すると、これに対するプレイヤー2の最適応答は、
      image
      (途中計算略)
    • 更に、これらに対するプレイヤー1の最適応答を、上式の範囲で場合分けして考える。
      • image の場合
        上式より、プレイヤー2の最適応答は、image となる。
        このときの、プレイヤー1の期待利得は、R を選択すると 1、L を選択すると image となるので、
        プレイヤー1の最適行動は、image となる。
        結果的に、最適行動の行動戦略として、image が得られる。
        この行動戦略が、信念 μ と整合的であるか調べるために、
        プレイヤー1と2の行動戦略の組 image、プレイヤー3の信念 image をベイズの公式に適用すると、
        image
        となるが、今、image なので、これをベイズの公式に代入すると、
        image という関係式が導かれる。
        この条件 image を満たし、かつ、image に収束する行動戦略の列が存在するので、
        プレイヤー3の信念 image は、行動戦略の組 image と整合的である。
        従って、行動戦略の組 image は、信念 image を持つ逐次均衡点である。

      • image の場合
        このときのプレイヤー2の最適応答は、image となる。
        このときの、プレイヤー1の期待利得の大小関係(計算略)より、プレイヤー1の最適行動は、image となる。
        結果的に、最適行動の行動戦略として、image が得られる。
        先の議論と同様にして、
        ベイズの公式から導かれる条件 image を満たし、
        かつ、image に収束する行動戦略の列が存在するので、
        プレイヤー3の信念 image は、行動戦略の組 image と整合的である。
        従って、行動戦略の組 image は、信念 image を持つ逐次均衡点である。

      • image の場合
        このときのプレイヤー2の最適応答は、image となる。
        これらに対するプレイヤー1の最適行動は、image となる。
        結果的に、最適行動の行動戦略として、image が得られる。
        この行動戦略は、ベイズの公式から導かれる条件 image を満たさないので、
        プレイヤー3の信念 image は、行動戦略の組 image と整合的ではない。
        従って、この行動戦略の組 b は、逐次均衡点ではない。

  • image の場合

    • このときのプレイヤー3の最適行動は、image (L) となる。
    • すると、これに対するプレイヤー2の最適応答は、image(R)
    • 結果的に、最適応答の行動戦略として、image : (R,L,L) が得られる。
    • この行動戦略が、信念 μ と整合的であるか調べるために、
      プレイヤー1と2の行動戦略の組 image、プレイヤー3の信念 image をベイズの公式に適用すると、
      image
      となるが、今、image なので、これをベイズの公式に代入すると、
      image という関係式が導かれる。
      このベイズの公式から導かれる条件を満たし、かつ、image に収束する行動戦略の列が存在するので、
      プレイヤー3の信念 image は、行動戦略の組 image と整合的である。
      従って、この行動戦略の組 b は、逐次均衡点である。


◎ (弱)完全ベイジアン均衡点 [(weakly) perfect Bayesian equilibrium point]

逐次均衡点の定義において、
信念は、行動戦略(ナッシュ均衡点)と整合的でなくてはならなかった。

これに対し、完全ベイジアン均衡点は、
(均衡プレイ外の情報分割集合での信念は、)どのような信念も整合的であるとして、
逐次均衡点における整合性に関する条件を取り払い、
逐次均衡点の概念を弱めたものとなる。

image


◎ 完全均衡点の存在定理

ここでは、まず、戦略形ゲームにおける完全均衡点を定義し、戦略形ゲームにおける完全均衡点の存在定理を示す。
その後、展開形ゲームにおける完全均衡点の存在定理を示す。

今、image を戦略形 n 人ゲームとする。
このとき、展開形ゲームのときと同様にして、
戦略形ゲーム G の変動ゲーム

image

  • image
    プレイヤー i の全ての純戦略 image に対して、正の確率 image を付与する関数。
    プレイヤーの合理性の微小な不完全さに起因する。
    image

を定義することが出来る。

ここで、混合戦略がある微小な一定の確率以上で変動するように、
この変動ゲームにおける全ての混合戦略に対して、
image
という条件を課す。

image

image

image
展開形ゲームでのナッシュ均衡点では、
プレイヤーの利得最大化行動が、行動戦略の全体に対して行われるのに対して、
展開形ゲームでの局所均衡点は、
プレイヤーの利得最大化行動が、各々の情報分割集合内に対して行われるのが特徴的である。

それ故、「展開形ゲームのナッシュ均衡点 ⇒ 展開形ゲームの局所均衡点」の関係は成り立つが、
この逆の、「展開形ゲームの局所均衡点 ⇒ 展開形ゲームのナッシュ均衡点」の関係は成り立たない。


しかしながら、変動ゲームにおいては、
以下の定理が示すように、ナッシュ均衡点と、局所均衡点は同値となる。
image


展開形ゲーム Γ における完全均衡点の存在定理の前段階として、
まず、展開形ゲーム Γ から、以下のような標準形ゲームを構成する。

今、展開形ゲーム Γ において、
偶然手番を除く、全ての情報分割集合に対して、image という番号付けを行う。

そして、この各情報分割集合 image に対して、
この情報分割集合内での局所戦略を選択する1人のエージェント j なるものを考える。
このエージェント j の純戦略の集合は、これに対応する情報分割集合 image での選択肢の全体 image となる。
image
全てのエージェントの純戦略の組 a=(a_1,a_2,…,a_n ) に対して、
エージェント j の利得を、
image

  • i : 情報分割集合 image をもつ、元の展開形ゲーム Γ のプレイヤー i
  • image : 元の展開形ゲーム Γ における純戦略の組 image に対するプレイヤー i の期待利得

このようにして、展開形ゲームから構成される戦略形ゲーム
image
を、元の展開形ゲームのエージェント標準形 [agent normal form] という。

image



◎ 戦略の支配と完全均衡点

これまでの議論では、
展開形ゲームにおけるナッシュ均衡点の、ゲームの解としての不十分さを

  1. 情報分割集合におけるプレイヤーの最適化行動(利得最大化行動)
  2. プレイヤーの合理性の微小な不完全さに対する安定性

の観点から見てきた。
ここでは、更に、3つ目の観点である

  1. 戦略の支配

の観点から、ナッシュ均衡点の問題点を見ていく。


展開形ゲームでの(行動戦略による)完全均衡点と、戦略形ゲームでの(混合戦略による)完全均衡点は、
1対1に対応しているので、以下、戦略形ゲーム上で考えていく。

image

記載中...

image



◎ 戦略の安定性と強完全均衡点

完全均衡点の定義より、
完全均衡点であるためには、少なくとも1つの収束する連続な変動ゲームの列 image
存在する必要がある。
これは、少なくとも1つ必要がなだけであるので、
逆に言えば、変動ゲームの列のとり方(η のとり方)によっては、連続に変化しない列も存在し得る。

このことを先の3人展開形ゲームで見ていく。
image

この展開形ゲーム Γ の変動ゲーム image において、
プレイヤー i(=1,2,3) の行動戦略(行動 R を選択する確率)image は、
image
の制約を受けるとし、

この展開形ゲームにおける変動ゲームのナッシュ均衡点の計算の結果をまとめると、
プレイヤー1,2の合理性の微小な不完全さ image の範囲に応じて、以下のようになった。(先の計算結果参照)

  • 領域 A : image
    この変動ゲームでのナッシュ均衡点は、image
    image の極限操作にて、このナッシュ均衡点は、
    image に収束する。
    変動ゲームにおいて、ナッシュ均衡点に収束するので、
    この均衡点は、元の展開形ゲームにおける完全均衡点である。

  • 領域 C : image
    image の極限操作にて、このナッシュ均衡点は、image
    image に収束する。
    変動ゲームにおいて、ナッシュ均衡点に収束するので、
    この均衡点は、元の展開形ゲームにおける完全均衡点である。

  • 領域 B : image
    image の極限操作にて、このナッシュ均衡点は、image
    image に収束する。
    変動ゲームにおいて、ナッシュ均衡点に収束するので、
    この均衡点は、元の展開形ゲームにおける完全均衡点である。


この変動ゲームにおけるプレイヤー1,2の合理性の微小な不完全さ image の範囲に応じた
完全均衡点への収束( image の極限操作)の様子を図示すると、以下の図ようになる。

image

  • 領域 A : image
    上図の青で塗りつぶた領域が対応している。
    上図の青矢印で示したように、
    この領域での変動ゲームのナッシュ均衡点は、完全均衡点 image に収束する。
    そして、その完全均衡点の安定性は、この領域 A 内で保証される。

  • 領域 B : image
    上図の緑で塗りつぶた領域が対応している。
    上図の緑矢印で示したように、
    この領域での変動ゲームのナッシュ均衡点は、完全均衡点 image に収束する。
    そして、その完全均衡点の安定性は、この領域 B 内で保証される。

  • 領域 C : image
    上図の赤線領域が対応している。
    この曲線 C 上の変動ゲームでは、
    ナッシュ均衡点を適当に選択すれば、それらは全て完全均衡点 image に収束する。
    そして、この完全均衡点の安定性は、曲線 C 上での変動ゲームに対してのみ保証される。
    これは、プレイヤー1と2の合理性が互いに強い相関がある(image に対する = の関係式)ことを示しており、
    このような状況は、限定的なものとなってしまう。

このように、完全均衡点の安定性は、変動ゲームの列のとり方( η のとり方)に依存している。


完全均衡点の安定性に関する、
このような変動ゲームの列の選択への依存性を解決するために、強完全均衡点を導入する。

image

  • cf : 完全均衡点

    image


完全均衡点の定義では、
変動ゲームの列 image が存在することを 必要として
それらが2つの収束性(連続性)

  1. 展開形ゲーム Γ を構成する全ての枝 c に対して、image
    (=変動要因である η が 0 に近づき、その結果、戦略が変動しなくなる。)

  2. 変動ゲーム image のナッシュ均衡点 image が存在して、image
    (=変動ゲームでのナッシュ均衡点が、元の展開形ゲームでの均衡点に収束する。)

に関する条件を満たすような均衡点であった。

一方、強完全均衡点の定義では、
1つ目の収束性(連続性)に関する条件を満たすような
変動ゲームの列 image が存在することを 前提として
それらが、2つ目の収束性(連続性)に関する条件を満たすような均衡点である。

従って、
完全均衡点では、展開形ゲーム Γ からどのような変動ゲーム image を構成しようとも、
その変動ゲームにおいて、連続的に変化出来る(=収束する)均衡点である。
これにより、強完全均衡点は、完全均衡点よりも強い安定性を持つ。


しかしながら、先の展開形3人ゲームのように、強完全均衡点は必ずしも存在するとは限らない。
以下、このことの簡単な条件を見ていく。

image

image


◎ 各種均衡点の応用列

☆ 湖の汚染(組織参加のジレンマ)

  • 工場 1, 2, ... , n が、以下のような生産活動を行っている。
    • 湖の水を使って紙パルプを生産し、その後、排水を湖に流す。
  • このとき、工場の経営者が取りうる選択肢は、以下の2つの何れかである。
    • C : 工場の排水に浄化装置を付ける。
      • このとき、浄化装置を設置するのに、費用 K がかかる。
    • D : 工場の排水に浄化装置を付けない。
      • このとき、紙パルプを生産にあたって、使用する湖の水の浄化コストに kL かかる。
        ( k は、浄化装置を設置していない工場数で、image
  • 工場の経営者は、費用が最小化するように選択を行う。

工場 i(=1,2,...,n) の戦略を image (C or D) とすると、
その費用関数は、
image

今、image が成り立つと仮定すると、
全ての工場 i で、戦略 D は、戦略 C を支配する戦略である。

従って、このゲームのナッシュ均衡点は、
image
となり、この結果、湖は汚染される。

このときの工場 i の均衡費用は、
image
となるが、
全ての工場が浄化装置を付けた場合の工場 i の費用 K と比較すると、
image の関係より、全ての工場が浄化装置を付けた場合のほうがコストが安く、
ナッシュ均衡点は、パレート最適ではないことが分かる。

つまり、全ての工場が浄化装置を付けた場合のほうがコストが安いにも関わらず、
非協力状態のもと自らの利潤を追求した結果、より高コストな結果を生んでしまう。
その意味で、この問題は、囚人のジレンマと同じような状況が発生している。

次に、このような状況を回避することを目的として、
ゲームのルールを拡張する。
具体的には、以下のような、ゲームを考える。

  • 工場は、湖の水を浄化するための共同組織を作る。
  • この共同組織は、メンバー全員が合意すれば、廃水を浄化しないメンバーに対し、罰金 ρ を課すことが出来る。
  • この罰金の額は、ρ > K−L である。

そして、この共同組織の設立が可能であるかを分析するための、
以下のような3段階のゲームを考える。

  1. 参加決定段階
    まず、全ての工場 i (=1,2, ... ,n) は、以下の2つの選択肢を、他の工場とは独立して行う。

    • 組織に参加する。( image
    • 組織に参加しない。( image
  2. 交渉段階
    組織に参加したメンバーは、罰金 ρ ( > K−L) の制度を設けるか否かを、独立して全員一致ルールで採択する。
    但し、この罰金は、組織の非メンバーには効力を持たない。

  3. 行動決定段階
    この上で、全ての工場 i (=1,2, ... , n) は、以下の2つの選択肢を、他の工場とは独立して行う。

    • 浄化装置を付ける。( image
    • 浄化装置を付けない。( image
      この場合で、組織に加入している&組織が罰金を設けている場合は、罰金 ρ が課せられる。

記載中...


■ 情報不完備ゲーム [game with incomplete information]

情報不完備ゲームにおいては、
各プレイヤーは、他プレイヤーの利得関数に関して、正確な知識を持たない。

ここでは、主に戦略形ゲームにおいて、
各プレイヤーが、他プレイヤーの利得関数についての知識を持たないケースを取り扱うが、
ここでの議論の本質は、
プレイヤーの集合や戦略集合などの、利得関数以外のゲームの構成要素に関して、
プレイヤーが完全な知識をもたないケースにも適用可能である。

◎ 情報不完備ゲームの定式化

このような情報不完備ゲームを定式化するにあたって、
最初に直面する問題は、
「プレイヤーが利得関数を完全には知らない。」
という事象をどのようにモデル化すればよいか?という問題である。

ハーサニによる情報不完備ゲームの理論では、これを以下のように考える。

n 人戦略形ゲーム image において、
プレイヤー i の利得関数
imageimage : プレイヤー i の純戦略、或いは、混合戦略で、この関数の独立変数)
の形状を、決定するある変数 c が存在して、
全てのプレイヤーは、この(形状の)決定変数 c の真の値を知らないとする。
各プレイヤーが、この変数 c に関して、プレイヤー度にどのような情報を得ているのか明示するために、
この変数 c は、プレイヤー数 n と同じ要素個 image に分解出来るとする。
各プレイヤー i は、そのインデックスに対応した第 i 成分の image の値を知ることは出来るが、
他の image の真の値を知ることは出来ない。

この各プレイヤー i に対する image は、情報ベクトル(或いは、属性ベクトル)といい、
利得関数に影響を与えるようなプレイヤーに固有の社会的、物理的、心理的要素などからによる、複数の成分をもつベクトルとなる。
このプレイヤーの情報ベクトル、或いは属性ベクトル image は、そのプレイヤーのみが真の値を知ることが出来るので、
プレイヤーの個人情報を表しているとも言える。
以下では、この情報ベクトル、属性ベクトルを総称して、タイプと呼ぶことにする。

ここまでの議論をまとめると、
プレイヤーの利得関数は、全てのプレイヤーの戦略変数とタイプ(情報ベクトル)に依存する。
そして、各プレイヤーは、自分のタイプを知ることは出来るが、他のプレイヤーのタイプを知ることは出来ない。


ハーサニによる情報不完備ゲームの理論では、これに加えて、
このような不確実性下でのプレイヤーの意思決定に関して、以下のベイジアン仮説を採用する。

image

以上の準備をもとに、情報不完備ゲームは以下のように定義できる。
image

◎ ベイジアンゲームと情報不完備ゲーム

ハーサニの理論では、更に、
この主観的同時確率分布の族、即ちプレイヤー i(=1,2, ... ,n) がもつ条件付き確率の族
image
に以下のような、整合性に関する条件を仮定する。

image

情報不完備ゲームにおいて、上記の意味で、プレイヤー主観確率が整合性であるならば、
次のようなベイジアンゲームと呼ばれる、情報完備ゲームを構築することが出来る。

image

このベイジアンゲーム image は、以下のようにプレイされる。

  1. 全てのプレイヤーのタイプの組 image が、
    確率分布 image (全てのタイプの組み合わせに正の確率を付与する確率分布)にもとづいて実現される。
  2. プレイヤー i は、自分のタイプ image の実現値のみを知った上で、
    他のプレイヤーとは独立に、自身の行動戦略 image を選択する。(image
  3. ゲームのプレイの最後に、プレイヤー i は、利得 image を得る。

又、ベイジアンゲームは、情報完備ゲームであるが、(プレイヤーのタイプが)
ハーサニの情報不完備ゲーム理論では、
情報不完備ゲームと、ベイジアンゲームを(ゲーム理論的には)同値とみなす。(=ベイズの同値仮説)
(これにより、ベイジアンゲームを情報不完備ゲームと呼ぶことが多いが、本来は違うゲーム的状況を表している。)

  • ベイズの同値仮説
    情報不完備ゲームと、そこから導かれるベイジアンゲームは、
    プレイヤーの戦略上の観点からは、同値であり、
    プレイヤーの戦略の選択は、どちらのルールでも同じ決定ルール(解概念)に従う。

以下では、情報不完備ゲーム image を、情報完備ゲームであるベイジアンゲーム image に変換して分析する。


◎ ベイジアン均衡点

情報不完備ゲーム image において、
プレイヤー i の条件付き期待利得は、
image
と定義できる。

この条件付き期待利得 image より、
情報完備ゲームにおけるナッシュ均衡点とよく似た概念である、
情報不完備ゲームにおけるベイジアン均衡点なるものを定義できる。

image


この(情報不完備ゲームにおける)ベイジアン均衡点は、その定義からも分かるように、
(情報完備ゲームにおける)ナッシュ均衡点とよく似た概念をである。
そのことを以下に示す。

そのために、まず、ベイジアンゲームにおける期待利得、及びナッシュ均衡点を定義する。

情報不完備ゲーム image から構成されるベイジアンゲーム image において、
全てのプレイヤーの戦略の組 image に対してのプレイヤー i の期待利得は、
image
と定義できる。

このベイジアンゲームにおけるナッシュ均衡点と、情報不完備ゲームにおけるベイジアン均衡点に関して、
以下の定理が成り立つ。

image


先のベイズ同値仮説は、
プレイヤーの戦略の選択が、
情報不完備ゲームにおいても、そこから構成されるベイジアンゲーム(情報完備ゲーム)においても、
同じ(ゲームの)解概念に従うことを要求する。
よって、この定理(=情報不完備ゲームにおけるベイジアン均衡点とベイジアンゲームにおけるナッシュ均衡点は同じ)より、
情報完備ゲームのナッシュ均衡点を解概念として採用すれば、
情報不完備ゲームの適切な解概念は、(ベイズ同値仮説に従う限り、)ベイジアン均衡点である と言える。



◎ ベイジアンゲームの例

ベイジアンゲームの例として、
先の男女ゲームをベイジアンゲームの枠組みで考える。

このゲームの利得関数の表は、以下のようになる。
image

ここで、このゲームをベイジアンゲームに拡張するために、
各プレイヤーの個人情報であるタイプの概念を導入する。

  1. タイプ1( image ):ボクシングのほうが、バレエより好きである。
  2. タイプ2( image ):バレエのほうが、ボクシングより好きである。

そして、このタイプの組み合わせ (i, j) に応じたゲーム image を考える。

  • image の男女ゲーム
    プレイヤー1(男性)のタイプが、タイプ1で、
    プレイヤー2(女性)のタイプが、タイプ2である場合( 1, 2 )の利得関数の表は
    image

  • image の男女ゲーム
    プレイヤー1(男性)のタイプが、タイプ1で、
    プレイヤー2(女性)のタイプが、タイプ1である場合( 1, 1 )の利得関数の表は
    image

  • image の男女ゲーム
    プレイヤー1(男性)のタイプが、タイプ2で、
    プレイヤー2(女性)のタイプが、タイプ2である場合( 2, 2 )の利得関数の表は
    image

  • image の男女ゲーム
    プレイヤー1(男性)のタイプが、タイプ2で、
    プレイヤー2(女性)のタイプが、タイプ1である場合( 2, 1 )の利得関数の表は
    image

女性のタイプに関する、男性の主観確率(予想)は、
image

男性のタイプに関する、女性の主観確率(予想)は、
image

男性と女性の予想(主観確率)が、整合性であるとは、
主観的同時確率 image が存在して、これが全てのプレイヤー(男性&女性)で等しいことを要求するので、
image
という関係式が成り立つ。

この(第3式 /第1式)より、
image

又、(第4式 /第2式)より、
image

よって、
image

という関係式が成り立つ。

今、image のときを考えると、
これらは、この関係式を満たすので、

女性のタイプに関する、男性の主観確率(予想)は、
image

男性のタイプに関する、女性の主観確率(予想)は、
image

又、image のとき image が成り立つので、
男性のタイプと女性のタイプの(主観的)同時確率分布 image は、
image

この(主観的)同時確率分布 image による、偶然手番をもつ展開形ゲームは、
以下の図のように表現できる。

image

ベイジアンゲームにおいて、
プレイヤー i は、自分のタイプ image の実現値のみを知った上で、
他のプレイヤーとは独立に、自身の行動戦略 image を選択する( image )ので、
プレイヤー i の純戦略は、以下の表のような4通りの組み合わせになる。
image

記載中...


■ 繰り返しゲーム [repeated game]

これまでに議論したゲームは、ゲームのプレイが一回のみ行われることを前提としてきた。
しかしながら、応用上の多くの系では、ゲーム的状況は継続的であるので、
ゲームのプレイが、繰り返しプレイされるモデルのほうが適切であると考えられる。

ここでは、このような同一のゲームが繰り返し行われるような状況、
即ち、繰り返しゲーム [repeated game] を考える。

この繰り返しゲームでのポイントは、
このゲームで、プレイヤーが過去のプレイの結果に依存して行動を選択できる場合に、
協力、裏切り、仕返しなどの多様な行動パターンが可能となるが、
その結果として、これまで見てきたナッシュ均衡点、部分ゲーム完全均衡点の概念を用いて、
どのようなプレイヤーの行動が、繰り返しゲームにおける非協力均衡点として実現されるか?」という点である。

◎ 繰り返し囚人のジレンマ

まず、以下の表の利得関数をもつ囚人のジレンマゲーム G を考える。

(例)囚人のジレンマ
image

各プレイヤーは、行動 C(協力:cooperatio)、或いは、行動 D(裏切り:defection)の行動を選択し得る。
このときのゲーム image の唯一のナッシュ均衡点は、(D, D) である。(裏切り D が、協力 C を支配する戦略であるため)

今、この囚人のジレンマゲーム image が、無限に繰り返されるようなゲーム的状況を考える。
但しこのとき、各プレイヤーは過去のゲームのプレイの結果を完全に知ることが出来るとする。

このような新しいゲームを、元のゲーム image の繰り返しゲームといい、image で表す。
また、この元のゲーム image を繰り返しゲーム image の成分ゲーム [component game] といい、
繰り返しゲーム image のほうを、元のゲーム image のスーパーゲーム [super game] という。

この繰り返し囚人のジレンマゲーム image における、各プレイヤー i (=1,2) の取りうる戦略は、
過去のプレイの結果に依存して、ゲームのプレイの毎回の行動を決定する行動であるが、
そのような代表的な戦略として、ここでは、以下の4つの戦略を考える。

  1. all-C : 過去のプレイの結果によらず、常に行動 C(協力)を選択する。

  2. all-D : 過去のプレイの結果によらず、常に行動 D(裏切り)を選択する。

  3. トリガー [trigger] : 最初は行動 C を選択し、
    以降は双方のプレイヤーが行動 C を選択する限り、行動 C を選択し続ける。
    しかし、1回でも一方が行動 D を選択すれば、その後、行動 D を選択し続ける。

  4. しっぺ返し [tit for tat] : 最初は行動 C を選択し、以降は相手の前回の行動と同じ行動を選択する。

繰り返しゲーム image における、プレイヤーの戦略が定まると、
毎回のゲームプレイにおける、プレイヤーの利得を定めることが出来る。

具体的には、2人のプレイヤーが共に all-C 戦略を選択したとすると、
2人のプレイヤーは毎回のゲームプレイにおいて、利得 5 を得ることが出来る。
ここで、t 回目のゲームプレイにおける、プレイヤーの利得 5 を、
現在のゲームプレイでの現在利得に換算したものを image と評価する。
(このような δ を、将来利得に対する割引因子 [discount factor] という。)
このときの、(この無限回のゲームプレイにおける)割引利得の総和(割引利得和)は、
image
となるが、
各プレイヤーは、この割引利得和を最大化しようと行動すると前提する。

このようにして算出した、4つの戦略に対応する割引利得和は、以下の表のようになる。
image

この利得行列の表より、ナッシュ均衡点を求めてみると、

  • 戦略の組 (all-D, all-D) は、割引因子 δ の値に関わらず、ナッシュ均衡点である。
    (裏切り D が、協力 C を支配する戦略であるため)
  • 割引因子 δ ≥ 1/9 のとき、
    • 戦略の組 (トリガー, トリガー) はナッシュ均衡点である。
      (このとき、協力の戦略の組 (C, C) がプレイされている。)
    • 戦略の組 (しっぺ返し, しっぺ返し) はナッシュ均衡点である。
      (このとき、協力の戦略の組 (C, C) がプレイされている。)

このように、囚人のジレンマが継続的にプレイされるとき(繰り返し囚人のジレンマゲーム)、
プレイヤーの(将来利得に対する)割引因子 δ が十分に大きければ(今の例では、δ ≥ 1/9 のとき)、
2人のプレイヤーの協力行動が、繰り返しゲームにおける非協力均衡点として実現可能である。
(=協力行動が、ナッシュ均衡点となる。)


今の例では、プレイヤーの戦略を4つの戦略( all-C, all-D, トリガー、しっぺ返し)に制限して考えたが、
可能な全ての戦略においても、囚人のジレンマにおけるプレイヤーの協力行動が、
その繰り返しゲームにおける非協力均衡点のプレイとして実現出来る。
以下、このとこを示す。

まず、囚人のジレンマにおける、一般的な利得関数を考えると、以下の表ようになる。
image

このとき、トリガー戦略に対して、以下の性質が成り立つ。

  • 繰り返し囚人のジレンマゲームにおいて、
    プレイヤーの将来利得に対する割引因子 δ の値が、
    image
    であるならば、トリガー戦略の組は、このゲームのナッシュ均衡点となる。

    • (証明)
      2人のプレイヤーがトリガー戦略を用いるとき、プレイヤーの割引利得和は、
      image
      となる。

      プレイヤー1が、ゲームの t 回目のプレイにおいて、行動を C → D に変更したとすると、
      (プレイヤー2はトリガー戦略を用いるので)t+1 以降のゲームプレイにおいて、
      行動 D が選択され続けることになる。
      従って、”t 回目以降の”ゲームプレイでのプレイヤー1の割引利得は、
      image
      となる。

      この2つの割引利得和(行動 C のトリガー戦略継続、t 回目で行動 C→D)を比較すると、
      image の関係式より、
      image
      となる。

      つまり、行動を C → D に変更することで、長期的な利得が下がるために、
      プレイヤーが戦略を変更する動機を持たず、このときのトリガー戦略の組はナッシュ均衡点である。


又、しっぺ返し戦略に対して、以下の性質が成り立つ。

  • 繰り返し囚人のジレンマゲームにおいて、
    プレイヤーの将来利得に対する割引因子 δ の値が、
    image
    であるならば、しっぺ返し戦略の組は、このゲームのナッシュ均衡点となる。

    • (証明)
      2人のプレイヤーが共にしっぺ返し戦略を用いるとき、プレイヤーの割引利得和は、
      image
      となる。

      プレイヤー1が、ゲームの t 回目のプレイにおいて、行動を C → D に変更したとすると、
      すると、t+1 回目以降のゲームプレイにおいて、
      プレイヤー2の行動は、しっぺ返し戦略の元、行動 C or D が選択されることになる。
      このときの t+1 回目以降のゲームプレイの様子を樹形図で書くと、以下の図のようになる。

      又、このゲームプレイの樹形図の行動の組を遷移図で書き直すと、以下の図のようになる。
      image
      又、このゲームプレイの樹形図の行動の組を遷移図で書き直すと、以下の図のようになる。
      image

      この行動の組の遷移図より、
      プレイヤー1が、しっぺ返し戦略からどのように戦略を離脱しても、割引利得和が大きくならないためには、
      image
      の3つの条件を満たせば良いことが分かる。

      記載中...



◎ (無限回)繰り返しゲームの定式化

image

そして、この(無限回)繰り返しゲーム image は、以下のようにルールを持つ。

  1. 毎回のゲームプレイにおいて、各プレイヤーは成分ゲーム G の行動を他のプレイヤーとは独立して選択する。
  2. 行動を選択する際に、各プレイヤーは過去のゲームプレイの結果を、完全に知ることが出来る。
  3. 全てのプレイヤーは、割引因子 δ (0 < δ < 1) による割引利得和を最大化しようと行動する。


◎ フォーク定理(繰り返しゲームにおけるナッシュ均衡点の基本定理)

ここでは、繰り返しゲームにおけるナッシュ均衡点の基本定理であるフォーク定理をみていく。
そのためにまず、繰り返しゲームにおけるナッシュ均衡点を定義する。

image

先の繰り返し囚人のジレンマゲームでみたように、
ナッシュ均衡点は、均衡点から離脱したプレイヤーに対して、処罰行動を与えているとみなすことも出来る。
この処罰行動の内、最も基本的な処罰の方法は、プレイヤーに対してミニマックス行動を用いることである。
(他のプレイヤーがプレイヤー i に対するミニマックス行動を選択すれば、
このプレイヤー i は、高々ミニマックス利得しか得られなくなるので、ミニマックス行動は、処罰行動を与える。)

image

image

この個人合理的の概念を用いて、
以下のような繰り返しゲームにおけるナッシュ均衡点と割引因子の値に関しての重要な定理(フォーク定理)が示せる。

image


このフォーク定理の内容を、囚人のジレンマゲームで考える。

(例)囚人のジレンマゲームの利得関数
image

純戦略による実現可能な利得ベクトルの集合(下図)を見やすくするために、
プレイヤー i の行動集合を区間 image の範囲で連続化する。

協力行動(C):image
裏切り行動(D):image
image は、純戦略の選択確率となっている。

行動の組 image に対して、プレイヤーの利得を
image
image

このような実現可能な利得ベクトルび実現可能領域の集合 image を図示すると、
以下のようになる。

image

ナッシュ均衡点 (-3,-3) を起点に、利得値 image の点集合が、
個人合理的な行動の組 a による利得ベクトル全体となる。(赤枠部分)
よって、フォーク定理より、割引因子 δ の値がが十分に大きい時、
これらの個人合理的な行動の組による利得ベクトル全体が、繰り返しゲームにおけるナッシュ均衡点により実現可能なである。


◎ 完全フォーク定理

image

  • image : 割引因子 δ をもつ成分ゲーム G の繰り返しゲーム
  • image : 繰り返しゲーム image におけるプレイヤー i の戦略
  • image : t 回目のゲームプレイまでのゲームの履歴(上図の赤線部分)
  • image : 繰り返しゲーム image の履歴 image 以降の部分ゲーム
  • image : 戦略 image が部分ゲーム image に導く戦略(上図の赤線部分)で、
    部分ゲームにおける m 回目の任意の履歴(上図の赤点線部分)image に対し、以下の式で定義出来る。
    image

image
この繰り返しゲームにおける部分ゲーム完全均衡点の定義は、
先に定義した以下の展開形ゲームにおける部分ゲーム完全均衡点の一般的な定義を、
繰り返しゲームに適用したものとなっている。

  • cf :
    image

まず、繰り返し囚人のジレンマゲームでのしっぺ返し戦略が、部分ゲーム完全均衡点になるか否かを見てみる。

(例)ナッシュ均衡点が部分ゲーム完全均衡点とはならない例(繰り返し囚人のジレンマゲームでのしっぺ返し戦略)
image
繰り返し囚人のジレンマゲームにおけるしっぺ返し戦略は、先にみたように、
割引因子 δ が十分に大きい時(δ≥1/9)、このゲームにおけるナッシュ均衡点となる。
しっぺ返し戦略は、初手として C を選択し、以降は前回の相手の選択と同じ選択を行う戦略であった。
従って、

  1. プレイヤー1、2が初期手番として、D, C を選択すると、
    履歴 image 以降のゲーム(部分ゲーム)のプレイの推移は、
    image
    となる。
    プレイヤー1が C でプレイヤー2が D を選択したときの、プレイヤー2の利得は 6。
    プレイヤー1が D でプレイヤー2が C を選択したときの、プレイヤー2の利得は -4。
    よって、このときの履歴 image 以降の部分ゲームの割引利得和は、
    image

  2. プレイヤー2が、2回目のゲームプレイ以降に、初期行動が C であるしっぺ返し戦略に変更すると、
    履歴 image 以降のゲーム(部分ゲーム)のプレイの推移は、
    image
    となる。
    プレイヤー1、2共に C を選択したときの、プレイヤー2の利得は 5。
    よって、このときの履歴 image 以降の部分ゲームの割引利得和は、
    image

今、δ≥1/9 のとき
image
となるので、
しっぺ返し戦略は、履歴 image 以降の部分ゲームに対して、ナッシュ均衡点を導かない。
従って、しっぺ返し戦略は、この繰り返し囚人のジレンマゲームの部分ゲーム完全均衡点とはならない。


繰り返しゲームの部分ゲーム完全均衡点を構成するために、
まず、繰り返しゲームの成分ゲームにおけるナッシュ均衡点を処罰とする戦略を考える。

image

  • cf :
    image
    image

この定理より、割引因子が十分に大きい時、
全てのプレイヤーが成分ゲーム G のナッシュ均衡点より、
厳密に大きな利得を得ることの出来る行動の組 a( image )は、
この成分ゲーム G の繰り返しゲーム image の部分ゲーム完全均衡点により実現できることが分かる。
(従って、プレイヤーのミニマックス利得とナッシュ均衡点での利得が等しいようなゲームでは、
フォーク定理が部分ゲーム完全均衡点に関しても成り立つことになる。)



◎ 有限回繰り返しゲーム

ここまでは、ゲームのプレイが際限なく、無限回繰り返されるゲームを見てきたが、
次に、ゲームのプレイが有限回のみ行われるような繰り返しゲームを見ていく。(有限回繰り返しゲーム)

戦略形ゲームを image とすると、これから構成される有限ゲームは、image と書ける。
ここで、T は、ゲームプレイの回数であり、全てのプレイヤーの共有知識である。
無限回繰り返しゲームの時と同様にして、全てのプレイヤーは、過去のゲームプレイの結果を完全に知ることが出来る。


そして、有限回繰り返しゲーム image における戦略は、無限回繰り返しゲーム image の場合と同様に定義出来る。

具体的には、有限回繰り返しゲーム image において、
プレイヤーの戦略の組 s=(s_1,s_2,…,s_n ) に対して、各ゲームプレイにおける履歴からなる行動の組の列
image
が定まる。

この行動の組の列(履歴)image に対する、各プレイヤー i の評価基準として、
平均利得
image
を考える。

すると、(無限回繰り返しゲーム image の場合と同様にして、)
有限回繰り返しゲーム image における、ナッシュ均衡点、部分ゲーム完全均衡点を定義することが出来る。

image

囚人のジレンマゲームは、この定理の前提条件(ナッシュ均衡点による利得=ミニマックス利得)を満たす。
従って、この定理より、囚人のジレンマゲームの有限回繰り返しゲームにおけるナッシュ均衡点は、
成分ゲームでのナッシュ均衡点 e が繰り返されるものに限る(image

即ち、囚人のジレンマゲームの有限回繰り返しゲームでは、
ナッシュ均衡点は、(D:裏切り,D:裏切り) の戦略の組となるので、
(無限回繰り返しゲームとは異なり、)プレイヤーの協力行動は実現しない。


■ 交渉ゲーム

◎交渉問題の定式化

これまで取り上げてきた非協力ゲームは、
プレイヤーは互いに独立に、自身の利得を最大化するような戦略を選択するようなゲームであった。
しかしながら、囚人のジレンマ等の例のように、
多くの非協力ゲームにおけるナッシュ均衡点は、必ずしもパレート最適ではない。

このとき、各プレイヤーが互いに協力行動を行うことにより、
各々のプレイヤーの利得を改善することが出来るケースが多く存在する。

以下では、このような協力行動を如何にして定式化して、協力ゲームのモデルに取り入れるか?を考える。

まず、協力の方法というものを考えると、これらは多様であり、
協力によって、どのような状態を実現するかについてのプレイヤーの利害が一致するとは限らない。
従って、プレイヤーは協力すべきかの否か?、又、協力の結果としてどのような状態を実現すべきか?について、
各プレイヤー間の話し合いにより決定することになる。
即ち、まず始めに「交渉問題」が生じる ことになる。
従って、協力ゲームのモデル構築にあたって、最初にすべきことは交渉問題の定式化である。


ここでは、まず、ナッシュの交渉理論で語られる、2人交渉問題を見てみる。

(例)利得配分をめぐるコンフリクト(2人交渉問題)

  • プレイヤー A と B は、共同事業を行うことにより、100 万円の利得を得ることが出来る。
  • この共同事業を始める前に、プレイヤー A と B は、この 100 万円の利得を、
    各々の利得としてどのように配分するか?についての交渉を行い、合意する必要がある。
  • もし合意に達しなければ、両者は共同事業を行わず、各プレイヤーの利得は 0 円となってしまう。
  • このとき、プレイヤー A と B は、話し合いの結果、合意に達するか?又、配分はどのようになるか?を解析する。
    (但し、各プレイヤーは、完全に合理的な選択を行うものとする。)

プレイヤー A の分配額を image 、プレイヤー B の分配額を image とすると、
image
の関係が成り立つ。
これを図示すると、以下の図のようになる。
image


この例を元に、2人交渉問題を、一般化して定式化すると、以下のようになる。

image

次に、交渉理論の基本的な概念を定義する。

image


先の例では、交渉問題として、利得分配をめぐる交渉の例をみたが、
次に、行動の選択をめぐる交渉問題の例をみてみる。

(例)男女の争い(2人交渉問題)
image

この男女ゲームのナッシュ均衡点は、既にみたように、以下の3つのナッシュ均衡点をもつ。
① 純戦略によるナッシュ均衡点1:(ボクシング, ボクシング)
② 純戦略によるナッシュ均衡点2:(バレエ, バレエ)
③ 混合戦略によるナッシュ均衡点:( (3/5,2/5), (2/5,3/5))

これらのナッシュ均衡点は、男女間のコンフリクトを解決するような解ではない。
即ち、2つの純戦略によるナッシュ均衡点は、パレート最適であるが、
どちらのナッシュ均衡点を選ぶかに関して、男女間のコンフリクトが発生する。
又、混合戦略によるナッシュ均衡点は、パレート最適ではない。

この男女ゲームにおいて、男女間の話し合いにより互いの戦略を決定できるケースを考える。
このコンフリクトの自然な解決法は、
2つの純戦略によるナッシュ均衡点( (ボクシング, ボクシング) or (バレエ, バレエ) )を、
それぞれ確率 1/2 で選択するようにする解決法である。
このような戦略を、2人の相関戦略 [correlated strategy] という。


次に、一般の戦略形ゲームから、どのようにして交渉問題が構築されるのか見てみる。

  • image : 戦略形2人ゲーム
  • image : プレイヤー i の純戦略の集合
  • image : プレイヤー i の利得関数
  • image : 純戦略の組で、プレイヤーの相関純戦略 [correlated pure strategy] という。
  • image 上の同時確率分布 q : プレイヤーの相関混合戦略 [correlated mixed strategy] という。

このプレイヤーの期待利得 image によるベクトル(=期待利得ベクトル)の全体が、
プレイヤーの実現可能集合 U となる。
即ち、
image

男女ゲームの例では、下図の (-1,-1) - (1,2) - (2,1) で結ばれる三角形内部部分(赤線内)が、
相関混合戦略による実現可能集合 U となる。
image

戦略形ゲームから交渉問題を定式化するにあたっての困難さは、
多くのケースで、交渉の不一致点が予め定まらないことに起因する。
より詳細には、この交渉の不一致点が、どのような交渉ルールの元で話し合いが行われるか?
更には、交渉が決裂した場合にどのような行動が可能であるか?に依存することに起因する。

このような問題を解決するための、一般的な導入方法は確立されていない。
そのため、ここでは、交渉の実現可能集合と交渉の不一致点が、予め与えられているケースのみを取り扱う。



◎ ナッシュ交渉解 [Nash bargaining solution]

交渉問題 image において、主に問題となるのは、

  1. (他からの強制なしに)プレイヤー間の自発的な話し合いにより、協力の合意が実現するか?
  2. もし協力が実現するならば、実現可能集合 U の中の、どの利得ベクトルが選択されるのか?

といった問題である。

以下、このような交渉問題での問題を、ゲーム理論のモデルを用いて分析することを考える。


2つ目の問題(もし協力が実現するならば、実現可能集合 U の中の、どの利得ベクトルが選択されるのか?)は、
交渉問題への公理論的アプローチで解決する。
即ち、もし、交渉において合意が実現されるならば、合意点が満たすべきいくつかの性質を公理(仮定)として提示し、
1つの公理系から出発し、演繹(えんえき)的に導出される解の性質を解明するアプローチである。
(=公理論的アプローチ)
この公理系から導出した交渉問題の解は、ナッシュ交渉解 [Nash bargaining solution] と呼ばれる。


1つ目の問題(プレイヤー間の自発的な話し合いにより、協力の合意が実現するか?)は、
交渉問題への非協力アプローチで解決する。
即ち、交渉における合意の可能性自体を分析するために、合意に至る交渉のプロセスを、非協力ゲームとしてモデル化し、
この非協力ゲームの非協力均衡点の帰結として、合意の実現を説明する。(=非協力アプローチ)
そして、この非協力均衡点は、先の公理論的アプローチから導出された交渉解として実現される。


ここでは、まず、公理論的アプローチについて説明する。

image

ナッシュ交渉解の公理系を述べる前に、
ナッシュ交渉解の公理系で重要となる2つの概念(対称性、効用の正1次変換)を定義する。

image

image

これらの準備の元で、ナッシュ交渉解 f が満たすべき4つの公理を挙げていく。

image

この公理1(パレート最適性)は、
合理的プレイヤーによる交渉の合意点として、以下の意味で自然なものとなっている。
即ち、例えば、2つの利得ベクトル imageimage において、
image が成り立つような場合を考えると、
プレイヤー1は、(より利得の高い)利得ベクトル image を好んで選択すると思われる。
プレイヤー2にとっては、image となるので、2つの利得ベクトルに差異はないが、
この利得ベクトル image に反対する理由も存在しない。
従って、プレイヤー1,2は、話し合いにおいて、利得ベクトル image を好んで選択すると思われる。

image

image

この公理3(効用の正1次変換からの独立性)は、
交渉問題 image が、交渉問題 image から正1次変換から得られる時に、
これら2つの交渉問題は、実質的は、同じ状況を記述していることを意味している。
これは、例えば、利得の配分問題で、利得として円とドルどちらを採用しようが、
そのゲーム的状況は本質的は変わらないといったものである。

image

image
image


そして、この4つの公理系から、交渉問題の解(=ナッシュ交渉解)を一意に導出することが出来る。

image

この定理で述べられているところの、
4つの公理から、ナッシュ交渉解が一意に定まるという点を見てみる。

  • 交渉問題 image から、公理3の効用の1次変換
    image
    によって、(交渉不一致点 d をづらすことにより、)交渉問題 image を構成出来る。
    このとき、ナッシュ交渉解 f は、公理3によって、
    image
    と書ける。
    従って、一般性を失うことなく、
    交渉問題 image において、image を仮定してもよい。

  • 最初に、実現可能集合として、
    image
    を考える。
    このとき、交渉問題 image は対称であるので、
    公理1と公理2より、この交渉問題 image の交渉解は、
    image
    でなくてはならない。
    image

  • 次に、実現可能集合として、
    image
    を考える。
    この実現可能集合からなる交渉問題は、効用の1次変換
    image
    によって、
    交渉問題 image を、交渉問題 image に変換することが出来る。
    ここで、image なので、
    image
    image
    image

以上のことより、
交渉領域が直線で表せる場合(上図の赤線部分)において、ナッシュ交渉解は、
原点 0 を通り、この直線に直交するような直線(=各プレイヤーの利得を最大化するような方向)とのただ1つの交点で、
一意に与えられることが分かる。(上図の2つの図の赤丸部分)

次に、一般的な交渉問題 image のナッシュ交渉解が、どのようにして一意に定まるのか見てみる。

image

  • 今、実現可能集合 U は、凸集合なので、
    この集合を含むパレート最適な境界線(赤線部分)を含む多面体 S からなる交渉問題 image を構成出来る。
    (公理4より、交渉問題 image と交渉問題 image は等しい。)
  • 先に見たように、交渉領域が直線(赤線部分)で与えられる交渉問題は、ただ1つのナッシュ交渉解 image をもつ。
  • 交渉問題 image と交渉問題 image は等しいので、
    この S でのナッシュ交渉解 image は、U でのナッシュ交渉解にもなる。
  • 更に、ナッシュ交渉解の定義にあるナッシュ積は、d=0 のとき、image という双曲線になるが、
    これはパレート最適な直線(赤線部分)と点 image で接する。
    (=双曲線の傾きが image となるため)
    これは、点 image が、交渉問題 image の交渉領域上で、2人のプレイヤーのナッシュ積 image を最大化する点であることを意味しており、その意味でも、点 image が、ナッシュ交渉解となることが分かる。


◎ 非協力交渉モデル1(要求ゲーム)

先の議論で、公理論的アプローチによって導出した、ナッシュ交渉解が、
交渉におけるプレイヤーの戦略的な利得最大化の帰結として説明出来る。
ここでは、このナッシュによる非協力交渉モデルを見ていく。

交渉問題 image を考える。
このとき、ナッシュ交渉解の公理3(効用の正1次変換)より、
この問題の一般性を失うことなく d=0 とすることが出来る。

以下では、議論を単純化するために、(交渉問題の定義の条件に加えて)以下の2つの仮定が成り立つものとする。

image

2つ目の仮定の行う前に、以下のような最大利得ベクトル m を定義する。
実現可能集合 U の個人合理性を満たすような利得ベクトルの内、プレイヤー i の最大利得を、以下のように定義する。
image

image

(交渉問題の定義の条件に加えて)この2つの仮定を満たすような、交渉問題 image の例は、以下の図のようになる。

image


これらの仮定を元に、交渉の非協力2人ゲームを定式化する。

  • プレイヤー i の戦略集合 image は、非負な実数全体 image となる。
  • プレイヤー i の利得関数は、
    image
    で定義され、
    このときの、プレイヤー i の戦略 image を、プレイヤー i の利得の要求額という。
  • ゲームは以下のようにプレイ(ナッシュの要求ゲーム)される。
    1. 2人のプレイヤーが、同時に利得の要求額 x_i を提示する。
    2. もし、要求の組 image が実現可能であれば、プレイヤーはそれぞれ要求した利得を得る。
    3. もし、要求の組 image が実現可能でないならば、交渉は決裂し、各々の利得は 0 になってしまう。

このように、交渉領域と要求ゲームにおけるナッシュ均衡点が同じになるので、
わざわざ、要求ゲームのモデルを用いて、交渉問題を解析することは、あまり意味のないことのように思える。

しかしながら、要求ゲームの利得関数 image を微分可能となるように微小に変化させれば、(=変動関数)
ナッシュ交渉解が、要求ゲームの唯一のナッシュ均衡点として生じることが示されている。(後述)
このアプローチを、微分近似アプローチという。


次に、この近似アプローチについて見ていく。

ナッシュの要求ゲームの利得関数 image は、その定義
image
から分かるように、実現可能集合 U の境界で不連続である。(=微分不可能)
従って、微分可能になるように、微分可能な関数で近似することを考える。

  • image : プレイヤーの要求の組 image が実現可能である確率
    この確率 image は、以下の条件を満たす。
    • image から区間 [0, 1] への微分可能な関数で、
      実現可能集合 U 上で image となる。

要求の組 image に対して、プレイヤー i の期待利得は、
image
で与えられる。(値とその確率分布の積)

要求ゲームの元の利得関数 image では、
プレイヤーの要求の組 image が実現可能集合 U の外に僅かでも外れれば、合意は成立せず、
結果、プレイヤーの利得は 0 になってしまう。

一方、変動ゲーム image では、このような場合(=実現可能集合外部に外れる)でも、
正の確率で、合意が成立する可能性が存在する。

この変動ゲームは、プレイヤーが互いの効用関数について少しだけ不確実である場合や、
交渉の物理的条件・制度的条件に、僅かな不確実さが存在するような状況を記述している。
これにより、例えば、100 万円の分配交渉で分配総額が 101 万円になってしまう可能性などが発生する。

image

image

記載中...



◎ 非協力交渉モデル2(提案応答ゲーム)

現実の多くの交渉では、合意が実現するまで、提案と応答が繰り返されることが多い。
このような挙動をモデルに取り込んだのが、ルービンシュタインによる非協力交渉モデルである。
このモデルでは、プレイヤーの時間選好 [time preference] が合意の実現に、重要な役割を果たす。

以下、その詳細を見ていく。

  • 今、2人のプレイヤー1,2が、一定の金額 M の配分について交渉するケースを考える。
    (議論の簡単のため、M=1 とおく。)
  • 交渉の実現可能な分配の集合を、
    image
    とする。( image は、プレイヤー i の分配額)
  • 分配に関して合意がなされなければ、各々の分配額は 0 となる。

そして、以下のようなルールでゲームプレイされる。

  1. ラウンド1
    まず始めに、プレイヤー1が分配 image を提案する。
    次に、プレイヤー2が提案 image を受け入れるか否か決定する。
    もしプレイヤー2が提案を受け入れると、ゲームは終了し、提案 image が合意される。
    もしプレイヤー2が提案を拒否すると、ゲームは次のラウンドに進むことになる。

  2. ラウンド2
    プレイヤー2が、分配 image を提案する。
    プレイヤー1が、その提案を受け入れるか否か決定する。
    もしプレイヤー1が提案を受け入れると、ゲームは終了し、提案 image が合意される。
    もしプレイヤー1が提案を拒否すると、ゲームは次のラウンドに進むことになる。
    以降、同様のルールが適用されていく。

  3. 交渉では、合意が実現するまで、プレイヤー1,2が提案を繰り返す。
    奇数ラウンドでは、プレイヤー1が提案し、偶数ラウンドでは、プレイヤー2が提案する。

このゲームは、提案応答ゲームと呼ばれ、ゲームの木が無限の長さをもつ完全情報ゲームとして定式化される。

image

以下、この提案応答ゲーム Γ を定式化する。

  • この提案応答ゲーム Γ の起こりうる結果の全体は、image と書ける。
    (d : 合意が実現しないという結果、T : 自然数)

  • そして、プレイヤー i は、ゲームの結果に対して、以下のような効用関数 image をもつとする。
    image

  • また、この提案応答ゲーム Γ における、プレイヤーの純戦略は、以下のように定義出来る。

    • プレイヤー1の戦略 image は、関数列 image で、

      1. ラウンド t が奇数の場合、image
        image は、実現可能集合 X の (t-1) 個の直積集合で、ラウンド t 以前に拒否された提案の全体である。
        これは、また、提案応答ゲームのルールより、ラウンド t 以前のゲームプレイの履歴の集合となる。
      2. ラウンド t が偶数の場合、image
    • プレイヤー2の戦略 image は、関数列 image で、

      1. ラウンド t が奇数の場合、image
      2. ラウンド t が偶数の場合、image
  • そして、このプレイヤーの戦略の組 image に対して、ゲームの結果(=分配)image が一意に定まる。
    このとき、戦略の組 image に対するプレイヤー i の利得は、
    image
    で定義出来る。

この提案応答ゲームに対して、以下のナッシュ均衡点に関する定理が成り立つ。

image

この定理は、全てのパレート最適な利得ベクトルが、
提案応答ゲームにおけるナッシュ均衡点として実現されることを示している。

これは、前述の要求ゲームにおけるナッシュ均衡点の結論と同じであるが、
要求ゲームとは異なり、提案応答ゲームでは、部分ゲーム完全均衡点が一意に存在し、
更に、将来利得に対する割引因子 δ が1に近づくにつれて、ナッシュ均衡点の利得ベクトルは、ナッシュ交渉解に収束する。

image

この提案応答ゲームにおける部分ゲーム完全均衡点では、
最初のラウンドで合意が実現し、その際の利得分配は、(この定理の条件1にあるように)
image
image
によって特徴づけられる。

つまり、提案者は応答者に対し、
次のラウンド以降の交渉で得られる割引利得( image )と等しい利得を提案する。
(即ち、定理の条件1の関係式:image
これは、言い換えると、
利得配分は、応答者にとって、受諾と拒否が無差別になるレベルで合意されることを意味している。

特に、2人のプレイヤーが同じ割引因子をもつとき、(image
利得配分の式は、
image
image
となる。

image

ここで、プレイヤー1の提案 image とプレイヤー2の提案 image は、
同じナッシュ積 image をもち、
利得配分は、提案者側に有利になる。(上図参照)

そして、プレイヤー1と2の割引因子 δ が限りなく1に近い時、
2人の提案 image は、ナッシュ交渉解 image に近づく。



■ 進化ゲーム [evolutionary game]

これまで見てきたゲームのモデルは、
プレイヤーが完全に合理的な意思決定主体であることを前提としてモデルを構築してきた。
これは、本来不合理さを持ち合わせるはずである意思決定主体を、完全に合理的であると仮定することによって、
モデルの構築を単純化出来るが故であるとも言える。

しかしながら、このようなモデルでは、現実の行動をうまく説明出来ないようなケースも多々存在する。
(チェーンストアパラドックス、有限回繰り返し囚人のジレンマ等)
そこで、理想的な完全な合理性を前提としない、限定合理性 [bounded rationally] の元で、
モデルを構築することが考えられる。

このような限定合理性によるアプローチの枠組みとして、
行動の動的(ダイナミック)なプロセスを解析するアプローチ(進化ゲーム)がある。


この進化ゲームの考えは、元々、生物学での生物進化、生物社会ゲームの考えに由来する。
この生物進化、生物社会ゲームの基本的な考えは、以下のようなものである。

  • ある単一の種から構成される大規模集団(母集団)を考える。
  • この生物社会ゲームにおけるプレイヤーに相当する個体は、様々な行動様式や形態を表現する表現型によってモデル化される。
    例えば、ある種のオスは、互いにの縄張り争いにおいて、
    相手が傷つくまで争う(タカ戦略)、或いは、儀式的な威嚇によって決着を図ろうとする(ハト戦略)
    の2つの異なる行動様式を取りうる。
  • そして、遺伝により、親から子へ行動様式が継承される。
  • このような集団内で、ランダムに選択された2つの行動様式が対戦する。
    この対戦における勝者は、(縄張りの支配等の理由により、)より多くの子孫を残すことが出来る。
  • このとき、次世代に残せる子の係数の期待値としての、個体の適応度なるものを定義出来る。
  • 多数の生物個体がランダムに相互作用を繰り返す系において、
    適応度の高い個体(及びその子孫)の数が増加し、
    逆に、適応度の低い個体(及びその子孫)の数が減少すると考えられる。(=自然選択、自然淘汰)
  • このような自然淘汰の効果により、集団を構成する各表現型をもつ個体の割合は、時間とおもに動的に変化する。
    その際、長期的な時間経過で、どのような個体の割合の分布が、定常状態となるかを解析することが、
    このダイナミクスの性質を知る上で、重要となる。
  • より詳細には、全ての個体が同じ行動を選択しており、定常状態にある系において、
    外部から、突然変異によって生じた、異なる行動をもつ個体が侵入してきた時に、
    集団内での個体の分布がどのように変化するか?
    とりわけ、侵入してきた異種個体が集団内で増加し続けるか否か?という問題が重要となる。
  • このような観点から、定常状態にある系において、
    集団に僅かな比率で突然変異が生じても、それが増加せず元の定常状態が維持される時、
    この定常状態は、”進化的に安定 [evolutionarily stable]” であるという。

この生物学における生物進化の考えを、ゲーム理論に適用することを考える。
この際、以下のようなポイントが重要となる。

  • 生物進化における個体は、合理的に選択を行う意思決定主体ではないものの、
    適応度の低い個体は、自然淘汰により淘汰されるため、
    形式的に、親から遺伝される行動様式(=表現型)をゲームのプレイヤーとみなし、
    合理的選択(=利得最大化)を自然淘汰に置き換えることにより、
    ゲーム理論における戦略形2人ゲームのモデルが、生物進化ゲームにも適用可能となる。(=進化ゲーム)

  • このような進化ゲームにおいて、ナッシュ均衡点の概念より強い均衡点の概念となる、
    突然変異が侵入出来ない進化的に安定した状態を表す、”進化的に安定な戦略 [ESS : evolutionarity stable strategy]”
    を定義出来る。(後述)

  • 又、この進化ゲームの観点から、意思決定主体の合理的行動を規定する概念であるナッシュ均衡点を、
    合理性の前提を必要としない、集団均衡 [population equilibrium] として再解釈でき、
    更に、その動学的基礎を与えるモデルが与えられる。

    • この集団均衡の概念は、より詳細には、以下のようになる。
      生物進化と同様に、大規模集団内でランダムに遭遇したプレイヤーによってゲームがプレイされ、
      長期間同じゲームが繰り返されるようなゲーム的状況を想定する。
      又、各プレイヤーはゲームのルールに関して、完全な共有知識をもつことを前提としない。
      (=必ずしも完全な共有知識をもつとは限らない)
      そして、集団の中で、より大きな利得を得た戦略の比率が増加するような戦略の選択の力が作用しているものとする。
      このような集団内での安定状態では、集団内で正の割合で存在する戦略の利得は等しくなるはずであり、
      更に、これらの戦略より成功的(高い利得の)他の戦略は存在しないと考えられる。
      (定常状態なので、ある一定の安定した状態となっていると考えられるため)
      この性質は、まさにナッシュ均衡点の性質である。


◎ 進化的に安定な戦略 [ESS : evolutionaly stable strategy]

先の生物進化ゲームの進化ゲームへの適用で見たように、進化ゲームの基本的なモデルは、戦略形2人対称ゲームとなる。
(対称ゲームである理由は、進化ゲームでは大規模母集団からランダムに選ばれたプレイヤーを想定するが、
これらのプレイヤーが同じ母集団から選ばれたプレイヤーであり、それらの相互作用を考えるためである。)

  • image : 戦略形2人ゲーム

    • この戦略形2人ゲームが対称である(対称ゲーム)とは、
      image であり、全ての image に対して、
      image
      が成り立つときのことを言う。
  • image : プレイヤー i(=1,2) の純戦略の集合 {1,2,...,n}

  • image : プレイヤー i の利得関数で、image 上の実数値関数。
    対称ゲームでは、利得の対称性が故に、プレイヤー番号は意味を持たなくなるので、
    インデックス i を除外した image で表記する。

  • image : プレイヤーの混合戦略。
    このプレイヤーの混合戦略 p は、純戦略の集合 S 上の確率分布であり、
    image
    又、プレイヤー全体の混合戦略 p の集合を image( n−1 の意味?)とする。

    ここで、進化ゲームにおける混合戦略は、以下の2つの解釈が可能となる。

    1. 1つ目の解釈は、これまでと同様にして、
      混合戦略を、純戦略(の組み合わせ)を確率的に選択する「1つの確率的な戦略」としてみなす。
      この場合、母集団は単一の戦略から構成されるとみなせ、これを単型 [monomorphic] 集団という。

    2. 2つ目の解釈は、1つの混合戦略は、母集団内で各純戦略 i (=1,2,...,n) を採用するプレイヤーが、
      割合(確率分布)imageで分布している状態を表しているとみなす。
      この場合、母集団は複数の戦略から構成され、これを多型 [polymorphic] 集団という。

  • image : 2つの混合戦略 p と q が対戦したときの、混合戦略 p の期待利得。
    これは、任意の imageimage に対して、
    image
    と書ける。


混合戦略 p のみからなる単型集団を考える。
今、混合戦略 p とは異なる混合戦略 q が、集団内に僅かな割合で侵入した結果、
集団内における混合戦略 p, q の比が、1−ε :ε ( ε はゼロに十分近い正の値)になったとする。

集団内で2人の戦略がランダムに出会って対戦する時、
戦略 p は、確率 1−ε で同じ戦略 p と対戦することになり、確率 ε で戦略 q と対戦することになる。
従って、戦略 p の期待利得 F(p,q) は、image で記述でき、
戦略 q の期待利得 F(q,p) は、image で記述できる。
そして、(戦略 p の期待利得)≧(戦略 q の期待利得)の関係が成り立つならば、
戦略 p のほうが、戦略 q よりも集団に適応しており、侵入した戦略 q の割合が、集団内で増加することはない挙動となる。
この意味で、混合戦略 p からなる集団は、(異なる戦略の侵入に対して、)安定な集団である。

以上の概念を、進化的に安定な戦略(ESS)として、以下のように定義する。
image

この進化的に安定な戦略(ESS)に対して、以下の定理が成り立つ。
image

以下、この進化的に安定な戦略(ESS)を、進化生物学での基本的なゲームを例に、実際に解いてみる。

(例)タカ-ハトゲーム [Hawk-Dove game]
image

  • 同じ集団からランダムに選ばれた2つの生物個体が、縄張りや餌などをめぐり対立するゲーム的状況を考える。
  • 2つの生物個体が、選択可能な純戦略は、タカ戦略(H)とハト戦略(D)である。
  • タカ戦略(H)は攻撃的な戦略であり、(この問題においては)相手が負傷するまで戦うような戦略である。
  • 一方、ハト戦略(D)は穏健な戦略であり、(この問題においては)双方が負傷するまでは戦わないような戦略である。
  • それぞれの生物個体が勝つ確率はランダムな 1/2 である。
  • 勝者は、資源の価値 V を独占することが出来る。
  • 敗者は、負傷し、負傷コスト C を支払うことになる。

このようなタカハトゲームにおいて、進化的に安定な戦略(ESS)を探す。

  1. image のとき、タカ戦略 H は ESS であることを示す。
    image のとき、タカ戦略(H)がハト戦略(D)を弱く支配する。
    従って、任意の image に対して、
    image

    ESS の定義より、タカ戦略(H)は ESS であると言える。

  2. image のとき、
    確率 image でタカ戦略(H)をとり、確率 image でハト戦略(D)をとる混合戦略は、ESS であることを示す。

    定理(ESSと進化の均衡条件、進化の安定条件)より、ESS はナッシュ均衡点でもある。
    純戦略の組 (H,H) と (D,D) は、その利得行列よりナッシュ均衡点ではないので、
    ある混合戦略 p がナッシュ均衡点となり、又、ESS でもあることになる。
    今、この混合戦略 p を、
    image
    とすると、( image : タカ戦略が選択される確率)
    混合戦略のナッシュ均衡点の性質より、

    この image は、V<C の関係より、image となる。
    従って、混合戦略 image は存在し、ESS である。


ESS と各均衡点の関係性に関する定理は、以下のようになる。
image

ESS の存在性に関する定理は、以下のようになる。
image

先のタカハトゲームでは、ESS は存在したが、
戦略形2人対称ゲーム(進化ゲーム)において、ESS は必ずしも存在するとは限らない。
そのことを以下の例で示す。

(例)じゃんけんゲーム
image

このゲームは、ただ1つのナッシュ均衡点 image を持つ。
この image と任意の ε に対して、
image
つまり、ESS であるための条件 image が成り立たないので、
このゲームの ESS は存在しない。



◎ レプリケータ動学(レプリケーター・ダイナミクス)

先の ESS の概念は、母集団が単一の混合戦略から構成される単型集団から導入した。
次に、各純戦略を採用するプレイヤーが、ある確率分布に従って分布しているような状態、
即ち、母集団が複数の戦略から構成される多型集団から考える。

今、各プレイヤーが、それぞれ1つの純戦略を採用している大規模集団(母集団)があったとする。

  • image : 集団内の純戦略 i の割合(確率)

  • image : 純戦略の確率分布
    imageimage

  • image : 純戦略の分布の集合(確率の条件より、自由度は - 1 され、n-1 )

  • image : 純戦略 i を採用するプレイヤーと、純戦略 j を採用するプレイヤーが対戦する時の利得。
    A は成分 image からなる n×n の利得行列
    image

このときの、純戦略 i を採用するプレイヤーの期待利得は、
image

又、この集団での平均利得は、
image

プレイヤーの利得(適応度)は、(生物学からの観点に従うと)親の個体が次世代に残せる子の期待値とみなせる。
すると、次世代で純戦略 i を採用するプレイヤーの個体数は、
image

又、次世代での総個体数は、
image

従って、次世代において純戦略 i を採用するプレイヤーの割合 image は、
image
となる。

よって、(集団が親世代から子世代に推移するときの)割合の変化は、
image
であり、時間を連続的にして、上式の差分方程式を微分方程式に書き換えると、
image

ここで、この微分方程式の動学的な性質は、分母の項を除外した式
image

と変わらないので、この分母項を除外した式が、進化ゲームの基本的なモデルとして提案されている。

これらの議論をまとめると、以下のような定義となる。
image


☆ レプリケーターダイナミクスの解の性質

レプリケーターダイナミクスの解 x(t) の性質として、まず初めに、
「ある世代で存在した純戦略は、将来に世代で完全に消滅することはない。
(但し、時間の経過と共に、その割合が限りなく0に近づくことはありうる。)」
ことを示す。
image

次に、戦略形ゲーム2人対称ゲームにおけるナッシュ均衡点、ESS と、
レプリケーター動学の定常状態(平衡点)の関係性に関する基本的な定理を見ていく。
image
image

又、全ての純戦略 i に対して、
戦略分布 image は、レプリケーター動学の平衡点でもある。
そして、集団の全てのプレイヤーが同じ純戦略を選択するとき、異なる戦略の侵入がない限り、戦略分布は変化しない。


レプリケーター動学の平衡点(定常状態)は、
戦略形ゲーム2人対称ゲームにおけるナッシュ均衡点より弱く均衡点の概念となるが、
以下の定理は、漸近安定な平衡点(平衡点が安定かつ t→∞で0に近づくような平衡点)は、
ナッシュ均衡点より強い概念であることを示す。
image

レプリケーターダイナミクスにおける漸近安定な平衡点では、
集団に外部から新しいプレイヤーが侵入し、集団の戦略分布が平衡点から僅かに変化しても、
時間が経過すれば(t → ∞)、定常状態が復元される。
上記定理は、このような漸近安定な平衡点が、ナッシュ均衡点であることを示している。


更に、次の定理は、ESS のほうが漸近安定な平衡点よりも強い概念(より広義の概念)であることを示している。
image


☆ レプリケーター・ダイナミクスの例

タカ - ハトゲームのレプリケーター・ダイナミクス

image

先にも見たように、image のとき、
確率 image でタカ戦略(H)をとり、確率 image でハト戦略(D)をとる混合戦略は、ESS である。

今、集団内でタカ戦略(H)をとるプレイヤーの割合を image とし、
その戦略分布を image とすると、
このゲームのレプリケーター・ダイナミクスは、以下の微分方程式で記述される。
image
image
image

従って、このレプリケーター・ダイナミクスは、
3つの平衡点 image を持つことが分かる。
ここで、image のときは、image であり、image のときは、image なので、
3つの平衡点の内、image のみが漸近安定な平衡点である。

image


じゃんけんゲームのレプリケーター・ダイナミクス

image

先に見たように、このゲームの唯一のナッシュ均衡点は、image であり、ESS は存在しない。

集団の戦略分布を image とすると、
レプリケーター・ダイナミクスの微分方程式
image
の各項は、
image
image
image
image

よって、このゲームのレプリケーター・ダイナミクスは、以下の微分方程式になる。
image

image 上の関数 image を定義すると、
この関数 image は、ナッシュ均衡点 image で最大値をとり、
レプリケーター・ダイナミクスの解曲線 image 上で、
image

よって、レプリケーター・ダイナミクスの image 内の解曲線 image 上で、
この関数 image は一定値をとり、解曲線 imageimage の等高線は一致する。(下図)
image
image


共通利害ゲームのレプリケーター・ダイナミクス(協力の進化)

ナッシュ均衡点は、必ずしもパレート最適ではないが、
パレート最適なナッシュ均衡点と、パレート最適でないナッシュ均衡点が複数個存在するようなゲームでは、
そのどちらのナッシュ均衡点が、進化的に安定な戦略(ESS)になるだろうか?という疑問が残る。
この疑問に対する1つの知見を導くために、以下のようなゲームを考える。

image

上表のような利得関係を持つゲームを考える。
このゲームでは、2人のプレイヤーは常に同じ利得を得るので、共通利害ゲーム [game of common interest] という。

このゲームに対し、外部からの侵入者が互いに協力する(=秘密の握手 [secret handshake] )というプレイヤー戦略(m)を集団に織り込んで拡張する。
具体的には、侵入者たちがお互いにしか認識できないようなシグナルをやり取りし、シグナルを出すプレイヤーと対戦するときは、相手が同じ侵入者であると認識し、互いに有利なように協力(c)の戦略を取るが、そうでないときは、非協力(nc)の戦略を取る。
このとき、利得関係は以下の表のようになる。
image

元の共通利害ゲームでは、 純戦略からなるナッシュ均衡点 (c,c) , (nc,nc) の2つが存在し、そのどちらも ESS である。
又、混合戦略からなるナッシュ均衡点は、ESS である。

これに対し、秘密の握手を侵入者を織り込んだゲームでは、
純戦略からなるナッシュ均衡点 (c,c) , (m,m) の2つのナッシュ均衡点が存在し、そのどちらも ESS となるが、
元の共通利害ゲームで、ESS であった (nc,nc) の戦略は、もはや ESS ではなくなる。
( (nc,nc) 戦略は、(m,m) 戦略により支配されるため)

この秘密の握手を織り込んだゲームでの(侵入者の協力の)進化のダイナミクスを調べるために、レプリケーター・ダイナミクスを適用する。
各々の戦略(nc, c, m)の集団内での比率を image とすると、
image
image
image
image
の関係が成り立つので、レプリケーター・ダイナミクスの微分方程式 image は、
image

ここで、image の関係より、戦略 c と戦略 m の割合の変化は、
image
image

image の位相図を書くと、以下の図のようになる。
image

この位相図から分かるように、平衡点状態にない戦略は、初期状態から、ESS である (c,c) , (m,m) のどちらかに収束する。
特に、パレート最適でないナッシュ均衡点 (nc, nc) 及び、その近傍の全ての初期状態は、ESS である (m,m) に収束する。

即ち、パレート最適でないナッシュ均衡点で均衡している集団は、
秘密の握手を戦略とする侵入者によって、乗っ取られる。



◎ 社会進化の動学ゲーム

先のレプリケーター・ダイナミクスは、
親から子世代へ行動様式(戦略)などの表現型が、遺伝メカニズムにより継承され、
適応度の高い親個体ほど、より多くの子孫を残せるという、自然淘汰、生物進化のプロセスをモデル化するものであった。
これに対して、社会現象の行動継承のダイナミクスは、より多様で広範囲に複雑である。
ここでは、社会進化の基本モデルを見ていく。

社会システムにおけるある1つの集団について考える。
ここでの集団は、同じ属性をもつ多数のプレイヤー(男性、女性、組織等)から構成されるものとする。
又、集団の各プレイヤーは、n 個の純戦略 image の内、1つを採用しているものとする。

  • image : 集団内の純戦略 i の割合(確率)

  • image : 純戦略の確率分布
    image

  • image : 純戦略の分布の集合(確率の条件より、自由度は - 1 され、n-1 )
    image

  • image : 集団の戦略分布(確率分布)が x であるときに、純戦略 image を採用するプレイヤーの利得。
    A は成分 image からなる n×n の利得行列
    image

ここで、集団の戦略分布 image と利得 image の組み合わせ image集団ゲームという。

この集団ゲームにおけるプレイヤーは、集団内でランダムで他のプレイヤーと対戦するものとする。
このときの、純戦略 image を採用するプレイヤーの期待利得は、
image

又、集団内での平均利得は、
image

集団ゲームにおいても、(戦略形ゲームと同様にして)ナッシュ均衡点を以下のように導入することが出来る。
image

この集団ゲームにおけるナッシュ均衡点に関して、以下の性質が成り立つ。
image


本題の社会進化の動学ゲームは、以下のように定義できる。
image

image

利得単調な動学ゲームでは、より高い利得を得る純戦略の割合が、より高い成長率( image )で増加する。
以下、このことを例を使って見ていく。

(例)技術標準の選択ゲーム
image

技術 A のシェアを image とし、技術 B のシェアを image とし、 image とおく。

このとき、技術 A の製品を購入する消費者の利得は、image
技術 B の製品を購入する消費者の利得は、image
すると、この動学ゲームでは、
image
image
が成り立ち、利得単調的であることが分かる。

image

image の範囲では、技術 B の製品を購入する消費者の利得のほうが大きいので、
技術 B の製品シェアが増加し、image の値に収束し、技術 B が標準技術となる。
逆に、image の範囲では、技術 A の製品を購入する消費者の利得のほうが大きいので、
技術 A の製品シェアが増加し、image の値に収束し、技術 A が標準技術となる。

このように、このゲームにおいては、どの技術が(業界等の)標準となるかは、技術的な優劣だけではなく、
新しい技術が導入された初期状態での技術の普及の程度に大きく依存する。
(このような現象を、社会進化の歴史経路依存性という。)


☆ 社会進化の動学ゲームの解の性質

次に、利得単調な動学ゲームにおける平衡点に関しての性質ついてみてみる。
image
(証明略)

社会進化の動学ゲームにおける漸近安定な平衡点とナッシュ均衡点についての関係性を見てみる。
image
(証明略)

image
(証明略)



参考文献


以下、同様の文献(はてなブログ形式)

[]