nash_prisoner.tex

\section{Nash equilibrium and prisoner’s dilemma ナッシュ均衡と囚人のジレンマ}

ゼロサムではない2×2のゲームと、ナッシュ均衡の伝統的なゲーム理論の概念を見て、それを量子ゲームに拡張したいと思います。 アリスとボブの両方がゲームから利益を得る可能性がありますが、得られる最大値と同様に利益を得る場合とそうでない場合があります。 両方とも効用、または混合戦略または不確実な結果を伴う期待効用を最大化しようとし、効用には基数を割り当てることができると想定しています（参考文献23）。

非ゼロサムゲームは、伝統的に静的な形式で提示されます。 動きに対応するペイオフのマトリックスが与えられ、プレーヤーがどのようにしてそのポイントに到達したかを説明せずに、平衡の概念が提示されます。 しかし、彼らがそこに着くと、彼らはとどまることが期待されます。 それは、彼らが対応する動きをする方が良いことを示す支配戦略を持っているからです。

$s^i_A \in S_A$をアリスが利用できる移動（必要に応じて単純な移動の凸結合を含む）とし、$s_B^j \in S_B$をボブが利用できる移動とします。
次に、アリスの支配戦略は、アリスへのペイオフ$\pi_A$がプロパティを持つように$s_A$を移動することです。

\begin{equation}
\label{116}
\pi_A (s_a, s^j_B ) 
\ge
\pi_A (s^i_a, s^j_B ) 
\end{equation}

すべての$s^i_A \in S_A$、$s_B^j \in S_B$について、そのような動きが存在する場合。 例として、表VIについて考えてみます。 アリスとボブにはそれぞれ、$C$（協力）または$D$（欠陥）というラベルの付いた2つの可能な動きがあります。 括弧内の値はペイオフ$\pi$を表します。 最初の数字はアリスへの見返りであり、2番目の数字はボブへの見返りです。 明らかにアリスsA = Dの場合、ボブが$C$をプレイする場合、$\pi_A (D,C) = 5 > 3$であるのに対し、ボブがプレイする場合、$D, \pi_A(D,D) = 1 > 0$ となります。

\begin{table}[htb]
\caption{囚人のジレンマ}
\centering
\begin{tabular}{|r|r|r|} \hline
 & Bob C & Bob D \\ \hline
Alice C & $(3,3)$ & $(0,5)$ \\
Alice D & $(5,0)$ & $(1,1)$ \\ \hline
\end{tabular}
\end{table} 
% 表VI：囚人のジレンマ \
同様の理由で、$s_B = D$でもあるため、ゲームは$\{ s_A,s_B \} =  \{ D, D \}$および$ \{ \pi(s_A),\pi(s_B) \} =  \{ 1,1 \}$と平衡状態になります。
この結果は囚人のジレンマと呼ばれます。なぜなら、ボブとアリスの両方が$C$をプレイした方が明らかに良いため、$\pi_A = \pi_B = 3$になるからです。

ナッシュ均衡は、移動$\{ s_A, s_B \}$の組み合わせであり、どちらの当事者も、与えられた均衡点から一方的に逸脱することによって、ペイオフを増やすことはできません。

\begin{equation}
\label{117}
\pi_A (s_a, s_B ) 
\ge
\pi_A (s^i_a, s_B ) 
\end{equation}

\begin{equation}
\label{118}
\pi_B (s_a, s_B ) 
\ge
\pi_B (s_a, s^j_B ) 
\end{equation}

表6の$\{D,D \}$では、ペイオフ$\{1,1 \}$を生み出すことはナッシュ均衡です。アリスが$C$に切り替えると、彼女のペイオフは$1$から$0$になり、ボブも同様です。

ペイオフポイント$\{ \pi_A, \pi_B \}$は、$\pi_A^* \ge \pi_A$および$\pi_B^* \ge \pi_B$であり、不等式の1つが厳密である場合、別のポイント$ \{ \pi_A^*, \pi_B^* \}$によって共同で支配されます。
表6では、ポイント$\{ 1,1 \}$は$\{ 3,3 \}$によって支配されています。
ペイオフのペア$ \{ \pi_A, \pi_B \}$は、他のポイントが共同で支配しておらず、どちらの当事者も相手へのペイオフを減らさずに自分のペイオフを増やすことができない場合、パレート最適です。
表6では、ポイント$\{ 3,3 \}$はパレート最適です。これは、アリスまたはボブのいずれかによる一方的な離脱により、相手方へのペイオフが減少するためです。 $\{ 1,1 \}$はどうですか？ ここでも、どちらの当事者も、相手方へのペイオフを減らさずにペイオフを増やすことはできません（実際、どちらも一方的にペイオフを増やすことはできません）。 ただし、$ \{ 1,1 \}$は$ \{ 3,3 \}$によって共同で支配されているため、パレート最適ではありません。

進化的に安定な戦略（ESS）は、ナッシュ均衡よりも制限的な概念です。 （つまり、進化的に安定している戦略は、ナッシュ均衡のサブセットを形成します。）十分に小さい$\eta$ に対して$s_i$が$s_i + (1 − \eta ) s_j$に対して$s_j$よりも優れている場合、戦略$s_i$は$s_j$に対して進化的に安定しています。 概念は、$s_j$を再生するミュータントによって侵入される$s_i$を再生する集団の概念です。 ESSは、他のすべての戦略に対して進化的に安定している戦略として定義されます。 ESSは$\eta$が十分に小さい場合、たとえば$\eta \in [0, \eta_0)$であることに注意してください。 値$\eta_0$はinvasion barrier(侵入バリア)と呼ばれます。 $\eta > \eta_0$の値の場合、$s_i$は組み合わせに対して$s_j$よりもパフォーマンスが優れていないため、母集団のメンバーは$s_j$に切り替わります。 後で検討する進化的に安定した戦略ゲームで、この概念に戻ります。