### シンプレックス法とPIは固定された割引率のMDPに関して強多項式アルゴリズムである


#### 準備(無限割引MDP)
* 状態：$i$ 
* 行動：$j$
* コスト関数：$c^{j}\left(i, i^{\prime}\right)$ 
* 状態遷移関数：$p^{j}\left(i, i^{\prime}\right)$ 
* 状態総数：$m$
* 割引率：$\gamma$
* MDPの状態遷移はマルコフ的である

* 最適方策の集合関数： $\pi=\left\{\pi_{1}, \pi_{2}, \cdots, \pi_{m}\right\}$ 
* コスト関数の累積関数：$\sum_{t=0}^{\infty} \gamma^{t} C(\pi, t)$

* MDPの目標：各状態$i$におけるコスト関数の累積関数を最小化する最適定常方策$\pi_{i}^*$を求めること

##### 行動集合について

状態 $i \in\{1, \cdots, m\}$ で利用可能な行動の数を $k_{i}$ とし、

$$
\mathcal{A}_{1}=\left\{1,2, \cdots, k_{1}\right\}, \quad \mathcal{A}_{2}=\left\{k_{1}+1, k_{1}+2, \cdots, k_{1}+k_{2}\right\}, \ldots
$$

例えば$A_1={1,2},A_2={3,4,5}$のような形で行動集合を定義します。

一般化させると、$i=1,2, \cdots, m$ の場合、

$$
\mathcal{A}_{i}:=\sum_{s=1}^{i-1} k_{s}+\left\{1,2, \cdots, k_{i}\right\}
$$

となります。

* 各$i$での行動集合の大きさ：$\left|\mathcal{A}_{i}\right|=k_{i}$ 
* 行動の総数は $n=\sum_{i=1}^{m} k_{i}$ 


#### 最適方策と最適状態価値関数

$i$における最適方策：\pi_{i}^{*}
$i$から最適方策に従った場合のcost to go関数(最適状態価値関数)：v_{i}^{*}
  * cost to go：現在からゴールまでにかかる総コスト

$$
\begin{align*}
\pi_{i}^{*}: & =\arg \min _{j \in \mathcal{A}_{i}}\left\{\sum_{i^{\prime}} p^{j}\left(i, i^{\prime}\right)\left(c^{j}\left(i, i^{\prime}\right)+\gamma v_{i^{\prime}}^{*}\right)\right\} \\
v_{i}^{*} & =\sum_{i^{\prime}} p^{\pi_{i}^{*}}\left(i, i^{\prime}\right)\left(c^{\pi_{i}^{*}}\left(i, i^{\prime}\right)+\gamma v_{i^{\prime}}^{*}\right), \forall i=1, \cdots, m . \tag{1}
\end{align*}
$$
* 上式は、現在の状態からゴールまでに得られるコスト$\left(c^{j}\left(i, i^{\prime}\right)+\gamma v_{i^{\prime}}^{*}\right)$をすべての可能な次状態に関して足したもののうち、最もそれが低くなるような行動$j \ in A_i$を選びます。
* 下式は最適方策に依って決定された行動について、その状態から得られるcost to goの値を再帰的に計算しています。

##### 状態価値関数のベクトル化
上式を展開し、新たに行列形式の関数を定義することで、最下式を得ることができる。
$$
\begin{aligned}
& v_i^*=\sum_{i^{\prime}} \gamma P^{\pi_{i}^*}\left(i, i^{\prime}\right) v_{i^{\prime}}^*+\sum_{i^{\prime}} \gamma P^{\pi_{i}^*}\left(i, i^{\prime}\right) C^{\pi_{i}^*}(i,i')\\
& \mathbb{v}^* \in \mathbb{R}^m, \mathbf{c}_\pi \in \mathbb{R}^m, P_\pi \in \mathbb{R}^{m \times m} とすると\\
& \mathbb{v}^*=\gamma P_\pi^{T} \mathbb{v}^*+\mathbf{c}_{\pi^*} \\
& \left(I-\gamma P_\pi^{T}\right) \mathbb{v}^*=\mathbf{c}_{\pi^*}
\end{aligned}
$$

* $P_{\pi}$ の $i$ 番目の列は確率分布 $p^{\pi_{i}}\left(i, i^{\prime}\right)$です。
*  $\mathbf{c}_{\pi} \in \mathbf{R}^{m}$ の $i$ 番目のエントリは、状態 $i$ のコスト $\sum_{i^{\prime}} p^{\pi_{i}}\left(i, i^{\prime}\right) c^{\pi_{i}}\left(i, i^{\prime}\right)$ に等しいです。



#### 線型計画法(LP)における無限割引MDPの定式化

* ランク $m$ の実数行列：$A \in \mathbf{R}^{m \times n}$ ランク $m$ の実数行列
* 実数ベクトル：$\mathbf{c} \in \mathbf{R}^{n}$, $\mathbf{b} \in \mathbf{R}^{m}$ 
* すべての要素が0のベクトル：$\mathbf{0}$ 
* 未知の主変数と双対変数：$\mathbf{x} \in \mathbf{R}^{n}$ , $\left(\mathbf{y} \in \mathbf{R}^{m}, \mathbf{s} \in \mathbf{R}^{n}\right)$ 
* $\mathbf{s}$：標準形式のLPにするための変数(双対スラックベクトル)
$$
\begin{align*}
\operatorname{minimize} & \mathbf{c}^{T} \mathbf{x} \\
\text { subject to } & A \mathbf{x}=\mathbf{b}  \tag{3}\\
& \mathbf{x} \geq \mathbf{0}
\end{align*}
$$

双対問題は

$$
\begin{align*}
\operatorname{maximize} & \mathbf{b}^{T} \mathbf{y} \\
\text { subject to } & \mathbf{s}=\mathbf{c}-A^{T} \mathbf{y} \geq \mathbf{0} \tag{4}
\end{align*}
$$


#### ベクトル形式の状態価値関数とのすり合わせ
*  $\mathbf{c} \in \mathbf{R}^{n}$ の $j$ 番目の要素は、以下のようになります。
$$
\begin{equation*}
c_{j}=\sum_{i^{\prime}} p^{j}\left(i, i^{\prime}\right) c^{j}\left(i, i^{\prime}\right) \tag{5}
\end{equation*}
$$

* $\mathbf{b} \in \mathbf{R}^{m}$ のすべての要素は1です。(?)
* $A$は次のような行列で表現されます。上式と形式が似ていますね。ただ行列の列数は各状態から遷移可能な状態数なので注意しましょう。
$$
\begin{equation*}
A=E-\gamma P \in \mathbf{R}^{m \times n} \tag{6}
\end{equation*}
$$

* $P$ の $j$ 番目の列には$j$番目の行動が選択された場合の遷移確率分布があたえられます。つまり、各行動 $j \in \mathcal{A}_{i}$ について

$$
\begin{equation*}
P_{i^{\prime} j}=p^{j}\left(i, i^{\prime}\right), \forall i^{\prime}=1, \cdots, m \tag{7}
\end{equation*}
$$

* Eは変則的な単位行列というか、$i$で可能な行動の場合1を与え、それ以外は0とする行列です。
$$
E_{i j}=\left\{\begin{array}{ll}
1, & \text { if } j \in \mathcal{A}_{i}  \tag{8}\\
0, & \text { otherwise }
\end{array}, \quad \forall i=1, \cdots, m, j=1, \cdots, n\right.
$$

#### 解釈
* 主問題では、$\mathbf{b}=\mathbf{e}$ はすべての各状態に1人の個人がいることを意味します。主変数 $x_{j}$ は行動$j$の行動頻度および個人が状態$i$で$j$を取る回数の期待価値です。保存則は、個人が$i$に入る人と出る人の期待値が等しいことを保証しています。
* 主問題を解決するには、保存則 $A \mathbf{x}=\mathbf{e}$ の制約の下で、期待現在コスト $\mathbf{c}^{T} \mathbf{x}$ を最小化する行動頻度を選択する必要があります。
* 双対問題を解決するには、各状態 $i$ に 1 つずつ、双対変数 $\mathbf{y}$ (cost to go関数)を選択し、各行動 $j$ に 1 つずつ、スラック変数の $\mathbf{s} \in \mathbf{R}^{n}$ を選択する必要があります。$y_{i}^{*}$ は状態 $i$ にいる個人がこのあと獲得するであろう期待コストの最小値を示しています。
  * 各状態 $i$ について、一意の最適解ペア $\left(\mathbf{y}^{*}, \mathbf{s}^{*}\right)$ が存在することがしられています。




#### 関連研究(割引無限MDPをどうやって解くか)
* シンプレックス法、内点法(Karmarkar (1984))、楕円体法(Khachiyan (1979))などのLPアルゴリズムで割引無限MDPを解くことができます。
  * 内点法、楕円体法は**多項式時間**で解くことができます。
  * **多項式時間**とは、最適な方策を獲得するために必要な算術演算の数、つまり計算量が状態と行動の数、および入力データのビットサイズの多項式でバウンドされていることをいいます。
* 決定論的遷移かつ最小平均コストMDP(割引じゃない？)は**強多項式時間**で解くことができます。
  * **強多項式時間**とは、計算量が状態と行動の数の多項式でバウンドされているものです。
* VI,PIは固定割引MDPを多項式時間で解くことができます。(Bertsekas 1987 for VI)
* PIは各反復でブロックピボットを行うシンプレックス法とみることができます。
  * PIとシンプレックス法は強多項式時間アルゴリズムかという疑問に対してはほとんどの結果が否定的でした。
  * どちらも指数関数的な反復回数を要求します。強多項式にするようなピボットルールは存在するのでしょうか？
* 本論文では古典的、シンプルなPIがどちらも**固定割引無限MDPにおいて強多項式アルゴリズム**であることを示します。
  * 古典的なPI：1 回の反復で、場合によってすべての状態の行動を更新します。
  * シンプルなPI：1 回の反復で最大 1 つの状態に対して更新をおこないます。

#### 固定割引MDPの定式化と性質、シンプレックス法

* 一般的なLP最適解のための最適性条件は以下のようになります。

$$
\begin{aligned}
A \mathbf{x}= & \mathbf{b} \\
A^{T} \mathbf{y}+\mathbf{s}= & \mathbf{c} \\
s_{j} x_{j}= & 0, \forall j=1, \cdots, n \\
\mathbf{x} \geq \mathbf{0}, & \mathbf{s} \geq \mathbf{0}
\end{aligned}
$$

* 3番目の条件は相補性条件です。
* 各状態における基本実行可能解(BSF)のインデックス集合、つまり各状態において最適な行動の要素番号を持つ集合は$\pi$であり、固定割引MDPにおける方策に対応します。

##### 補題3.1(固定割引MDPをLPで解く場合の性質)
*  元の固定割引MDPの (定常) 方策と LPのBSFの間には、1 対 1 の対応関係があります。
*  $\mathbf{x}^{\pi}$ を LPのBSFとします。すると、任意の基底変数、たとえば $\mathbf{x}_{i}^{\pi}$, $i=1, \cdots, m$ は、その値が

$$
1 \leq \mathbf{x}_{i}^{\pi} \leq \frac{m}{1-\gamma}
$$

になります。
* LPの実行可能集合は有界です。つまり

$$
\mathbf{e}^{T} \mathbf{x}=\frac{m}{1-\gamma}
$$

です。

##### 補題3.2(相補性条件)
主問題と双対問題での各最適解ペア $\left(\mathbf{x}^{*}, \mathbf{s}^{*}\right)$ について、$\mathcal{O} \cap \mathcal{N}=\emptyset$ および $\mathcal{O} \cup \mathcal{N}=\{1,2, \cdots, n\}$ となる、一意のパーティション $\mathcal{O} \subseteq$ $\{1,2, \cdots, n\}$ および $\mathcal{N} \subseteq\{1,2, \cdots, n\}$ が存在します。

$$
x_{j}^{*}=0, \forall j \in \mathcal{N}, \quad \text { and } \quad s_{j}^{*}=0, \forall j \in \mathcal{O}
$$

であり、LPに対して厳密に相補的である最適解ペア $\left(\mathbf{x}^{*}, \mathbf{s}^{*}\right)$ が少なくとも 1 つ存在します。

$$
x_{j}^{*}>0, \forall j \in \mathcal{O}, \quad \text { and } \quad s_{j}^{*}>0, \forall j \in \mathcal{N}
$$

特に、すべての最適方策 $\pi^{*} \subseteq \mathcal{O}$ であるため、$|\mathcal{O}| \geq m$ および $|\mathcal{N}| \leq$ $n-m$ である。

* 相補性条件がよくわかっていないのであれですが、あるタイミングにおいて、最適行動が非最適行動にダブルで含まれないということをしめしています。(**TODO**)


#### シンプレックス法とPI
* シンプレックス法で解くために、以下のようにLPを書き直しましょう。

$$
\begin{align*}
& \text { minimize } \quad \mathbf{c}_{\pi}^{T} \mathbf{x}_{\pi} \quad+\mathbf{c}_{\nu}^{T} \mathbf{x}_{\nu} \\
& \text { subject to } A_{\pi} \mathbf{x}_{\pi}+A_{\nu} \mathbf{x}_{\nu}=\mathbf{e},  \tag{9}\\
& \mathbf{x}=\left(\mathbf{x}_{\pi} ; \mathbf{x}_{\nu}\right) \geq \mathbf{0}
\end{align*}
$$

さらに縮小コストベクトルを定義して更に書き直しましょう。

$$
\overline{\mathbf{c}}_{\pi}=\mathbf{0} \quad \text { and } \quad \overline{\mathbf{c}}_{\nu}=\mathbf{c}_{\nu}-A_{\nu}^{T} \mathbf{y}^{\pi}
$$

より、

$$
\begin{align*}
& \operatorname{minimize} \quad\left(\overline{\mathbf{c}}_{\nu}\right)^{T} \mathbf{x}_{\nu}+\mathbf{c}_{\pi}^{T}\left(A_{\pi}\right)^{-1} \mathbf{e} \\
& \text { subject to } A_{\pi} \mathbf{x}_{\pi}+A_{\nu} \mathbf{x}_{\nu}=\mathbf{e} \text {, }  \tag{11}\\
& \mathbf{x}=\left(\mathbf{x}_{\pi} ; \mathbf{x}_{\nu}\right) \geq \mathbf{0}
\end{align*}
$$

双対問題は、

$$
\begin{array}{cc}
\operatorname{maximize} & \mathbf{e}^{T} \mathbf{y} \\
\text { subject to } & A_{\pi}^{T} \mathbf{y}+\mathbf{s}_{\pi}=\mathbf{c}_{\pi}  \tag{10}\\
& A_{\nu}^{T} \mathbf{y}+\mathbf{s}_{\nu}=\mathbf{c}_{\nu} \\
& \mathbf{s}=\left(\mathbf{s}_{\pi} ; \mathbf{s}_{\nu}\right) \geq \mathbf{0}
\end{array}
$$
となります。

##### シンプレックス法とPIの比較

##### シンプレックス法
* 縮小コストベクトルの中で最も負の行動 $j^{+} = \arg\min \{\bar{c}_j : j = 1, 2, ..., n\}$を選びます。
*  $j^+$ を現在のポリシーに追加し、代わりに現在のポリシーに含まれている別の行動を取り除きます。各反復で **1つの行動のみ** を更新します。
##### PI
* 負の縮小コストを持つすべての状態の行動を更新します。
    * 各状態 $i$ について、$j_{i}^{+}=\arg \min \left\{\bar{c}_{j}: j \in \mathcal{A}_{i}\right\}$ を持つ $\Delta_{i}=-\min \left\{\bar{c}_{j}\right.$ : $\left.j \in \mathcal{A}_{i}\right\}$ とします。次に$\Delta_{i}>0$ となるすべての状態 $i$ について、$j_{i}^{+} \in \mathcal{A}_{i}$ を、現在の方策 $\pi$ に既にある $\pi_{i} \in \mathcal{A}_{i}$ に置き換えるという形です。


#### 強多項式時間であることの説明
最初にシンプレックス法が強多項式時間であることを示しますが、そのための補題を2つ示します。1つ目の補題はシンプレックス法が最適解に収束することを示し、２つ目の補題は、非最適行動が最終的に方策によって排除されることを示しています。

**補題 4.1** $z^{*}$ を (9) の最適な目的値、$\pi$ を現在の方策、$\pi^{+}$ を $\pi$ の改善、$\Delta$ をシンプレックス法の反復で定義された量とします。すると、シンプレックス法の任意の反復で、現在の方策 $\pi$ から新しい方策 $\pi^{+}$ に

$$
z^{*} \geq \mathbf{c}^{T} \mathbf{x}^{\pi}-\frac{m}{1-\gamma} \cdot \Delta
$$

となります。さらに、

$$
\mathbf{c}^{T} \mathbf{x}^{\pi^{+}}-z^{*} \leq\left(1-\frac{1-\gamma}{m}\right)\left(\mathbf{c}^{T} \mathbf{x}^{\pi}-z^{*}\right)
$$

となります。したがって、シンプレックス法は、

$$
\mathbf{c}^{T} \mathbf{x}^{\pi^{t}}-z^{*} \leq\left(1-\frac{1-\gamma}{m}\right)^{t}\left(\mathbf{c}^{T} \mathbf{x}^{\pi^{0}}-z^{*}\right)
$$

となるような一連の方策 $\pi^{0}, \pi^{1}, \ldots, \pi^{t}, \ldots$ を生成します。\\


**補題 4.2** 
* 方策 $\pi$ が最適ではない場合、

$$
s_{j}^{*} \geq \frac{1-\gamma}{m^{2}}\left(\mathbf{c}^{T} \mathbf{x}^{\pi}-z^{*}\right)
$$

となるような行動 $j \in \pi \cap \mathcal{N}$ (つまり、$\pi$ の非最適行動 $j$) が存在します。

* 非最適な方策$\pi^{0}$ から始まるシンプレックス法によって生成された方策の系列 $\pi^{0}, \pi^{1}, \ldots, \pi^{t}, \ldots$ について、$j^{0} \in \pi^{0} \cap \mathcal{N}$ を、初期ポリシー $\pi^{0}$ で上記のように識別された行動のインデックスとします。すると、$j^{0} \in \pi^{t}$ の場合、

$$
x_{j^{0}}^{\pi^{t}} \leq \frac{m^{2}}{1-\gamma} \cdot \frac{\mathbf{c}^{T} \mathbf{x}^{\pi^{t}}-z^{*}}{\mathbf{c}^{T} \mathbf{x}^{\pi^{0}}-z^{*}}, \forall t \geq 1
$$

である必要があります。


**定理 4.1** $\pi^{0}$ を任意の非最適方策とします。すると、$\pi^{0}$ から始めて $\mathcal{T}:=\left\lceil\frac{m}{1-\gamma} \cdot \log \left(\frac{m^{2}}{1-\gamma}\right)\right\rceil$ 回の反復後、シンプレックス法によって生成された方策のいずれにも現れない行動 $j^{0} \in \pi^{0} \cap \mathcal{N}$ (つまり、方策$\pi^{0}$ の非最適行動 $j^{0}$) が存在します。

* シンプレックス法が十分な回数反復すると、初期方策に含まれていた非最適行動がその時点で必ず排除されることを示します。これは**クロスオーバーイベント**とよばれる、排除された非基底変数が二度と基底変数として戻ってこないイベントを示しています。


**定理 4.2** 固定割引MDPを解決するためのシンプレックス法 (または単純なポリシー反復法) は、強多項式時間アルゴリズムとなります。任意の方策から始めて、この方法は最大で $\frac{m(n-m)}{1-\gamma} \cdot \log \left(\frac{m^{2}}{1-\gamma}\right)$ 回の反復で終了します。ここで、各反復では $O(m n)$ の算術演算が用いられます。

* 定理4.1のクロスオーバーイベントを繰り返し適用することで有限回の反復によって最適解に到達することを示しています。その反復回数は、状態数と行動数の多項式で抑えられるため、**強多項式時間**アルゴリズムです。

**系 4.1** 固定割引MDPを解決するためのPIは、強多項式時間アルゴリズムとなります。任意の方策から始めて、最大で $\frac{m(n-m)}{1-\gamma} \cdot \log \left(\frac{m^{2}}{1-\gamma}\right)$ 回の反復で終了します。

*