# Puterman本のメモ

参考：
* [Markov Decision Processes: Discrete Stochastic Dynamic Programming](https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316887)

Puterman本を読んだときの面白かった話のメモです．

## ２章

### 2.3章：一般的なMDPについて

* $S$をユークリッド空間上のボレル可測な部分集合とします．すなわち，ユークリッド空間の開集合全体から作るσ代数の元です．
* $\pi=\left(d_1\right) \in \Pi^{\mathrm{MD}}$とします．$d_1(s)=a$とします．

このとき，ベルマン作用素は，**もし密度$p_1(u \mid s, a)$**が存在するなら，
$$
r_1(s, a)+E_s^\pi\left\{v\left(X_2\right)\right\}=r_1(s, a)+\int_S v(u) p_1(u \mid s, a) d u
$$
として表現されます．この密度はDiscreteだと存在しません．その場合には，次のLebesgue-Stieltjes積分が便利です：

$$
r_1(s, a)+E_s^\pi\left\{v\left(X_2\right)\right\}=r_1(s, a)+\int_S v(u) p_1(d u \mid s, a)
$$

さて，これが意味を持つのは，
* $v(\cdot) p_1(\cdot \mid s, a)$がルベーグ可積分なとき
* $v(\cdot)$が$p_1(d u \mid s, a)$に対してLebesgue-Stieltjes可積分なとき
  
の２つです．さて，さっきの方策をこれに代入しましょう．

$$
r_1\left(s, d_1(s)\right)+\int_S v(u) p_1\left(u \mid s, d_1(s)\right) d u
$$

これは$s$についての関数ですね．特にこのベルマン作用素をマルチステップに拡張するには，
* $r_1(s, \cdot), p_1(u \mid s, \cdot)$そして$d_1(\cdot)$
  
に適切な仮定がないといけません．最低でも，方策$d_1: S\to A$は可測な関数でないとだめです（そうでないと，２ステップ目以降の積分が取れません）．
そして，可測かどうかは$A$上の位相が重要になります．

ここで，$d^*$をベルマン方程式を満たす方策とします．
これが可測であることを示すためには，
$$
A_s^* \equiv \underset{a \in A_s}{\arg \max }\left\{r_1(s, a)+\int_S v(u) p_1(u \mid s, a) d u\right\}
$$
が，$\times_{s \in S} A_s^*$に$S\to A$の可測関数を選択定理によって含むことを保証しなければいけません．

しかし，これには$r_1, p_1, A_s$に何らかの仮定がないといけません．実際，何の仮定もないと可測な最適方策が存在しない場合があります．


## ５章：無限ホライゾンの基本

---

![HD_neq_MD](figs/puterman_HD_neq_MD.png)

**Problem 5.11: 方策が履歴依存＆決定的でも，対応するOccupancy measureを与えるマルコフな方策が確率的でないといけない場合があります．**

上の図のMDPを考えてみましょう．次の履歴依存な方策$\kappa=\left(d_1^\kappa, d_2^\kappa, \ldots\right)$を考えてみます：

* $s_1$で選択する行動$a_{1, 1}$と$a_{1, 3}$が次のように履歴に依存します：
1. $d_3^\kappa\left(s_1, a_{1,1}, s_1, a_{1,3}, s_1\right)=a_1$：つまり，１→３なら１を選択
2. $d_4^\kappa\left(s_1, a_{1,1}, s_1, a_{1,3}, s_1, a_{1,1}, s_1\right)=a_{1,3}$：つまり，１→３→１なら３を選択
3. 後は同じ流れ．

このとき，$\kappa$の（割引なし）occupancy measureを考えると

$$
\begin{aligned}
x(s_1, a_{1, 1}) &= 1 + \gamma^2 + \gamma^4 + \cdots = \frac{1}{1 - \gamma^2}\\
x(s_1, a_{1, 3}) &= \gamma + \gamma^3 + \cdots = \frac{\gamma}{1 - \gamma^2}\\
\end{aligned}
$$

このOccupancy measureは明らかにマルコフかつ決定的な方策では出せません（どちらかが０になります）．

---



## ６章：割引無限ホライゾン

---

**定理：6.1.1**
これはよくある結果ですが，証明方法が「良い」のでメモっときます．

* $0 \leq \lambda < 1$
* 任意の定常方策$d^\infty$（すべてのステップで$d \in D^{\mathrm{MR}}$に従う）

のとき，$v^{d^\infty}_\lambda$は次の式の唯一の解であり，
$$
v=r_d+\lambda P_d v
$$
さらに次で表せます：

$$
v_\lambda^{d^x}=\left(I-\lambda P_d\right)^{-1} r_d
$$

**証明**

まず，次の行列ノルムを定義します：
$$
\|H\|\triangleq \sup_{s \in S} \sum_{j \in S} |H(j\mid s)|
$$

このとき，明らかに
$$
\left\|P_d\right\|=1 \text { and } \lambda=\left\|\lambda P_d\right\|
$$
です．後は[LA_normed_linear_space.ipynb](LA_normed_linear_space.ipynb)を見てください．

---


**定理6.2.9**: 任意の状態空間での最適方策の議論をするために便利です．

次を満たす方策$d^*$を"conserving"と呼ぶことにします

$$
L_{d^*} v_\lambda^* \equiv r_{d^*}+\lambda P_{d^*} v_\lambda^*=v_\lambda^*
$$

すると，
1. conservingな方策
2. 最適方策

のどちらかが存在する場合，決定的かつ定常な最適方策が存在します．

**証明**

証明は省略します（そんなに難しくないので）

---


**定理 6.1.11**：$S$が有限もしくは可算だとします．このとき，任意の$\varepsilon > 0$について，$\varepsilon$-最適な決定的かつ定常方策が存在します．

ベルマン方程式から，$\mathscr{L} v_\lambda^*=v_\lambda^*$です（このベルマン作用素は$\sup$バージョンです）．$\varepsilon > 0$について，次を満たす$d_{\varepsilon} \in D^{\mathrm{MD}}$を選びます：

$$
r_{d_{\varepsilon}}+\lambda P_{d_{\varepsilon}} v_\lambda^* \geq \sup _{d \in D^{\mathrm{MD}}}\left\{r_d+\lambda P_d v_\lambda^*\right\}-(1-\lambda) \varepsilon e=v_\lambda^*-(1-\lambda) \varepsilon e
$$

変形して，

$$
r_{d_{\varepsilon}} \geq (I - \lambda P_{d_{\varepsilon}} )v_\lambda^*-(1-\lambda) \varepsilon e
$$

$v_\lambda^{\left(d_\varepsilon\right)^{\infty}}=\left(I-\lambda P_{d_\varepsilon}\right)^{-1} r_{d_\varepsilon}$なので，両辺に$\left(I-\lambda P_{d_\varepsilon}\right)^{-1}$をかけると
$$
v_\lambda^{\left(d_\varepsilon\right)^\infty} \geq v_\lambda^*-\varepsilon e
$$
であり，これは$\varepsilon$-最適方策です．



---

**例6.2.3**：状態空間を任意にとると，ベルマン作用素で$\max$が取れたとしても，最適方策が存在しない場合があります．

* 状態空間：$S=[0, 1]$
* 行動空間：$A=[0, 1]$
* $W\subseteq S$：非ボレルな$S$上の部分集合（本ではprojection on $S$って言ってるけど，多分同じな気がする）
* $B$：$[0, 1] \times [0, 1]$の部分集合で，$S$の方は$W\subset S$に射影した集合？

を考えます．

ここで，
* 報酬：$r(s, a)=I_{\{B\}}(s, a)$とします．これは$(s, a) \in B$なら$1$, そうでなければ$0$です．
* 遷移：任意の$a \in A$で$P(s\mid s, a)=1$とします．つまり，どの行動を取っても同じ状態から動きません．
* $\pi=\left(d_1, d_2, \ldots\right) \in \Pi^{H R}$とします．$d_1(\cdot)$は$s$のみに依存する関数です．また，積分取りたいので可測関数だけ考えます．

このとき，
* 最初の行動は$s_1$に依存するので，$d_1$は可測かつ$r_{d_1}(s)=r(s, d_1(s))$も可測です．
* よって，$Q=\{s: r_{d_1}(s)=1\}$は$S$上のボレル部分集合です．定義より，$Q$は$W$に含まれます．
* すると，次を満たす$s_0 \in W-Q$が存在します：

$$
v_\lambda^{\pi \pi}\left(s_0\right)<\lambda+\lambda^2+\lambda^3+\cdots=\lambda(1-\lambda)^{-1}
$$

また，$v_\lambda^{\pi^{\prime}}\left(s_0\right)=(1-\lambda)^{-1}$を満たす（非可測な？）$\pi^{\prime} \in \Pi^{\mathrm{HR}}$も存在します．
よって，任意の$\varepsilon < 1$について，

$$
v_\lambda^\pi\left(s_0\right)+\varepsilon<v_\lambda^*\left(s_0\right)
$$
です．後はこれを任意の$\pi$について繰り返せば，$0 <\varepsilon < 1$最適な方策が存在しないことがわかります．


---

**6.3章**：収束レートについて

* $\{y_n\} \subset V$を$y^*$に収束する系列とします．つまり，$\lim_{n\to \infty} \|y_n - y^*\|=0$です．
* 次を満たすとき，収束の「オーダーが$\alpha$」である，といいます．

$$\|y_{n+1}-y^*\| \leq K \|y_n - y^*\|^\alpha$$

を満たす定数$K > 0$が存在する．

* 最低でも$\alpha=1$のとき，線形収束する，といいます
* 最低でも$\alpha=2$のとき，二次収束する，といいます

$$
\lim\sup_{n\to \infty} \frac{\|y_{n+1}-y^*\|}{\|y_n - y^*\|}=0
$$

ならば，これは優線形収束する，といいます．
優線形収束は線形収束よりも一般に早いです．

* オーダー$\alpha$で収束する場合，$\|y_{n+1}-y^*\| \leq K \|y_n - y^*\|^\alpha$がすべての$n$で成立するような最低の$K$を，収束レートといいます．
    * 一般に収束レートは線形収束する系列を比較するときに使います．

* 「すべての$n$で成立する」，というのはちょっと強い仮定なので，次のasymptotic average rate of convergence (AARC)が便利です．

$$
\lim \sup_{n \to \infty} \left[\frac{\|y_n - y^*\|}{\|y_0 - y^*\|}\right]^{1/n}
$$

* 非負実数関数$f(n)$に対して，$\{y_n\}$は次を満たすときに$O(f_n)$であるといいます：

$$
\lim\sup_{n\to \infty}\frac{y_n - y^*}{f(n)}
$$
が有限である．**例えば価値反復法は$O(\lambda^n)$で収束します（証明は定理6.3.3.）**．

このとき，特に$y_n = y^* + O(f(n))$とかけます．もし$0 < \beta < 1$について，$f(n)=\beta^n$ならば，この収束はレート$\beta$でgeometricに収束する，といいます．

* 一般に（少なくともこの本では），初期値に関わらず特定のオーダーで収束するならば，それはglobalな収束である，といいます．
* 一般に（少なくともこの本では），特定の初期値で収束するならば，それはlocalな収束である，といいます．


---

**6.3.3：ガウス-ザイデル価値反復法**

[RL_Gauss_Seidel_VI.ipynb](RL_Gauss_Seidel_VI.ipynb)を参照．



---



## A.4 行列の極限

ここでの結果は基本的に有限と可算な状態空間のマルコフ連鎖に発展できます．

* $\left\{A_n: n \geq 0\right\}
* $\lim _{n \rightarrow \infty} A_n=A$はすべての要素が収束することを表します．

periodicなマルコフ連鎖を考えると，この極限が存在しない場合があります．変わりに，次のCesaro limitを考えましょう．

---

**Cesaro limit**

$$
\lim _{N \rightarrow \infty} \frac{1}{N} \sum_{n=0}^{N-1} A_n=A
$$
$$
C-\lim _{N \rightarrow \infty} A_N=A
$$

普通の極限は「オーダー０のCesaro limit」と呼ばれることがあります．

極限行列を$P^*=C-\lim P^N$と書くことにします．
これは
$$
p^*(j \mid s)=\lim _{N \rightarrow \infty} \frac{1}{N} \sum_{n=1}^N p^{n-1}(j \mid s)
$$
を意味します．ここで，$p^{n-1}(j\mid s)$は$P^{n-1}$の要素であり，「状態$s$から$n-1$ステップで状態$i$に到達する確率」を表します．
$E_s\left[\nu_j\right]$を$s$からスタートして$j$を踏む期待回数とすると，
$$
E_s\left\{\nu_j\right\}=\sum_{n=1}^{\infty} p^{n-1}(j \mid s)
$$
が成り立ちます．よって，$p^*(j \mid s)$は「$s$からスタートして，$j$をどれくらい占有するか？」を表します．

Cesaro limitは極限が取れない行列に対して便利です．例えば，

$$
P=\left[\begin{array}{ll}
0 & 1 \\
1 & 0
\end{array}\right]
$$

を考えると，これは$P^{2 n}=I$ and $P^{2 n+1}=P$なので，明らかに極限が存在しません．一方で，
$$
C-\lim _{N \rightarrow \infty} P^N=P^*=\left[\begin{array}{ll}
0.5 & 0.5 \\
0.5 & 0.5
\end{array}\right]
$$
になります．実際，Cesaro limitの極限は存在するっぽいです．
TODO: 証明

---

極限行列$P^*$は次を満たします：

$$
P P^*=P^* P=P^* P^*=P^*
$$

ここで，

$$
\left(P^*\right)^2=P^*,\left(I-P^*\right)^2=\left(I-P^*\right) \text {, and } P^*\left(I-P^*\right)=0
$$

なので，$P^*$と$(I-P^*)$は直行するProjection matrixです．

---

極限行列はcountableな状態空間の場合，要素が$0$になり得ることに注意しましょう．式（A.4）付近参照．

---


