# 有界ではない報酬＆可算無限状態空間での価値反復について

参考：
* [Markov Decision Processes: Discrete Stochastic Dynamic Programming](https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316887)の6.10章．表記は本と同様です．

価値反復法の証明には基本的に報酬が有界であることを使います．
例えば$L_d v = r_d \lambda P_d v$なるベルマン作用素を考えたときに，報酬が有界であることを使えば，これは$\lambda$-contractionになり，方策$d$の価値$v_d$に収束することが言えます．

一方で，報酬が有界ではない場合はどうすれば良いでしょうか？
これは例えば状態空間が（可算）無限のような場合に発生します．
（詳しい例はMDP本の３章のInventory controlの例などを参考にしてみてください．）

## 適切な仮定を考えよう

有界でない場合には通常のContractionが使えないので，より一般的なContractionの概念を導入します．
また，有界でないMDPが何でも扱えるわけではないので（多分），報酬と遷移に対して適切な仮定をおきます．

準備：
* $w: S \to \mathbb{R}$を$\inf _{s \in S} w(s)>0$を満たす関数とします．
  * 例えば$w(s)=\max (s, 1)$ or $w(s)=\log (s+\delta)$, with $\delta>1$がこれを満たします．
* 次の重み付きsupremumノルムを導入します：
$$
\|v\|_w=\sup _{s \in S}\frac{|v(s)|}{w(s)}
$$
* $V_w$を$\{v \in V : \|v\|_w<\infty\}$とします．例えば$w(s)=1$なら，$V_w = V$です．

以降，この$V_w$内で何らかの系列$\{v_0, v_1, \dots \in V_w\}$の収束について考えていきます．ちなみに$V_w$内で$\|\cdot\|_w$についての収束は各点収束であることに注意しましょう．実際，

$$
\left\|v^n-v\right\|_\omega<\varepsilon \text { for some } \varepsilon>0
$$

なら，各$s$について

$$
\left|v_n(s)-v(s)\right|<\varepsilon w(s)
$$

です（$w(s)=定数$なら一様収束が言えます）．また，$V_w$内の任意のコーシー列は$V_w$内に収束するので，$V_w$はバナッハ空間です．

ここで，$H$を$|S| \times|S|$の行列として，$(s, j)$番目の要素を$h(j|s)$とします．$H : V_w \to V_w$について，
$$
\|H\|_w=\sup _{s \in S} \frac{\sum_{j \in S}|h(j \mid s)| w(j)}{w(s)}
$$
を作用素ノルムとします（作用素ノルムの定義と同じです）．

さて，ここから報酬と遷移について以下を仮定します（教科書Proposition 6.10.5も参考になるので見ておきましょう．）：

---

**報酬の仮定**

次を満たす$\mu < \infty$が存在する．
$$\left\|r_d\right\|_w \leq \mu$$

* つまり，**「状態$s$での報酬は$w(s)$のレートでしか増えない」**ことを仮定してます．
* 例えば$w(s)=\max \left\{\sup _{a \in A_s}|r(s, a)|, 1\right\}$などは条件を満たす．ここで$\mu=1$です．

---

**遷移についての仮定**

次を満たす$0 \leq \kappa < \infty$が存在する．
$$P_d w \leq \kappa w$$

* ちなみにこれは$\left\|P_d\right\|_w \leq \kappa$と等価

さらに，次を満たす$0 \leq \alpha < 1$と$J \in \mathbb{N}$が，任意の$\pi=\left(d_1, \ldots, d_J\right)$ where $d_k \in D^{\mathrm{MD}} ; 1 \leq k \leq J$について存在する．

$$\lambda^J P_\pi^J w \leq \alpha w$$

* ちなみにこれは$\left\|\lambda^J P_\pi^J\right\|_w \leq \alpha$と等価

つまり，任意の$\pi$について，
$$
\begin{aligned}
&E^\pi\left\{w\left(X_{n+1}\right) \mid X_n=s, Y_n=a\right\} \leq \kappa w(s)\\
&E^\pi\left\{w\left(X_{n+J}\right) \mid X_n=s\right\} \leq \alpha \lambda^{-J} w(s)
\end{aligned}
$$
であることを仮定してます．つまり， **「$w(s)$から$w(s')$に遷移したとき，その期待値は線形にしか変化しない．」** また， **「十分な回数遷移すると，その期待値が$\lambda^{-J}$のスケールで抑えられる」**ことを仮定しています．

---

**具体例**

一旦具体的な例を見てみましょう．
次のMDPを考えます：

* 状態集合：$S = \{0, 1, 2, 3, \dots\}$
* 行動集合：$A = \{0, 1, \dots, M\}$
* 報酬：$r(s, a)=s$
* 遷移：$P(s+a | s, a)=1$

このとき，$w(s)=\max\{s, 1\}$とします．すると，明らかに報酬の仮定は満たされてますね．また，任意の方策について

$$
\sum_{j \in S} P_d(j \mid s) w(j)=s+a \leq s+M \leq(1+M) w(s)
$$
なので，$\kappa=(1+M)$で１つ目の遷移の仮定が成立してます．

さらに，任意の$\pi$について
$$
\lambda^{\prime} \sum_{j \in S} P_\pi^J(j \mid s) w(j) \leq \lambda^J(s+M J) \leq \lambda^J(1+M J) w(s) .
$$
なので，$\lambda^J\left(1+M^J\right)<1$を満たす十分大きな$J$についてなら，２つ目の遷移の仮定も成り立ってます．

---

さて，上の仮定が成り立つMDPでは，任意の方策$\pi=\left(d_1, d_2, \ldots\right) \in \Pi^{\mathrm{MD}}$の価値関数に対して次のバウンドが成立します（証明は略）：

$$
\begin{gathered}
\left|v_\lambda^\pi(s)\right| \leq \frac{\mu}{1-\alpha}\left[1+\lambda \kappa+\cdots+(\lambda \kappa)^{J-1}\right] w(s) \\
\left\|v_\lambda^\pi\right\|_w \leq \frac{\mu}{1-\alpha}\left[1+\lambda \kappa+\cdots+\left(\lambda_\kappa\right)^{J-1}\right] .
\end{gathered}
$$


## J-stage contraction

ここまでで見たように，$\kappa > 1$であれば，$L$は$V_w$についてcontractionではありません．
しかし，上の仮定が成立しているとき，$L$は$V_w$について$J$-state contractionになります．

---

バナッハ空間$J$上の作用素$T$は次を満たすときに$J$-state contractionという．任意の$v, u \in U$について，次を満たす$J \in \mathbb{N}$と$0 \leq \lambda' < 1$が存在する：

$$
\left\|T^J u-T^J v\right\| \leq \lambda^{\prime}\|u-v\| .
$$

つまり，作用素$T$を$J$回繰り返すとcontractionが成立するわけですね．
また，
* $Tv^*=v^*$を満たす唯一の解$v^*\in U$が存在し，
* 任意の$v^0 \in U$について，$v^{n+1}=T v^n$は$v^*$に収束します．

証明略．

---

上で見た報酬と遷移の仮定が成立しているとき，ベルマン作用素$L$が$J$-stage contractionになります．

**証明**

適当な$v \in V_w$について，$L v=r_d+\lambda P_d v$を満たす$d \in D^{MD}$を考えます．
このとき，三角不等式と仮定より
$$
\|L v\|_w \leq \|r_d\|_w + \lambda \|P_d\|_w \|v\|_w
\leq \mu + \lambda \kappa \|v\|_w
$$
です．よって$Lv \in V_w$です．

$u, v \in V_w$とし，$L^J v(s) \geq L^J u(s)$としましょう．
$\pi = (d_1, d_2, \dots, d_j)$を$L v, L(L v), \ldots, L\left(L^{J-1}\right) v$の中でgreedyを実現する意思決定ルールとします．すると，

$$
\begin{aligned}
0 & \leq L^J v(s)-L^J u(s) \leq L_{d_J} \cdots L_{d_2} L_{d_1} v(s)-L_{d_J} \cdots L_{d_2} L_{d_1} u(s) \\
& =\lambda^J P_{d_J} \cdots P_{d_2} P_{d_1}(v-u)(s) \leq \lambda^J P_\pi^J w(s)\|v-u\|_w \leq \alpha\left\|_v-u\right\|_w .
\end{aligned}
$$

です．同様にして，$L^J v(s) \leq L^J u(s)$のときも成立します．よって$L$は$J$-stage contractionです．

---

無事$L$が$J$-stage contractionであることが言えました！
あとはちょっと証明すれば，報酬と遷移の仮定のもと，$L$の反復によって最適価値関数に収束することが言えます（Modified policy iterationでも大丈夫です）．



## 可算無限状態空間を有限状態で近似しよう

上では報酬が有界ではない場合について学び，ベルマン最適作用素で最適価値関数に収束することがわかりました．
しかし，上の例は状態空間が有限ではない場合は使えません（$L$を計算するのに無限の時間がかかってしまいます）．

そこで，無限の状態を有限の状態で近似することを考えましょう．

準備：

可算無限の状態空間に対して，
$$
S_N=\{0, 1, \dots, N\}
$$
を，その$N+1$個の状態による近似とします．

適当な$u \in V_w$（例えば$u=0$など）によって，$v \in V_w$に対して
$$
v^{N, u}(s)= \begin{cases}v(s) & s \leq N \\ u(s) & s>N\end{cases}
$$
なる関数を定めましょう．つまり，$[N]$以外の部分では$v(s)$ではなく$u(s)$を取ります．

$d\in D$について，次の作用素$L_d^{N, u}: V_w \rightarrow V_w$を定めます：

$$
L_d^{N, u} v(s)=\left\{\begin{array}{cc}
r_d(s)+\lambda \sum_{j \leq N} p_d(j \mid s) v(j)+\lambda \sum_{j>N} p_d(j \mid s) u(j) & s \leq N \\
u(s) & s>N
\end{array}\right.
$$

つまり，$[N]$以外の状態は$u(s)$を当てはめているわけですね．
一番簡単なケースは$u=0$のときです：
$$
L_d^{N, 0} v(s)=r(s, d(s))+\lambda \sum_{j \leq N} p(j \mid s, d(s)) v(j) \quad s \leq N
$$

実は固定された$N, d\in D, u \in V_w$について，$L_d^{N, u}$は$N$-stage contractionになります．任意の$\pi$について，

$$
\sum_{j \in S_N} P_\pi^J(j \mid s) w(j)
\leq 
\sum_{j \in S_N} w(j)
$$

<!-- 
**証明**

面倒なので$L'_d$を$L^{N, u}_d$として扱います．

上の$J$-contractionの証明と同様にすれば，$L' v \in V_w$はすぐわかります（多分）．

$u, v \in V_w$とし，$(L'_d)^N v(s) \geq (L'_d)^N u(s)$としましょう．
すると，

$$
\begin{aligned}
0 & \leq (L'_d)^N v(s)-(L'_d)^N u(s) 
=\lambda^N (P_{d})^N (v-u)(s) \\
&\leq \lambda^J P_\pi^J w(s)\|v-u\|_w \leq \alpha\left\|_v-u\right\|_w .
\end{aligned}
$$

です．同様にして，$L^J v(s) \leq L^J u(s)$のときも成立します．よって$L$は$J$-stage contractionです．

 -->
