# 平均報酬MDPの便利な定理

## ErgodicなMDP

参考：
* [Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes](https://arxiv.org/abs/1910.07072)

任意の方策について，それに誘導されるマルコフ連鎖がirreducible（transientが存在しない）かつaperiodic（periodが1）ならば，そのMDPはErgodicといいます．

表記：
* 方策の定常分布：$\left(\mu^\pi\right)^{\top} P^\pi=\left(\mu^\pi\right)^{\top}$．つまり，定常分布から一回遷移しても，また定常分布に戻ります．
  * これは[RL_AverageReward.ipynb](RL_AverageReward.ipynb)でちょっと言及してます．特にpositive recurrent irreducibleならユニークな解を持ちます．簡単に言えば，**Ergodicなマルコフ連鎖はユニークな解を持ちます．**
* ErgodicなMDPでは期待収益について$J^\pi=\left(\mu^\pi\right)^{\top} r^\pi$が成り立ち，これは状態に依存しません．
* ErgodicなMDPでは，次のベルマン方程式の解$q^\pi$が存在し，それは定数項についてユニークです（$v^\pi(s)=\sum_a \pi(a \mid s) q^\pi(s, a)$）：
$$
J^\pi+q^\pi(s, a)=r(s, a)+\mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v^\pi\left(s^{\prime}\right)\right]
$$
特に$\sum_s \mu^\pi(s) v^\pi(s)=0$の制約を課せば，$q^\pi$は唯一の解を持ちます．このとき，
$$
v^\pi(s)=\sum_{t=0}^{\infty}\left(\mathbf{e}_s^{\top}\left(P^\pi\right)^t-\left(\mu^\pi\right)^{\top}\right) r^\pi
$$
を満たします．


---

**mixing timeのバウンド**

$$
t_{\operatorname{mix}}(\epsilon):=\max _\pi \min \left\{t \geq 1 \mid\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \epsilon, \forall s\right\}
$$
のことをMixing timeと呼びます．

$$
t_{\operatorname{mix}}(1/4) = t_{\operatorname{mix}}
$$
としましょう．
このとき，
$$
t_{m i x}(\epsilon) \leq\left\lceil\log _2 \frac{1}{\epsilon}\right\rceil t_{m i x}
$$
が任意の$\epsilon \in\left(0, \frac{1}{2}\right]$で成立します．

**証明**

* [MDP and Mixing Time](https://pages.uoregon.edu/dlevin/MARKOV/markovmixing.pdf)の4.5章参照


---

任意の$t \geq 2 t_{mix}$について，次の補題が成立します：

$$
\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq 2 \cdot 2^{-\frac{t}{t_{\text {mix }}}}, \quad \forall \pi, s
$$

**証明**

上の補題から，任意の$\epsilon \in (0, 0.5]$から，$t \geq\left\lceil\log _2(1 / \epsilon)\right\rceil t_{\operatorname{mix}}$ならば，
$t_{m i x}(\epsilon) \leq t$なので，
$$
\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \epsilon
$$

が成り立ちます．
後は$\log _2(1 / \epsilon)=\frac{t}{t_{\text {mix }}}-1$を選択すれば，$\epsilon=2 \cdot 2^{-\frac{t}{t_{\text {mix }}}}$であり，補題が成り立ちます．

---

$N = 4 t_{mix} \log_2 T$とします．このとき，mixing timeが$t_{mix} < T / 4$であるergodicなMDPについて，任意の方策$\pi$に対して，

$$
\sum_{t=N}^{\infty}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \frac{1}{T^3}
$$

が成立します．
つまり，mixing timeを使うと，定常分布を有限ステップで近似できます（多分）．

**証明**

上の補題から，

$$
\begin{aligned}
&\sum_{t=N}^{\infty}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \sum_{t=N}^{\infty} 2 \cdot 2^{-\frac{t}{t_{\text {mix }}}}\\
=&\frac{2 \cdot 2^{-\frac{N}{t_{\text {mix }}}}}{1-2^{-\frac{1}{t_{\text {mix }}}}} \leq \frac{2 t_{\text {mix }}}{\ln 2} \cdot 2 \cdot 2^{-\frac{N}{t_{\text {mix }}}}=\frac{2 t_{\text {mix }}}{\ln 2} \cdot 2 \cdot \frac{1}{T^4} \leq \frac{1}{T^3}
\end{aligned}
$$


---

**バイアス関数のバウンド**

$$
\begin{aligned}
\left|v^\pi(s)\right| & \leq 5 t_{\text {mix }} \\
\left|q^\pi(s, a)\right| & \leq 6 t_{\text {mix }}
\end{aligned}
$$

**証明**

バイアス関数の定義から，

$$
\begin{aligned}
v^\pi(s)
&=\lim_{T\to \infty} \mathbb{E}^\pi\left[\sum^{T-1}_{t=0}r(s_t, a_t) - J^\pi\mid s_0=s, \pi\right]\\
&=
\sum_{t=0}^{\infty}\left(\mathbf{e}_s^{\top}\left(P^\pi\right)^t-\left(\mu^\pi\right)^{\top}\right) r^\pi
\end{aligned}
$$

が成り立ちます．よって，

$$
\begin{aligned}
\left|v^\pi(s)\right| & =\left|\sum_{t=0}^{\infty}\left(\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right)^{\top} r^\pi\right| \\
& \leq \sum_{t=0}^{\infty}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1\left\|r^\pi\right\|_{\infty} \\
& \leq \sum_{t=0}^{2 t_{\text {mix }}-1}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1+\sum_{i=2}^{\infty} \sum_{t=i t_{\text {mix }}}^{(i+1) t_{\text {mix }}-1}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \\
& \leq 4 t_{\text {mix }}+\sum_{i=2}^{\infty} 2 \cdot 2^{-i} t_{\text {mix }} \quad \quad\left(\text { by }\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq 2\right. \text { and Corollary 13.1) } \\
& \leq 5 t_{\text {mix }}
\end{aligned}
$$


ここで，4行目では$t \geq 2t_{mix}$で成り立つ式変形を使ってます．

よって，
$$
\left|q^\pi(s, a)\right|=\left|r(s, a)+\mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v^\pi\left(s^{\prime}\right)\right]\right| \leq 1+5 t_{\text {mix }} \leq 6 t_{\text {mix }}
$$
も成り立ちます．

---

**Performance difference lemma**

$$
J^{\tilde{\pi}}-J^\pi=\sum_s \sum_a \mu^{\tilde{\pi}}(s)(\tilde{\pi}(a \mid s)-\pi(a \mid s)) q^\pi(s, a)
$$

**証明**

$$
\begin{aligned}
& \sum_s \sum_a \mu^{\tilde{\pi}}(s) \tilde{\pi}(a \mid s) q^\pi(s, a) \\
& =\sum_s \sum_a \mu^{\tilde{\pi}}(s) \tilde{\pi}(a \mid s)\left(r(s, a)-J^\pi+\sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v^\pi\left(s^{\prime}\right)\right) \\
& =J^{\tilde{\pi}}-J^\pi+\sum_{s^{\prime}} \mu^{\tilde{\pi}}\left(s^{\prime}\right) v^\pi\left(s^{\prime}\right) \\
& =J^{\tilde{\pi}}-J^\pi+\sum_s \mu^{\tilde{\pi}}(s) v^\pi(s) \\
& =J^{\tilde{\pi}}-J^\pi+\sum_s \sum_a \mu^{\tilde{\pi}}(s) \pi(a \mid s) q^\pi(s, a)
\end{aligned}
$$

---