# 平均報酬MDPの便利な定理

## ErgodicなMDP

参考：
* [Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes](https://arxiv.org/abs/1910.07072)

任意の方策について，それに誘導されるマルコフ連鎖がirreducible（transientが存在しない）かつaperiodic（periodが1）ならば，そのMDPはErgodicといいます．

表記：
* 方策の定常分布：$\left(\mu^\pi\right)^{\top} P^\pi=\left(\mu^\pi\right)^{\top}$．つまり，定常分布から一回遷移しても，また定常分布に戻ります．
  * これは[RL_AverageReward.ipynb](RL_AverageReward.ipynb)でちょっと言及してます．特にpositive recurrent irreducibleならユニークな解を持ちます．簡単に言えば，**Ergodicなマルコフ連鎖はユニークな解を持ちます．**
* ErgodicなMDPでは期待収益について$J^\pi=\left(\mu^\pi\right)^{\top} r^\pi$が成り立ち，これは状態に依存しません．
* ErgodicなMDPでは，次のベルマン方程式の解$q^\pi$が存在し，それは定数項についてユニークです（$v^\pi(s)=\sum_a \pi(a \mid s) q^\pi(s, a)$）：
$$
J^\pi+q^\pi(s, a)=r(s, a)+\mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v^\pi\left(s^{\prime}\right)\right]
$$
特に$\sum_s \mu^\pi(s) v^\pi(s)=0$の制約を課せば，$q^\pi$は唯一の解を持ちます．このとき，
$$
v^\pi(s)=\sum_{t=0}^{\infty}\left(\mathbf{e}_s^{\top}\left(P^\pi\right)^t-\left(\mu^\pi\right)^{\top}\right) r^\pi
$$
を満たします．


---

**mixing timeのバウンド**

$$
t_{\operatorname{mix}}(\epsilon):=\max _\pi \min \left\{t \geq 1 \mid\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \epsilon, \forall s\right\}
$$
のことをMixing timeと呼びます．

$$
t_{\operatorname{mix}}(1/4) = t_{\operatorname{mix}}
$$
としましょう．
このとき，
$$
t_{m i x}(\epsilon) \leq\left\lceil\log _2 \frac{1}{\epsilon}\right\rceil t_{m i x}
$$
が任意の$\epsilon \in\left(0, \frac{1}{2}\right]$で成立します．

**証明**

* [MDP and Mixing Time](https://pages.uoregon.edu/dlevin/MARKOV/markovmixing.pdf)の4.5章参照


---

任意の$t \geq 2 t_{mix}$について，次の補題が成立します：

$$
\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq 2 \cdot 2^{-\frac{t}{t_{\text {mix }}}}, \quad \forall \pi, s
$$

**証明**

上の補題から，任意の$\epsilon \in (0, 0.5]$から，$t \geq\left\lceil\log _2(1 / \epsilon)\right\rceil t_{\operatorname{mix}}$ならば，
$t_{m i x}(\epsilon) \leq t$なので，
$$
\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \epsilon
$$

が成り立ちます．
後は$\log _2(1 / \epsilon)=\frac{t}{t_{\text {mix }}}-1$を選択すれば，$\epsilon=2 \cdot 2^{-\frac{t}{t_{\text {mix }}}}$であり，補題が成り立ちます．

---

$N = 4 t_{mix} \log_2 T$とします．このとき，mixing timeが$t_{mix} < T / 4$であるergodicなMDPについて，任意の方策$\pi$に対して，

$$
\sum_{t=N}^{\infty}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \frac{1}{T^3}
$$

が成立します．
つまり，mixing timeを使うと，定常分布を有限ステップで近似できます（多分）．

**証明**

上の補題から，

$$
\begin{aligned}
&\sum_{t=N}^{\infty}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq \sum_{t=N}^{\infty} 2 \cdot 2^{-\frac{t}{t_{\text {mix }}}}\\
=&\frac{2 \cdot 2^{-\frac{N}{t_{\text {mix }}}}}{1-2^{-\frac{1}{t_{\text {mix }}}}} \leq \frac{2 t_{\text {mix }}}{\ln 2} \cdot 2 \cdot 2^{-\frac{N}{t_{\text {mix }}}}=\frac{2 t_{\text {mix }}}{\ln 2} \cdot 2 \cdot \frac{1}{T^4} \leq \frac{1}{T^3}
\end{aligned}
$$


---

**バイアス関数のバウンド**

$$
\begin{aligned}
\left|v^\pi(s)\right| & \leq 5 t_{\text {mix }} \\
\left|q^\pi(s, a)\right| & \leq 6 t_{\text {mix }}
\end{aligned}
$$

**証明**

バイアス関数の定義から，

$$
\begin{aligned}
v^\pi(s)
&=\lim_{T\to \infty} \mathbb{E}^\pi\left[\sum^{T-1}_{t=0}r(s_t, a_t) - J^\pi\mid s_0=s, \pi\right]\\
&=
\sum_{t=0}^{\infty}\left(\mathbf{e}_s^{\top}\left(P^\pi\right)^t-\left(\mu^\pi\right)^{\top}\right) r^\pi
\end{aligned}
$$

が成り立ちます．よって，

$$
\begin{aligned}
\left|v^\pi(s)\right| & =\left|\sum_{t=0}^{\infty}\left(\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right)^{\top} r^\pi\right| \\
& \leq \sum_{t=0}^{\infty}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1\left\|r^\pi\right\|_{\infty} \\
& \leq \sum_{t=0}^{2 t_{\text {mix }}-1}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1+\sum_{i=2}^{\infty} \sum_{t=i t_{\text {mix }}}^{(i+1) t_{\text {mix }}-1}\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \\
& \leq 4 t_{\text {mix }}+\sum_{i=2}^{\infty} 2 \cdot 2^{-i} t_{\text {mix }} \quad \quad\left(\text { by }\left\|\left(P^\pi\right)^t(s, \cdot)-\mu^\pi\right\|_1 \leq 2\right. \text { and Corollary 13.1) } \\
& \leq 5 t_{\text {mix }}
\end{aligned}
$$


ここで，4行目では$t \geq 2t_{mix}$で成り立つ式変形を使ってます．

よって，
$$
\left|q^\pi(s, a)\right|=\left|r(s, a)+\mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v^\pi\left(s^{\prime}\right)\right]\right| \leq 1+5 t_{\text {mix }} \leq 6 t_{\text {mix }}
$$
も成り立ちます．

---

**Performance difference lemma**

$$
J^{\tilde{\pi}}-J^\pi=\sum_s \sum_a \mu^{\tilde{\pi}}(s)(\tilde{\pi}(a \mid s)-\pi(a \mid s)) q^\pi(s, a)
$$

**証明**

$$
\begin{aligned}
& \sum_s \sum_a \mu^{\tilde{\pi}}(s) \tilde{\pi}(a \mid s) q^\pi(s, a) \\
& =\sum_s \sum_a \mu^{\tilde{\pi}}(s) \tilde{\pi}(a \mid s)\left(r(s, a)-J^\pi+\sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v^\pi\left(s^{\prime}\right)\right) \\
& =J^{\tilde{\pi}}-J^\pi+\sum_{s^{\prime}} \mu^{\tilde{\pi}}\left(s^{\prime}\right) v^\pi\left(s^{\prime}\right) \\
& =J^{\tilde{\pi}}-J^\pi+\sum_s \mu^{\tilde{\pi}}(s) v^\pi(s) \\
& =J^{\tilde{\pi}}-J^\pi+\sum_s \sum_a \mu^{\tilde{\pi}}(s) \pi(a \mid s) q^\pi(s, a)
\end{aligned}
$$

---

## Weakly Communicating MDP

MDPの状態が次の２つに分割できる場合，そのMDPのことをWeakly communicatingと呼びます．
1. すべての状態が，任意の定常方策について，transientである．
2. 任意の２つの状態を行き来できる定常方策が存在する．

この仮定がない場合は平均報酬でLow regretを達成するのは無理らしいです．（[REGAL: A Regularization based Algorithm for Reinforcement Learning in Weakly Communicating MDPs](https://arxiv.org/abs/1205.2661)を読もう）

表記：
* 平均総報酬：$J^\pi(s):=\liminf _{T \rightarrow \infty} \frac{1}{T} \mathbb{E}\left[\sum_{t=1}^T r\left(s_t, \pi\left(s_t\right)\right) \mid s_1=s\right]$
    * 最適ベルマン方程式：$J^*+q^*(s, a)=r(s, a)+\mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v^*\left(s^{\prime}\right)\right]$
    * Weakly communicatingでは全ての$s$で$J^*(s)=J^*$な$J^*$が存在する．
    * ここで，$q^*$は（定数項を除けば）唯一に定まる．
* リグレット：$R_T:=\sum_{t=1}^T\left(J^*-r\left(s_t, a_t\right)\right)$．最適な平均報酬から，道中で出会った報酬を引いた値．
* Span：$\operatorname{sp}\left(v^*\right)=\max _s v^*(s)-\min _s v^*(s)$
* 割引報酬の表記：
$$
\begin{aligned}
\forall(s, a), & Q_\gamma^*(s, a) & =r(s, a)+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[V_\gamma^*\left(s^{\prime}\right)\right] \\
\forall s, & V_\gamma^*(s) & =\max _{a \in \mathcal{A}} Q_\gamma^*(s, a) .
\end{aligned}
$$



---

**最適な平均報酬と割引報酬の差**

1. $\left|J^*-(1-\gamma) V_\gamma^*(s)\right| \leq(1-\gamma) \operatorname{sp}\left(v^*\right), \forall s \in \mathcal{S}$,
2. $\operatorname{sp}\left(V_\gamma^*\right) \leq 2 \operatorname{sp}\left(v^*\right)$.

つまり，$\gamma$が１に近いときは割引なしの価値と（$(1-\gamma)$でスケールした）ありの価値の差がほぼありません．

**証明**

平均報酬のベルマン方程式より，

$$
v^*(s)=r\left(s, \pi^*(s)\right)-J^*+\mathbb{E}_{s^{\prime} \sim p\left(\cdot \mid s, \pi^*(s)\right)} v^*\left(s^{\prime}\right)
$$

が成立します．ここで，$\pi^*$の割引設定におけるsub-optimalityを考えると，

$$
\begin{aligned}
V_\gamma^*\left(s_1\right) & = \mathbb{E}\left[\sum_{t=1}^{\infty} \gamma^{t-1} r\left(s_t, \pi^*\left(s_t\right)\right) \mid s_1\right] \\
& =\mathbb{E}\left[\sum_{t=1}^{\infty} \gamma^{t-1}\left(J^*+v^*\left(s_t\right)-v^*\left(s_{t+1}\right)\right) \mid s_1\right] \\
& =\frac{J^*}{1-\gamma}+v^*\left(s_1\right)-\mathbb{E}\left[\sum_{t=2}^{\infty}\left(\gamma^{t-2}-\gamma^{t-1}\right) v^*\left(s_t\right) \mid s_1\right] \\
& \geq \frac{J^*}{1-\gamma}+\min _s v^*(s)-\max _s v^*(s) \underbrace{\sum_{t=2}^{\infty}\left(\gamma^{t-2}-\gamma^{t-1}\right)}_{1 - \gamma + \gamma - ...} \\
& =\frac{J^*}{1-\gamma}-\operatorname{sp}\left(v^*\right),
\end{aligned}
$$
２行目は報酬をベルマン方程式で変形しました．

同様にして，

$$
\begin{aligned}
V_\gamma^*\left(s_1\right) & =\mathbb{E}\left[\sum_{t=1}^{\infty} \gamma^{t-1} r\left(s_t, \pi_\gamma\left(s_t\right)\right) \mid s_1\right] \\
& = \mathbb{E}\left[\sum_{t=1}^{\infty} \gamma^{t-1}\left(J^*+v^*\left(s_t\right)-v^*\left(s_{t+1}\right)\right) \mid s_1\right] \\
& =\frac{J^*}{1-\gamma}+v^*\left(s_1\right)-\mathbb{E}\left[\sum_{t=2}^{\infty}\left(\gamma^{t-2}-\gamma^{t-1}\right) v^*\left(s_t\right) \mid s_1\right] \\
& \leq \frac{J^*}{1-\gamma}+\max _s v^*(s)-\min _s v^*(s) \underbrace{\sum_{t=2}^{\infty}\left(\gamma^{t-2}-\gamma^{t-1}\right)}_{1 - \gamma + \gamma - \dots} \\
& =\frac{J^*}{1-\gamma}+\operatorname{sp}\left(v^*\right),
\end{aligned}
$$

これで１つ目は証明完了です．続いて，

$$
\left|V_\gamma^*\left(s_1\right)-V_\gamma^*\left(s_2\right)\right| \leq\left|V_\gamma^*\left(s_1\right)-\frac{J^*}{1-\gamma}\right|+\left|V_\gamma^*\left(s_2\right)-\frac{J^*}{1-\gamma}\right| \leq 2 \operatorname{sp}\left(v^*\right)
$$

より，２つ目が成立します．

---

**バイアスのスパンのバウンド**

* [REGAL: A Regularization based Algorithm for Reinforcement Learning in Weakly Communicating MDPs](https://arxiv.org/abs/1205.2661)の定理４

任意の状態$s_1, s_2$と任意の方策$\pi$について，

$$
v^{\star}\left(s_2\right)-v^{\star}\left(s_1\right) \leq \lambda^{\star} T_{s_1 \rightarrow s_2}^\pi
$$

が成り立つ．
ここで$T_{s_1 \rightarrow s_2}^\pi$は$\pi$が$s_1$から$s_2$へ到達する期待ステップ数を表します．

**証明**

まずaperiodicなweakly communicatingなMDPを考えます．
このとき，価値反復法が収束することがしられてます．つまり，
$v^{n+1}=\mathcal{T} v^n$を考えると，

$$
\lim _{n \rightarrow \infty} v^n\left(s_1\right)-v^n\left(s_2\right)=h^{\star}\left(s_1\right)-h^{\star}\left(s_2\right)
$$

です．ここで，$v^0=\boldsymbol{0}$とすると，$v^n=V^n$です．ここで，$V^n(s)$は状態$s$から$n$ステップ経過した際に得られる最大の期待報酬です．
よって，
$$
\lim _{n \rightarrow \infty} V^n\left(s_2\right)-V^n\left(s_1\right)=h^{\star}\left(s_2\right)-h^{\star}\left(s_1\right)
$$
です．

さて，次の$n$-ステップの非定常方策を考えましょう．
* $s_1$から$s_2$に至るまでは$\pi$を使います．これが$\tau$ステップ目に起きるとします．
* 以降は$n-\tau$-ステップ最適な方策を使います

このとき，$\tau$は確率変数であり，$\mathbb{E}[\tau]=T_{s_1 \rightarrow s_2}^\pi$です．
そして，得られる期待リターンは$\mathbb{E}\left[V^{n-\tau}\left(s_2\right)\right]$です．これは$n$-ステップ最適リターンよりも必ず小さくなります．つまり，
$$
V^n\left(s_1\right) \geq \mathbb{E}\left[V^{n-\tau}\left(s_2\right)\right]
$$
よって，
$$
\begin{aligned}
h^{\star}\left(s_2\right)-h^{\star}\left(s_1\right) & =\lim _{n \rightarrow \infty} V^n\left(s_2\right)-V^n\left(s_1\right) \\
& \leq \lim _{n \rightarrow \infty} V^n\left(s_2\right)-\mathbb{E}\left[V^{n-\tau}\left(s_2\right)\right] \\
& =\lim _{n \rightarrow \infty} \mathbb{E}\left[V^n\left(s_2\right)-V^{n-\tau}\left(s_2\right)\right] \\
& =\mathbb{E}\left[\lim _{n \rightarrow \infty} V^n\left(s_2\right)-V^{n-\tau}\left(s_2\right)\right] \\
& =\mathbb{E}\left[\lambda^{\star} \tau\right] \\
& =\lambda^{\star} T_{s_1 \rightarrow s_2}^\pi .
\end{aligned}
$$

です．よってaperiodicなときは成立します．続いて，periodicなときは次のaperiodicity transformが使えます：

$$
\begin{aligned}
\tilde{r}(s, a) & =\theta r(s, a) \\
\tilde{P}_{s, a} & =(1-\theta) \mathbf{e}_s+\theta P_{s, a}
\end{aligned}
$$

ここで，$\theta \in (0, 1)$です．これを$\tilde{M}$としましょう．このとき，

$$
\begin{aligned}
\tilde{h}^{\star} & =h^{\star} \\
\tilde{\lambda}^{\star} & =\theta \lambda^{\star} \\
\tilde{T}_{s_1 \rightarrow s_2}^\pi & =\frac{T_{s_1 \rightarrow s_2}^\pi}{\theta}
\end{aligned}
$$

が成り立つことがすぐにわかります（証明）．

よって，
$$
\begin{aligned}
h^{\star}\left(s_2\right)-h^{\star}\left(s_1\right) & =\tilde{h}^{\star}\left(s_2\right)-\tilde{h}^{\star}\left(s_1\right) \\
& \leq \tilde{\lambda}^{\star} \tilde{T}_{s_1 \rightarrow s_2}^\pi \\
& =\theta \lambda^{\star} \frac{T_{s_1 \rightarrow s_2}^\pi}{\theta} \\
& =\lambda^{\star} T_{s_1 \rightarrow s_2}^\pi
\end{aligned}
$$
です．

---



**エピソード回数のバウンド**

* [Near-optimal Regret Bounds for Reinforcement Learning](https://www.jmlr.org/papers/volume11/jaksch10a/jaksch10a.pdf)のAppendix C.2

下のスタイルのアルゴリズム（UCRL2など）の解析などで便利です．

各エピソード$k=1, 2, \dots$において，
1. $t_k$は現在の時刻です
5. どれかの$s, a$が$N_k(s, a)$回訪問されるまで$\pi^k$を実行します．

このとき，$T \geq $SA$ステップ目までのエピソードの数$m$は,
$$
m \leq S A \log _2\left(\frac{8 T}{S A}\right)
$$
でバウンドされる．

**証明**

（TODO: 論文をちゃんと読もう）

$$
N(s, a):=\#\left\{\mathrm{~T}<T+1: s_{\mathrm{T}}=s, a_{\mathrm{T}}=a\right\}
$$
を$(s, a)$を$T$ステップ目までに訪問した回数とします．各エピソード$k < m$では，$\nu_k(s, a)=N_k(s, a)$である状態行動が存在します（もしくは$v_k(s, a)=1, N_k(s, a)=0$）
