# MDPにおける占有率の理論

## 非定常（定常）方策の占有率の集合は凸集合 （可算集合の場合）

参考
* [A Convex Analytic Approach to Markov Decision Processes](https://link.springer.com/content/pdf/10.1007/BF00353877.pdf)

$\mathcal{S}$と$\mathcal{A}$を可算な状態と行動集合とします．
$\mathcal{M}(\mathcal{S}, \mathcal{A})$を$\mathcal{S}\times \mathcal{A}$上の測度とし，$\mathcal{R}$を全ての**非定常**方策$\pi \in \Pi$によって生成される占有率の集合とします．（今回は非定常方策について証明しますが，非定常方策の占有率は定常方策で表せるので，定常方策についても成り立ちます．[On the Occupancy Measure of Non-Markovian Policies in Continuous MDPs](https://proceedings.mlr.press/v202/laroche23a.html)のTheorem 1など参照．）

$$
\mathcal{R}:=\left\{\rho \in \mathcal{M}(\mathcal{S}, \mathcal{A}) \mid \rho(s, a)=(1-\gamma)\left(\sum_{t=0}^{\infty} \gamma^t p_\pi\left(s_t=s, a_t=a\right)\right)\right\}
$$

このとき, $\mathcal{R}$が凸集合であることを証明しましょう．（コンパクトの方は有限集合にして省略します）．
つまり，任意の$\rho_1, \rho_2 \in \mathcal{R}$と任意の$\mu \in [0, 1]$について，

$$\rho = \mu \rho_1 + (1 - \mu) \rho_2 \in \mathcal{R}$$

を証明します．
まず，

$$
\rho^n(s, a)=\frac{1}{\sum^n_{i=0}\gamma^i}\left(\sum_{t=0}^{n} \gamma^t p_\pi\left(s_t=s, a_t=a\right)\right)
$$

として，

$$
\mathcal{R}^n:=\left\{\rho^n \in \mathcal{M}(\mathcal{S}, \mathcal{A}) \mid \rho^n(s, a)=\frac{1}{\sum^n_{i=0}\gamma^i}\left(\sum_{t=0}^{n} \gamma^t p_\pi\left(s_t=s, a_t=a\right)\right)\right\}
$$

とします．目的の証明は，任意の$n$について

$$\rho^n = \mu \rho^n_1 + (1 - \mu) \rho^n_2 \in \mathcal{R}^n$$

を証明すれば大丈夫です．
以降，$\rho^n_1$に対応する方策を$\pi_1$，$\rho^n_2$に対応する方策を$\pi_2$とします．


### $n=0$のとき

これは自明に成り立ちます．

$$
\rho_1^0(s, a)=p_{\pi_1}\left(s_0=s, a_0=a\right) = \alpha(s)\pi^0_1(a|s)
$$

および
$$
\rho_2^0(s, a)=p_{\pi_2}\left(s_0=s, a_0=a\right) = \alpha(s)\pi^0_2(a|s)
$$
なので，

$$
\begin{aligned}
\rho^0(s, a) = \mu \rho^0_1 + (1 - \mu) \rho^0_2 
&= \mu\alpha(s)\pi^0_1(a|s) + (1 - \mu)\alpha(s)\pi^0_2(a|s)\\
&= \alpha(s)\left(\mu\pi^0_1(a|s) + (1 - \mu)\pi^0_2(a|s)\right)
\end{aligned}
$$
です．よって，$\pi^0_\mu = \mu\pi^0_1(a|s) + (1 - \mu)\pi^0_2(a|s)$とすると，$n=0$のときは$\rho^0\in \mathcal{R}^n$を満たす方策が存在します．

### $n+1$のとき

何らかの$n$で$\rho^n = \mu \rho_1^n + (1 - \mu)\rho_2^n \in \mathcal{R}^n$であるとします．

$n+1$のときを考えましょう．
定義より，
$$
\begin{aligned}
\rho^{n+1}(s, a) = \mu \rho^{n+1}_1(s, a) + (1 - \mu) \rho^{n+1}_2 (s, a)
\end{aligned}
$$
です．

ここで，

$$
\rho^{n+1}_1(s, a) = \sum_{s', a'} \rho_1^{n}(s', a') P(s|s', a') \pi_1^{n+1}(a|s)
$$
が成り立ちます（$\rho^{n+1}_2(s, a)$も同様にして分解できます．）
すると，

$$
\begin{aligned}
\rho^{n+1}(s, a) 
&= \mu \rho^{n+1}_1(s, a) + (1 - \mu) \rho^{n+1}_2 (s, a)\\
&= \mu \sum_{s', a'} \rho_1^{n}(s', a') P(s|s', a') \pi_1^{n+1}(a|s)
+ (1 - \mu) \sum_{s'', a''} \rho_2^{n}(s'', a'') P(s|s'', a'') \pi_2^{n+1}(a|s)\\
&= \sum_{s', a'} P(s|s', a') \left(\mu \rho_1^{n}(s', a') \pi_1^{n+1}(a|s) + (1 - \mu) \rho_2^{n}(s', a')\pi_2^{n+1}(a|s)\right)
\end{aligned}
$$

ここで，
$\left(\mu \rho_1^{n}(s', a') \pi^{n+1}_1(a|s) + (1 - \mu) \rho_2^{n}(s', a')\pi^{n+1}_2(a|s)\right)= \rho^n(s', a')\pi(a|s)$となる$\pi$が存在すると，
$$\rho^{n+1}(s, a) = \sum_{s', a'} P(s|s', a')\pi(a|s)\rho^n(s', a')$$
になります．
よって，$1, \cdots, n$までは$\rho^n$を達成する方策$\pi$を考え，$n+1$で$\pi$とすれば，$\rho^{n+1}\in \mathcal{R}^{n+1}$が成立します．

あとはこのような$\pi$が存在することを示すだけですね．

**$\left(\mu \rho_1^{n}(s', a') \pi^{n+1}_1(a|s) + (1 - \mu) \rho_2^{n}(s', a')\pi^{n+1}_2(a|s)\right)= \rho^n(s', a')\pi(a|s)$となる$\pi$の存在**


$A=\mu \rho_1^{n}(s', a')$, $B=(1 - \mu) \rho_2^{n}(s', a')$, $\alpha = \pi^{n+1}_1(a|s)$, $\beta = \pi^{n+1}_2(a|s)$, $\gamma = \pi(a|s)$とおくと，
上の式は

$A\alpha + B\beta = (A+B)\gamma$なので，$\gamma = \frac{A}{A+B} \alpha + \frac{B}{A+B}\beta$とすれば成り立ちます．
$A+B=0$のときは$\gamma=0$とすればよいです．これは明らかに方策として成り立っているので，この$\pi$は存在します．

よって$n+1$についても
$\rho^{n+1} = \mu \rho_1^{n+1} + (1 - \mu)\rho_2^{n+1} \in \mathcal{R}^{n+1}$
です．

## 非定常方策と同じ占有率をもつ定常方策は存在するか？ （連続集合の場合）

上では可算状態行動集合では占有率が同じ定常方策が存在することを使いましたが，これは連続な状態行動集合でも存在するのでしょうか？

* [On the Occupancy Measure of Non-Markovian Policies in Continuous MDPs](https://proceedings.mlr.press/v202/laroche23a.html)

用語と定義：

* 任意の集合$\mathcal{X}$にはσ代数$\Sigma_{\mathcal{X}}$とその上で定義された測度$\mu_{\mathcal{X}}$が存在するとします．
* $\mathcal{P}(\Sigma_\mathcal{X})$を$\Sigma_\mathcal{X}$上の確率測度（確率分布）の集合とします．
* MDP $m=(\mathcal{S}, \mathcal{A}, p_0, p, r, \gamma)$
  * $p_0(\cdot) \in \mathcal{P}(\Sigma_{\mathcal{S}} \times \{\emptyset, \{s_f\}\})$は初期分布
  * $p(\cdot \mid s, a) \in \mathcal{P}(\Sigma_{\mathcal{S}} \times \{\emptyset, \{s_f\}\})$は遷移カーネル
  * $s_f \notin \mathcal{S}$はエピソードが終了する終端状態とします．

* 方策：$h_t=\langle s_0, a_0, r_0, \dots, s_{t-1}, a_{t-1}, r_{t-1}, s_t \rangle$から分布にマップする関数．$\pi(\cdot \mid h_t) \in \mathcal{P}(\Sigma_{\mathcal{A}})$
  * 方策の集合：$\Pi$
* マルコフ方策 $\Pi_\mathrm{M}$：方策が履歴ではなく$s_t$にだけ依存する場合．つまり，$\pi(\cdot \mid h_t)=\pi(\cdot \mid s_t) \in \mathcal{P}(\Sigma_{\mathcal{A}})$
  * 決定的マルコフ方策 $\Pi_\mathrm{DM}$

ここで，適当な測度に対して，次の$\sigma$-有限性を導入します．

---

**$\sigma$-finiteness**

可測空間$(\mathcal{X}, \Sigma_{\mathcal{X}})$に対して，測度$\mu$が$\mu(\mathcal{X}) < +\infty$を満たす場合，$\mu$は有限であるという．

また，

---