### Occupancy measureとPrimal LP


* Occupancy measureとは、ある方策および初期状態において、各状態行動ペアがどれだけその方策によって訪れられたかを示す指標です。

* 初期状態分布$\beta$、方策 $u$、状態行動ペア $(x, a)$ ,$X_t$ と $A_t$ は時刻 $t$ における状態と行動、$P_{\beta}^{u}$ は初期分布 $\beta$ と方策 $u$ のもとでの確率測度に対して、Occupancy measure $f_{\alpha}(\beta, u; x, a)$ は次のように定義されます。

$$
f_{\alpha}(\beta, u; x, a) \stackrel{\text { def }}{=}(1-\alpha) \sum_{t=1}^{\infty} \alpha^{t-1} P_{\beta}^{u}\left(X_{t}=x, A_{x}=a\right), \quad x \in \mathbf{X}, a \in \mathrm{~A}(x)
$$

In [15]:
import numpy as np

alpha = 0.1
S =2
A =2
transition = np.zeros((S,A,S))
transition[0,0,0] = 0.9
transition[0,0,1] = 0.1
transition[0,1,0] = 0.1
transition[0,1,1] = 0.9
transition[1,0,0] = 0.9
transition[1,0,1] = 0.1
transition[1,1,0] = 0.1
transition[1,1,1] = 0.9
#random s,a trajectory
s = np.random.randint(0,S)
a = np.random.randint(0,A)
trajectory = [] 
for i in range(100):
    trajectory.append((s,a))
    s = np.random.choice(S,p=transition[s,a,:])
    a = np.random.randint(0,A)

def occupancy_measure(trajectory,s,a,alpha):
    sum = 0
    for i in range(len(trajectory)):
        sum += alpha**(len(trajectory)-i)* (trajectory[i][0] == s and trajectory[i][1] == a)
    return sum

occupancy_measure(trajectory,1,0,alpha)

0.10000010010101

#### Occupancy measureからPrimal LPへ
* Occupancy measureを用いてコスト関数を表現することで、のちの線形計画問題を解くことができます。この説ではOccupancy measureをなぜ用いるのか？もちいたことでなにがうれしいのかを説明した定理を説明していきます。

##### 完全性(定理3.1)
* 完全性とは、任意のすべての何かに対して、その部分集合のみからそのすべてを表現できるといったニュアンスです。具体的に行きましょう。任意の方策のクラス $\bar{U}$ に対して、$\mathbf{L}_{\bar{U}}^{\alpha}(\beta)=\bigcup_{u \in \bar{U}} f_{\alpha}(\beta, u)$ と定義します。任意の方策サブクラスに対応するOccupancy measureの集合ですね。

* 方策クラス$\bar{U}$が、割引MDPに対して完全であるとは、$\mathbf{L}^{\alpha}(\beta)=\mathbf{L} \frac{\alpha}{U}(\beta)$ が成立するということです。左辺はすべての方策クラスに対応するOccupancy measureであり、右辺は方策サブクラスに対応するOccupancy measureです。等式でつながっていますが、集合間の等式ですので、要素から要素数すべて等しいという意味になります。$\bar{U}$に属する方策のみですべての方策にたいするOccupancy measureを表現できるというわけです。これは次の定理につながります。

**定理3.1(定常方策の集合は完全)**

任意の方策 $u$ に対して、同じ$f_{\alpha}(\beta, u)$ を生成する定常方策 $w$ が存在する。

* 定常方策クラスに対応したOccupancy measureは任意の方策クラスと同等であるわけです。つまり定常方策についてOccupancy measureに関連した問題を解くことは任意の方策クラスについて考えることと同じというわけです。

**TODO proof**

**定理3.2(Occupancy measureの性質)**

* $\mathbf{L}_{U_{S}}^{\alpha}(\beta)$ は **閉じたポリトープ** である。



