## ロバストマルコフ決定過程の基礎


MDPにおける遷移関数モデルや報酬関数モデルのパラメータが正確に把握できない状況により、各モデルに不確実性が生じる場合を想定します。RMDPでは、モデルの不確実性を考慮しながら最適方策を求めるアプローチの1つです。RMDPは、真の遷移関数が不確実性集合という遷移関数の集合の中に属すると仮定し、不確実性集合内の最悪ケース(総報酬が低くなるor総コストが高くなる)遷移関数において、報酬が高くなるor総コストが低くなる方策(ロバスト方策)を求めます。



## 不確実性集合
不確実性集合に仮定を置かない一般的なRMDPを解くことはNP困難になる可能性があります(Wiesemann et al., 2013)[75]。これに対し、不確実性集合に対して$(s,a)or(s)$-rectangular、という仮定を置くことを考えます。仮定により、動的計画法を用いてRMDPを解くことが可能となり、near-optimalなロバスト方策を獲得することができます。

### 仮定：$(s,a),(s)$-rectangular

**$(s,a)$-rectangular**
不確実性集合を$\mathcal{P}$と仮定します。以下を満たす場合、$\mathcal{P}$は$(s,a)$-rectangular setsと呼ばれます。$X$は直積を示しています。$\mathcal{P}_{s, a} \subseteq \Delta(\mathcal{S})$(状態に対する確率単体の部分集合)

$$
\mathcal{P}=\underset{(s, a) \in \mathcal{S} \times \mathcal{A}}{X} \mathcal{P}_{s, a}
$$
**解説と例**
$\mathcal{P}_{s, a}$は、$s,a \in \mathcal{S},{A}$を入力した場合に、$s\in S$の確率を出力する関数の集合ととらえることができます。$\underset{(s, a) \in \mathcal{S} \times \mathcal{A}}{X} \mathcal{P}_{s, a}$は任意の$s,a$に対して$s\in S$の確率を出力する関数の集合が存在するということを意味しています。
$|S|=2,|A|=2$を考えます。$\mathcal{P}_{1, 1},\mathcal{P}_{1, 2},\mathcal{P}_{2, 1},\mathcal{P}_{2, 2} \subseteq \Delta(\mathcal{S})$とします。
- $\mathcal{P}_{1,1} = {(P(1|1,1)=0.1, P(2|1,1)=0.9), (P(1|1,1)=0.7, P(2|1,1)=0.3)}$
- $\mathcal{P}_{1,2} = {(P(1|1,2)=0.4, P(2|1,2)=0.6), (P(1|1,2)=0.8, P(2|1,2)=0.2)}$
- $\mathcal{P}_{2,1} = {(P(1|2,1)=0.5, P(2|2,1)=0.5), (P(1|2,1)=0.6, P(2|2,1)=0.4)}$
- $\mathcal{P}_{2,2} = {(P(1|2,2)=0.3, P(2|2,2)=0.7), (P(1|2,2)=0.2, P(2|2,2)=0.8)}$
のようにあらわされます。

**$(s)$-rectangular**
$\mathcal{P}_{s} \subseteq \Delta(\mathcal{S})^{|\mathcal{A}|}$ であり、$\Delta(\mathcal{S})^{|\mathcal{A}|}:=\left\{\left(P_{a}\right)_{a \in \mathcal{A}} \mid P_{a} \in \Delta(\mathcal{S})\right.$, for all $\left.a \in \mathcal{A}\right\}$
とします。同様に、以下を満たす場合、$\mathcal{P}$は$(s)$-rectangular setsと呼ばれます。
$$
\mathcal{P}=\underset{s \in \mathcal{S}}{X} \mathcal{P}_{s}
$$
**解説と例**
$\mathcal{P}_{s}$は任意の$s$を入力とし、その$s$のうえで実行できる$a$について、その遷移確率すべてを要素とした集合の部分集合といえます。各 $\mathcal{P}_{s} \subseteq \Delta(\mathcal{S})^{|\mathcal{A}|}$ は次のように表されます：
- $\mathcal{P}_{1} = {((P(1|1,1)=0.1, P(2|1,1)=0.9), (P(1|1,2)=0.4, P(2|1,2)=0.6)),\\((P(1|1,1)=0.7, P(2|1,1)=0.3), (P(1|1,2)=0.8, P(2|1,2)=0.2))}$
- $\mathcal{P}_{2} = {((P(1|2,1)=0.5, P(2|2,1)=0.5), (P(1|2,2)=0.3, P(2|2,2)=0.7)),\ ((P(1|2,1)=0.6, P(2|2,1)=0.4), (P(1|2,2)=0.2, P(2|2,2)=0.8))}$

### 不確実性集合の例




#### (コラム)なぜ不確実性集合に仮定を置かないとNP困難なのか





## RMDPを解く(関連研究)


### ロバスト動的計画法
(Iyengar, 2005; Nilim & El Ghaoui, 2005; Kaufman & Schaefer, 2013; Ho et al., 2021)

#### 準備
Iyengarの研究を取り上げます。最初に、割引無限マルコフ決定過程を定義し,いくつかの関数を用意します。(kitamuraさん)
1. 有限状態集合: $S=\{1, \dots, |S|\}$
2. 有限行動集合: $A=\{1, \dots, |A|\}$
3. 遷移確率行列: $P\in \mathbb{R}^{SA\times S}$
4. 報酬行列: $r\in \mathbb{R}^{S\times A}$
5. 割引率: $\gamma \in [0, 1)$
6. 初期状態: $\mu \in \mathbb{R}^{S}$

* ``compute_greedy_policy``: Q関数 ($H\times S \times A \to \mathcal{R}$) の貪欲方策を返します
* ``compute_optimal_Q``: MDPの最適Q関数 $q_* : H\times S \times A \to \mathcal{R}$ を返します。
* ``compute_policy_Q``: 方策 $\pi$ のQ関数 $q_\pi : H\times S \times A \to \mathcal{R}$ を返します。
* ``sample_next_state``: ステップ・状態・行動の集合$D$のそれぞれについて次状態を$N$個返します

In [6]:
import numpy as np
import jax.numpy as jnp
from jax.random import PRNGKey
import jax
from typing import NamedTuple, Optional
from functools import partial
import chex

key = PRNGKey(0)

S = 10  # 状態集合のサイズ
A = 3  # 行動集合のサイズ
S_set = jnp.arange(S)  # 状態集合
A_set = jnp.arange(A)  # 行動集合
gamma = 0.8  # 割引率


# 報酬行列を適当に作ります
key, _ = jax.random.split(key)
rew = jax.random.uniform(key=key, shape=(S, A))
assert rew.shape == (S, A)


# 遷移確率行列を適当に作ります
key, _ = jax.random.split(key)
P = jax.random.uniform(key=key, shape=(S*A, S))
P = P / jnp.sum(P, axis=-1, keepdims=True)  # 正規化して確率にします
P = P.reshape(S, A, S)
np.testing.assert_allclose(P.sum(axis=-1), 1, atol=1e-6)  # ちゃんと確率行列になっているか確認します


# 初期状態分布を適当に作ります
key, _ = jax.random.split(key)
mu = jax.random.uniform(key, shape=(S,))
mu = mu / jnp.sum(mu)
np.testing.assert_allclose(mu.sum(axis=-1), 1, atol=1e-6)  # ちゃんと確率行列になっているか確認します


# 状態集合, 行動集合, 割引率, 報酬行列, 遷移確率行列が準備できたのでMDPのクラスを作ります

class MDP(NamedTuple):
    S_set: jnp.array  # 状態集合
    A_set: jnp.array  # 行動集合
    gamma: float  # 割引率
    H: int  # エフェクティブホライゾン
    rew: jnp.array  # 報酬行列
    P: jnp.array  # 遷移確率行列
    mu: jnp.array  # 初期分布
    optimal_Q: Optional[jnp.ndarray] = None  # 最適Q値
    optimal_V: Optional[jnp.ndarray] = None  # 最適V値

    @property
    def S(self) -> int:  # 状態空間のサイズ
        return len(self.S_set)

    @property
    def A(self) -> int:  # 行動空間のサイズ
        return len(self.A_set)


@jax.jit
def compute_greedy_policy(Q: jnp.ndarray):
    """Q関数の貪欲方策を返します

    Args:
        Q (jnp.ndarray): (SxA)の行列

    Returns:
        greedy_policy (jnp.ndarray): (SxA)の行列
    """
    greedy_policy = jnp.zeros_like(Q)
    S, A = Q.shape
    greedy_policy = greedy_policy.at[jnp.arange(S), Q.argmax(axis=1)].set(1)
    assert greedy_policy.shape == (S, A)
    return greedy_policy


@partial(jax.jit, static_argnames=("S", "A"))
def _compute_optimal_Q(mdp: MDP, S: int, A: int):
    """MDPについて、ベルマン最適作用素を複数回走らせて最適価値関数を動的計画法で計算します。
    Args:
        mdp (MDP)

    Returns:
        optimal_Q (jnp.ndarray): (SxA)の行列
    """

    def backup(optimal_Q):
        next_v = mdp.P @ optimal_Q.max(axis=1)
        assert next_v.shape == (S, A)
        return mdp.rew + mdp.gamma * next_v
    
    optimal_Q = jnp.zeros((S, A))
    body_fn = lambda i, Q: backup(Q)
    return jax.lax.fori_loop(0, mdp.H + 100, body_fn, optimal_Q)

compute_optimal_Q = lambda mdp: _compute_optimal_Q(mdp, mdp.S, mdp.A)


@jax.jit
def compute_policy_Q(mdp: MDP, policy: jnp.ndarray):
    """MDPと方策について、ベルマン期待作用素を複数回走らせて価値関数を動的計画法で計算します。
    Args:
        mdp (MDP)
        policy (jnp.ndarray): (SxA)の行列

    Returns:
        optimal_Q (jnp.ndarray): (SxA)の行列
    """
    S, A = policy.shape
    chex.assert_shape(policy, (mdp.S, mdp.A))

    def backup(policy_Q):
        max_Q = (policy * policy_Q).sum(axis=1)
        next_v = mdp.P @ max_Q
        assert next_v.shape == (S, A)
        return mdp.rew + mdp.gamma * next_v
    
    policy_Q = jnp.zeros((S, A))
    body_fn = lambda i, Q: backup(Q)
    return jax.lax.fori_loop(0, mdp.H + 100, body_fn, policy_Q)


@jax.jit
def compute_policy_matrix(policy: jnp.ndarray):
    """
    上で定義した方策行列を計算します。方策についての内積が取りたいときに便利です。
    Args:
        policy (jnp.ndarray): (SxA)の行列

    Returns:
        policy_matrix (jnp.ndarray): (SxSA)の行列
    """
    S, A = policy.shape
    PI = policy.reshape(1, S, A)
    PI = jnp.tile(PI, (S, 1, 1))
    eyes = jnp.eye(S).reshape(S, S, 1)
    PI = (eyes * PI).reshape(S, S*A)
    return PI

@partial(jax.jit, static_argnames=("N",))
def sample_next_state(mdp: MDP, N: int, key: PRNGKey, D: jnp.array):
    """ 遷移行列Pに従って次の状態をN個サンプルします
    Args:
        mdp (MDP)
        N (int): サンプルする個数
        key (PRNGKey)
        D (jnp.ndarray): 状態行動対の集合 [(s1, a1), (s2, a2), ...]

    Returns:
        new_key (PRNGKey)
        next_s_set (jnp.ndarray): (len(D) x N) の次状態の集合
        count_SAS (jnp.ndarray): 各(状態, 行動, 次状態)のペアの出現回数を格納した(S x A x S) の行列
    """

    # 次状態をサンプルします
    new_key, key = jax.random.split(key)
    keys = jax.random.split(key, num=len(D))
    @jax.vmap
    def choice(key, sa):
        return jax.random.choice(key, mdp.S_set, shape=(N,), p=P[sa[0], sa[1]])
    next_s = choice(keys, D)

    # 集めたサンプルについて、(s, a, ns)が何個出たかカウントします。
    S, A, S = mdp.P.shape
    count_SAS = jnp.zeros((S*A, S))
    count_D_next_S = jax.vmap(lambda next_s: jnp.bincount(next_s, minlength=S, length=S))(next_s)
    D_ravel = jnp.ravel_multi_index(D.T, (S, A), mode="wrap")
    count_SAS = count_SAS.at[D_ravel].add(count_D_next_S)
    return new_key, next_s, count_SAS



H = int(1 / (1 - gamma))
mdp = MDP(S_set, A_set, gamma, H, rew, P, mu)

print("状態数：", mdp.S)
print("行動数：", mdp.A)
print("割引率：", mdp.gamma)
print("ホライゾン：", mdp.H)

状態数： 10
行動数： 3
割引率： 0.8
ホライゾン： 5


#### ロバストVI
![](https://cdn.mathpix.com/cropped/2024_09_18_8d84cb03348f28bfa907g-12.jpg?height=603&width=1237&top_left_y=244&top_left_x=317)

In [None]:
from jax import random
V = jnp.zeros((mdp.S))


def create_state_dependent_transition_matrices(key,S,A):
    """
    状態数分の遷移関数を作ります。
    
    Args:
        key:乱数生成用パラメータ
        S:状態数
        A:行動数
    
    Return:
        transition_matrices:遷移関数の配列
    
    """
    keys = random.split(key,num=S)

    def create_transition_matrix(key):
        P = random.uniform(key, shape=(A, S))  # 各状態について乱数を生成
        P = P / jnp.sum(P, axis=1, keepdims=True)  # 各状態について正規化
        return P
    transition_matrices = jax.vmap(create_transition_matrix)(jnp.array(keys))
    return transition_matrices

key = random.PRNGKey(0)
transition_matrices = create_state_dependent_transition_matrices(key, mdp.S, mdp.A)



    


Transition Matrices Shape: (10, 3, 10)


### 非凸二重ループアルゴリズム(RMDPではない)

Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems

Solving a Class of Non-Convex Min-Max Games Using Iterative First Order Methods

(Jin et al., 2020; Luo et al., 2020; Razaviyayn et al., 2020; Zhang et al., 2020）


* 内側ループを一定以上の精度で解ければ、rectangluarの仮定がなくても最適方策を学習できます(←まじ？)。


### 方策勾配法 for RMDP
* 拡張Mirror discent法Li et al., 2022
	* (s,a)-rectangularを仮定したうえで解かれている。



## 情報の断片
**遷移、報酬の推定誤差が及ぼす影響**
Mannorらは、価値関数が、遷移関数や報酬関数の推定誤差に敏感であるという可能性を示しました。


**RMDPは何に対してロバストか**
RMDPの解(最適価値関数)は遷移確率や報酬関数の推定誤差に鈍感です。つまり推定誤差に対してロバストです。

**rectangularあれこれ**
* 低ランクMDP（線形MDP）の場合、$r$-rectangularという仮定を使う。
* $s$-rectangularは(s,a)-rectangularより保守的[75]であり、この仮定を用いた研究は、(Le Tallec, 2007; Wiesemann et al., 2013; Derman et al., 2021; Wang et al., 2022)です。

**RMDPの課題**
* RMDPの総報酬(=価値関数)は方策に関して微分可能ではないし、凸でもないです。つまり劣勾配は存在しない。(劣勾配は、必ずしも微分可能でない凸関数の上で定義されるため)
* 価値関数をモロー包絡線という凸性をもった関数で近似することを考えますが、RMDPにおいては最適方策を獲得するために十分であることが示されています。
* 近似することで凸になるので劣勾配を求めることができ、射影勾配法が使えるのでは

**RMDPについて**
$$

\min _{\boldsymbol{\pi} \in \Pi} \max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p}):=\boldsymbol{\rho}^{\top} \boldsymbol{v}^{\boldsymbol{\pi}, \boldsymbol{p}}=\sum_{s \in \mathcal{S}} \rho_{s} v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}} \tag{2}
$$
未知の真の遷移カーネルが含まれるようにすることで、(2)の最適方策は実際には信頼性の高いパフォーマンスを実現できます（Russell & Petrik, 2019; Behzadian et al., 2021b; Panaganti et al., 2022）
