## RMDP

MDPにおける遷移関数モデルや報酬関数モデルのパラメータが正確に把握できない状況により、各モデルに不確実性が生じる場合を想定します。RMDPでは、モデルの不確実性を考慮しながら最適方策を求めるアプローチの1つです。RMDPは、真の遷移関数が不確実性集合という遷移関数の集合の中に属すると仮定し、不確実性集合内の最悪ケース(総報酬が低くなるor総コストが高くなる)遷移関数において、報酬が高くなるor総コストが低くなる方策(ロバスト方策)を求めます。



## 不確実性集合
不確実性集合に仮定を置かない一般的なRMDPを解くことはNP困難になる可能性があります(Wiesemann et al., 2013)[75]。これに対し、不確実性集合に対して$(s,a)or(s)$-rectangular、という仮定を置くことを考えます。仮定により、動的計画法を用いてRMDPを解くことが可能となり、near-optimalなロバスト方策を獲得することができます。

### 仮定：$(s,a),(s)$-rectangular

**$(s,a)$-rectangular**
不確実性集合を$\mathcal{P}$と仮定します。以下を満たす場合、$\mathcal{P}$は$(s,a)$-rectangular setsと呼ばれます。$X$は直積を示しています。$\mathcal{P}_{s, a} \subseteq \Delta(\mathcal{S})$(状態に対する確率単体の部分集合)

$$
\mathcal{P}=\underset{(s, a) \in \mathcal{S} \times \mathcal{A}}{X} \mathcal{P}_{s, a}
$$
**解説と例**
$\mathcal{P}_{s, a}$は、$s,a \in \mathcal{S},{A}$を入力した場合に、$s\in S$の確率を出力する関数の集合ととらえることができます。$\underset{(s, a) \in \mathcal{S} \times \mathcal{A}}{X} \mathcal{P}_{s, a}$は任意の$s,a$に対して$s\in S$の確率を出力する関数の集合が存在するということを意味しています。
$|S|=2,|A|=2$を考えます。$\mathcal{P}_{1, 1},\mathcal{P}_{1, 2},\mathcal{P}_{2, 1},\mathcal{P}_{2, 2} \subseteq \Delta(\mathcal{S})$とします。
- $\mathcal{P}_{1,1} = {(P(1|1,1)=0.1, P(2|1,1)=0.9), (P(1|1,1)=0.7, P(2|1,1)=0.3)}$
- $\mathcal{P}_{1,2} = {(P(1|1,2)=0.4, P(2|1,2)=0.6), (P(1|1,2)=0.8, P(2|1,2)=0.2)}$
- $\mathcal{P}_{2,1} = {(P(1|2,1)=0.5, P(2|2,1)=0.5), (P(1|2,1)=0.6, P(2|2,1)=0.4)}$
- $\mathcal{P}_{2,2} = {(P(1|2,2)=0.3, P(2|2,2)=0.7), (P(1|2,2)=0.2, P(2|2,2)=0.8)}$
のようにあらわされます。

**$(s)$-rectangular**
$\mathcal{P}_{s} \subseteq \Delta(\mathcal{S})^{|\mathcal{A}|}$ であり、$\Delta(\mathcal{S})^{|\mathcal{A}|}:=\left\{\left(P_{a}\right)_{a \in \mathcal{A}} \mid P_{a} \in \Delta(\mathcal{S})\right.$, for all $\left.a \in \mathcal{A}\right\}$
とします。同様に、以下を満たす場合、$\mathcal{P}$は$(s)$-rectangular setsと呼ばれます。
$$
\mathcal{P}=\underset{s \in \mathcal{S}}{X} \mathcal{P}_{s}
$$
**解説と例**
$\mathcal{P}_{s}$は任意の$s$を入力とし、その$s$のうえで実行できる$a$について、その遷移確率すべてを要素とした集合の部分集合といえます。各 $\mathcal{P}_{s} \subseteq \Delta(\mathcal{S})^{|\mathcal{A}|}$ は次のように表されます：
- $\mathcal{P}_{1} = {((P(1|1,1)=0.1, P(2|1,1)=0.9), (P(1|1,2)=0.4, P(2|1,2)=0.6)),\\((P(1|1,1)=0.7, P(2|1,1)=0.3), (P(1|1,2)=0.8, P(2|1,2)=0.2))}$
- $\mathcal{P}_{2} = {((P(1|2,1)=0.5, P(2|2,1)=0.5), (P(1|2,2)=0.3, P(2|2,2)=0.7)),\ ((P(1|2,1)=0.6, P(2|2,1)=0.4), (P(1|2,2)=0.2, P(2|2,2)=0.8))}$

### 不確実性集合の例




#### (コラム)なぜ不確実性集合に仮定を置かないとNP困難なのか



## RMDPを解く(関連研究)


### 動的計画法

(Iyengar, 2005; Nilim & El Ghaoui, 2005; Kaufman & Schaefer, 2013; Ho et al., 2021)

### 非凸二重ループアルゴリズム(RMDPではない)

Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems

Solving a Class of Non-Convex Min-Max Games Using Iterative First Order Methods

(Jin et al., 2020; Luo et al., 2020; Razaviyayn et al., 2020; Zhang et al., 2020）


* 内側ループを一定以上の精度で解ければ、rectangluarの仮定がなくても最適方策を学習できます(←まじ？)。
### 方策勾配法 for RMDP
* 拡張Mirror discent法Li et al., 2022
	* (s,a)-rectangularを仮定したうえで解かれている。

## 情報の断片
**遷移、報酬の推定誤差が及ぼす影響**
Mannorらは、価値関数が、遷移関数や報酬関数の推定誤差に敏感であるという可能性を示しました。


**RMDPは何に対してロバストか**
RMDPの解(最適価値関数)は遷移確率や報酬関数の推定誤差に鈍感です。つまり推定誤差に対してロバストです。

**rectangularあれこれ**
* 低ランクMDP（線形MDP）の場合、$r$-rectangularという仮定を使う。
* $s$-rectangularは(s,a)-rectangularより保守的[75]であり、この仮定を用いた研究は、(Le Tallec, 2007; Wiesemann et al., 2013; Derman et al., 2021; Wang et al., 2022)です。

**RMDPの課題**
* RMDPの総報酬(=価値関数)は方策に関して微分可能ではないし、凸でもないです。つまり劣勾配は存在しない。(劣勾配は、必ずしも微分可能でない凸関数の上で定義されるため)
* 価値関数をモロー包絡線という凸性をもった関数で近似することを考えますが、RMDPにおいては最適方策を獲得するために十分であることが示されています。
* 近似することで凸になるので劣勾配を求めることができ、射影勾配法が使えるのでは

