## RMDPにおける方策勾配法の大域的最適性証明
[RMDPにおける方策勾配法](https://arxiv.org/abs/2212.10439)の証明を書きます

## 問題設定 
*   **マルコフ決定過程 (MDP):** タプル$\langle\mathcal{S}, \mathcal{A}, \boldsymbol{p}, \boldsymbol{c}, \gamma, \boldsymbol{\rho}\rangle$
    * $\mathcal{S}=\{1, \dots, S\}$: 有限状態集合
    * $\mathcal{A}=\{1, \dots, A\}$: 有限行動集合
    * $\boldsymbol{p} = (\boldsymbol{p}_{sa})_{s \in \mathcal{S}, a \in \mathcal{A}} \in (\Delta^S)^{S \times A}$: 遷移確率カーネル ($\boldsymbol{p}_{sa} \in \Delta^S$は状態$s$で行動$a$を取ったときの次状態分布)
    * $c_{sas'}$: 遷移$(s, a, s')$に伴うコスト
    * $\gamma \in (0, 1)$: 割引率
    * $\boldsymbol{\rho} \in \Delta^S$: 初期状態分布
*   **仮定 2.1 (有界コスト):** 任意の$(s, a, s') \in \mathcal{S} \times \mathcal{A} \times \mathcal{S}$に対して，$c_{sas'} \in [0, 1]$
*   **方策:**$\boldsymbol{\pi} = (\boldsymbol{\pi}_s)_{s \in \mathcal{S}} \in \Pi = (\Delta^A)^S$$\boldsymbol{\pi}_s \in \Delta^A$は状態$s$における行動の確率分布
*   **状態価値関数 (State Value Function):**
  $v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}}=\mathbb{E}_{\boldsymbol{\pi}, \boldsymbol{p}}\left[\sum_{t=0}^{\infty} \gamma^{t} \cdot c_{s_{t} a_{t} s_{t+1}} \mid s_{0}=s\right]$
*   **行動価値関数 (Action Value Function):**
  $q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}=\mathbb{E}_{\boldsymbol{\pi}, \boldsymbol{p}}\left[\sum_{t=0}^{\infty} \gamma^{t} c_{s_{t} a_{t} s_{t+1}} \mid s_{0}=s, a_{0}=a\right]$
    関係式:$v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}}=\sum_{a \in \mathcal{A}} \pi_{s a} q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}$
*   **ロバストマルコフ決定過程 (RMDP):** タプル$\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \boldsymbol{c}, \gamma, \boldsymbol{\rho}\rangle$で定義される
    * $\mathcal{P}$: 遷移確率カーネルの曖昧集合 (Ambiguity Set)
*   **RMDPの目的:**
  $$
    \min _{\boldsymbol{\pi} \in \Pi} \max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p}):=\boldsymbol{\rho}^{\top} \boldsymbol{v}^{\boldsymbol{\pi}, \boldsymbol{p}}=\sum_{s \in \mathcal{S}} \rho_{s} v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}} 
  $$
    これは以下の形式と同値:
  $$
    \min _{\boldsymbol{\pi} \in \Pi}\left\{\Phi(\boldsymbol{\pi}):=\max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})\right\} 
  $$
*   **仮定 ($\mathcal{P}$のコンパクト性):** 曖昧集合$\mathcal{P}$はコンパクトである (Section 3.2冒頭)
*   **Occupancy Measure:**
  $$
    d_{\boldsymbol{\rho}}^{\boldsymbol{\pi}, \boldsymbol{p}}\left(s^{\prime}\right)=(1-\gamma) \sum_{s \in \mathcal{S}} \sum_{t=0}^{\infty} \gamma^{t} \rho(s) p_{s s^{\prime}}^{\boldsymbol{\pi}}(t) 
  $$
    ここで$p_{s s^{\prime}}^{\pi}(t)$は状態$s$から方策$\boldsymbol{\pi}$と遷移カーネル$\boldsymbol{p}$の下で$t$ステップ後に状態$s'$に到達する確率
*   **連続性と平滑性 (定義2.3):**
    * $L$-リプシッツ連続:$\|h(\boldsymbol{x}_1) - h(\boldsymbol{x}_2)\| \leq L \|\boldsymbol{x}_1 - \boldsymbol{x}_2\|$
    * $\ell$-平滑:$\|\nabla h(\boldsymbol{x}_1) - \nabla h(\boldsymbol{x}_2)\| \leq \ell \|\boldsymbol{x}_1 - \boldsymbol{x}_2\|$
*   **弱凸性 (定義2.4):** 関数$h: \mathcal{X} \rightarrow \mathbb{R}$が$\ell$-弱凸であるとは，任意の$\boldsymbol{g} \in \partial h(\boldsymbol{x})$と$\boldsymbol{x}, \boldsymbol{x}' \in \mathcal{X}$に対して，
  $h(\boldsymbol{x}^{\prime}) - h(\boldsymbol{x}) \geq \langle \boldsymbol{g}, \boldsymbol{x}^{\prime} - \boldsymbol{x} \rangle - \frac{\ell}{2} \|\boldsymbol{x}^{\prime} - \boldsymbol{x}\|^2$
    が成り立つこと$\partial h(\boldsymbol{x})$は$h$の$\boldsymbol{x}$におけるフレシェ劣微分

## DRPGアルゴリズム (Section 3.1)

*   **Algorithm 1 (DRPG):**
    *   入力: 初期方策$\boldsymbol{\pi}_0$，反復回数$T$，許容誤差列$\{\epsilon_t\}_{t \geq 0}$($\epsilon_{t+1} \leq \gamma \epsilon_t$)，ステップサイズ列$\{\alpha_t\}_{t \geq 0}$
    *   各反復$t$:
        1.  **内側ループ:**$\boldsymbol{p}_t$を見つけるただし，$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}_t) \geq \max_{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}) - \epsilon_t$を満たす
        2.  **外側ループ:** 方策を更新する
          $$
            \boldsymbol{\pi}_{t+1} \leftarrow \operatorname{Proj}_{\Pi}\left(\boldsymbol{\pi}_{t}-\alpha_{t} \nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_{t}, \boldsymbol{p}_{t}\right)\right) 
          $$
            ここで，勾配は以下で与えられる
          $$
            \frac{\partial J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})}{\partial \pi_{s a}}=\frac{1}{1-\gamma} \cdot d_{\boldsymbol{\rho}}^{\boldsymbol{\pi}, \boldsymbol{p}}(s) \cdot q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}} 
          $$
    *   出力:$\boldsymbol{\pi}_{t^{\star}} \in \{\boldsymbol{\pi}_0, \dots, \boldsymbol{\pi}_{T-1}\}$で，$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_{t^{\star}}, \boldsymbol{p}_{t^{\star}}) = \min_{t' \in \{0, \dots, T-1\}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_{t'}, \boldsymbol{p}_{t'})$を満たすもの

## 大域的最適性に必要な補題と定義

### 補題3.1
*$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$は$\boldsymbol{\pi}$に関して$L_{\boldsymbol{\pi}}$-リプシッツ連続かつ$\ell_{\boldsymbol{\pi}}$-平滑かつ，$L_{\boldsymbol{\pi}}:=\frac{\sqrt{A}}{(1-\gamma)^{2}}, \quad \ell_{\boldsymbol{\pi}}:=\frac{2 \gamma A}{(1-\gamma)^{3}}$
$\Phi(\boldsymbol{\pi}) = \max_{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$は$\ell_{\boldsymbol{\pi}}$-弱凸かつ$L_{\boldsymbol{\pi}}$-リプシッツ連続

### 補題3.1の証明
この証明は，[この論文](https://arxiv.org/abs/1907.01543)と，[この論文](https://arxiv.org/abs/1908.00261)を参考にしたらいいみたいです．最初に，目的関数$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$を方策で偏微分することを考えます．
定義から，以下のようになります．
$$
J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p}) = \sum_{s \in \mathcal{S}} v_s^{\boldsymbol{\pi}, \boldsymbol{p}} \rho_s
$$
これに対して方策$\pi_{sa}$を用いて偏微分をします．そうすると，
$$
\frac{\partial J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})}{\partial \pi_{s a}}=\sum_{\hat{s} \in \mathcal{S}} \frac{\partial v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \rho_{\hat{s}}
$$
となります．$\hat{s}$を考えるのは，$\rho$のせいです．$\hat{s}$は初期状態であり，この式はすべての可能な初期状態$\hat{s} \in \mathcal{S}$を考えてそれに対して和をとっているだけです．次に上式の右辺内の偏微分演算$\frac{\partial v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}$を計算します．
####$\hat{s} \neq s$の場合
偏微分する先は定数になります．最初に価値関数を書き換えます．
$$
v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}} = \sum_{\hat{a} \in \mathcal{A}} \pi_{\hat{s} \hat{a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) 
$$
この式を偏微分すると，以下のようになります．
$$
\begin{aligned}
\frac{\partial v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} &= \frac{\partial}{\partial \pi_{s a}} \left[ \sum_{\hat{a} \in \mathcal{A}} \pi_{\hat{s} \hat{a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) \right] \\
& = \sum_{\hat{a} \in \mathcal{A}} \frac{\partial}{\partial \pi_{s a}} \left[ \pi_{\hat{s} \hat{a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) \right]
\end{aligned}
$$
積の微分公式より中身は，
$$
\frac{\partial}{\partial \pi_{s a}} \left[ \pi_{\hat{s} \hat{a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) \right] = \left(\frac{\partial \pi_{\hat{s} \hat{a}}}{\partial \pi_{s a}}\right) \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) + \pi_{\hat{s} \hat{a}} \frac{\partial}{\partial \pi_{s a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) 
$$

ここで，$\left.\frac{\partial \pi_{\hat{s} \hat{a}}}{\partial \pi_{s a}}\right|_{\hat{s} \neq s} = 0$なので，第一項は0になります．よって，
$$\left.\frac{\partial v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}\right|_{\hat{s} \neq s} = \sum_{\hat{a} \in \mathcal{A}} \left[ 0 \cdot \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) + \pi_{\hat{s} \hat{a}} \frac{\partial}{\partial \pi_{s a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) \right]$$
となり，
$$
\left.\frac{\partial v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}\right|_{\hat{s} \neq s} = \sum_{\hat{a} \in \mathcal{A}} \pi_{\hat{s} \hat{a}} \frac{\partial}{\partial \pi_{s a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) 
$$
です．最後に，右辺の偏微分を行います．
$$
\frac{\partial}{\partial \pi_{s a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) = \sum_{s' \in \mathcal{S}} \frac{\partial}{\partial \pi_{s a}} \left[ p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right]$$
$p_{\hat{s} \hat{a} s'}$と$c_{\hat{s} \hat{a} s'}$は方策に依存しないため方策で偏微分すると0になります．よって，
$$
 \begin{aligned}
 \frac{\partial}{\partial \pi_{s a}} \left[ p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right] &= \frac{\partial}{\partial \pi_{s a}} (p_{\hat{s} \hat{a} s'} c_{\hat{s} \hat{a} s'}) + \frac{\partial}{\partial \pi_{s a}} (\gamma p_{\hat{s} \hat{a} s'} v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \\
 &= 0 + \gamma p_{\hat{s} \hat{a} s'} \frac{\partial v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}
\end{aligned}
$$
 よって，以下のようになります．
$$
 \frac{\partial}{\partial \pi_{s a}} \left( \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} (c_{\hat{s} \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) = \sum_{s' \in \mathcal{S}} \gamma p_{\hat{s} \hat{a} s'} \frac{\partial v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} = \gamma \sum_{s' \in \mathcal{S}} p_{\hat{s} \hat{a} s'} \frac{\partial v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} 
$$
****
####$\hat{s} = s$の場合
まず，$v_{s}^{\pi, p}$をベルマン方程式で表現するところから始めます．
$$
v_s^{\boldsymbol{\pi}, \boldsymbol{p}} = \sum_{\hat{a} \in \mathcal{A}} \pi_{s \hat{a}} \left( \sum_{s' \in \mathcal{S}} p_{s \hat{a} s'} (c_{s \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right) 
$$

カッコ内の項は，状態$s$で行動$\hat{a}$をとった場合の$q_{s\hat{a}}^{\pi, p}$に等しいです．よって，
$$
v_s^{\boldsymbol{\pi}, \boldsymbol{p}} = \sum_{\hat{a} \in \mathcal{A}} \pi_{s \hat{a}} q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}} 
$$
この式を$\pi_{sa}$で偏微分します．
$$
\frac{\partial v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} = \frac{\partial}{\partial \pi_{s a}} \left[ \sum_{\hat{a} \in \mathcal{A}} \pi_{s \hat{a}} q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}} \right] 
$$
$$
\frac{\partial v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} = \sum_{\hat{a} \in \mathcal{A}} \frac{\partial}{\partial \pi_{s a}} \left( \pi_{s \hat{a}} q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}} \right) 
$$
積の微分は以下のようになります．
$$
\frac{\partial}{\partial \pi_{s a}} \left( \pi_{s \hat{a}} q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}} \right) = \left(\frac{\partial \pi_{s \hat{a}}}{\partial \pi_{s a}}\right) q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}} + \pi_{s \hat{a}} \frac{\partial q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} 
$$
ここで，次のような仮定を考えます．ここちょっと微妙です．
$$
\frac{\partial \pi_{s \hat{a}}}{\partial \pi_{s a}} = \begin{cases} 1 & \text{if } \hat{a} = a \\ 0 & \text{if } \hat{a} \neq a \end{cases} 
$$
よって，積の微分の第一項は，$\hat{a} = a$の項だけが残り，以下のようになります．
$$
\sum_{\hat{a} \in \mathcal{A}} \left(\frac{\partial \pi_{s \hat{a}}}{\partial \pi_{s a}}\right) q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}} = q_{sa}^{\boldsymbol{\pi}, \boldsymbol{p}} 
$$
よって，
$$
\left.\frac{\partial v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}\right|_{\hat{s}=s} = q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}} + \sum_{\hat{a} \in \mathcal{A}} \pi_{s \hat{a}} \frac{\partial q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} 
$$
となります．右辺第二項について，

$$q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}} = \sum_{s' \in \mathcal{S}} p_{s \hat{a} s'} (c_{s \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}})$$
です． この式を$\pi_{sa}$で偏微分します．$p_{s\hat{a}s'}$と$c_{s\hat{a}s'}$は方策$\pi$に依存しない定数なので，
$$
\begin{aligned}
\frac{\partial q_{s \hat{a}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} &= \frac{\partial}{\partial \pi_{s a}} \left[ \sum_{s' \in \mathcal{S}} p_{s \hat{a} s'} (c_{s \hat{a} s'} + \gamma v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}) \right]\\
&= \sum_{s' \in \mathcal{S}} \frac{\partial}{\partial \pi_{s a}} \left[ p_{s \hat{a} s'} c_{s \hat{a} s'} + \gamma p_{s \hat{a} s'} v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}} \right]\\
&= \sum_{s' \in \mathcal{S}} \left( 0 + \gamma p_{s \hat{a} s'} \frac{\partial v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \right) \\
&= \gamma \sum_{s' \in \mathcal{S}} p_{s \hat{a} s'} \frac{\partial v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}
\end{aligned}
$$
となります．これを偏微分の式に戻します．

  $$\left.\frac{\partial v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}\right|_{\hat{s}=s} = q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}} + \sum_{\hat{a} \in \mathcal{A}} \pi_{s \hat{a}} \left( \gamma \sum_{s' \in \mathcal{S}} p_{s \hat{a} s'} \frac{\partial v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \right)$$

定数$\gamma$を和の中に入れると，
$$
\left.\frac{\partial v_{s}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}\right|_{\hat{s}=s} = q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}} + \gamma \sum_{\hat{a} \in \mathcal{A}} \pi_{s \hat{a}} \sum_{s' \in \mathcal{S}} p_{s \hat{a} s'} \frac{\partial v_{s'}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}
$$
****

ここで，論文に従って，以下の表記を考えます．
$$
\begin{gathered}
\sum_{\hat{a}} \pi_{s \hat{a}} p_{s \hat{a} s^{\prime}}=p_{s s^{\prime}}^\pi(1) \\
p_{s s^{\prime}}^\pi(t-1) \cdot \sum_a \pi_{s^{\prime} a} p_{s^{\prime} a s^{\prime \prime}}=p_{s s^{\prime \prime}}^\pi(t)
\end{gathered}
$$
先ほどの2つの場合を組み合わせます．
$$
\begin{aligned}
\left.\frac{\partial v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}\right|_{\hat{s} \neq s} & =\gamma \sum_{s^{\prime} \neq s} p_{\hat{s} s^{\prime}}^{\boldsymbol{\pi}}(1) \frac{\partial v_{s^{\prime}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}+\gamma \sum_{s^{\prime}=s} p_{\hat{s} s^{\prime}}^{\boldsymbol{\pi}}(1) \frac{\partial v_{s^{\prime}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \\
& =\gamma^2 \sum_{s^{\prime} \neq s} p_{\hat{s} s^{\prime}}^\pi(1) \sum_{\hat{a}} \pi_{s^{\prime} \hat{a}} \sum_{s^{\prime \prime} \in \mathcal{S}} p_{s^{\prime} \hat{a} s^{\prime \prime}} \frac{\partial v_{s^{\prime}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \\
& +\gamma p_{\hat{s} s}^{\boldsymbol{\pi}}(1)\left(q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}+\gamma \sum_{\hat{a}} \pi_{s \hat{a}} \sum_{s^{\prime} \in \mathcal{S}} p_{s \hat{a} s^{\prime}} \frac{\partial v_{s^{\prime}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}}\right) \\
& =\gamma p_{\hat{s} s}^{\boldsymbol{\pi}}(1) q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}+\gamma^2 \sum_{s^{\prime}} p_{\hat{s} s^{\prime}}^{\boldsymbol{\pi}}(2) \frac{\partial v_{s^{\prime}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \\
& =\gamma p_{\hat{s} s}^{\boldsymbol{\pi}}(1) q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}+\gamma^2 p_{\hat{s} s}^{\boldsymbol{\pi}}(2) q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}+\gamma^3 \sum_{s^{\prime}} p_{\hat{s} s^{\prime}}^{\boldsymbol{\pi}}(3) \frac{\partial v_{s^{\prime}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \\
& =\cdots \\
& =\sum_{t=1}^{\infty} \gamma^t p_{\hat{s} s}^{\boldsymbol{\pi}}(t) q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}=\sum_{t=0}^{\infty} \gamma^t p_{\hat{s} s}^{\boldsymbol{\pi}}(t) q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}} .
\end{aligned}
$$
となります．よって，最終的に，
$$
\frac{\partial J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})}{\partial \pi_{s a}}=\left(\frac{\partial v_s^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \rho_s+\sum_{\hat{s} \neq s} \frac{\partial v_{\hat{s}}^{\boldsymbol{\pi}, \boldsymbol{p}}}{\partial \pi_{s a}} \rho_{\hat{s}}\right)=\frac{1}{1-\gamma}(\underbrace{(1-\gamma) \sum_{\hat{s} \in \mathcal{S}} \sum_{t=0}^{\infty} \gamma^t \rho_{\hat{s}} p_{\hat{s} s}^{\boldsymbol{\pi}}(t)}_{d_{\boldsymbol{\rho}}^{\boldsymbol{\pi}, \boldsymbol{P}}(s)}) q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}
$$
となります．
#### 目的関数が$L_{pi}$-リプシッツであることを示す
行動価値関数のノルムの上界は$\frac{1}{1-\gamma}$です．次に目的関数の勾配のノルムをバウンドします．
$$
\begin{aligned}
\left\|\nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})\right\| & =\sqrt{\sum_{s, a}\left(\frac{\partial J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})}{\partial \pi_{s a}}\right)^2} \\
& =\frac{1}{1-\gamma} \sqrt{\sum_a \sum_s\left(d_{\boldsymbol{\rho}}^{\boldsymbol{\pi}, \boldsymbol{p}}(s) q_{s a}^{\boldsymbol{\pi}, \boldsymbol{p}}\right)^2} \\
& \leq \frac{1}{(1-\gamma)^2} \sqrt{\sum_a \sum_s\left(d_{\boldsymbol{\rho}}^{\boldsymbol{\pi}, \boldsymbol{\xi}}(s)\right)^2} \\
&\leq \frac{\sqrt{A}}{(1-\gamma)^2}
\end{aligned}
$$
Occupancy measureの大きさは最大でも1なので，最後の不等式が成り立ちます．Agarwalの証明を見れば，$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$が平滑であることが示せます．
最後に，$\Phi(\boldsymbol{\pi})$の連続性の導出を考えます．まず，$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$が$\boldsymbol{\pi}$に関して$L_{\boldsymbol{\pi}}$-リプシッツであれば，$\Phi(\boldsymbol{\pi})$も$L_{\boldsymbol{\pi}}$-リプシッツであることを示します．

任意の$\boldsymbol{\pi}_1, \boldsymbol{\pi}_2 \in \Pi$に対して，$\boldsymbol{p}_1:=\arg \max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_1, \boldsymbol{p}\right)$および$\boldsymbol{p}_2:=\arg \max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_2, \boldsymbol{p}\right)$とすると，以下が成り立ちます．
$$
\begin{aligned}
\Phi\left(\boldsymbol{\pi}_1\right)-\Phi\left(\boldsymbol{\pi}_2\right) & =\max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_1, \boldsymbol{p}\right)-\max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_2, \boldsymbol{p}\right) \\
& =J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_1, \boldsymbol{p}_1\right)-J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_2, \boldsymbol{p}_2\right) \\
& \leq J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_1, \boldsymbol{p}_1\right)-J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_2, \boldsymbol{p}_1\right) \\
& \leq L_{\boldsymbol{\pi}}\left\|\boldsymbol{\pi}_1-\boldsymbol{\pi}_2\right\|
\end{aligned}
$$
次に，Thekumparampilの研究から，もし$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$が$\boldsymbol{\pi}$に関して$\ell_{\boldsymbol{\pi}}$-平滑であれば，$\Phi(\boldsymbol{\pi})=\max _{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$は$\ell_{\boldsymbol{\pi}}$-弱凸であることを示している．これらの2つの部分の結果を組み合わせることで，証明完了です．


### モロー包絡線 (定義D.3)
$h$と$\lambda > 0$に対し
$$
h_{\lambda}(\boldsymbol{x}) := \min_{\boldsymbol{x}' \in \mathcal{X}} \left\{ h(\boldsymbol{x}') + \frac{1}{2\lambda} \|\boldsymbol{x} - \boldsymbol{x}'\|^2 \right\}
$$
### $\epsilon$-一時停留点 ($\epsilon$-FOSP,定義D.4)
$\ell$-弱凸関数$h$に対し，点$\boldsymbol{x}^{\star}$が$\epsilon$-FOSP であるとは，$\|\nabla h_{\frac{1}{2\ell}}(\boldsymbol{x}^{\star})\| \leq \epsilon$が成り立つこと

### 補題D.5
$\ell$-弱凸関数$h$に対し，$\lambda < 1/\ell$ならば モロー包絡線$h_{\lambda}$は$C^1$-級に滑らかで，その勾配は
$\nabla h_{\lambda}(\boldsymbol{x}) = \lambda^{-1} (\boldsymbol{x} - \arg\min_{\boldsymbol{x}'} (h(\boldsymbol{x}') + \frac{1}{2\lambda} \|\boldsymbol{x} - \boldsymbol{x}'\|^2))$で与えられる

## 補題D.6
$\ell$-弱凸関数$h$と$\lambda < 1/\ell$に対し，$\hat{\boldsymbol{x}}_{\lambda} = \arg\min_{\boldsymbol{x}'} (h(\boldsymbol{x}') + \frac{1}{2\lambda} \|\boldsymbol{x} - \boldsymbol{x}'\|^2)$とすると，$\|\nabla h_{\lambda}(\boldsymbol{x})\| = \frac{1}{\lambda} \|\hat{\boldsymbol{x}}_{\lambda} - \boldsymbol{x}\|$

## 分布不一致係数 (Distribution Mismatch Coefficient)
$D := \sup_{\boldsymbol{\pi} \in \Pi, \boldsymbol{p} \in \mathcal{P}} \|d_{\boldsymbol{\rho}}^{\boldsymbol{\pi}, \boldsymbol{p}} / \boldsymbol{\rho}\|_{\infty}$定理3.2 と 3.3 では$D < \infty$を仮定 ($\min_{s \in \mathcal{S}} \rho_s > 0$ならば満たされる)

## 定理3.2 (勾配支配,Gradient dominance)
$\boldsymbol{\pi}^{\star}$をRMDPの最適方策とする任意の$\boldsymbol{\pi}$に対し，
$$
\Phi(\boldsymbol{\pi})-\Phi\left(\boldsymbol{\pi}^{\star}\right) \leq\left(\frac{D \sqrt{S A}}{1-\gamma}+\frac{L_{\boldsymbol{\pi}}}{2 \ell_{\boldsymbol{\pi}}}\right)\left\|\nabla \Phi_{\frac{1}{2 \ell \boldsymbol{\pi}}}(\boldsymbol{\pi})\right\| 
$$
が成り立つ

## DRPGの大域的収束性(定理3.3) 
$\boldsymbol{\pi}_{t^{\star}}$を Algorithm 1 の出力とする$\alpha := \frac{\delta}{\sqrt{T}}$($\delta > 0$) と$\epsilon_0 \leq \sqrt{T}$に対して，十分大きな$T$(具体的には$T = \mathcal{O}(\epsilon^{-4})$) を選べば，
$$
\Phi(\boldsymbol{\pi}_{t^{\star}}) - \min_{\boldsymbol{\pi} \in \Pi} \Phi(\boldsymbol{\pi}) \leq \epsilon
$$
が成り立つ

---

## 定理3.3の証明スケッチ

**ステップ1：** アルゴリズムが生成する方策列$\{\boldsymbol{\pi}_t\}$の中に，目的関数$\Phi(\boldsymbol{\pi})$の$\epsilon$-FOSPが存在することを示す
**ステップ2：**$\epsilon$-FOSP が$\epsilon$-最適解に近いことを，定理3.2 の勾配支配を用いて示す


---

## 定理3.3の証明

## 準備
* 目的関数$\Phi(\boldsymbol{\pi}) = \max_{\boldsymbol{p} \in \mathcal{P}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}, \boldsymbol{p})$は 補題3.1より$\ell_{\boldsymbol{\pi}}$-弱凸である
* モロー包絡線を$\Phi_{\lambda}(\boldsymbol{\pi})$とし，特に$\lambda = 1/(2\ell_{\boldsymbol{\pi}})$の場合を考える
*$\tilde{\boldsymbol{\pi}}_t = \arg \min_{\tilde{\boldsymbol{\pi}} \in \Pi} \{ \Phi(\tilde{\boldsymbol{\pi}}) + \ell_{\boldsymbol{\pi}} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}\|^2 \}$と定義する

## ステップ1

目的関数のモロー包絡線に対する上界を示す
$$
\begin{align*}
\Phi_{\frac{1}{2 \ell \boldsymbol{\pi}}}\left(\boldsymbol{\pi}_{t+1}\right) &= \min _{\boldsymbol{\pi}} \left\{ \Phi(\boldsymbol{\pi})+\ell_{\boldsymbol{\pi}}\left\|\boldsymbol{\pi}_{t+1}-\boldsymbol{\pi}\right\|^{2} \right\} \\
&\leq \Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)+\ell_{\boldsymbol{\pi}}\left\|\boldsymbol{\pi}_{t+1}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2} \quad (\text{定義より}) \\
&= \Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)+\ell_{\boldsymbol{\pi}}\left\|\operatorname{Proj}_{\Pi}\left(\boldsymbol{\pi}_{t}-\alpha_t \nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_{t}, \boldsymbol{p}_{t}\right)\right)-\operatorname{Proj}_{\Pi}\left(\tilde{\boldsymbol{\pi}}_{t}\right)\right\|^{2} \quad (\text{Eq. (5) と } \tilde{\boldsymbol{\pi}}_t \in \Pi \text{ より}) \\
&\leq \Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)+\ell_{\boldsymbol{\pi}}\left\|\boldsymbol{\pi}_{t}-\alpha_t \nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_{t}, \boldsymbol{p}_{t}\right)-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2} \quad (\text{射影の非拡大性より}) \\
&= \Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)+\ell_{\boldsymbol{\pi}}\left\|\boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2}-2 \ell_{\boldsymbol{\pi}} \alpha_t\left\langle\nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_{t}, \boldsymbol{p}_{t}\right), \boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\rangle+\alpha_t^{2} \ell_{\boldsymbol{\pi}}\left\|\nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}\left(\boldsymbol{\pi}_{t}, \boldsymbol{p}_{t}\right)\right\|^{2} \\
&\leq \Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)+\ell_{\boldsymbol{\pi}}\left\|\boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2} + 2 \ell_{\boldsymbol{\pi}} \alpha_t \left( \Phi(\tilde{\boldsymbol{\pi}}_t) - J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}_t) - \frac{\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2 \right) +\alpha_t^{2} \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} \quad (\text{補題3.1と弱凸性の利用}) \\
&\leq \Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)+\ell_{\boldsymbol{\pi}}\left\|\boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2} + 2 \ell_{\boldsymbol{\pi}} \alpha_t \left( \Phi(\tilde{\boldsymbol{\pi}}_t) - (\Phi(\boldsymbol{\pi}_t) - \epsilon_t) - \frac{\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2 \right) +\alpha_t^{2} \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} \quad (\text{内側ループの条件より}) \\
&= \Phi_{\frac{1}{2 \ell \boldsymbol{\pi}}}\left(\boldsymbol{\pi}_{t}\right)+2 \ell_{\boldsymbol{\pi}} \alpha_t\left(\Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)-\Phi\left(\boldsymbol{\pi}_{t}\right)+\epsilon_{t}+\frac{\ell_{\boldsymbol{\pi}}}{2}\left\|\boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2}\right)+\alpha_t^{2} \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} 
\end{align*}
$$

*$J_{\boldsymbol{\rho}}(\cdot, \boldsymbol{p}_t)$は$\ell_{\boldsymbol{\pi}}$-弱凸なので，$J_{\boldsymbol{\rho}}(\tilde{\boldsymbol{\pi}}_t, \boldsymbol{p}_t) \geq J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}_t) + \langle \nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}_t), \tilde{\boldsymbol{\pi}}_t - \boldsymbol{\pi}_t \rangle - \frac{\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2$
*$\Phi(\tilde{\boldsymbol{\pi}}_t) \geq J_{\boldsymbol{\rho}}(\tilde{\boldsymbol{\pi}}_t, \boldsymbol{p}_t)$なので，$\langle \nabla_{\boldsymbol{\pi}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}_t), \boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t \rangle \leq \Phi(\tilde{\boldsymbol{\pi}}_t) - J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}_t) - \frac{\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2$

$t=0$から$T-1$まで足し合わせ，定数ステップサイズ$\alpha_t = \alpha$を用いると，
$$
\Phi_{\frac{1}{2 \ell \boldsymbol{\pi}}}\left(\boldsymbol{\pi}_{T}\right) \leq \Phi_{\frac{1}{2 \ell \boldsymbol{\pi}}}\left(\boldsymbol{\pi}_{0}\right)+2 \ell_{\boldsymbol{\pi}} \alpha \sum_{t=0}^{T-1}\left(\Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)-\Phi\left(\boldsymbol{\pi}_{t}\right)+\epsilon_{t}+\frac{\ell_{\boldsymbol{\pi}}}{2}\left\|\boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2}\right)+T \alpha^{2} \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2}

$$
移項して
$$
\sum_{t=0}^{T-1}\left(\Phi\left(\boldsymbol{\pi}_{t}\right)-\Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)-\frac{\ell \boldsymbol{\pi}}{2}\left\|\boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2}\right) \leq \frac{\Phi_{\frac{1}{2 \ell_{\boldsymbol{\pi}}}}\left(\boldsymbol{\pi}_{0}\right)-\Phi_{\frac{1}{2 \ell_{\boldsymbol{\pi}}}}\left(\boldsymbol{\pi}_{T}\right)}{2 \ell_{\boldsymbol{\pi}} \alpha}+\frac{T \alpha L_{\boldsymbol{\pi}}^{2}}{2}+\sum_{t=0}^{T-1} \epsilon_{t} 
$$
ここで，モロー包絡線の定義と 補題D.5, E.3 を用いると，
$$
\begin{align*}
\Phi\left(\boldsymbol{\pi}_{t}\right)-\Phi\left(\tilde{\boldsymbol{\pi}}_{t}\right)-\frac{\ell_{\boldsymbol{\pi}}}{2}\left\|\boldsymbol{\pi}_{t}-\tilde{\boldsymbol{\pi}}_{t}\right\|^{2}
&= \left(\Phi(\boldsymbol{\pi}_t) + \ell_{\boldsymbol{\pi}}\|\boldsymbol{\pi}_t - \boldsymbol{\pi}_t\|^2\right) - \left(\Phi(\tilde{\boldsymbol{\pi}}_t) + \ell_{\boldsymbol{\pi}}\|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2\right) + \frac{\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2 \\
&= \left(\Phi(\boldsymbol{\pi}_t) + \ell_{\boldsymbol{\pi}}\|\boldsymbol{\pi}_t - \boldsymbol{\pi}_t\|^2\right) - \min_{\boldsymbol{\pi}} \left\{ \Phi(\boldsymbol{\pi}) + \ell_{\boldsymbol{\pi}} \|\boldsymbol{\pi}_t - \boldsymbol{\pi}\|^2 \right\} + \frac{\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2 \\
&\geq \frac{2\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2 + \frac{\ell_{\boldsymbol{\pi}}}{2} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2 \quad (\text{補題E.3を } h(\boldsymbol{\pi}) = \Phi(\boldsymbol{\pi}) + \ell_{\boldsymbol{\pi}}\|\boldsymbol{\pi}_t - \boldsymbol{\pi}\|^2 \text{ に適用}) \\
&\geq \ell_{\boldsymbol{\pi}} \|\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t\|^2 \\
&= \ell_{\boldsymbol{\pi}} \left\| \frac{1}{2\ell_{\boldsymbol{\pi}}} \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 \quad (\text{補題D.5 より } \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) = 2\ell_{\boldsymbol{\pi}}(\boldsymbol{\pi}_t - \tilde{\boldsymbol{\pi}}_t)) \\
&= \frac{1}{4\ell_{\boldsymbol{\pi}}} \left\| \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 
\end{align*}
$$
さらに，
$$
\frac{1}{4\ell_{\boldsymbol{\pi}}} \sum_{t=0}^{T-1} \left\| \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 \leq \frac{\Phi_{\frac{1}{2 \ell_{\boldsymbol{\pi}}}}\left(\boldsymbol{\pi}_{0}\right)-\Phi_{\frac{1}{2 \ell_{\boldsymbol{\pi}}}}\left(\boldsymbol{\pi}_{T}\right)}{2 \ell_{\boldsymbol{\pi}} \alpha}+\frac{T \alpha L_{\boldsymbol{\pi}}^{2}}{2}+\sum_{t=0}^{T-1} \epsilon_{t}
$$
$\Phi(\boldsymbol{\pi})$は有界なので，$\Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi})$も有界である特にAppendix Eから，$\Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_0) - \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_T) \leq 2\ell_{\boldsymbol{\pi}}S$となります（$\Pi$の直径は$\sqrt{S}$程度）また，$\epsilon_{t+1} \leq \gamma \epsilon_t$より$\sum_{t=0}^{T-1} \epsilon_t \leq \sum_{t=0}^{\infty} \epsilon_t \leq \epsilon_0/(1-\gamma)$です
したがって，
$$
\sum_{t=0}^{T-1} \left\| \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 \leq \frac{4 \ell_{\boldsymbol{\pi}} (2\ell_{\boldsymbol{\pi}}S)}{2 \ell_{\boldsymbol{\pi}} \alpha} + 4\ell_{\boldsymbol{\pi}} \frac{T \alpha L_{\boldsymbol{\pi}}^{2}}{2} + 4\ell_{\boldsymbol{\pi}} \frac{\epsilon_0}{1-\gamma}
$$
$$
\sum_{t=0}^{T-1} \left\| \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 \leq \frac{4 \ell_{\boldsymbol{\pi}} S}{\alpha} + 2 T \alpha \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} + \frac{4 \ell_{\boldsymbol{\pi}} \epsilon_0}{1-\gamma} 
$$
最小値を取ると，
$$
\min_{t \in \{0, \dots, T-1\}} \left\| \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 \leq \frac{1}{T} \sum_{t=0}^{T-1} \left\| \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 \leq \frac{1}{T} \left( \frac{4 \ell_{\boldsymbol{\pi}} S}{\alpha} + 2 T \alpha \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} + \frac{4 \ell_{\boldsymbol{\pi}} \epsilon_0}{1-\gamma} \right)
$$
ステップサイズ$\alpha = \delta/\sqrt{T}$と$\epsilon_0 \leq \sqrt{T}$を代入すると，
$$
\min_{t \in \{0, \dots, T-1\}} \left\| \nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t) \right\|^2 \leq \frac{1}{T} \left( \frac{4 \ell_{\boldsymbol{\pi}} S \sqrt{T}}{\delta} + 2 \sqrt{T} \delta \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} + \frac{4 \ell_{\boldsymbol{\pi}} \sqrt{T}}{1-\gamma} \right) = \frac{1}{\sqrt{T}} \left( \frac{4 \ell_{\boldsymbol{\pi}} S}{\delta} + 2 \delta \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} + \frac{4 \ell_{\boldsymbol{\pi}}}{1-\gamma} \right)
$$

**ステップ2:$\epsilon$-FOSPから$\epsilon$-最適性へ**

Algorithm 1 の出力$\boldsymbol{\pi}_{t^{\star}}$は$\min_{t' \in \{0, \dots, T-1\}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_{t'}, \boldsymbol{p}_{t'})$を達成します
ここで，$\min_{t \in \{0, \dots, T-1\}} (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star}))$を評価します
定理3.2より，
$$
\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star}) \leq \left( \frac{D \sqrt{S A}}{1-\gamma} + \frac{L_{\boldsymbol{\pi}}}{2\ell_{\boldsymbol{\pi}}} \right) \|\nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t)\| 
$$
両辺を$t=0$から$T-1$まで足し合わせて$T$で割ると，
$$
\frac{1}{T} \sum_{t=0}^{T-1} (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) \leq \frac{1}{T} \left( \frac{D \sqrt{S A}}{1-\gamma} + \frac{L_{\boldsymbol{\pi}}}{2\ell_{\boldsymbol{\pi}}} \right) \sum_{t=0}^{T-1} \|\nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t)\|
$$
Cauchy-Schwarzの不等式$(\sum x_i)^2 \leq T \sum x_i^2$より$\sum \|\nabla \Phi_{\dots}\| \leq \sqrt{T} \sqrt{\sum \|\nabla \Phi_{\dots}\|^2}$なので，
$$
\frac{1}{T} \sum_{t=0}^{T-1} \|\nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t)\| \leq \frac{1}{\sqrt{T}} \sqrt{\sum_{t=0}^{T-1} \|\nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t)\|^2}
$$
これを式(46改)と式(43改)に代入し，$\alpha = \delta/\sqrt{T}$および$\epsilon_0 \leq \sqrt{T}$を用いると，
$$
\begin{align*}
\frac{1}{T} \sum_{t=0}^{T-1} (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) &\leq \frac{1}{\sqrt{T}} \left( \frac{D \sqrt{S A}}{1-\gamma} + \frac{L_{\boldsymbol{\pi}}}{2\ell_{\boldsymbol{\pi}}} \right) \sqrt{\sum_{t=0}^{T-1} \|\nabla \Phi_{\frac{1}{2\ell_{\boldsymbol{\pi}}}}(\boldsymbol{\pi}_t)\|^2} \\
&\leq \frac{1}{\sqrt{T}} \left( \frac{D \sqrt{S A}}{1-\gamma} + \frac{L_{\boldsymbol{\pi}}}{2\ell_{\boldsymbol{\pi}}} \right) \sqrt{ \frac{4 \ell_{\boldsymbol{\pi}} S \sqrt{T}}{\delta} + 2 \sqrt{T} \delta \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} + \frac{4 \ell_{\boldsymbol{\pi}} \sqrt{T}}{1-\gamma} } \\
&= \frac{1}{T^{1/4}} \left( \frac{D \sqrt{S A}}{1-\gamma} + \frac{L_{\boldsymbol{\pi}}}{2\ell_{\boldsymbol{\pi}}} \right) \sqrt{ \frac{4 \ell_{\boldsymbol{\pi}} S}{\delta} + 2 \delta \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2} + \frac{4 \ell_{\boldsymbol{\pi}}}{1-\gamma} }
\end{align*}
$$
したがって，
$$
\min_{t \in \{0, \dots, T-1\}} (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) \leq \frac{1}{T} \sum_{t=0}^{T-1} (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) \leq \frac{C}{T^{1/4}}
$$
となりますここで$C$は$T$に依存しない定数です
$\min_{t} (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) \leq \epsilon$とするためには，$C/T^{1/4} \leq \epsilon$，すなわち$T \geq (C/\epsilon)^4 = \mathcal{O}(\epsilon^{-4})$であれば良いことがわかります
具体的には，$T$が Eq. (9) を満たせば，
$$
T \geq \frac{\left(\frac{D \sqrt{S A}}{1-\gamma}+\frac{L_{\boldsymbol{\pi}}}{2 \ell_{\boldsymbol{\pi}}}\right)^{4}\left(\frac{4 \ell_{\boldsymbol{\pi}} S}{\delta}+2 \delta \ell_{\boldsymbol{\pi}} L_{\boldsymbol{\pi}}^{2}+\frac{4 \ell_{\boldsymbol{\pi}}}{1-\gamma}\right)^{2}}{\epsilon^{4}}
$$
であれば，
$$
\min_{t \in \{0, \dots, T-1\}} (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) \leq \epsilon
$$
が成り立ちます

最後に，アルゴリズムの出力$\boldsymbol{\pi}_{t^{\star}}$について考えます
$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_{t^{\star}}, \boldsymbol{p}_{t^{\star}}) = \min_{t' \in \{0, \dots, T-1\}} J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_{t'}, \boldsymbol{p}_{t'})$であり，
$J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_t, \boldsymbol{p}_t) \leq \Phi(\boldsymbol{\pi}_t)$なので，
$$
\Phi(\boldsymbol{\pi}_{t^{\star}}) - \Phi(\boldsymbol{\pi}^{\star}) \geq J_{\boldsymbol{\rho}}(\boldsymbol{\pi}_{t^{\star}}, \boldsymbol{p}_{t^{\star}}) - \Phi(\boldsymbol{\pi}^{\star})
$$
となります（注：定理3.3 のステートメント (8) は$\Phi(\boldsymbol{\pi}_{t^{\star}}) - \Phi(\boldsymbol{\pi}^{\star}) \leq \epsilon$です上記の証明は$\min_t (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) \leq \epsilon$を示しています$t^{\star}$が$\min_t J$を達成するインデックスであり，必ずしも$\min_t \Phi$を達成するとは限りませんしかし，通常このような証明では，反復列の中に$\epsilon$-最適に近いものが存在することを示し，アルゴリズムの出力（典型的には最後の反復か，目的関数値が最小だった反復）もそれに準ずると考えます論文の証明も$\min_t (\Phi(\boldsymbol{\pi}_t) - \Phi(\boldsymbol{\pi}^{\star})) \leq \epsilon$を導いており，これが 定理3.3 (8) の結果と解釈されているようです）

したがって，Eq. (9) を満たす$T$を選べば，DRPGは$\epsilon$-最適解を達成します
