# 弱凸関数の確率的モデルベース最小化

## 最適化問題
この論文では，最初に正則化された最適化問題を定式化しています．
$$
\begin{equation*}
\min _{x \in \mathbb{R}^{d}} \varphi(x)=f(x)+r(x) \quad \text { where } \quad f(x)=\mathbb{E}_{\xi \sim P}[f(x, \xi)] \tag{SO}
\end{equation*}
$$
ここで，各変数は以下の通りです．
*$x$： 意思決定規則をパラメータ化したベクトル ($\in \mathbb{R}^d$)
*$P$：未知の確率分布
*$\xi$：$P$に従う確率変数
*$f(x, \xi)$：損失関数
*$r(x)$：正則化項

### 近接勾配法
この問題を解く方法として，近接勾配法という方法があり，この研究では推されています．詳しくは確率的最適化のページを見てください．これは射影勾配法の一般化であり，以下のような処理の繰り返しで目的関数の最小化を目指します．
**アルゴリズム**
$$
\left\{\begin{array}{l}
\text { Sample } \xi_{t} \sim P  \tag{SG}\\
\text { Set } x_{t+1}=\operatorname{prox}_{\alpha_{t} r}\left(x_{t}-\alpha_{t} \nabla_{x} f\left(x_{t}, \xi_{t}\right)\right)
\end{array}\right\},
$$

ここで，$\alpha_{t}>0$はステップサイズ，$\operatorname{prox}_{\alpha r}(\cdot)$配下に定義するような近接写像です．
$$
\operatorname{prox}_{\alpha r}(x):=\underset{y}{\operatorname{argmin}}\left\{r(y)+\frac{1}{2 \alpha}\|y-x\|^{2}\right\}
$$
これを，非平滑かつ，凸な関数に対しても応用した場合，劣勾配という概念を用いて最適化することが可能です．

### 弱凸性とモロー包絡
RMDPの目的関数をはじめとしたよく使われる関数クラスとして，弱凸関数があります．ここで，関数$g: \mathbb{R}^d \rightarrow \mathbb{R}$が$\rho$-**弱凸 (weakly convex)** であるとは，
$$
x \mapsto g(x) + \frac{\rho}{2}\|x\|^2
$$が凸関数である場合を言います．


![](https://cdn.mathpix.com/cropped/2025_05_13_caf8d02d67f5adbae3e8g-04.jpg?height=492&width=1156&top_left_y=318&top_left_x=281)

## 確率的射影劣勾配法
各点で真の劣勾配を計算しない場合を考えます．例えば期待値の計算が困難な場合が考えられます．そこで，確率的な劣勾配推定値$G(x, \xi)$がサンプル可能である場合を考えます．これを用いてパラメータ更新を行いますが，仮定として$\mathbb{E}_\xi[G(x, \xi)] \in \partial \varphi(x)$を置きます．つまり，劣勾配推定値は劣微分のどれかに属している．つまり真の劣勾配のどれかと一致しているというものです．

### アルゴリズム
劣勾配が推定値に変わっただけです．

入力:$x_{0} \in \operatorname{dom} r$，$\{\alpha_t\}_{t \geq 0} \subset \mathbb{R}_{+}$， 反復回数$T$
ステップ$t=0, \ldots, T$:
   $\left\{\begin{array}{l}\xi_{t} \sim P\\ x_{t+1}=\operatorname{prox}_{\alpha_{t} r}\left(x_{t}-\alpha_{t} G\left(x_{t}, \xi_{t}\right)\right)\end{array}\right\}$
$t^{*} \in\{0, \ldots, T\}$を，$\mathbb{P}(t^{*}=t)=\frac{\alpha_{t}}{\sum_{i=0}^{T} \alpha_{i}}$に従ってサンプリングする．
出力:$x_{t^{*}}$

### 確率的劣勾配オラクル(仮定A)
このオラクルは，勾配推定値を返す役割を持っています．ここで，確率空間$(\Omega, \mathcal{F}, P)$を固定し，$\mathbb{R}^{d}$をボレル$\sigma$-代数とします．オラクルは，以下の３つの仮定を満たす必要があります．

(A1) 独立同分布でsること:$\xi_{1}, \xi_{2}, \ldots \sim P$ということです．
(A2)$\operatorname{dom} r$を含む開集合$U$と，すべての$x \in U$に対して$\mathbb{E}_{\xi}[G(x, \xi)] \in \partial f(x)$を満たす可測写像$G: U \times \Omega \rightarrow \mathbb{R}^{d}$が存在します．要はオラクルは真の劣勾配のどれかをサンプルするということです．
(A3) すべての$x \in \operatorname{dom} r$に対して不等式$\mathbb{E}_{\xi}\left[\|G(x, \xi)\|^{2}\right] \leq L^{2}$を満たす実数$L \geq 0$が存在します．オラクルによる劣勾配推定値のノルムは有界です．

### 確率的射影列勾配法による勾配の0への収束(定理3.1)

近接確率的劣勾配法において，正則化項$r$が閉凸集合$\mathcal{X}$の指示関数である場合を考えます．つまり，確率的射影劣勾配法を考えます．

仮定A (A1, A2, A3) が成りつ場合，

任意の$\bar{\rho} > \rho$に対して，モロー包絡線関数の期待値に関する1ステップでの不等式が以下のように成り立ちます．
$$
\mathbb{E}[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \mathbb{E}[\varphi_{1/\bar{\rho}}(x_t)] - \frac{\alpha_t(\bar{\rho}-\rho)}{\bar{\rho}}\mathbb{E}[\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2] + \frac{\bar{\rho}\alpha_t^2 L^2}{2}
$$

アルゴリズムの出力$x_{t^*}$におけるモロー包絡線関数の勾配の二乗ノルム期待値に関する上界が成り立ちます．
       $$\mathbb{E}[\|\nabla \varphi_{1/\bar{\rho}}(x_{t^*})\|^2] \leq \frac{\bar{\rho}}{\bar{\rho}-\rho} \cdot \frac{(\varphi_{1/\bar{\rho}}(x_0)-\min \varphi)+\frac{\bar{\rho} L^2}{2} \sum \alpha_t^2}{\sum \alpha_t}$$
        $\alpha_t = \frac{\gamma}{\sqrt{T+1}}$とした場合の勾配二乗ノルム期待値に関する上界は以下のようになります．
       $$\mathbb{E}[\|\nabla \varphi_{1/2\rho}(x_{t^*})\|^2] \leq 2 \cdot \frac{(\varphi_{1/2\rho}(x_0)-\min \varphi)+\rho L^2 \gamma^2}{\gamma \sqrt{T+1}}$$
### 定理3.1の証明

**1.$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})]$の上界を導出する

モロー包絡線の定義は，$\varphi_\lambda(x) = \min_y \{\varphi(y) + \frac{1}{2\lambda}\|y-x\|^2\}$です．この最小化の最適解は$y = \operatorname{prox}_{\lambda \varphi}(x)$です．定義から，以下が成り立ちます．

$$\varphi_{1/\bar{\rho}}(x_{t+1}) \leq \varphi(\hat{x}_t) + \frac{1}{2(1/\bar{\rho})}\|\hat{x}_t - x_{t+1}\|^2 = \varphi(\hat{x}_t) + \frac{\bar{\rho}}{2}\|\hat{x}_t - x_{t+1}\|^2$$

この不等式の両辺に対して$\mathbb{E}_t[\cdot]$をとります．$\hat{x}_t = \operatorname{prox}_{\varphi/\bar{\rho}}(x_t)$は$x_t$に依存しますが，$\xi_t$には依存しないため，$\varphi(\hat{x}_t)$は定数となります．

$$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \mathbb{E}_t\left[\varphi(\hat{x}_t) + \frac{\bar{\rho}}{2}\|\hat{x}_t - x_{t+1}\|^2\right] = \varphi(\hat{x}_t) + \frac{\bar{\rho}}{2}\mathbb{E}_t[\|\hat{x}_t - x_{t+1}\|^2] \quad \text{(3.6)}$$

次に，$\mathbb{E}_t[\|\hat{x}_t - x_{t+1}\|^2]$の項を詳しくみていきます．アルゴリズムの更新式は$x_{t+1} = \operatorname{prox}_{\alpha_t r}(x_t - \alpha_t G(x_t, \xi_t))$です．定理3.1の文脈では，$r$は閉凸集合$\mathcal{X}$の指示関数なので，$\operatorname{prox}_{\alpha_t r}(\cdot)$は射影$\operatorname{proj}_{\mathcal{X}}(\cdot)$に等しくなります．よって，$x_{t+1} = \operatorname{proj}_{\mathcal{X}}(x_t - \alpha_t G(x_t, \xi_t))$です．

また，モロー包絡線の近接点$\hat{x}_t = \operatorname{prox}_{\varphi/\bar{\rho}}(x_t)$の定義を考えます．$\varphi = f + r$であり，$r$が指示関数$I_\mathcal{X}$なので，$\varphi = f + I_\mathcal{X}$です．近接写像の定義から$\hat{x}_t = \operatorname{prox}_{(f+I_\mathcal{X})/\bar{\rho}}(x_t)$です．これは，関数$y \mapsto f(y) + I_\mathcal{X}(y) + \frac{\bar{\rho}}{2}\|y - x_t\|^2$の最小化点であり，制約$y \in \mathcal{X}$の下で関数$y \mapsto f(y) + \frac{\bar{\rho}}{2}\|y - x_t\|^2$を最小化する点と等価です．つまり，$\hat{x}_t \in \mathcal{X}$です．

閉凸集合への射影の性質として，集合内の点$\hat{x}_t$に対しては$\operatorname{proj}_{\mathcal{X}}(\hat{x}_t) = \hat{x}_t$となります．

さらに，$\operatorname{proj}_{\mathcal{X}}(\cdot)$は非拡大です．つまり，任意の2点$a, b$に対して$\|\operatorname{proj}_{\mathcal{X}}(a) - \operatorname{proj}_{\mathcal{X}}(b)\| \le \|a - b\|$が成り立ちます．先ほどの話と，非拡大の性質を利用すると，

$$\|\hat{x}_t - x_{t+1}\|^2 = \|\operatorname{proj}_{\mathcal{X}}(\hat{x}_t) - \operatorname{proj}_{\mathcal{X}}(x_t - \alpha_t G(x_t, \xi_t))\|^2 \leq \|\hat{x}_t - (x_t - \alpha_t G(x_t, \xi_t))\|^2 \quad \text{(式 3.7)}$$
となります．次に，右辺のノルムの二乗を展開します．備忘録($\|A - B\|^2 = \|A\|^2 - 2\langle A, B \rangle + \|B\|^2$)

$$\|\hat{x}_t - (x_t - \alpha_t G(x_t, \xi_t))\|^2 = \|\hat{x}_t - x_t + \alpha_t G(x_t, \xi_t)\|^2$$
$$= \|\hat{x}_t - x_t\|^2 + 2\alpha_t \langle \hat{x}_t - x_t, G(x_t, \xi_t) \rangle + \alpha_t^2 \|G(x_t, \xi_t)\|^2$$

次にこの式に$\mathbb{E}_t[\cdot]$をとります．
$x_t, \hat{x}_t, \alpha_t$は$\xi_t$に依存しないため，期待値から外せます．

$$\mathbb{E}_t[\|\hat{x}_t - x_{t+1}\|^2] \leq \|\hat{x}_t - x_t\|^2 + 2\alpha_t \mathbb{E}_t[\langle \hat{x}_t - x_t, G(x_t, \xi_t) \rangle] + \alpha_t^2 \mathbb{E}_t[\|G(x_t, \xi_t)\|^2]$$

仮定A2より$\mathbb{E}_t[G(x_t, \xi_t)] = v_t \in \partial f(x_t)$です．また，仮定A3より$\mathbb{E}_t[\|G(x_t, \xi_t)\|^2] \le L^2$です．

$$\mathbb{E}_t[\|\hat{x}_t - x_{t+1}\|^2] \leq \|\hat{x}_t - x_t\|^2 + 2\alpha_t \langle \hat{x}_t - x_t, v_t \rangle + \alpha_t^2 L^2$$

これを最初の不等式$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \varphi(\hat{x}_t) + \frac{\bar{\rho}}{2}\mathbb{E}_t[\|\hat{x}_t - x_{t+1}\|^2]$に代入します．

$$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \varphi(\hat{x}_t) + \frac{\bar{\rho}}{2}\left( \|\hat{x}_t - x_t\|^2 + 2\alpha_t \langle \hat{x}_t - x_t, v_t \rangle + \alpha_t^2 L^2 \right)$$
$$= \varphi(\hat{x}_t) + \frac{\bar{\rho}}{2}\|\hat{x}_t - x_t\|^2 + \bar{\rho}\alpha_t \langle \hat{x}_t - x_t, v_t \rangle + \frac{\bar{\rho}\alpha_t^2 L^2}{2}$$

ここで，モロー包絡線の定義$\varphi_{1/\bar{\rho}}(x_t) = \varphi(\hat{x}_t) + \frac{\bar{\rho}}{2}\|x_t - \hat{x}_t\|^2$を利用して最初の2項をまとめます．

$$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \varphi_{1/\bar{\rho}}(x_t) + \bar{\rho}\alpha_t \langle \hat{x}_t - x_t, v_t \rangle + \frac{\bar{\rho}\alpha_t^2 L^2}{2}$$

次に，$\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2$の項を考えます．補題2.2より$\|\nabla \varphi_{1/\bar{\rho}}(x_t)\| = \bar{\rho}\|x_t - \hat{x}_t\|$なので，$\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2 = \bar{\rho}^2\|x_t - \hat{x}_t\|^2$です．したがって，$\|\hat{x}_t - x_t\|^2 = \frac{1}{\bar{\rho}^2}\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2$です．

ここで，弱凸性（パラメータ$\rho$）の性質と，劣勾配$v_t \in \partial f(x_t)$を利用します．弱凸性の劣勾配不等式 (2.5) は，$f(y) \ge f(x) + \langle v, y-x \rangle - \frac{\rho}{2}\|y-x\|^2$for$v \in \partial f(x)$です．
これに$x = x_t, y = \hat{x}_t, v = v_t$を代入します．

$$f(\hat{x}_t) \ge f(x_t) + \langle v_t, \hat{x}_t - x_t \rangle - \frac{\rho}{2}\|\hat{x}_t - x_t\|^2$$

この不等式を変形して，評価したい項$\langle \hat{x}_t - x_t, v_t \rangle$を上から抑えます．

$$\langle \hat{x}_t - x_t, v_t \rangle \leq f(\hat{x}_t) - f(x_t) + \frac{\rho}{2}\|\hat{x}_t - x_t\|^2$$

これを先の評価式に代入します．

$$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \varphi_{1/\bar{\rho}}(x_t) + \bar{\rho}\alpha_t \left( f(\hat{x}_t) - f(x_t) + \frac{\rho}{2}\|\hat{x}_t - x_t\|^2 \right) + \frac{\bar{\rho}\alpha_t^2 L^2}{2} \quad \text{(式 3.8)}$$

これが証明中の式 (3.8) です．次に，カッコ内の項$\left( f(\hat{x}_t) - f(x_t) + \frac{\rho}{2}\|\hat{x}_t - x_t\|^2 \right)$をさらに評価します．

関数$x \mapsto f(x) + \frac{\bar{\rho}}{2}\|x - x_t\|^2$を考えます．$f$は$\rho$-弱凸なので，$f(x) + \frac{\rho}{2}\|x\|^2$は凸です．これに凸関数$\frac{\bar{\rho}-\rho}{2}\|x - x_t\|^2$を加えた関数$f(x) + \frac{\rho}{2}\|x\|^2 + \frac{\bar{\rho}-\rho}{2}\|x - x_t\|^2 = f(x) + \frac{\rho}{2}\|x\|^2 + \frac{\bar{\rho}-\rho}{2}(\|x\|^2 - 2\langle x, x_t \rangle + \|x_t\|^2)$は凸です．したがって，$f(x) + \frac{\bar{\rho}}{2}\|x\|^2 + \frac{\bar{\rho}-\rho}{2}\|x_t\|^2 - (\bar{\rho}-\rho)\langle x, x_t \rangle$は凸であり，これは$f(x) + \frac{\bar{\rho}}{2}\|x\|^2 - (\bar{\rho}-\rho)\langle x, x_t \rangle + \text{const}$という形になります．

より直接的に，$f(x) + \frac{\rho}{2}\|x\|^2$が凸であり，$\frac{\bar{\rho}}{2}\|x - x_t\|^2 = \frac{\bar{\rho}}{2}\|x\|^2 - \bar{\rho}\langle x, x_t \rangle + \frac{\bar{\rho}}{2}\|x_t\|^2$であることから，$f(x) + \frac{\bar{\rho}}{2}\|x - x_t\|^2 = \left(f(x) + \frac{\rho}{2}\|x\|^2\right) + \frac{\bar{\rho}-\rho}{2}\|x\|^2 - \bar{\rho}\langle x, x_t \rangle + \frac{\bar{\rho}}{2}\|x_t\|^2$となります．もし$\bar{\rho} \ge \rho$ならば$\frac{\bar{\rho}-\rho}{2}\|x\|^2$は凸関数なので，全体の関数は凸関数と凸関数の和になり凸関数となります．

しかし，証明ではより強い強凸性を利用しています．関数$g(x) = f(x) + \frac{\bar{\rho}}{2}\|x - x_t\|^2$を考えます．$f$が$\rho$-弱凸であることから，$f(x) + \frac{\rho}{2}\|x\|^2$は凸です．$g(x) + \frac{\rho-\bar{\rho}}{2}\|x\|^2 = f(x) + \frac{\rho}{2}\|x\|^2 - \bar{\rho}\langle x, x_t \rangle + \frac{\bar{\rho}}{2}\|x_t\|^2$は凸なので，$g(x)$は$(\bar{\rho}-\rho)$-弱凸です．

実は，点$\hat{x}_t = \operatorname{prox}_{\varphi/\bar{\rho}}(x_t)$は，関数$y \mapsto \varphi(y) + \frac{\bar{\rho}}{2}\|y - x_t\|^2$の最小化点です．$r$が指示関数なので，これは$y \mapsto f(y) + \frac{\bar{\rho}}{2}\|y - x_t\|^2$の$\mathcal{X}$上での最小化点です．

証明では，この関数$x \mapsto f(x)+\frac{\bar{\rho}}{2}\|x-x_{t}\|^{2}$がパラメータ$\bar{\rho}-\rho$で強凸であると述べています．
これは，$f$が$\rho$-弱凸である（すなわち$f(x) + \frac{\rho}{2}\|x\|^2$が凸）ことから，$f(x) + \frac{\bar{\rho}}{2}\|x\|^2 = (f(x) + \frac{\rho}{2}\|x\|^2) + \frac{\bar{\rho}-\rho}{2}\|x\|^2$は，凸関数と強凸関数（$\bar{\rho} > \rho$の場合）の和なので強凸となり，パラメータは$\bar{\rho}-\rho$です．したがって，関数$x \mapsto f(x)+\frac{\bar{\rho}}{2}\|x-x_{t}\|^{2}$も強凸であり，その強凸性パラメータは$\bar{\rho}-\rho$です．

強凸関数$h(x)$の最小化点$x^*$における劣勾配$v \in \partial h(x^*)$が0を含むこと，および強凸性の定義$h(y) \ge h(x) + \langle v, y-x \rangle + \frac{\mu}{2}\|y-x\|^2$($v \in \partial h(x)$) より，$h(y) \ge h(x^*) + \frac{\mu}{2}\|y-x^*\|^2$が成り立ちます．
ここで，$h(x) = f(x) + \frac{\bar{\rho}}{2}\|x - x_t\|^2$とし，その最小化点$x^* = \hat{x}_t$とします．強凸性パラメータは$\mu = \bar{\rho}-\rho$です．任意の点$x$に対して以下が成り立ちます．

$$f(x) + \frac{\bar{\rho}}{2}\|x - x_t\|^2 \ge f(\hat{x}_t) + \frac{\bar{\rho}}{2}\|\hat{x}_t - x_t\|^2 + \frac{\bar{\rho}-\rho}{2}\|x - \hat{x}_t\|^2$$

これに$x = x_t$を代入します．

$$f(x_t) + \frac{\bar{\rho}}{2}\|x_t - x_t\|^2 \ge f(\hat{x}_t) + \frac{\bar{\rho}}{2}\|\hat{x}_t - x_t\|^2 + \frac{\bar{\rho}-\rho}{2}\|x_t - \hat{x}_t\|^2$$
$$f(x_t) \ge f(\hat{x}_t) + \frac{\bar{\rho}}{2}\|\hat{x}_t - x_t\|^2 + \frac{\bar{\rho}-\rho}{2}\|x_t - \hat{x}_t\|^2$$

この不等式を変形して，証明中のカッコ内の項$f(\hat{x}_t) - f(x_t) + \frac{\rho}{2}\|x_t - \hat{x}_t\|^2$を上から抑えます．

$$f(x_t) - f(\hat{x}_t) \ge \frac{\bar{\rho}}{2}\|\hat{x}_t - x_t\|^2 + \frac{\bar{\rho}-\rho}{2}\|x_t - \hat{x}_t\|^2 = \frac{2\bar{\rho}-\rho}{2}\|x_t - \hat{x}_t\|^2$$
$$f(\hat{x}_t) - f(x_t) \le -\frac{2\bar{\rho}-\rho}{2}\|x_t - \hat{x}_t\|^2$$

このままでは式 (3.8) のカッコ内の形になりません．もう一度，証明中で使われている式変形をよく見ます．証明では，**$\langle \hat{x}_t - x_t, v_t \rangle$を評価する**のではなく，**$f(x_t) - f(\hat{x}_t) - \frac{\rho}{2}\|x_t - \hat{x}_t\|^2$を評価**しています．この項は，上で導出した強凸性の不等式から直接下界が得られます．

$$f(x_t) - f(\hat{x}_t) - \frac{\rho}{2}\|x_t - \hat{x}_t\|^2 \ge (\bar{\rho}-\rho)\|x_t - \hat{x}_t\|^2$$

これを式 (3.8) のカッコ内の項$\left( f(\hat{x}_t) - f(x_t) + \frac{\rho}{2}\|x_t - \hat{x}_t\|^2 \right)$に代入するために，符号を反転します．

$$-\left(f(x_t) - f(\hat{x}_t) - \frac{\rho}{2}\|x_t - \hat{x}_t\|^2\right) \leq -(\bar{\rho}-\rho)\|x_t - \hat{x}_t\|^2$$
$$\left(f(\hat{x}_t) - f(x_t) + \frac{\rho}{2}\|x_t - \hat{x}_t\|^2\right) \leq -(\bar{\rho}-\rho)\|x_t - \hat{x}_t\|^2$$

これを式 (3.8) に代入します．

$$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \varphi_{1/\bar{\rho}}(x_t) + \bar{\rho}\alpha_t \left( -(\bar{\rho}-\rho)\|x_t - \hat{x}_t\|^2 \right) + \frac{\bar{\rho}\alpha_t^2 L^2}{2}$$
$$= \varphi_{1/\bar{\rho}}(x_t) - \bar{\rho}\alpha_t (\bar{\rho}-\rho)\|x_t - \hat{x}_t\|^2 + \frac{\bar{\rho}\alpha_t^2 L^2}{2}$$

最後に，モロー包絡線の勾配と$\|x_t - \hat{x}_t\|$の関係$\|\nabla \varphi_{1/\bar{\rho}}(x_t)\| = \bar{\rho}\|x_t - \hat{x}_t\|$(補題2.2) を使って，$\|x_t - \hat{x}_t\|^2$を$\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2$に置き換えます．

$$\|x_t - \hat{x}_t\|^2 = \frac{1}{\bar{\rho}^2}\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2$$

$$\mathbb{E}_t[\varphi_{1/\bar{\rho}}(x_{t+1})] \leq \varphi_{1/\bar{\rho}}(x_t) - \bar{\rho}\alpha_t (\bar{\rho}-\rho) \frac{1}{\bar{\rho}^2}\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2 + \frac{\bar{\rho}\alpha_t^2 L^2}{2}$$
$$= \varphi_{1/\bar{\rho}}(x_t) - \frac{\alpha_t(\bar{\rho}-\rho)}{\bar{\rho}}\|\nabla \varphi_{1/\bar{\rho}}(x_t)\|^2 + \frac{\bar{\rho}\alpha_t^2 L^2}{2}$$

