# Weakly convexとモーロー包

参考：
* [Policy Gradient in Robust MDPs with Global Convergence Guarantee](https://arxiv.org/abs/2212.10439)
* [A UNIFIED ANALYSIS OF DESCENT SEQUENCES IN WEAKLY CONVEX OPTIMIZATION, INCLUDING CONVERGENCE RATES FOR BUNDLE METHODS](https://pages.cs.wisc.edu/~solodov/asss21unif-descent.pdf)
* [Efficiency of minimizing compositions of convex functions and smooth maps](https://arxiv.org/abs/1605.00125)


定義：
* 関数$h: \mathcal{X} \to \mathbb{R}$は次を満たすときに$L$-リプシッツといいます．
任意の$x_1, x_2 \in \mathcal{X}$に対して，$\|h(x_1) - h(x_2)\| \leq L \|x_1 - x_2\|$．
* 任意の$x_1, x_2 \in \mathcal{X}$に対して
$\left\|\nabla h\left(\boldsymbol{x}_1\right)-\nabla h\left(\boldsymbol{x}_2\right)\right\| \leq \ell\left\|\boldsymbol{x}_1-\boldsymbol{x}_2\right\|$のときに$\ell$-smoothといいます．

## Weakly convexな関数

次を満たすときに関数$h: \mathcal{X} \to \mathbb{R}$は$\ell$-weakly convexであるといいます．
任意の$\boldsymbol{g} \in \partial h(\boldsymbol{x})$と $\boldsymbol{x}, \boldsymbol{x}^{\prime} \in \mathcal{X}$について，

$$
h\left(\boldsymbol{x}^{\prime}\right)-h(\boldsymbol{x}) \geq\left\langle\boldsymbol{g}, \boldsymbol{x}^{\prime}-\boldsymbol{x}\right\rangle-\frac{\ell}{2}\left\|\boldsymbol{x}^{\prime}-\boldsymbol{x}\right\|^2
$$

ここで$\partial h(\boldsymbol{x})$はフレシェ劣微分を表します．
ちなみにフレシェ劣微分は次の集合のことです：

$$
\partial h(\boldsymbol{x})=
\left\{u \mid \liminf _{\boldsymbol{x}^{\prime} \rightarrow \boldsymbol{x}} h\left(\boldsymbol{x}^{\prime}\right)-h(\boldsymbol{x})-\left\langle\boldsymbol{u}, \boldsymbol{x}^{\prime}-\boldsymbol{x}\right\rangle /\left\|\boldsymbol{x}^{\prime}-\boldsymbol{x}\right\| \geq 0\right\}
$$

また，上で定義したweakly-convexな$h(x)$は，
$\tilde{h}(\boldsymbol{x})=h(\boldsymbol{x}) + \frac{\ell}{2} \|\boldsymbol{x}\|^2$とすると，$\tilde{h}$が凸関数になります．
１次元のときを考えてみると，$g + \ell x \in \partial \tilde{h}(x)$であり，

$$
\begin{aligned}
\tilde{h}\left(\boldsymbol{x}^{\prime}\right)-\tilde{h}(\boldsymbol{x}) 
&=
h\left(\boldsymbol{x}^{\prime}\right)-h(\boldsymbol{x}) 
+ \frac{\ell}{2} {x}'^2 - \frac{\ell}{2} x^2\\
&\geq\left\langle\boldsymbol{g}, \boldsymbol{x}^{\prime}-\boldsymbol{x}\right\rangle - \frac{\ell}{2}(x' - x)^2+\frac{\ell}{2} x'^2 - \frac{\ell}{2}x^2 \\
&=\left\langle\boldsymbol{g}, \boldsymbol{x}^{\prime}-\boldsymbol{x}\right\rangle + \ell x' x - \ell x^2 \\
&=\left\langle\boldsymbol{g} + \ell x, \boldsymbol{x}^{\prime}-\boldsymbol{x}\right\rangle\;.
\end{aligned}
$$
なので，$\tilde{h}$は凸関数です．


### 同値な定義

* [A UNIFIED ANALYSIS OF DESCENT SEQUENCES IN WEAKLY CONVEX OPTIMIZATION, INCLUDING CONVERGENCE RATES FOR BUNDLE METHODS](https://pages.cs.wisc.edu/~solodov/asss21unif-descent.pdf)

定義
* プロパー，下半連続，局所Lipschitz連続な関数$f: \mathbb{R}^n \to \mathbb{R} \cup \{+\infty\}$について，$x \in \operatorname{dom}(f)=\left\{x \in \mathbb{R}^n \mid f(x) < +\infty\right\}$における$f$のClarke劣微分は

$$
\partial f(x)=\operatorname{conv}\left\{g \in \mathbb{R}^n \mid \exists\left\{y_k\right\} \subset \mathcal{D}_f: y_k \rightarrow x, \nabla f\left(y_k\right) \rightarrow g\right\}
$$

で定義されます．ここで，$\mathcal{D}_f$は$f$において微分可能な点の集合です．
* （多分）Weakly convexな関数の場合はFrechet劣微分とClarke劣微分は一致します．TODO: 証明

Proposition 2.2.: Clarke劣微分と弱凸関数について，次の３つは同値です．

1. 任意の$z \in \mathbb{R}^n, f(\cdot)+\frac{\rho}{2}\|\cdot-z\|^2$が凸関数
2. 任意の$\partial f(y) \neq \emptyset$なる$x, y \in \mathbb{R}^n$について，$g(y) \in \partial f(y)$ が
$f(y)+\langle g(y), x-y\rangle \leq f(x)+\frac{\rho}{2}\|x-y\|^2$
を満たす．
3. 任意の$x, y \in \mathbb{R}^n$について，
$$
f(\lambda x+(1-\lambda) y) \leq \lambda f(x)+(1-\lambda) f(y)+\frac{\rho \lambda(1-\lambda)}{2}\|x-y\|^2
$$

### Weakly convexを保存する操作

* [Efficiency of minimizing compositions of convex functions and smooth maps](https://arxiv.org/abs/1605.00125) こっちのほうがわかりやすい．
* [A UNIFIED ANALYSIS OF DESCENT SEQUENCES IN WEAKLY CONVEX OPTIMIZATION, INCLUDING CONVERGENCE RATES FOR BUNDLE METHODS](https://pages.cs.wisc.edu/~solodov/asss21unif-descent.pdf)

弱凸性を保存するComposite関数について見ていきましょう．

---

* $c: \mathbb{R}^d \to \mathbb{R}^m$を$C^1$-平滑関数として，そのJacobianについて次の$\beta$-Lipschitz連続性を満たすとします：$\|\nabla c(x)-\nabla c(y)\|_{\mathrm{op}} \leq \beta\|x-y\| \quad$ for all $x, y \in \mathbf{R}^d$
    * 作用素ノルム：$\|A\|_{\mathrm{op}}=\sup_{\|x\|=1}\|Ax\|$
* $h: \mathbb{R}^m \to \mathbb{R}$を凸かつ$L$-Lipschitz連続な関数とします．$|h(x)-h(y)| \leq L\|x-y\| \quad$ for all $x, y \in \mathbf{R}^m$
* $\mu = L\beta$とします．

このとき，$\Phi:=h \circ c$は何らかの$\rho \in [0, \mu]$に対して$\rho$-弱凸です．


**証明**

* 固定された$x, y \in \mathbb{R}^d$と$v \in \partial \Phi(x)$を考えます（ここで$\partial$は凸劣微分を表してます）．
* このとき，何らかの$w \in \partial h(c(x))$について，$v=\nabla c(x)^* w$とかけます．
    * ここで，$A^*$は$A : \mathbb{R}^d \to \mathbb{R}^l$の随伴行列で，$\langle A x, y\rangle=\left\langle x, A^* y\right\rangle \quad$ for all $x \in \mathbf{R}^d, y \in \mathbf{R}^l$を満たします．

$h$の凸性と，Smoothnessの不等式$\|c(y)-c(x)-\nabla c(x)(y-x)\| \leq \frac{\beta}{2}\|y-x\|^2$によって，

$$
\begin{aligned}
\Phi(y)=h(c(y)) \geq h(c(x))+\langle w, c(y)-c(x)\rangle & \geq \Phi(x)+\langle w, \nabla c(x)(y-x)\rangle-\frac{\beta\|w\|}{2}\|y-x\|^2 \\
& \geq \Phi(x)+\langle v, y-x\rangle-\frac{\mu}{2}\|y-x\|^2 .
\end{aligned}
$$

が成立します．


### 弱凸関数の例

* **平滑な関数**
    * $m=1$かつ$h$をidentity functionとすれば，上の保存性からダイレクトに示せる．一応[Policy Gradient in Robust MDPs with Global Convergence Guarantee](https://arxiv.org/abs/2212.10439)に証明がある．

## 停留点とモーロー包

* [Efficiency of minimizing compositions of convex functions and smooth maps](https://arxiv.org/abs/1605.00125) これを読んだほうが良い．

最適化の解析では近似停留点（approximate stationary point）に達したときの解析などをします．
近似停留点は$\xi \in \partial h(x)$について$\min _{\xi \in \partial f(\mathbf{x})}\|\xi\| \leq \epsilon$で一般に定義されますが，これはnonsmoothな関数ではうまく働かない可能性があります．
（この辺の話は[On Gradient Descent Ascent for Nonconvex-Concave Minimax Problems](https://proceedings.mlr.press/v119/lin20a.html)に書いてあります）．

例えば$h(\cdot) = |\cdot|$を考えてみましょう．
このとき$\varepsilon$-停留点は任意の$\varepsilon \in [0, 1)$について$x=0$です．
つまり，この表記において近似停留点を見つけるのは，問題をそのまま解くのと同じくらい難しいことになります．

そこで，weakly convexな関数の最適化には次のモーロー包を考えることが多いです．

---

**定義：モーロー包**

関数$h: \mathcal{X} \to \mathbb{R}$ と$\lambda > 0$について，

$$
h_\lambda(x):=\min _{x^{\prime} \in \mathcal{X}}\left\{h\left(x^{\prime}\right)+\frac{1}{2 \lambda}\left\|x-x^{\prime}\right\|^2\right\}
$$

をモーロー包と呼びます．
これは$\lambda$によって，$h(x)$のminimizerを返すか？，それとも$x$に十分近い点を返すか？を調整しています．
$\lambda$が小さい時$x'\approx x$がminimizerなので，ほぼ$h(x)$と同じ値になります．一方で$\lambda$が大きければほぼ$h(x')$の最小値を返すわけですね．

---

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import interact

# 適当な関数（非凸）を用意します
x = np.linspace(-0.6, 0.5, 30)
h = x ** 4 - 0.7 * x **2 + 0.1 * x + 1.5 * np.cos(10 * x) * 0.1 + 0.3

def plot_conjugate(lam):
    moreau = np.array([h[i] + (x - x[i]) ** 2 / (2 * lam) for i in range(len(x))]).min(axis=0)
    plt.figure(figsize=(12, 6))
    plt.subplot(1, 1, 1)

    plt.plot(x, h, label=r"$h$")
    plt.plot(x, moreau, label=r"$h_\lambda$")

    plt.grid()
    plt.legend()
    plt.ylim(-0.8, 0.8)
    plt.xlabel("x")

    plt.show()

interact(plot_conjugate, lam=(0.001, 5.0, 0.1))

interactive(children=(FloatSlider(value=2.4010000000000002, description='lam', max=5.0, min=0.001), Output()),…

<function __main__.plot_conjugate(lam)>

このモーロー包を使って停留点を定義しましょう．

---

**定義：モーロー包の勾配についての停留点**

$\ell$-weakly convex関数$h$について，$x^\star$は次を満たすときに$\epsilon$-first order stationary point ($\epsilon$-FOSP)と呼びます：

$$\left\|\nabla h_{\frac{1}{2 \ell}}\left(x^{\star}\right)\right\| \leq \epsilon$$

ここで$h_{\frac{1}{2 \ell}}(x)$は$\lambda=1 / 2\ell$のモーロー包です．

---

**補題：モーロー包の勾配**

また，モーロー包の勾配は次で与えられます．

$h$を$\ell$-weakly convex関数とします．$\lambda < \ell$について，$h_\lambda$は$C^1$-smoothであり，

$$
\nabla h_\lambda(x)=\lambda^{-1}\left(x-\underset{x^{\prime}}{\arg \min }\left(h\left(x^{\prime}\right)+\frac{1}{2 \lambda}\left\|x-x^{\prime}\right\|^2\right)\right)
$$

が成立します．証明は略．

---

**補題：strongly convex**

$h$を$\ell$-strongly convex functionとします．このとき，任意の$\boldsymbol{x}, \boldsymbol{y} \in \mathcal{X}, h(\boldsymbol{x})$について，

$$
h(\boldsymbol{y})-h(\boldsymbol{x}) \leq \nabla h(\boldsymbol{y})^{\top}(\boldsymbol{y}-\boldsymbol{x})-\frac{\ell}{2}\|\boldsymbol{x}-\boldsymbol{y}\|^2
$$

です．さらに$\boldsymbol{y}=\boldsymbol{x}^{\star}:=\arg \min _{\boldsymbol{x} \in \mathcal{X}} h(\boldsymbol{x})$とすれば，

$$
h(\boldsymbol{x})-\min _{\boldsymbol{x} \in \mathcal{X}} h(\boldsymbol{x}) \geq \frac{\ell}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^{\star}\right\|^2
$$

が成り立ちます．

**証明**

１つ目はStrongly convex functionの定義とほぼ変わりません．また，２つ目は一次の最適性からすぐにわかります．



---

**補題：Weakly convex functionのFrechet劣微分の上界について**

$h: \mathcal{X} \subseteq \mathbb{R}^n \to \mathbb{R}$ が$\ell$-weakly convexとします．
$\lambda < 1 /\ell$および
$$
\hat{\boldsymbol{x}}_\lambda=\arg \min _{\boldsymbol{x}^{\prime} \in \mathcal{X}} h\left(\boldsymbol{x}^{\prime}\right)+\frac{1}{2 \lambda}\left\|\boldsymbol{x}-\boldsymbol{x}^{\prime}\right\|^2
$$
とします．このとき，次を満たす$\boldsymbol{\xi} \in \partial h\left(\hat{\boldsymbol{x}}_\lambda\right)$が存在します：

$$
-\boldsymbol{\xi} - \frac{1}{\lambda}\left(\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}\right) \in \mathcal{N}_{\mathcal{X}}\left(\hat{\boldsymbol{x}}_\lambda\right)
$$

ここで$\mathcal{N}_\mathcal{X}(\hat{x}_\lambda)$は$\mathcal{X}$における$\hat{x}_\lambda$でのnormal coneです．
Normal coneの定義から，任意の$\boldsymbol{y} \in \mathcal{X}$について
$$
\langle\boldsymbol{\xi}, \hat{\boldsymbol{x}}_\lambda - \boldsymbol{y}\rangle \leq\left\langle \nabla h_\lambda (x), \hat{\boldsymbol{x}}_\lambda - \boldsymbol{y}\right\rangle, \forall \boldsymbol{y} \in \mathcal{X} 
$$
が成立します．

**証明**

$f(\boldsymbol{x})=h(\boldsymbol{x})+\mathbb{I}_{\mathcal{X}}(\boldsymbol{x})$とします．
ここで$\mathbb{I}$は指示関数です．

このとき$f(x)$のモーロー包は
$$
\begin{aligned}
f_\lambda(\boldsymbol{x}) & =\min _{\boldsymbol{x}^{\prime} \in \mathbb{R}^n}\left\{h\left(\boldsymbol{x}^{\prime}\right)+\mathbb{I}_{\mathcal{X}}\left(\boldsymbol{x}^{\prime}\right)+\frac{1}{2 \lambda}\left\|\boldsymbol{x}-\boldsymbol{x}^{\prime}\right\|^2\right\}, \quad \forall \boldsymbol{x} \in \mathbb{R}^n \\
& =\min _{\boldsymbol{x}^{\prime} \in \mathcal{X}}\left\{h\left(\boldsymbol{x}^{\prime}\right)+\frac{1}{2 \lambda}\left\|\boldsymbol{x}-\boldsymbol{x}^{\prime}\right\|^2\right\}, \quad \forall \boldsymbol{x} \in \mathbb{R}^n .
\end{aligned}
$$

になります．ここで
$$
\begin{aligned}
\hat{\boldsymbol{x}}_\lambda: & 
=\underset{\boldsymbol{x}' \in \mathcal{X}}{\arg \min }\left(h(\boldsymbol{x}')+\frac{1}{2 \lambda}\|\boldsymbol{x}-\boldsymbol{x}'\|^2\right)\\
& =\underset{\boldsymbol{x}' \in \mathbb{R}^n}{\arg \min }(\underbrace{h(\boldsymbol{x}')+\mathbb{I}_{\mathcal{X}}(\boldsymbol{x}')+\frac{1}{2 \lambda}\|\boldsymbol{x}-\boldsymbol{x}'\|^2}_{:=\phi_{\boldsymbol{x}}(\boldsymbol{x}')}) 
\end{aligned}
$$

として書けます．すると，モーロー包の勾配は$\nabla f_\lambda(\boldsymbol{x})=\lambda^{-1}(\boldsymbol{x}-\hat{\boldsymbol{x}}_\lambda)$です．$\phi_{\boldsymbol{x}}(\boldsymbol{y})=h(\boldsymbol{y})+\mathbb{I}_{\mathcal{X}}(\boldsymbol{y})+\frac{1}{2 \lambda}\|\boldsymbol{x}-\boldsymbol{y}\|^2$とすると，$\hat{x}_\lambda$は$\phi_x(\cdot)$の極小値であることがすぐわかります．

極小値では$0$になる劣微分が必ず存在するので（[これなど](https://web.stanford.edu/class/ee364b/lectures/subgradients_notes.pdf)），

$$
\begin{aligned}
&\phi_{\boldsymbol{x}}(\hat{\boldsymbol{x}}_\lambda(\boldsymbol{x}))=\min _{\boldsymbol{y} \in \mathbb{R}^n} \phi_{\boldsymbol{x}}(\boldsymbol{y}) =\min _{\boldsymbol{y} \in \mathbb{R}^n} h(\boldsymbol{y})+\mathbb{I}_{\mathcal{X}}(\boldsymbol{y})+\frac{1}{2 \lambda}\|\boldsymbol{x}-\boldsymbol{y}\|^2 \\
& \left.\Longleftrightarrow 0 \in \partial\left(h(\boldsymbol{y})+\mathbb{I}_{\mathcal{X}}(\boldsymbol{y})+\frac{1}{2 \lambda}\|\boldsymbol{x}-\boldsymbol{y}\|^2\right)\right|_{\boldsymbol{y}=\hat{\boldsymbol{x}}_\lambda}\\
& \Longleftrightarrow -\frac{1}{\lambda}(\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}) \in \left.\partial\left(h(\boldsymbol{y})+\mathbb{I}_{\mathcal{X}}(\boldsymbol{y})\right)\right|_{\boldsymbol{y}=\hat{\boldsymbol{x}}_\lambda}
% & \Longleftrightarrow -\frac{1}{\lambda}(\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}) \in \boldsymbol{\xi}+\mathcal{N}_{\mathcal{X}}(\hat{\boldsymbol{x}}_\lambda) \\
% & \Longleftrightarrow-\boldsymbol{\xi} \in \mathcal{N}_{\mathcal{X}}(\hat{\boldsymbol{x}}_\lambda)+\frac{1}{\lambda}(\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}) .
\end{aligned}
$$
が成り立ちます．
ここで$N_\mathcal{X}(x)$を$x$における$\mathcal{X}$についてのNormal coneとします．
これは
$$
N_\mathcal{X}(x) = \{g \in \mathbb{R}^n \mid g^\top y \leq g^\top x \quad \forall y \in \mathcal{X}\}
$$
です．指示関数の劣微分はnormal coneになるので，次を満たす劣微分$\xi \in \partial h(\hat{x}_\lambda)$が存在します．

$$
-\xi -\frac{1}{\lambda}(\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}) \in N_\mathcal{X}(\hat{x}_\lambda)
$$

$N_\mathcal{X}(\hat{x}_\lambda)$の中のベクトル$g$は任意の$y \in \mathcal{X}$に対して$g^\top (y - \hat{x}_\lambda) \leq 0$を満たすので，任意の$y \in \mathcal{X}$に対して，
$$
\begin{aligned}
&\left\langle-\boldsymbol{\xi}-\frac{1}{\lambda}(\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}), \boldsymbol{y} - \hat{x}_\lambda \right\rangle
\leq 0\\
\Longleftrightarrow &\langle-\boldsymbol{\xi}, \boldsymbol{y}-\hat{\boldsymbol{x}}_\lambda \rangle \leq\left\langle\frac{1}{\lambda}(\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}), \boldsymbol{y}-\hat{\boldsymbol{x}}_\lambda\right\rangle, \forall \boldsymbol{y} \in \mathcal{X} \\
\Longleftrightarrow &\langle\boldsymbol{\xi}, \hat{\boldsymbol{x}}_\lambda - \boldsymbol{y}\rangle \leq\left\langle \nabla h_\lambda (x), \hat{\boldsymbol{x}}_\lambda - \boldsymbol{y}\right\rangle, \forall \boldsymbol{y} \in \mathcal{X} \\
% & \Longrightarrow\langle-\boldsymbol{\xi}, \boldsymbol{y}-\hat{\boldsymbol{x}}_\lambda\rangle \leq \frac{1}{\lambda}\|\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}\| \cdot\|\boldsymbol{y}-\hat{\boldsymbol{x}}_\lambda\|, \forall \boldsymbol{y} \in \mathcal{X}
% & \Longleftrightarrow\langle-\boldsymbol{\xi}, \boldsymbol{y}-\hat{\boldsymbol{x}}_\lambda\rangle \leq \frac{1}{\lambda}\|\hat{\boldsymbol{x}}_\lambda-\boldsymbol{x}\|, \forall \boldsymbol{y} \in \mathcal{X},\|\boldsymbol{y}-\hat{\boldsymbol{x}}_\lambda\|=1 .
\end{aligned}
$$
