# 非平滑なPL条件下での最適化

参考：
* [Error bounds, PL condition, and quadratic growth for weakly convex functions, and linear convergences of proximal point methods](https://arxiv.org/abs/2312.16775)
    * introの文献は基本的に全部読んでおこう

[OPT_Grad_PL_convergence.ipynb](OPT_Grad_PL_convergence.ipynb)でやった内容は平滑な関数に対しての話でした．今回は非平滑な関数の話をします．

## 準備

* 点$x$から$S$への距離：$\operatorname{dist}(x, S):=\min _{y \in S}\|x-y\|$
* 点$x$から集合$S$への射影：$\operatorname{\Pi}_{S}(x):=\arg \min _{y \in S}\|x-y\|$
* 関数$f$の$\nu$-sublevel set: $[f \leq \nu]:=\left\{x \in \mathbb{R}^n \mid f(x) \leq \nu\right\}$

---

**劣微分**

$f: \mathbb{R}^n \to \overline{\mathbb{R}}$をプロパーな閉関数とします．この$f$について，次のフレシェ劣微分を定義しましょう：

$$
\hat{\partial} f(x):=\left\{s \in \mathbb{R}^n \left\lvert\, \liminf _{y \rightarrow x} \frac{f(y)-f(x)-\langle s, y-x\rangle}{\|y-x\|} \geq 0\right.\right\}
$$

$f$が凸ならば，フレシェ劣微分$\hat{\partial} f(x)$は普通の凸についての劣微分と同じです：

$$
\hat{\partial} f(x)=\partial f(x):=\left\{s \in \mathbb{R}^n \mid f(y) \geq f(x)+\langle s, y-x\rangle, \forall y \in \mathbb{R}^n\right\}, \quad \forall x \in \mathbb{R}^n
$$

さらに，平滑ならば，$\hat{\partial} f(x)$は微分と同じです．

---

**Slope**

Closedな関数$f: \mathbb{R}^n \to \overline{\mathbb{R}}$と，$f(\bar{x})$が有限な点$\bar{x}$を考えましょう．
$\bar{x}$でのslopeは次のように定義されます：

$$
|\nabla f|(\bar{x}):=\limsup _{x \rightarrow \bar{x}} \frac{(f(\bar{x})-f(x))^{+}}{\|x-\bar{x}\|}
$$

ここで，$(a)^{+}:=\max(a, 0)$です．

* 直感的には，点$x$での関数$f$の傾きを表現します．普通の微分では勾配のノルムを取ればいいですが，非平滑な関数では勾配のノルムが定義されないので，slopeを使うことで一般化できます．
* $f$が平滑な関数ならば，Slopeは$\|\nabla f(\bar{x})\|$と同じです．
* $f(x)$が凸関数ならば，劣微分の中身の最も小さいノルムと同じです：$|\nabla f|(\bar{x})=\operatorname{dist}(0, \partial f(\bar{x}))$
* Frechet劣微分可能であれば，$|\nabla f|(\bar{x})=\operatorname{dist}(0, \hat{\partial} f(\bar{x}))$と同じです．

上の内容は論文内で証明されてます．

---

**最適解の集合との距離**

次が成立します：

$f: \mathbb{R}^n \to \overline{\mathbb{R}}$をプロパーな閉関数とします．
点$x \in \operatorname{dom}(f)$について,次を満たすような定数$\alpha<f(x)$ と $r>0, K>0$ が存在するとします：
* $\alpha$までそんなに遠くない：$f(x)-\alpha<K r$ 
* 一定以上のスロープ：$|\nabla f|(u) \geq r$ が次を満たす任意の$u$で成立する：$u \in[\alpha<f(u) \leq f(x)],\|u-x\| \leq K$.

![](figs/dist-to-solutionset.jpg)

**ポイント**

* 画像みたいに，「局所的に凸みたいな感じになってれば，最適解との距離がバウンドできる」みたいなイメージかな？画像は凸で書いたけど，非平滑や凸以外でも多分成立すると思う．
* $\alpha=f^{\star}=\inf _{x \in \mathbb{R}^n} f(x)$ならば，解との集合の距離$\operatorname{dist}\left(x,\left[f=f^{\star}\right]\right)$を$\left(f(x)-f^{\star}\right) / r$でバウンドできます．

---

**Ekelandの変分原理**

$f: \mathbb{R}^n \to \overline{\mathbb{R}}$をプロパーな閉関数とします．
$\epsilon > 0$および$z \in\left[f(z) \leq \inf _{x \in \mathbb{R}^n} f(x)+\epsilon\right]$を考えましょう．つまり，$z$は最適解の$\epsilon$-sublevel setに含まれています．

このとき，任意の$\rho > 0$について，次を満たす$y \in \mathbb{R}^n$が存在します：

* $z$と$y$の距離がバウンドされてる：$\|z-y\| \leq \epsilon / \rho$
* $y$は$z$よりもましな解：$f(y) \leq f(z)$
* $y$は関数$f + \rho\|\cdot - z\|$の最適解：$f(y) < f(x)+\rho\|x-z\|, \quad \forall x \in \mathbb{R}^n /\{y\}$

この原理を使うと，$y$のslopeがバウンドされます：

$$
|\nabla f|(y)=\limsup _{x \rightarrow y} \frac{(f(y)-f(x))^{+}}{\|x-y\|} \leq \limsup _{x \rightarrow y} \frac{\rho \cdot \operatorname{dist}(x, y)}{\|x-y\|}=\rho
$$

**直感**：
ProperなClosed関数を考えると，その空間上では必ずしも最小値の存在が保証されていません．Ekelandの変分原理は，その関数を$\varepsilon$だけ変形すると，大域的な最小値が存在する関数にできることを主張してます．

## 他の条件との関係

弱凸関数において，PL条件などの正則性条件についてみていきましょう．
（ここで，正則性条件とは，理論的な展開や証明を用意にするために用いられる何らかの仮定や条件のことを指します．）

* $f: \mathbb{R}^n \to \overline{\mathbb{R}}$をプロパーな$\rho$-弱凸の閉関数とします．
* $S$を最適解の集合とします．つまり，$S=\left[f=f^{\star}\right]$です．空ではないとします．
* $\nu > 0$とします．

このとき，次の正則性条件について見てみましょう．

---

**局所強凸性**

## Proximal Point Methodでの収束の証明

Proximal point methodを使うと，PL条件下で線形収束を保証できます．