# １次線形収束の必要十分条件とError Boundのあれこれ

参考：
* [New Analysis of Linear Convergence of Gradient-type Methods via Unifying Error Bound Conditions](https://arxiv.org/abs/1606.00269)

[OPT_Grad_PL_convergence.ipynb](OPT_Grad_PL_convergence.ipynb)にて，非凸関数の収束を証明するために，様々な条件が存在することを述べました．
その中の一つがError Bound（EB）です．1963年のPolyak-Lojasiewicz条件から始まり，いろんなタイプのEBが提案されてきました．
今回はいろんなEBをまとめる話です．

表記：
* $f$の停留点の集合：$\operatorname{crit} f$
* 最適解の集合：$\operatorname{Arg} \min f$．唯一なら$\arg \min f$と書く．
* $\mathcal{F}^1(\mathbb{R}^n)$：連続微分可能な凸関数の集合
* $\mathcal{F}^{1, 1}_L(\mathbb{R}^n)$：勾配が$L$-Lipschitz連続な凸関数の集合．
* $\mathcal{S}^{1, 1}_{\mu, L}(\mathbb{R}^n)$：勾配が$L$-Lipschitz連続で，$\mu$-強凸な関数の集合
* $\Gamma(\mathbb{R}^n)$：プロパーで下半連続な関数の集合
* $\Gamma_0(\mathbb{R}^n)$：プロパーで下半連続な凸関数の集合
* 明らかに，$\mathcal{S}_{\mu, L}^{1,1}\left(\mathbb{R}^n\right) \subseteq \mathcal{F}_L^{1,1}\left(\mathbb{R}^n\right) \subseteq \mathcal{F}^1\left(\mathbb{R}^n\right), \quad \Gamma_0\left(\mathbb{R}^n\right) \subseteq \Gamma\left(\mathbb{R}^n\right)$
* ドメイン：$\operatorname{dom} f:=\left\{x \in \mathbb{R}^n: f(x)<+\infty\right\}$
* フレシェ劣微分：$\hat{\partial} f$
* limiting 劣微分：$\partial f$
* 劣微分が存在するドメイン：$\operatorname{dom} \partial f:=\left\{x \in \mathbb{R}^n: \partial f(x) \neq \emptyset\right\}$
* $f \in \Gamma_0(\mathbb{R}^n)$については，$\partial^0 f(x)$を，$\partial f(x)$のうちノルムが最も小さいものとする．



## 線形収束の必要十分条件

次の問題を考えましょう．
$$
\operatorname{minimize}_{x \in \mathbb{R}^n} f(x)
$$

* ここで，$f: \mathbb{R}^n\to \mathbb{R}$は微分可能で$\operatorname{Arg} \min f$が空ではないとします．
* ある$x$を$\operatorname{Arg} \min f$にマップした点の集合を$\mathcal{Y}_f(x)$とします．
* 今回は，次の勾配法による更新を考えます．$h > 0$は学習率です．
  
$$
x_{k+1}=x_k-h \cdot \nabla f\left(x_k\right), k \geq 0,
$$

さて，この更新について，「いつ線形収束するのか？」を考えましょう．

### 十分条件

ここで，$d\left(x_k, \operatorname{Arg} \min f\right)$が$x_k$から最適解までの距離を表していることに注意すると，$d\left(x_k, \operatorname{Arg} \min f\right)$と$d\left(x_{k+1}, \operatorname{Arg} \min f\right)$の比率を評価すれば，線形収束について何か言えそうです．そこで，比率を見てみると，

$$
\begin{aligned}
d^2\left(x_{k+1}, \operatorname{Arg} \min f\right) & =\left\|x_{k+1}-x_{k+1}^{\prime}\right\|^2 \leq\left\|x_{k+1}-x_k^{\prime}\right\|^2 \\
& =\left\|x_k-h \cdot \nabla f\left(x_k\right)-x_k^{\prime}\right\|^2 \\
& =d^2\left(x_k, \operatorname{Arg} \min f\right)-2 h\left\langle\nabla f\left(x_k\right), x_k-x_k^{\prime}\right\rangle+h^2\left\|\nabla f\left(x_k\right)\right\|^2
\end{aligned}
$$

ここで，$x_{k+1}^{\prime} \in \mathcal{Y}_f\left(x_{k+1}\right)$ および $x_k^{\prime} \in \mathcal{Y}_f\left(x_k\right)$としました.
勾配法が線形収束するためには，
$$d^2\left(x_{k+1}, \operatorname{Arg} \min f\right) \leq \tau \cdot d^2\left(x_k, \operatorname{Arg} \min f\right), k \geq 0$$
を満たす$\tau \in(0,1)$が必要です．
上の式を変形すると，次が線形収束の十分条件であることがわかります：
$$
\begin{gathered}
d^2\left(x_k, \operatorname{Arg} \min f\right)-2 h\left\langle\nabla f\left(x_k\right), x_k-x_k^{\prime}\right\rangle+h^2\left\|\nabla f\left(x_k\right)\right\|^2 \leq \tau \cdot d^2\left(x_k, \operatorname{Arg} \min f\right), \\
\textbf{（必要十分条件）}\quad 
\inf _{u \in \mathcal{Y}_f\left(x^k\right)}\left\langle\nabla f\left(x_k\right), x_k-u\right\rangle \geq \frac{1-\tau}{2 h} d^2\left(x_k, \operatorname{Arg} \min f\right)+\frac{h}{2}\left\|\nabla f\left(x_k\right)\right\|^2, k \geq 0 .
\end{gathered}
$$

**直感**：簡単のため，$\nabla f\left(x_k\right)=x_k-u$のときを考えてみましょう．
* これはつまり，**「勾配が解の集合の方向に向いている」**ということです．
このとき，$d^2\left(x_k, \operatorname{Arg} \min f\right) = \left\|\nabla f\left(x_k\right)\right\|^2 = \left\langle\nabla f\left(x_k\right), x_k-u\right\rangle $なので，いい感じに$h$を選択すれば，この十分条件は達成できそうです．
* 次で見ますが，これは必要条件でもあります．つまり，**「線形収束するなら，勾配が解の集合の方向に向いている」**ことが言えます．


### 必要条件

実は，上の十分条件は必要条件でもあります．
具体的には，「$f(x) \in \mathcal{F}^{1, 1}_L(\mathbb{R}^n)$について，$0<h \leq \frac{1-\sqrt{\tau}}{L}$による勾配法が線形収束しているならば，上の不等式が必ず成立しています．」
証明しましょう．

---

まず，$u_{k+1} \in \mathcal{Y}_f\left(x_{k+1}\right)$を考えると，次が成立します：
$$
\begin{aligned}
d\left(x_k, \operatorname{Arg} \min f\right) & \leq\left\|x_k-u_{k+1}\right\| \leq\left\|x_{k+1}-u_{k+1}\right\|+\left\|x_{k+1}-x_k\right\| \\
& =d\left(x_{k+1}, \operatorname{Arg} \min f\right)+h\left\|\nabla f\left(x_k\right)\right\|, k \geq 0 .
\end{aligned}
$$

ここで，線形収束が成立しているとき，
$$
d\left(x_{k+1}, \operatorname{Arg} \min f\right) \leq \sqrt{\tau} \cdot d\left(x_k, \operatorname{Arg} \min f\right), k \geq 0
$$
なので，上の式と合体すると，
$$
(1-\sqrt{\tau}) d\left(x_k, \operatorname{Arg} \min f\right) \leq h\left\|\nabla f\left(x_k\right)\right\|, k \geq 0
$$
です．ここで，平滑な関数の性質から（多分Beck本とかにある），$f(x) \in \mathcal{F}_L^{1,1}\left(\mathbb{R}^n\right)$のとき，
$$
\left\langle\nabla f\left(x_k\right), x_k-v_k\right\rangle \geq \frac{1}{L}\left\|\nabla f\left(x_k\right)\right\|^2, v_k \in \mathcal{Y}_f\left(x_k\right), k \geq 0
$$
が成立します．$\alpha + \beta \leq 1$ と$\alpha, \beta > 0$を考えると，任意の$v_k \in \mathcal{Y}_f\left(x_k\right)$に対して，

$$
\begin{aligned}
\left\langle\nabla f\left(x_k\right), x_k-v_k\right\rangle & \geq \frac{\alpha}{L}\left\|\nabla f\left(x_k\right)\right\|^2+\frac{\beta}{L}\left\|\nabla f\left(x_k\right)\right\|^2 \\
& \geq \frac{\alpha}{L}\left\|\nabla f\left(x_k\right)\right\|^2+\frac{\beta(1-\sqrt{\tau})^2}{L h^2} d\left(x_k, \operatorname{Arg} \min f\right)^2, k \geq 0
\end{aligned}
$$

が成立します．$\frac{\alpha}{L}=\frac{h}{2}$ および $\frac{\beta(1-\sqrt{\tau})^2}{L h^2}=\frac{1-\tau}{2 h}$とすれば，十分条件の式が得られます．
そして，
$$
\alpha+\beta=\frac{L h}{2}+\frac{L h(1-\tau)}{2(1-\sqrt{\tau})^2}=\frac{h L}{1-\sqrt{\tau}} \leq 1 .
$$
が必要なので，これは$h \leq \frac{1-\sqrt{\tau}}{L}$を強制します．

証明終わり．

---



## Error Boundの一般化

線形収束の必要十分条件を改めてよく見てみましょう．
$$
\inf _{u \in \mathcal{Y}_f\left(x^k\right)}\left\langle\nabla f\left(x_k\right), x_k-u\right\rangle \geq \frac{1-\tau}{2 h} d^2\left(x_k, \operatorname{Arg} \min f\right)+\frac{h}{2}\left\|\nabla f\left(x_k\right)\right\|^2, k \geq 0 .
$$

ここで，右辺に２つの項が出てきますね．そこで，次のように分解した条件を考えてみましょう：
$$
\begin{aligned}
& \inf _{u \in \mathcal{Y}_f\left(x^k\right)}\left\langle\nabla f\left(x_k\right), x_k-u\right\rangle \geq \theta_1 \cdot d^2\left(x_k, \operatorname{Arg} \min f\right), \\
& \inf _{u \in \mathcal{Y}_f\left(x^k\right)}\left\langle\nabla f\left(x_k\right), x_k-u\right\rangle \geq \theta_2 \cdot\left\|\nabla f\left(x_k\right)\right\|^2,
\end{aligned}
$$

ここで，$\theta_1$と$\theta_2$は正の定数です．
この２分解を使って，一般的なError Boundを定義していきます．

