# PL条件下での勾配法の線形収束

参考：
* [Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-Łojasiewicz Condition](https://arxiv.org/abs/1608.04636)

今回はPL条件のもとでの勾配法の収束について扱います．
次の制約なし最適化問題を考えましょう：

$$
\underset{x \in \mathbb{R}^d}{\operatorname{argmin}} f(x)
$$

$f$は次の意味で$L$-Lipschitz連続であるとします：
$$
f(y) \leq f(x)+\langle\nabla f(x), y-x\rangle+\frac{L}{2}\|y-x\|^2
$$
また，この最適化問題が空ではない最適解の集合$\mathcal{X}^*$を持つとして，$f^*$を最適値とします．

---

**PL条件**
関数は次を満たすときにPL条件を満たすと言います：
次を満たす定数$\mu > 0$が存在する．

$$
\frac{1}{2}\|\nabla f(x)\|^2 \geq \mu\left(f(x)-f^*\right), \quad \forall x .
$$

**直感** この仮定は
* もし関数が最適値から遠く離れると，その勾配のノルムも大きくなる
* つまり，局所的に「平坦すぎる」領域が存在せず，勾配がゼロに近づく停留点があるなら，それは最適解であることを保証してます．
* 強凸性と異なり，解が唯一であることは必要ありません．

---


## PL条件での線形収束

PL条件下では勾配法は線形に収束します：

---

**定理１**
* $f$が$L$-Lipschitz連続
* $\mathcal{X}^*$が空ではない
* $f$はPL条件を満たす

ときに，次の勾配法を考えましょう：
$$
x_{k+1}=x_k-\frac{1}{L} \nabla f\left(x_k\right)
$$

このとき，この勾配法は
$$
f\left(x_k\right)-f^* \leq\left(1-\frac{\mu}{L}\right)^k\left(f\left(x_0\right)-f^*\right)
$$
で最適値に収束します．

**証明**

Lipschitz連続性と更新方法から，
$$
f\left(x_{k+1}\right)-f\left(x_k\right) \leq-\frac{1}{2 L}\left\|\nabla f\left(x_k\right)\right\|^2
$$
が成立します．PL条件より，明らかに
$$
f\left(x_{k+1}\right)-f\left(x_k\right) \leq-\frac{\mu}{L}\left(f\left(x_k\right)-f^*\right)
$$
が成立します．変形すると$f\left(x_{k+1}\right)-f^* \leq\left(1-\frac{\mu}{L}\right)\left(f\left(x_k\right)-f^*\right)$であり，後はtelescopingで証明終わりです．

**ポイント**：証明がめっちゃシンプルで嬉しい！

---



## 他の条件

PL条件はかなり弱い仮定です．
収束の証明のために，歴史的に様々な仮定が考えられてきました．
以降，$x_p$は$x$を解の空間$\mathcal{X}^*$に射影したベクトルとします．

---

**Strong Convexity (SC)**: 任意の$x, y$について，
$$
f(y) \geq f(x)+\langle\nabla f(x), y-x\rangle+\frac{\mu}{2}\|y-x\|^2
$$

---

**Essential Strong Convexity (ESC)**:
任意の$x_p=y_p$なる$x, y$について，

$$
f(y) \geq f(x)+\langle\nabla f(x), y-x\rangle+\frac{\mu}{2}\|y-x\|^2
$$

* 明らかにStrong convexityの方が強いです．よってSC $\to$ ESCです

---

**Weak Strong Convexity (WSC)**:
任意の$x$について，
$$
f(x_p)=f^* \geq f(x)+\left\langle\nabla f(x), x_p-x\right\rangle+\frac{\mu}{2}\left\|x_p-x\right\|^2
$$

* **直感**：多分「最適解に向かう方向$x_p - x$で強い凸性が保証されている」のかも．強凸と違って，すべての方向で強い凸性を持たなくて良い．
* ESCで$y=x_p$とすれば，WSCになります．よってESC $\to$ WSCです

---

**Restricted Secant Inequality (RSI)**:

$$
\left\langle\nabla f(x), x-x_p\right\rangle \geq \mu\left\|x_p-x\right\|^2
$$

* **直感**：Weak strong convexityと似てるが，凸性ではないかも．$f$が凸ならrestricted strong convexityと呼ばれる．
* WSCを変形すると，$\left\langle\nabla f(x), x-x_p\right\rangle \geq \underbrace{f(x)-f^*}_{\geq 0}+\frac{\mu}{2}\left\|x_p-x\right\|^2$なので，RSIを得ます．よって，WSC $\to$ RSIです

---

**Error Bound (EB)**

$$
\|\nabla f(x)\| \geq \mu\left\|x_p-x\right\| .
$$

* **直感**：PL条件が**最適値**との距離$f(x)-f^*$をバウンドしている一方で，Error boundは**最適解**との距離$\|x_p - x\|$をバウンドしてることに注意．
* RSIでコーシー・シュワルツを使うと，$\|\nabla f(x)\|\left\|x-x_p\right\| \geq\left\langle\nabla f(x), x-x_p\right\rangle \geq \mu\left\|x_p-x\right\|^2$であり，両辺を$\left\|x-x_p\right\|$で割れば，EBが出てきます．よって，RSI $\to$ EBです．

---

**PL条件**

$$
\frac{1}{2}\|\nabla f(x)\|^2 \geq \mu\left(f(x)-f^*\right), \quad \forall x .
$$

* EB $\to$ PLです．
    * Lipschitz連続性から，$f(x) \leq f\left(x_p\right)+\left\langle\nabla f\left(x_p\right), x-x_p\right\rangle+\frac{L}{2}\left\|x_p-x\right\|^2$
    * ここで，$f\left(x_p\right)=f^*$ and $\nabla f\left(x_p\right)=0$なので，$f(x)-f^* \leq \frac{L}{2}\left\|x_p-x\right\|^2 \leq \frac{L}{2 \mu}\|\nabla f(x)\|^2$．証明終わり
* PL $\to$ EBでもあります
    * 次で示しますが，PL $\to$ QGであり，その関係を使うと，$\frac{1}{2}\|\nabla f(x)\|^2 \geq \mu\left(f(x)-f^*\right) \geq \frac{\mu^2}{2}\left\|x-x_p\right\|^2$です．証明終わり．

---

**Quadratic Growth (QG)**

$$
f(x)-f^* \geq \frac{\mu}{2}\left\|x_p-x\right\|^2
$$

* これは強凸性よりも弱い条件です．強凸性は勾配にも二次的な下限を課してますが，QGは関数値の成長が２次的に増えることだけ言ってます．
    * そして，QGだけでは局所最適解が大域的最適解ではないことに注意しましょう．よって，勾配法が大域的最適解に行くかはわかりません．
* $f$が凸ならば，Optimal strong convexityやsemi-strong convexityと呼ばれる．
* PL $\to$ QGです．証明はTODO

---

まとめると，
$$
(S C) \rightarrow(E S C) \rightarrow(W S C) \rightarrow(R S I) \rightarrow(E B) \equiv(P L) \rightarrow(Q G)
$$
が成立し，更に$f$に凸性があるときは
$$
(R S I) \equiv(E B) \equiv(P L) \equiv(Q G)
$$
が成立します．