# 滑らかな関数での近接勾配法

参考：
* [First-Order Methods in Optimization](https://epubs.siam.org/doi/10.1137/1.9781611974997)の10章

今回は次の問題について考えます：

$$
\min_{x \in \mathbb{R}^d} \{F(x) \triangleq f(x) + g(x)\}
$$

ここで，
* $g: \mathbb{R}^d \to (-\infty, \infty]$はプロパーでclosedな凸関数
* $f: \mathbb{R}^d \to (-\infty, \infty]$はプロパーでclosedな関数
  * $\operatorname{dom}(f)$は凸であり，$\operatorname{dom}(f)\subseteq \operatorname{int}(\operatorname{dom}(g))$
  * $f$は$\operatorname{int}(\operatorname{dom}(f))$上で$L_f$-smoothとします．つまり，$\nabla f$が$L_f$-Lipschitz連続です．

例えば次の問題がこの問題の具体的なインスタンスになります：

---

**滑らか＆制約付き最適化問題**

closedで凸なnonempty集合$C$について，$g=\delta_C$とします．このとき，
$$
\min_{x \in C} f(x)
$$
は条件を満たします．（$f$についての条件は省略）

---

**$l_1$-正則化**

$\lambda \geq 0$に対して$g(x) = \lambda \|x\|_1$とします．
このとき，
$$
\min_{x \in \mathbb{R}^d} f(x)
$$
は条件を満たします．

---

## 近接勾配法

上で見た制約付き最適化問題について考えましょう．つまり，
$$
\min\{f(x) : x \in C\}
$$
を考えます．
これについて，次の射影勾配法を考えます：

$$
x^{k+1} = \operatorname{Proj}_C (x^k - t_k \nabla f(x^k))
$$

この$x^{k+1}$は
$$
\frac{1}{2t_k}\|x - (x^k - t_k \nabla f(x^k))\|^2_2 + \mathrm{const}
= 
f(x^k) + \langle \nabla f(x^k), x - x^k\rangle + \frac{1}{2t_k} \|x - x^k\|^2_2
$$
において$x=x^{k+1}$が最小化を与える解です．よって，
$$
x^{k+1} = \operatorname{Proj}_C (x^k - t_k \nabla f(x^k))
\in \arg\min_{x \in C}
f(x^k) + \langle \nabla f(x^k), x - x^k\rangle + \frac{1}{2t_k} \|x - x^k\|^2_2
$$
の関係が成り立ちます．
すなわち，$x^{k+1}$は「$f(x^k)$を$x^k$付近で線形化して，さらに$x^k$から離れないような正則化をつけたときの最小化問題」
で得られます．

さて，これは制約付き最適化に対してのアプローチですが，最初で与えた（制約付き最適化問題を含んだ）一般的な形に対するアプローチを考えましょう．次の式が自然に考えられます：
$$
x^{k+1} \in \arg\min_{x \in \mathbb{R}^d} f(x^k) + \langle \nabla f(x^k), x - x^k\rangle + g(x) + \frac{1}{2t_k} \|x - x^k\|^2_2
$$
これは変形すれば次と等価です：
$$
x^{k+1} \in \arg\min_{x \in  \mathbb{R}^d} t_k g(x) + \frac{1}{2} \|x - (x^k - t_k \nabla f(x^k))\|^2_2
$$

このようなminimizationによる更新を一般に近接射影と呼びます．具体的には次で定義されます：

---

**定義：近接射影**

関数$f: \mathbb{R}^d \to (-\infty, \infty]$について，$f$の近接射影は
$$
\operatorname{prox}_f(x) = \arg\min_{u \in \mathbb{R}^d} \{f(u) + \frac{1}{2} \|u - x\|^2\}
$$
を実現する作用素のことです．

---

これを使うと，$x^{k+1}$は
$$
x^{k+1} = \operatorname{prox}_{t_k g} (x^k - t_k \nabla f(x^k))
$$

と等価です．
以降，特に定数$L_k$を使って$t_k = \frac{1}{L_k}$として更新することにします．
また，簡単のために次の表記も導入します：
$$
T^{f, g}_L(x) \triangleq \operatorname{prox}_{\frac{1}{L} g} (x - \frac{1}{L} \nabla f(x))
$$
と
$$
F = f + g
$$

このとき，次が成立します．

---

**sufficient decrease lemma**

$L \in (\frac{L_f}{2}, \infty)$のとき，

$$
F(x) - F(T^{f, g}_L(x)) \geq (L-\frac{L_f}{2})\|L(x - T_L(x))\|^2_2
$$

**証明**

$f$は$L_f$-Smoothなので

$$
f(T_L^{f, g}(x)) \leq f(x) + \langle \nabla f(x) , T_L^{f, g}(x) - x\rangle  + \frac{L_f}{2} \|x - T_L^{f, g}(x)\|^2_2
$$
が成立します．

---

