# Projected Gradient Descent

---

今回は凸関数ではない時の数理最適化についてのアルゴリズムを解説していきます．

数理最適化をする観点では凸関数のものを考えた方が解析しやすいのですが，現実世界の問題では非凸関数の場合の最適化の方が多いと知られています．

---

まず，凸関数について説明していきます．次の集合を凸集合といいます．

### 凸集合

集合$\mathcal{C} \in \mathbb{R}^p$を考え，そこから要素$\mathbf{x}, \mathbf{y} \in \mathbb{R}^p$を取ってきます．$\lambda = (0,1]$ とし，考えると次の条件が満たされれば$\mathcal{C}$ は凸集合であると言えます．

$$
(1-\lambda) \cdot \mathbf{x}+\lambda \cdot \mathbf{y} \in \mathcal{C}
$$



図で考えると次のようなものになります．

![image.png](attachment:image.png)

### 凸関数

微分可能な関数$f: \mathbb{R}^p \rightarrow \mathbb{R}$を考え，凸集合内の$x,y$について次のことが成り立つと関数$f$は凸関数であると言います．

$$
f(\mathbf{y}) \geq f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle
$$

---


ここから本題で，凸集合に入っていないある要素$z$がある時どのようにして，解けば良いのでしょうか．

一般的なおおまかな解き方は２つあり，1つ目は$z$をある作用素で，凸集合内に射影する．

2つ目はそのまま最適化を実行するという方法です．

今回は1つ目のやり方の射影する方をコードも含めて説明します．

次のような射影演算子を考えます．

$\mathcal{C}$を凸集合と考え,


$$
\Pi_{\mathcal{C}}(\mathbf{z}):=\underset{\mathbf{x} \in \mathcal{C}}{\arg \min }\|\mathbf{x}-\mathbf{z}\|_2 .
$$


この射影演算子の行なっていることを図で表すと，射影した後の要素を$z'$とすると，

![image.png](attachment:image.png)

このようなことをしています．

つまり，射影した後の要素は凸集合の中に入っているので，そのまま最適化ができるわけですね．

アルゴリズムは次のようになっています．

![image.png](attachment:image.png)

---

ここからコードを書いていきます．

今回は集合$\mathcal{C}$をL2-ballで半径1の場合を考え,関数は$x^2 + y ^ 2$を考えます．

In [6]:
import numpy as np

def projected_gradient_descent(f, grad_f, proj, init_val, lr=0.1, max_iter=1000, tol=1e-8):
    '''
    lr : 学習率
    max_iter : 最大繰り返し回数
    tol : 収束判定の閾値

    '''
   
    x = init_val
    obj_vals = [f(x)]

    for i in range(max_iter):
        grad = grad_f(x)
        x_new = x - lr * grad
        #新しく求めたx_newを射影する
        x_new = proj(x_new)
        obj_new = f(x_new)
        obj_vals.append(obj_new)

        if abs(obj_new - obj_vals[-2]) / obj_vals[-2] < tol:
            break

        x = x_new

    return x, obj_vals

def f(x):
    return x[0]**2 + x[1]**2

def grad_f(x):
    return np.array([2 * x[0], 2 * x[1]])


def proj(x):
    norm_x = np.linalg.norm(x)
    if norm_x <= 1:
        return x
    else:
        return x / norm_x


initial_val = np.array([2.0, 2.0])
x_pgd, obj_vals_pgd = projected_gradient_descent(f, grad_f, proj, initial_val, lr=0.1, max_iter=1000, tol=1e-6)


print("PGD solution: x,y =", x_pgd, ", f(x,y) =", f(x_pgd))


PGD solution: x,y = [1.08738167e-97 1.08738167e-97] , f(x,y) = 2.3647977848503806e-194


$f(x,y)$の値が0に近くなってますね．



# 凸関数の種類について

---

今回は最適化問題を考える際に重要な凸関数の種類について説明します．

そこで従来の凸関数とは違う概念で定義される２つの凸関数があります．

1.strongly convex function

2.strongly smooth convex function

の２つです．


２つを図で表すと次のようになります．

![image.png](attachment:image.png)


緑の射影部分は曲線がとりうる範囲です．

---

ここから数式を用い定義を確認していきます．

まず，凸関数の定義は次のような不等式が成り立つ時です．

$f: \mathbb{R}^p \rightarrow \mathbb{R}$,$\mathbf{x}, \mathbf{y} \in \mathbb{R}^p$,$\nabla f(\mathbf{x})$をx点周りでの関数fの勾配とすると，

$$
f(\mathbf{y}) \geq f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle
$$

この数式は関数がxからyを取ったときにどのくらいの変化があるのかを示していますね．

このことを頭に置き，strongly,smooth convex functionの定義を確認します．

関数$f$を$\alpha$-strongly convex(SC),$\beta$-strongly convex(SS)とします．

そのようにすると，次のような不等式が成り立ちます．

$$
\frac{\alpha}{2}\|\mathbf{x}-\mathbf{y}\|_2^2 \leq f(\mathbf{y})-f(\mathrm{x})-\langle\nabla f(\mathrm{x}), \mathbf{y}-\mathrm{x}\rangle \leq \frac{\beta}{2}\|\mathbf{x}-\mathbf{y}\|_2^2 .
$$

この式の意味は関数は少なくとも二次関数と同じくらい成長しなければいけなく，しかし右辺の項より，あまり成長しすぎてはいけないという定義になっていきます．

似たような定義にリプシッツ関数がありますが，あれは２次の上界ではなく，尚且つ関数は微分可能であることが必要ないので，少し上記の定義とは違います．

---

### strongly , smooth convex functionの利点

上のPGDアルゴリズムを考えます．

関数を$\alpha$-SC,$\beta$-SSとして，ステップ長を$\eta_t=\eta=\frac{1}{\beta}$とすると，収束するまでの反復試行回数は$\mathcal{O}\left(\log \frac{1}{\epsilon}\right)$となります．

SCとSSを仮定しないと反復回数は$\mathcal{O}\left(\frac{1}{\epsilon^2}\right)$となります．

SCとSSの関数の方がいいですね．