### 경사하강법

- 경사하강법은 딥러닝 기술에서 사용되는 굉장히 중요한 최적화 기법입니다

#### 미분이란?

- 미분(differenatiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법입니다
- 미분은 변화율의 극한(limit)으로 정의합니다

<img src="https://imgur.com/XzhjQhE.jpg">

In [3]:
# 컴퓨터로 미분
import sympy as sym
from sympy.abc import x
sym.diff(sym.poly(x**2 + 2*x + 3), x)

Poly(2*x + 2, x, domain='ZZ')

#### 그림으로 미분 이해하기

<img src="https://imgur.com/tWOfcVe.jpg">

- 미분은 함수 $f$의 주어진 점 $(x, f(x))$에서의 접선의 기울기를 구하는 것 입니다
- 한 점에서 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함수값이 증가하는지, 감소하는지 알 수 있습니다
- 증가시키고 싶으면 미분값을 더하고, 감소시키고 싶으면 미분값을 뺍니다
- 미분값으로 더하면 경사상승법이라 하여 함수의 극대값의 위치를 구할 때 사용합니다
- 미분값으로 빼면 경사하강법이라 하여 함수의 극솟값의 위치를 구할 때 사용합니다
- 경사하강, 상승법이 극값에 도달하면 멈추게 됩니다

<img src="https://imgur.com/OCYg7vh.jpg">

In [6]:
import numpy as np
# 경사하강법 알고리즘
def func(val):
    fun = sym.poly(x**2 + 2*x + 3)
    return fun.subs(x, val), fun

def func_gradient(fun, val):
    _, function = fun(val)
    diff = sym.diff(function, x)
    return diff.subs(x, val), diff

def gradient_descent(fun, init_point, lr_rate=1e-2, epsilon=1e-5):
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, init_point)
    while np.abs(diff) > epsilon:
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1
    print(f"함수 : {func(val)[1]}, 연산횟수 : {cnt}, 최소점 : {val}, {func(val)[0]}")

gradient_descent(fun=func, init_point=np.random.uniform(-2,2))

함수 : Poly(x**2 + 2*x + 3, x, domain='ZZ'), 연산횟수 : 643, 최소점 : -0.999995073444800, 2.00000000002427


#### 변수가 벡터인 경우

- 벡터다 입력된 다변수 함수의 경우 편미분(partial differentiation)을 사용합니다

<img src="https://imgur.com/dXPwOoX.jpg">

In [4]:
import sympy as sym
from sympy.abc import x, y

sym.diff(sym.poly(x**2 + 2*x*y + 3) + sym.cos(x+2*y), x) # x에 대한 편미분

2*x + 2*y - sin(x + 2*y)

- 각 변수 별로 편미분을 계산한 그레디언트 벡터를 이용하여 경사하강/경사상승법에 사용할 수 있습니다.

<img src="https://imgur.com/lZkZiNh.jpg">

#### 그레디언트 벡터 시각화

<img src="https://imgur.com/TFuJXF7.jpg">

In [11]:
import numpy as np
# 다변수 경사하강법 알고리즘
def eval_(fun, val):
    val_x, val_y = val
    fun_eval = fun.subs(x, val_x).subs(y, val_y)
    return fun_eval
    
def func_multi(val):
    x_, y_ = val
    func = sym.poly(x**2 + 2*y**2)
    return eval_(func, [x_, y_]), func

def func_gradient(fun, val):
    x_, y_ = val
    _, function = fun(val)
    diff_x = sym.diff(function, x)
    diff_y = sym.diff(function, y)
    grad_vec = np.array([eval_(diff_x, [x_, y_]), eval_(diff_y, [x_,y_])], dtype = float)
    return grad_vec, [diff_x, diff_y]

def gradient_descent(fun, init_point, lr_rate=1e-2, epsilon=1e-5):
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, val)
    while np.linalg.norm(diff) > epsilon:
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1
    print(f"함수 : {func(val)[1]}, 연산횟수 : {cnt}, 최소점 : {val}, {func(val)[0]}")

    
pt = [np.random.uniform(-2,2), np.random.uniform(-2,2)]
gradient_descent(fun=func_multi, init_point=pt)

함수 : Poly(x**2 + 2*x + 3, x, domain='ZZ'), 연산횟수 : 620, 최소점 : [-4.99855598e-06 -8.38257819e-12], Poly(x**2 + 2*x + 3, x, domain='ZZ')
