### 경사하강법

- 경사하강법은 딥러닝 기술에서 사용되는 굉장히 중요한 최적화 기법입니다

#### 미분이란?

- 미분(differenatiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법입니다
- 미분은 변화율의 극한(limit)으로 정의합니다

<img src="https://imgur.com/XzhjQhE.jpg">

In [1]:
# 컴퓨터로 미분
import sympy as sym
from sympy.abc import x
sym.diff(sym.poly(x**2 + 2*x + 3), x)

Poly(2*x + 2, x, domain='ZZ')

#### 그림으로 미분 이해하기

<img src="https://imgur.com/tWOfcVe.jpg">

- 미분은 함수 $f$의 주어진 점 $(x, f(x))$에서의 접선의 기울기를 구하는 것 입니다
- 한 점에서 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함수값이 증가하는지, 감소하는지 알 수 있습니다
- 증가시키고 싶으면 미분값을 더하고, 감소시키고 싶으면 미분값을 뺍니다
- 미분값으로 더하면 경사상승법이라 하여 함수의 극대값의 위치를 구할 때 사용합니다
- 미분값으로 빼면 경사하강법이라 하여 함수의 극솟값의 위치를 구할 때 사용합니다
- 경사하강, 상승법이 극값에 도달하면 멈추게 됩니다

<img src="https://imgur.com/OCYg7vh.jpg">

In [8]:
val = np.random.uniform(-2,2)
fun = sym.poly(x**2 + 2*x + 3)
fun.subs(x, val), fun

(2.00090442017954, Poly(x**2 + 2*x + 3, x, domain='ZZ'))

In [11]:
import numpy as np
# 경사하강법 알고리즘
def func(val):
    fun = sym.poly(x**2 + 2*x + 3)
    return fun.subs(x, val), fun

def func_gradient(fun, val):
    _, function = fun(val)
    diff = sym.diff(function, x)
    return diff.subs(x, val), diff

def gradient_descent(fun, init_point, lr_rate=1e-2, epsilon=1e-5):
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, init_point)
    while np.abs(diff) > epsilon:
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1
    print(f"함수 : {func(val)[1]}, 연산횟수 : {cnt}, 최소점 : {val}, {func(val)[0]}")

gradient_descent(fun=func, init_point=np.random.uniform(-2,2))

함수 : Poly(x**2 + 2*x + 3, x, domain='ZZ'), 연산횟수 : 581, 최소점 : -1.00000499074871, 2.00000000002491


#### 변수가 벡터인 경우

- 벡터다 입력된 다변수 함수의 경우 편미분(partial differentiation)을 사용합니다

<img src="https://imgur.com/dXPwOoX.jpg">

In [4]:
import sympy as sym
from sympy.abc import x, y

sym.diff(sym.poly(x**2 + 2*x*y + 3) + sym.cos(x+2*y), x) # x에 대한 편미분

2*x + 2*y - sin(x + 2*y)

- 각 변수 별로 편미분을 계산한 그레디언트 벡터를 이용하여 경사하강/경사상승법에 사용할 수 있습니다.

<img src="https://imgur.com/lZkZiNh.jpg">

#### 그레디언트 벡터 시각화

<img src="https://imgur.com/TFuJXF7.jpg">

In [15]:
import numpy as np
from sympy.abc import x, y
# 다변수 경사하강법 알고리즘
def eval_(fun, val):
    val_x, val_y = val
    fun_eval = fun.subs(x, val_x).subs(y, val_y)
    return fun_eval
    
def func_multi(val):
    x_, y_ = val
    func = sym.poly(x**2 + 2*y**2)
    return eval_(func, [x_, y_]), func

def func_gradient(fun, val):
    x_, y_ = val
    _, function = fun(val)
    diff_x = sym.diff(function, x)
    diff_y = sym.diff(function, y)
    grad_vec = np.array([eval_(diff_x, [x_, y_]), eval_(diff_y, [x_,y_])], dtype = float)
    return grad_vec, [diff_x, diff_y]

def gradient_descent(fun, init_point, lr_rate=1e-2, epsilon=1e-5):
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, val)
    while np.linalg.norm(diff) > epsilon:
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1
        print(diff)
    print(f"함수 : {func_multi(val)[1]}, 연산횟수 : {cnt}, 최소점 : {val}, {func_multi(val)[0]}")

    
pt = [np.random.uniform(-2,2), np.random.uniform(-2,2)]
gradient_descent(fun=func_multi, init_point=pt)

[2.03535116 7.33784667]
[1.99464413 7.04433281]
[1.95475125 6.76255949]
[1.91565623 6.49205711]
[1.8773431  6.23237483]
[1.83979624 5.98307984]
[1.80300031 5.74375664]
[1.76694031 5.51400638]
[1.7316015  5.29344612]
[1.69696947 5.08170828]
[1.66303008 4.87843995]
[1.62976948 4.68330235]
[1.59717409 4.49597025]
[1.56523061 4.31613144]
[1.533926   4.14348619]
[1.50324748 3.97774674]
[1.47318253 3.81863687]
[1.44371888 3.66589139]
[1.4148445  3.51925574]
[1.38654761 3.37848551]
[1.35881666 3.24334609]
[1.33164032 3.11361225]
[1.30500752 2.98906776]
[1.27890737 2.86950505]
[1.25332922 2.75472484]
[1.22826264 2.64453585]
[1.20369738 2.53875442]
[1.17962343 2.43720424]
[1.15603097 2.33971607]
[1.13291035 2.24612743]
[1.11025214 2.15628233]
[1.0880471  2.07003104]
[1.06628616 1.9872298 ]
[1.04496043 1.9077406 ]
[1.02406122 1.83143098]
[1.00358    1.75817374]
[0.9835084  1.68784679]
[0.96383823 1.62033292]
[0.94456147 1.5555196 ]
[0.92567024 1.49329882]
[0.90715683 1.43356687]
[0.8890137  1.37

[2.4871185e-03 9.5415296e-06]
[2.43737613e-03 9.15986842e-06]
[2.38862861e-03 8.79347368e-06]
[2.34085604e-03 8.44173473e-06]
[2.29403892e-03 8.10406534e-06]
[2.24815814e-03 7.77990273e-06]
[2.20319497e-03 7.46870662e-06]
[2.15913107e-03 7.16995836e-06]
[2.11594845e-03 6.88316002e-06]
[2.07362948e-03 6.60783362e-06]
[2.03215689e-03 6.34352028e-06]
[1.99151376e-03 6.08977946e-06]
[1.95168348e-03 5.84618829e-06]
[1.91264981e-03 5.61234075e-06]
[1.87439682e-03 5.38784712e-06]
[1.83690888e-03 5.17233324e-06]
[1.80017070e-03 4.96543991e-06]
[1.76416729e-03 4.76682231e-06]
[1.72888394e-03 4.57614942e-06]
[1.69430626e-03 4.39310344e-06]
[1.66042014e-03 4.21737931e-06]
[1.62721174e-03 4.04868413e-06]
[1.59466750e-03 3.88673677e-06]
[1.56277415e-03 3.73126730e-06]
[1.53151867e-03 3.58201661e-06]
[1.50088829e-03 3.43873594e-06]
[1.47087053e-03 3.30118650e-06]
[1.44145312e-03 3.16913904e-06]
[1.41262406e-03 3.04237348e-06]
[1.38437157e-03 2.92067854e-06]
[1.35668414e-03 2.80385140e-06]
[1.3295504

[1.08520263e-05 1.62397631e-10]
[1.06349858e-05 1.55901726e-10]
[1.04222861e-05 1.49665657e-10]
[1.02138404e-05 1.43679030e-10]
[1.00095636e-05 1.37931869e-10]
[9.80937230e-06 1.32414594e-10]
함수 : Poly(x**2 + 2*y**2, x, y, domain='ZZ'), 연산횟수 : 607, 최소점 : [4.90468615e-06 3.31036486e-11], 2.40559462296200E-11
