# 경사하강법

## 미분
- 미분(differentiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법이다.

In [1]:
import sympy as sym
from sympy.abc import x
sym.diff(sym.poly(x ** 2 + 2 * x + 3), x)

Poly(2*x + 2, x, domain='ZZ')

### 미분을 사용하는 이유
- 미분은 함수 f의 주어진 점 (x, f(x)) 에서의 접선의 기울기를 구한다.
- 한 점에서의 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함수값이 증가하는지/감소하는지 알 수 있다.
- 미분값을 빼면 경사하강법이라고 하며 함수의 극소값의 위치를 구할 때 사용한다.
- 경사하강법을 사용하면 극값에 도달하였을 때, 움직임을 멈춘다.

In [6]:
# 경사하강법
import numpy as np
def func(val) :
    fun = sym.poly(x ** 2 + 2 * x + 3)
    return fun.subs(x, val), fun

def func_gradient(fun, val) :
    _, function = fun(val)
    diff = sym.diff(function, x)
    return diff.subs(x, val), diff

def gradient_descent(fun, init_point, lr_rate = 1e-2, epsilon = 1e-5) :
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, val)
    while np.abs(diff) > epsilon :
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1

    print('함수 : {}, 연산횟수 : {}, 최소점 : ( {}, {} )'.format(fun(val)[1], cnt, val, fun(val)[0]))

gradient_descent(fun = func, init_point = np.random.uniform(-2, 2))

함수 : Poly(x**2 + 2*x + 3, x, domain='ZZ'), 연산횟수 : 626, 최소점 : ( -0.999995006404685, 2.00000000002494 )


In [8]:
# 변수가 벡터라면 ? - 벡터가 입력인 다변수 함수의 경우 편미분을 사용한다.
import sympy as sym
from sympy.abc import x, y

sym.diff(sym.poly(x**2 + 2*x*y + 3) + sym.cos(x + 2*y), x)

2*x + 2*y - sin(x + 2*y)

In [9]:
# 각 변수 별로 편미분을 계산한 그래디언트 벡터를 이용하여 경사하강/경사상승법에 사용할 수 있다.
# 그레디언트 벡터는 각 점 (x, y)에서 가장 빨리 증가하는 방향으로 흐르게 된다.
# 이것은 가장 빨리 감소하게 되는 방향과 같다.

# Multivariate Gradient Descent
def eval_(fun, val) :
    val_x, val_y = val
    fun_eval = fun.subs(x, val_x).subs(y, val_y)
    return fun_eval

def func_multi(val) :
    x_, y_ = val
    func = sym.poly(x**2 + 2*y**2)
    return eval_(func, [x_, y_]), func

def func_gradient(fun, val) :
    x_, y_ = val
    _, function = fun(val)
    diff_x = sym.diff(function, x)
    diff_y = sym.diff(function, y)
    grad_vec = np.array([eval_(diff_x, [x_, y_]), eval_(diff_y, [x_, y_])], dtype = float)
    return grad_vec, [diff_x, diff_y]

def gradient_descent(fun, init_point, lr_rate = 1e-2, epsilon = 1e-5) :
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, val)
    while np.linalg.norm(diff) > epsilon :
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1

    print('함수 : {}, 연산횟수 : {}, 최소점 : ( {}, {} )'.format(fun(val)[1], cnt, val, fun(val)[0]))

pt = [np.random.uniform(-2, 2), np.random.uniform(-2, 2)]
gradient_descent(fun = func_multi, init_point = pt)

함수 : Poly(x**2 + 2*y**2, x, y, domain='ZZ'), 연산횟수 : 599, 최소점 : ( [-4.91651750e-06 -4.80095811e-11], 2.41721443215370E-11 )
