< 미분 >

- 미분(differentiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법

- 최근에는 미분을 손으로 계산하는 대신 컴퓨터가 계산해줄 수 잇음 : 
- sympy.diff을 가지고 미분을 컴퓨터로 계산할 수 있음 

- 미분은 함수f의 주어진 점(x,f(x))에서의 접선의 기울기를 구함

- 한 점에서의 접선의 기울기를 알면 어느 방향으로 움직여야 함수값이 증가하는지/감소하는지 알 수 있음
    - delta(y) = delta(x) * f'(x) 이므로 y의 변화량은 x의 변화량 & f'(x)의 부호비교
    - 함수값을 증가시키고 싶으면 x에 미분값(f'(x))을 더하고 : x+f'(x)
    - 함수값을 감소시키고 싶으면 x에 미분값(f'(x))을 뺀다 : x-f'(x)

- 미분값을 더하면 경사상승법(gradient ascent)라 하며, 극댓값의 위치를 구할 때 사용
    - 목적함수를 최대화할 때 사용

- 미분값을 빼면 경사하강법(gradient descent)라 하며, 극솟값의 위치를 구할 때 사용
    - 목적함수를 최소화할 때 사용

- 경사상승/경사하강 방법은 극값에 도달하면 움직임을 멈춘다 
    - 극값에서는 f'(x) = 0이므로 더 이상 x값이 업데이트가 안 됨
    - 즉 목적함수 최적화가 자동으로 끝남


< 경사하강법 >

- gradient : 미분을 계산하는 함수
- init : 시작점, lr : 학습률, eps : 알고리즘 종료조건

var = init
grad = gradient(var)
while (abs(grad) > eps) :
    var -= lr * grad
    grad = gradient(var)
 
- 컴퓨터로 계산할 때 정확히 0이 되는 것은 불가능하므로 eps보다 작을 때 종료하는 조건이 필요함
- lr : 학습률로서 미분을 통해 업데이트하는 속도를 조절함

< 편미분 >

- 벡터가 입력인 다변수 함수의 경우 편미분(partial differentation)을 사용함
- i번째 방향에서의 변화율을 계산할 수 있음 = e_i는 i번째 값만 1이고 나머지는 0인 단위벡터

< gradient >

- 각 변수별로 편미분을 계산한 gradient vector를 이용하여 경사하강/경사상승법에 사용할 수 있음
    - nabla f = [ f'_x1, f'_x2, f'_x3, ..., f'_xd ]
    - f를 각 변수별로 미분 (nabla f를 이용하여 변수 x(=x1,...,xd)를 동시에 업데이트 가능)

- nabla f = gradient vector는 각 점에서 가장 빨리 증가하는 방향으로 흐르게 됨
- -(nabla f) = nabla(-f) =  gradient vector는 각 점에서 가장 빨리 감소하는 방향으로 흐르게 됨

< 경사하강법 with 편미분 >

- 알고리즘은 동일하나, 벡터는 절댓값 대신 norm을 계산해서 종료조건을 설정함
- gradient : 그래디언트 벡터를 계산하는 함수

var = init
grad = gradient(var)
while (norm(grad) > eps) :
    var -= lr * grad
    grad = gradient(var)



In [1]:
import sympy as sym
from sympy.abc import x
from sympy.abc import y

sym.diff((sym.poly(x**2 + 2*x +3)),x)

Poly(2*x + 2, x, domain='ZZ')

In [2]:
import numpy as np

def func(val) :
    fun = sym.poly(x**2 + 2*x + 3)
    return fun.subs(x,val), fun

def func_gradient(fun, val) :
    _, function = fun(val)
    diff = sym.diff(function,x)
    return diff.subs(x,val), diff

def gradient_descent(fun, init_point, lr_rate = 1e-2, epsilon = 1e-5):
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, init_point)
    while np.abs(diff) > epsilon :
        val -= lr_rate*diff
        diff, _ = func_gradient(fun,val)
        cnt+=1
        
    print(f"함수: {fun(val)[1]}, 연산횟수: {cnt}, 최소점: ({val}, {fun(val)[0]})")

gradient_descent(fun=func, init_point=np.random.uniform(-2,2))


함수: Poly(x**2 + 2*x + 3, x, domain='ZZ'), 연산횟수: 564, 최소점: (-0.999995090858770, 2.00000000002410)


In [5]:
import numpy as np
import sympy as sym
from sympy.abc import x
from sympy.abc import y

def eval_(fun,val) :
    val_x, val_y = val
    fun_eval = fun.subs(x,val_x).subs(y,val_y )
    return fun_eval

def func_multi(val) :
    x_,y_ = val
    func = sym.poly(x**2 + 2*y**2)
    return eval_(func, [x_,y_]), func

def func_gradient(fun, val) :
    x_, y_ = val
    _, function = fun(val)
    diff_x = sym.diff(function,x)
    diff_y = sym.diff(function,y)
    grad_vec = np.array([eval_(diff_x,[x_,y_]), eval_(diff_y,[x_,y_])], dtype=float)
    return grad_vec, [diff_x, diff_y]


def gradient_descent(fun, init_point, lr_rate = 1e-2, epsilon = 1e-5):
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, val)
    while np.linalg.norm(diff) > epsilon :
        val -= lr_rate*diff
        diff, _ = func_gradient(fun,val)
        cnt+=1
        
    print(f"함수: {fun(val)[1]}, 연산횟수: {cnt}, 최소점: ({val}, {fun(val)[0]})")

pt = [np.random.uniform(-2,2), np.random.uniform(-2,2)]
gradient_descent(fun=func_multi, init_point=pt)


함수: Poly(x**2 + 2*y**2, x, y, domain='ZZ'), 연산횟수: 571, 최소점: ([ 4.92361826e-06 -8.12341598e-11], 2.42420168039544E-11)
