### `sympy,diff`
- 해당 함수는 `numpy` 라이브러리가 제공하는 미분 계산 함수 이다.
> 미분이란, 
> 변수의 움직임에 따른 변화를 측정하여 극한으로 최적화하는 기법

In [2]:
import sympy as sym
from sympy.abc import x

sym.diff(sym.Poly(x ** 2 + 2 * x + 3), x)

Poly(2*x + 2, x, domain='ZZ')

미분은 기하학적으로 접선의 기울기를 구한다. 2차원에서는 그래프를 통해 쉽게 함수 값의 증가, 감소를 알 수 있지만,  
고차원에서는 그림으로 표현할 수 없어 함수 값의 증가, 감소 방향을 결정하는데 미분 값을 사용하여 해결할 수 있게 된다.

또한 기존의 함수에서 미분 값을 더하면 항상 함수 값은 증가하는 방향으로 움직이며,  
미분 값을 빼면 항상 함수 값은 감소하는 방향으로 움직인다.

위와 같은 미분 값을 이용하여 미분 값을 더하면, 함수 값이 증가하므로, 이를 이용하여 함수의 극대 값의 위치를 찾을 때 사용한다.  
이를 경사상승법(gradient ascent)라고 한다.

반대로 미분 값을 빼는 방식을 경사하강법(gradient descent)라고 하며, 이를 이용하여 함수의 극소값을 찾는다.

극값에 도달하면 미분 값이 0이 되므로, 경사 상승/하강법 모두 움직임을 멈춘다. (즉, 최적화가 끝난다.)

### 경사하강법 알고리즘 종료 조건
- `eps` : 알고리즘 종료 조건 
(컴퓨터는 계산시 미분 값이 0이 되는 것이 불가능하므로, 적정 오차 볌위내에서 종료 조건이 필요하다.)
- `lr` : 학습률 (경사하강법 식의 미분 값에 학습률을 곱하여, 업데이트 속도를 조절한다.)

In [9]:
import numpy as np


def func(val):
    fun = sym.poly(x ** 2 + 2 * x + 3)
    return fun.subs(x, val), fun


def func_gradient(fun, val):
    _, function = fun(val)
    diff = sym.diff(function, x) # 미분 한다.
    return diff.subs(x, val), diff # subs함수는 값을 치환하여 대입 (x를 val값으로 치환)


def gradient_descent(fun, init_point, lr_rate=1e-2, epsilon=1e-5):
    cnt = 0
    val = init_point
    diff, _ = func_gradient(fun, init_point) # 초기 좌표와 함수를 통해 미분 값을 반환 받는다.
    while np.abs(diff) > epsilon:
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1

    print(f"함수 : {fun(val)[1]}, 연산횟수 : {cnt}, 최소점 : ({val},{fun(val)[0]})")


gradient_descent(fun=func, init_point=np.random.uniform(-2, 2))

함수 : Poly(x**2 + 2*x + 3, x, domain='ZZ'), 연산횟수 : 600, 최소점 : (-1.00000492392643,2.00000000002425)


벡터와 같이 다변수로 이루어진 함수에 대해서는 일반 미분이 아닌 편미분을 한다. (축이 n개 이므로 특정 방향으로의 미분 값을 구한다 - 편미분)  
따라서, 주어진 변수의 개수만큼 편미분이 가능

In [15]:
from sympy.abc import y

sym.diff(sym.poly(x**2 +2*x*y +3).as_expr() + sym.cos(x + 2*y), x)

2*x + 2*y - sin(x + 2*y)