이 글은 [Machine Learning - 박성호](https://www.youtube.com/watch?v=g4YmXwVttVg&list=PLS8gIc2q83OjStGjdTF2LZtc0vefCAbnX&index=26) 강좌를 요약정리한 글입니다.

---
## Numerical Derivative

$$f'(x) = {{df(x)} \over {dx}}
= lim_{△x -> 0}{{{f(x+△x} - f(x)} \over {△x}}$$

#### 미분을 왜 하는가? 

* 입력변수 x가 미세하게 변할 때, 함수 f가 얼마나 변하는지 나타내는 수식
* 함수 f(x)는 입력 x의 미세한 변화에 얼마나 민감하게 반응하는지 알 수 있는 식


#### 미분을 통해 얻을 수 있는 것은 무엇인가?

* 입력 x를 현재 값에서 아주 조금 변화시키면, 함수 f(x)는 얼마나 변하는가?
* 함수 f(x)는 입력 x의 미세한 변화에 얼마나 민감하게 반응하는가?


#### 수치미분 1차 버전

주어진 입력 값이 미세하게 변할 때 함수 값 f는 얼마나 변하는지 알아내주는 함수

${f'(x)} = {df(x) \over dx}$ : 1. 미분하려는 함수 f(x) 정의

$= {{lim_{△x->0}}{{f(x+△x)-f(x)} \over △x}}$ : 2. 극한(lim) 개념을 구현하기 위해 △x는 작은 값으로 설정

$= {{lim_{△x->0}}{{f(x+△x)-f(x-△x)} \over 2△x}}$ : 3. 분자/분모 구현

In [6]:
# 1. 미분하고자 하는 함수 f(x) 정의
# @param f 미분하려는 함수, 외부에서 def, lambda 등으로 정의됨
# @param x 미분 값을 알고자 하는 입력 값, 즉 미세하게 변하는 입력 값
def numerical_derivative(f, x):
    
    # 2. 극한(lim) 개념을 구하기 위해 delta x는 작은 값으로 설정
    delta_x = 1e-4
    
    # 3. 분자 / 분모 구현
    return (f(x+delta_x) - f(x-delta_x)) / (2*delta_x)

**ex1 함수 $f(x) = x^2$에서 미분계수 $f'(3)$을 구하기. 즉, $x=3$에서 값이 미세하게 변할 때, 함수 f는 얼마나 변하는지 계산하라.**

$f'(3) = {lim_{△x->0}}{f(3+△x)-f(3-△x) \over 2△x}$

$f'(3) = {f(3+1e-4)-f(3-1e-4) \over 2*1e-4}$

$f'(3) = {(3+1e-4)-(3-1e-4) \over 2*1e-4}$

$f'(3) = 6.0$

In [12]:
# 들어온 값을 제곱
def my_func1(x):
    
    return x**2

In [9]:
def numerical_derivative(f, x):
    
    delta_x = 1e-4
    
    return (f(x+delta_x) - f(x-delta_x)) / (2*delta_x)

In [13]:
result = numerical_derivative(my_func1, 3)

print("result == ", result)

result ==  6.000000000012662


result의 의미는 **x=3에서 값이 아주 미세하게 변할 때, 함수 f는 약 6만큼 변한다**는 의미이다.

**ex2 함수 $f(x) = 3xe^x$를 미분한 함수를 $f'(x)$라고 할 때, $f'(2)$을 구하기. 즉, $x=2$에서 값이 미세하게 변할 때, 함수 f는 얼마나 변하는지 계산하라.**


**수학공식 검증**

$f(x) = 3xe^x$ 미분

$f'(x) = 3e^x + 3xe^x$

$f'(2) = 3e^2+3*2e^2$

In [20]:
print("3*exp(2) + 3*2*exp(2) == ", end=' ')
print(3*np.exp(2) + 3*2*np.exp(2))

3*exp(2) + 3*2*exp(2) ==  66.50150489037586


**수치 미분**

In [14]:
import numpy as np

def my_func2(x):
    
    return 3*x*(np.exp(x))

In [16]:
def numerical_derivate(f, x):
    
    delta_x = 1e-4
    
    return (f(x+delta_x) - f(x-delta_x)) / (2*delta_x)

In [18]:
result = numerical_derivative(my_func2, 2)

print("result == ", result)

result ==  66.50150507518049


#### 수치미분 최종 버전

* 입력 변수가 하나 이상인 **다변수 함수의 경우, 입력변수는 서로 독립적이기 때문에 수치미분 또는 변수의 개수만큼 개별적으로 계산**하여야 함

**$f(x, y) = 2x+3xy+y^3$, 인 경우 $f'(1.0, 2.0) = (8.0, 15.0)$ 직관적 이해**

-> $x = 1.0$에서 미분 값을 구한다는 것은, y값은 2.0으로 고정한 상태에서, $x = 1.0$을 미세하게 변화시킬 때, $f(x, y)$는 얼마나 변화되는지 알아보겠다는 의미. 즉, $y = 2.0$으로 고정된 상태에서 $x = 1.0$을 미세하게 변화시키면 $f(x, y)$는 8.0만큼 변한다는 의미.

-> $y = 2.0$에서 미분 값을 구한다는 것은, x값은 1.0으로 고정한 상태에서, $y = 2.0$을 미세하게 변화시킬 때, $f(x, y)$는 얼마나 변화되는지 알아보겠다는 의미. 즉, $x = 1.0$으로 고정된 상태에서 $y = 2.0$을 미세하게 변화시키면 $f(x, y)$는 15.0만큼 변한다는 의미

In [2]:
import numpy as np

# @param f 미분하고자 하는 다변수 함수
# @param x 다변수 함수의 모든 입력 변수를 포함하고 있는 numpy 객체(배열, 행렬)
#          입력 변수가 하나일 경우, 스칼라였으나, 두 개 이상이기 때문에 객체
def numerical_derivative(f, x):
    delta_x = 1e-4
    # 1. 계산된 수치미분 값을 저장할 변수
    grad = np.zeros_like(x)
    
    print("debug 1. initial input variable =", x)
    print("debug 2. initial grad =", grad)
    print("=======================================")
    
    # 2. 모든 입력변수에 대해 편미분하기 위해 iterator 획득
    # 원소를 처음부터 끝까지 가리키기 위한 iterator
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    
    # 변수의 개수만큼 반복
    while not it.finished:
        idx = it.multi_index
        
        print("debug 3. idx = ", idx, ", x[idx] = ", x[idx])
        
        # 3. numpy 타입은 mutable 이므로 원래 값 보관
        # 원본 값이 함수 안에서 변경될 수 있기 때문에 임시변수에 원본 값을 저장함
        tmp_val = x[idx]
        # 4. 하나의 변수에 대한 수치미분 계산
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x)
        
        x[idx] = tmp_val - delta_x
        fx2 = f(x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        print("debug 4. grad[idx] = ", grad[idx])
        print("debug 5. grad = ", grad)
        print("=======================================")
        
        # 원본 값이 변경되는 것을 막기 위해 임시 변수에 저장된 것을 다시 원래 변수 값에 넣어줌
        x[idx] = tmp_val
        it.iternext()
        
    return grad

### 편미분(Partial derivative)

* 편미분은 입력변수가 하나 이상인 다변수 함수에서, 미분하고자 하는 변수 하나를 제외한 나머지 변수들은 상수로 취급하고, 해당 변수를 미분하는 것

ex1) $f(x, y) = {2x+3xy+y^3}$, 변수 x에 대한 편미분

$${\partial f(x,y) \over {\partial x}} = {\partial (2x+3xy+y^3) \over \partial y} = {2 + 3y}$$

ex2) $f(x, y) = {2x+3xy+y^3}$, 변수 y에 대한 편미분

$${\partial f(x,y) \over {\partial y}} = {\partial (2x+3xy+y^3) \over \partial y} = {3x + 3y^2}$$

ex3) 체중함수가 '체중(야식, 운동)'처럼 야식/운동에 영향을 받는 2변수 함수라고 가정할 경우, 편미분을 이용하면 각 변수 변화에 따른 체중 변화량을 구할 수 있음

현재 먹는 야식의 양에서 조금 변화를 줄 경우 체중은 얼마나 변하는가?

$$\partial체중 \over \partial야식$$

현재 하고 있는 운동량에 조금 변화를 줄 경우 체중은 얼마나 변하는가?

$$\partial체중 \over \partial운동$$

* 머신러닝/딥러닝에서 자주 사용되는 함수의 미분

$f(x) = 상수$  ->  $f'(x) = 0$ 

$f(x) = ax^n$  ->  $f'(x) = nax^{n-1}$

$f(x) = e^x$  ->  $f'(x) = e^x$ 

$f(x) = lnx$  ->  $f'(x) = {1 \over x}$

$f(x) = e^{-x}$  ->  $f'(x) = -e^{-x}$

### 연쇄법칙(Chain rule)

* 합성함수란 여러 함수로 구성된 함수로서, 이러한 합성함수를 미분하려면 '합성함수를 구성하는 각 함수의 미분의 곱'으로 나타내는 chain rule(연쇄법칙) 이용
* 함수가 합쳐져 있는 형태를 가짐

ex1) $f(x) = e^{3x^2}$  ->  함수 $e^t$, 함수 $t = 3x^2$ 조합

$f(x) = e^{3x^2}$을 chain rule로 미분하는 경우, $t = 3x^2$으로 놓으면 $f(x) = e^t$로 나타낼 수 있음



$${\partial f \over \partial x} = {{\partial f \over \partial t}{\partial t \over \partial x}} = {{\partial (e^t) \over \partial t}{\partial (3x^2) \over \partial x}} = {(e^t)(6x)} = {(e^{3x^2})(6x)} = {6xe^{3x^2}}$$


ex2) $f(x) = e^{-x}$  ->  함수 $e^t$, 함수 $t = -x$ 조합

$f(x) = e^{-x}$를 chain rule로 미분하는 경우,  $t = -x$로 놓으면 $f(x) = e^t$로 나타낼 수 있음

$${\partial f \over \partial x} = {{\partial f \over \partial t}{\partial t \over \partial x}} = {{\partial (e^t) \over \partial t}{\partial (3x^2) \over \partial x}} = {(e^t)(-1)} = {(e^x)(-1)} = {-e^{-x}}$$


In [6]:
def func1(input_obj):
    x = input_obj[0]
    
    return x**2

numerical_derivative(func1, np.array([3.0]))

debug 1. initial input variable = [3.]
debug 2. initial grad = [0.]
debug 3. idx =  (0,) , x[idx] =  3.0
debug 4. grad[idx] =  6.000000000012662
debug 5. grad =  [6.]


array([6.])

In [7]:
def func1(input_obj):
    x = input_obj[0]
    y = input_obj[1]
    
    return (2*x + 3*x*y + np.power(y,3))

input = np.array([1.0, 2.0])

numerical_derivative(func1, input)

debug 1. initial input variable = [1. 2.]
debug 2. initial grad = [0. 0.]
debug 3. idx =  (0,) , x[idx] =  1.0
debug 4. grad[idx] =  7.999999999990237
debug 5. grad =  [8. 0.]
debug 3. idx =  (1,) , x[idx] =  2.0
debug 4. grad[idx] =  15.000000010019221
debug 5. grad =  [ 8.         15.00000001]


array([ 8.        , 15.00000001])

In [9]:
def func1(input_obj):
    w = input_obj[0, 0]
    x = input_obj[0, 1]
    y = input_obj[1, 0]
    z = input_obj[1, 1]
    
    return (w*x + x*y*z +3*w + z*np.power(y, 2))

input = np.array([[1.0, 2.0], [3.0, 4.0]])

numerical_derivative(func1, input)

debug 1. initial input variable = [[1. 2.]
 [3. 4.]]
debug 2. initial grad = [[0. 0.]
 [0. 0.]]
debug 3. idx =  (0, 0) , x[idx] =  1.0
debug 4. grad[idx] =  5.000000000023874
debug 5. grad =  [[5. 0.]
 [0. 0.]]
debug 3. idx =  (0, 1) , x[idx] =  2.0
debug 4. grad[idx] =  13.00000000000523
debug 5. grad =  [[ 5. 13.]
 [ 0.  0.]]
debug 3. idx =  (1, 0) , x[idx] =  3.0
debug 4. grad[idx] =  32.00000000006753
debug 5. grad =  [[ 5. 13.]
 [32.  0.]]
debug 3. idx =  (1, 1) , x[idx] =  4.0
debug 4. grad[idx] =  15.000000000000568
debug 5. grad =  [[ 5. 13.]
 [32. 15.]]


array([[ 5., 13.],
       [32., 15.]])