# 1. 머신러닝을 위한 미분법

---

## 학습 목표
- 미분의 개념을 이해하고 머신러닝에 사용되는 미분법들을 학습합니다.
- 학습한 수학 공식들을 코드로 계산하는 방법을 학습합니다.

---

## 목차

### 1. 미분 기초
1. 미분의 정의
2. 기초 미분법
3. 미분 코딩하기

### 2. 편미분
1. 편미분의 정의
2. Gradient

---

## 2. 편미분

지금까지는 변수 $x$에 대한 함수에서의 미분을 알아봤습니다.

하지만, 수 많은 데이터를 다루는 머신러닝에서는 함수의 입력으로 벡터 또는 행렬을 받기에 이에대한 미분법을 알아야 합니다.

이번 장에서는 하나 이상의 변수가 벡터나 행렬과 같은 입력이 있는 함수에서 어떻게 미분을 해야 할지 알아봅시다. 

### 2-1. 편미분 정의

벡터, 행렬 미분을 하기 전에 우선 여러 개의 입력 변수를 갖는 함수 미분법을 알아봅시다.

예를 들어 여러분이 중고 핸드폰을 구입한다고 생각해봅시다.

중고 핸드폰의 가격은 사용 기간, 기기의 깨끗한 정도, 새 핸드폰의 가격 시세, 등등 여러가지 상태를 알려주는 변수에 따라 정해집니다.

이를 함수로 나타내면 다음과 같을 것입니다. $중고가격(사용 기간,깨끗한 정도,시세,...)$

너무도 다양한 변수들이 존재하기에 우리는 중고 가격이 어떤 변수에 의해서 얼마나 변하는지 추정하기 쉽지는 않을 것입니다.

그렇기에 알고 싶은 변수만 두고 나머지 들은 상수로 생각하여 변화량을 추정합니다.

기기의 깨끗함 정도, 새 핸드폰 가격, 등등 모두 무시하고 사용 기간에 따라만 어떻게 중고 가격이 변화하는지 보는겁니다.

이를 식으로 나타내면 아래와 같이 표현할 수 있습니다.

##### 사용 기간에 따른 중고 가격 편미분

> $$사용\;기간에\;따른\;중고\;가격\;편미분 = \frac{\partial 중고\;가격(사용\;기간)}{\partial 사용\;기간}$$

편미분에 대한 수학적 정의는 아래와 같습니다.

**편미분(partial derivative)**: 다변수 함수의 특정 변수를 제외한 나머지 변수를 상수로 생각하고 미분하는 것을 의미합니다.

##### 편미분 정의

> $$\frac{\partial f(x_{1}, x_{2},...)}{\partial x_{i}}=\lim_{\Delta x_{i} \rightarrow 0}\frac{f(x_{1}, x_{2}, ..., x_{i} + \Delta x_{i},...) - f(x_{1}, x_{2},...)}{\Delta x_{i}}$$

##### <예제 1>  sympy 편미분 코딩

편미분을 코드화 하는건 미분에서의 방법과 크게 다르지 않습니다.

In [1]:
import numpy as np
import sympy 
from sympy import *

x, y = symbols('x y') 

# f(x,y) 함수를 설정
sym_f = sympy.expand((x-1-y)**2)
print("Before differentiation : {}".format(sym_f))

# Sympy 계산 함수
sym_d_f_x = diff(sym_f,x)
print("Sympy differentiation by x : {}".format(sym_d_f_x)) 

sym_d_f_y = diff(sym_f,y)
print("Sympy differentiation by y : {}".format(sym_d_f_y)) 

ModuleNotFoundError: No module named 'sympy'

x 이외의 추가로 사용할 변수에 대해서 `symbols()` 함수로 정의 해주고 `diff()` 를 통하여 해당 변수에 대해서 미분을 수행하면, 편미분 결과를 얻을 수 있습니다.

### 2-2. Gradient

이번 파트에서는 머신러닝에서 가장 많이 사용되는 최적화 모델인 gradient descent를 이해하기 위한 gradient에 대해서 알아보도록 합시다.

gradient란 말 그대로 기울기를 의미합니다.

스칼라 값을 출력하는 함수 $f(x_{1},x_{2},...,x_{n})$에 대해서 gradient는 $\triangledown f$로 표현합니다.

$\triangledown f$는 $f$의 각 성분의 편미분으로 구성된 벡터로 정의하며 아래와 같이 표현합니다.

##### gradient 계산

> $$\triangledown f=(\frac{\partial f(x_{1}, x_{2},...)}{\partial x_{1}},\frac{\partial f(x_{1}, x_{2},...)}{\partial x_{2}},...,\frac{\partial f(x_{1}, x_{2},...)}{\partial x_{n}})$$

예를 들어, 위도와 경도에 따른 세계 온도를 $온도(위도, 경도)$ 함수로 표현한다면, 아래 그림처럼 각 도시의 위치에 따라 온도를 구할 수 있습니다. 

![image.png](attachment:image.png)

그렇다면 여기서의 gradient인 $\triangledown 온도(위도,경도)$는 어떤 의미를 가지고 있을까요?

##### 위도, 경도에 따른 온도 gradient

> $$\triangledown 온도(위도,경도)=(\frac{\partial f(위도,경도)}{\partial 위도},\;\; \frac{\partial f(위도,경도)}{\partial 경도}\;\;\;)$$

$\frac{\partial f(위도,경도)}{\partial 위도}\;\;\;$는 위도에 따른 온도 변화, $\frac{\partial f(위도,경도)}{\partial 경도}\;\;\;$는 경도에 따른 온도 변화를 의미합니다.

![image.png](attachment:image.png)

각 도시의 위치에서 $\triangledown 온도(위도,경도)$ 값을 화살표로 표시하면 위 그림과 같습니다.

화살표는 온도가 높아지는 방향을 의미하고 화살표의 길이가 길수록 온도의 변화폭이 큼을 의미합니다.

왜 이렇게 표현될까요? 

$\frac{\partial f(위도,경도)}{\partial 위도}\;\;\;$는 위도에 따른 변화량을 의미합니다.

위도에 따른 변화량은 다시 말하면 위도에 따라 $(변화한 온도 - 기존 온도)$의 크다는 의미로, 변화량이 양수이면 위도가 커지는 방향으로 온도가 증가하고 음수이면 위도가 작아지는 방향으로 온도가 증가합니다.

같은 방식으로 경도에 대해서도 구할 수 있고, 이를 벡터로 표현하면 위도 방향과 경도 방향으로 변화하는 크기를 나타내는 화살표가 됩니다.

이러한 gradient을 구하게 되면 어느 위치에서 온도가 어느 방향으로 변하고 있음을 알 수 있습니다.

앞으로 배울 머신러닝에서는 gradient의 방향성을 활용하여 최대점 및 최소점을 찾는데 사용할 것입니다.

##### <예제 2> gradient  계산

sympy를 사용하여 함수의 편미분 값을 계산하고 이를 벡터화하여 gradient를 구해봅시다.

In [None]:
import numpy as np
import sympy 
from sympy import *
import matplotlib.pyplot as plt
%matplotlib inline

x, y = symbols('x y') 

# f(x,y) 함수를 설정
sym_f = sympy.expand((x-1-y)**2)
print("Before differentiation : {}".format(sym_f))

# Sympy 계산 함수
sym_d_f_x = diff(sym_f,x)
print("Sympy differentiation by x : {}".format(sym_d_f_x)) 

sym_d_f_y = diff(sym_f,y)
print("Sympy differentiation by y : {}".format(sym_d_f_y)) 

# gradient 계산
def gradient(x,y):
    return 2*x - 2*y - 2, -2*x + 2*y + 2

gradient_point = [1], [2]
gradient_f_x, gradient_f_y = gradient(*gradient_point[0],*gradient_point[1])

plt.scatter(*gradient_point, s=50, c='k')
plt.quiver(*gradient_point, [gradient_f_x], [gradient_f_y], color=['r'], angles='xy', scale_units='xy',scale=1)
plt.axis([-10,10,-10,10])
plt.grid(True)
plt.show()

---