편미분
$$
f(x_0, x_1) = x_0^2 + x_1^2
$$

In [29]:
import numpy as np

# x를 중심으로 중앙 차분/중심 차분
def numerical_diff(f, x):
    h = 1e-4 #0.0001
    return (f(x+h)-f(x-h))/(2*h)



def function_2(x):
    return x[0]**2 + x[1]**2
    # return np.sum(x**2)

편미분을 변수별로 따로 계산하였다면, $x_0$와 $x_1$의 편미분을 동시에 계산하고 싶다면?

- $x_0$ = 3, $x_1$ = 4일 때 ($x_0$, $x_1$) 양쪽의 편미분을 묶으면 다음과 같다.

$$
(\frac{\partial f}{\partial x_0}, \frac{\partial f}{\partial x_1})
$$

이때 $(\frac{\partial f}{\partial x_0}, \frac{\partial f}{\partial x_1})$처럼 모든 변수의 편미분을 벡터로 정리한 것을 **기울기**라고 한다.

- $
\frac{\partial f}{\partial x_0} = x_0^{2} + 4^{2}
$, function_tmp1(x0)
- $
\frac{\partial f}{\partial x_1} = 3^{2} + x_1^{2}
$, function_tmp2(x1)

In [30]:
def function_tmp1(x0):
    return x0**2 + 4.0**2

In [31]:
numerical_diff(function_tmp1, 3.0)

6.00000000000378

In [32]:
def function_tmp2(x1):
    return 3.0**2 + x1**2

In [33]:
numerical_diff(function_tmp2, 4.0)

7.999999999999119

각 점에서의 기울기를 계산할 수 있음

In [39]:
import numpy as np

def numerical_graident(f, x):
    h = 1e-4 # 0.0001
    grad = np.zeros_like(x)  # x와 형상이 같은 배열을 생성
    
    for idx in range(x.size):
        tmp_val = x[idx]
        # f(x+h) 계산
        x[idx] = tmp_val + h
        fxh1 = f(x)
        
        # f(x-h) 계산
        x[idx] = tmp_val - h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 값 복원
        
    return grad

In [40]:
numerical_graident(function_2, np.array([3.0, 4.0]))

array([6., 8.])

**기울기가 가리키는 쪽은 각 장소에서 함수의 출력 값을 가장 크게 줄이는 방향**

### 4.4.1 경사법(경사 하강법)

일반적인 손실 함수는 매우 복잡하다. 매개변수(weight) 공간이 매우 광대하여 어디가 최솟값인지 짐작할 수 없다.
이러한 상황에서 기울기를 잘 이용해 함수의 최솟값(또는 가능한 한 작은 값)을 찾으려는 것이 경사법이다.

그러나, 기울기가 가리키는 곳에 정말 함수의 최솟값이 있는지, 즉 그쪽이 정말로 나아갈 방향인지는 보장할 수 없다. 실제로 복잡한 함수에서는 기울기가 가리키는 방향에 최솟값이 없는 경우가 대부분이다.

기울어진 방향이 꼭 최솟값을 가리키는 것은 아니나, 그 방향으로 가야 함수의 값을 줄일 수 있다. 그래서 최솟값이 되는 장소를 찾는 문제(아니면 가능한 한 작은 값이 되는 장소를 찾는 문제)에서는 기울기 정보를 단서로 나아갈 방향을 정해야 한다.

드디어 경사법이 등장한다. 경사법은 현 위치에서 기울어진 방향으로 일정 거리만큼 이동합니다. 그런 다음 이동한 곳에서도 마찬가지로 기울기를 구하고, 또 그 기울어진 방향으로 나아가기를 반복한다. 이렇게 해서 함수의 값을 점차 줄이는 것이 **경사법**입니다. 경사법은 기계학습을 최적화하는데 흔히 쓰이는 방법이다. 특히 신경망 학습에는 경사법을 많이 사용한다.

**수식**

- $\eta$ : 학습률 (0.01 ~ 0.001) 

$$
x_0 = x_0 - \eta \frac{\partial f}{\partial x_0}
$$

$$
x_1 = x_1 - \eta \frac{\partial f}{\partial x_1}
$$

In [108]:
def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    point = []
    for i in range(step_num):
        grad = numerical_graident(f, x) # 각 점에서의 기울기를 계산
        x -= lr * grad
        #print(x)
    return x

**문제 : 경사법으로 $f(x_0, x_1) = x_0^{2} + x_1^{2}$ 의 최솟값을 구하자**

In [111]:
def function_2(x):
    return x[0]**2 + x[1]**2

init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x = init_x, lr = 0.1, step_num = 100)

array([-6.11110793e-10,  8.14814391e-10])

#### 학습률이 너무 큰 경우 : lr = 10.0

In [112]:
gradient_descent(function_2, init_x = init_x, lr = 10.0 , step_num = 100)

array([ 2.34235971e+12, -3.96091057e+12])

#### 학습률이 너무 작은 경우 : lr = 1e-10

In [114]:
gradient_descent(function_2, init_x = init_x, lr = 1e-10 , step_num = 100)

array([ 2.34235971e+12, -3.96091057e+12])

실험 결과와 같이 학습률이 너무 크면 큰 값으로 발산해보리고, 반대로 너무 작으면 거의 갱신되지 않은 채 끝나버린다.

### 4.4.2 신경망에서의 기울기 

- 형상이 2x3 인 가중치

$$
W = \begin{pmatrix}
    w_{11} & w_{12} & w_{13} \\
    w_{21} & w_{22} & w_{23} \\
    \end{pmatrix}
$$

- 형상이 2x3 인 가중치의 각 원소에 관한 편미분
- $\frac{\partial L}{\partial w_{11}}$ 의미 : $w_{11}$을 조금 변경했을 때 손실 함수 $L$이 얼마나 변화하는가를 나타냄

$$
\frac{\partial L}{\partial W} = \begin{pmatrix}
                                \frac{\partial L}{\partial w_{11}} & \frac{\partial L}{\partial w_{12}} & \frac{\partial L}{\partial w_{13}} \\
                                \frac{\partial L}{\partial w_{21}} & \frac{\partial L}{\partial w_{22}} & \frac{\partial L}{\partial w_{23}} \\
                                \end{pmatrix}
$$



실제로 간단한 신경망을 예로 ㄷ르어 실제로 기울기를 구하는 코드를 구현해 보자.

In [23]:
# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
import numpy as np
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient


class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3) # 정규분포로 가중치 초기화

    def predict(self, x):
        return np.dot(x, self.W)

    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)

        return loss

- x : 입력 데이터
- t : 정답 레이블

#### 가중치 매개변수 출력

In [13]:
net = simpleNet()
print(net.W) 

[[ 0.58670364 -0.67266957  1.9104809 ]
 [ 2.41928557  0.24535878 -1.08746554]]


#### 초기화된 가중치와 입력 데이터로 예측하여 점수가 나옴

In [16]:
x = np.array([0.6, 0.9])
p = net.predict(x)
print(p)

[ 2.5293792  -0.18277884  0.16756955]


#### 최댓값 인덱스

In [19]:
np.argmax(p)

0

#### 정답 레이블

In [21]:
t = np.array([0, 0, 1])

#### 오차 계산

In [24]:
net.loss(x, t)

2.5107824780576293

In [29]:
# 일반함수로 표현
def  f(W):
    return net.loss(x, t)

dW = numerical_gradient(f, net.W)
print(dW)

[[ 0.51695424  0.03432234 -0.55127658]
 [ 0.77543136  0.0514835  -0.82691487]]


In [30]:
# 람다 함수로 표현
f = lambda w: net.loss(x, t)
dW = numerical_gradient(f, net.W)

print(dW)

[[ 0.51695424  0.03432234 -0.55127658]
 [ 0.77543136  0.0514835  -0.82691487]]


**dw** 의 결과값을 보면 2x3의 형상이고 예를 들면,
$\frac{\partial L}{\partial w_{11}}$ = 0.51695424 이다. 이는 $w_{11}$을 $h$만큼 늘리면 손실 함수의 값은 약 `0.51695424 * h` 만큼의 증가한다는 것이다. 물론 -라면 감소하는 것이다.