앞에서는 $x_0$과 $x_1$의 편미분을 변수별로 따로 계산했다. 그런데 이를 동시에 계산하고 싶다면 어떻게 해야 할까? 가령 $x_0=3$, $x_1=4$ 일 때, $(x_0, x_1)$ 양쪽의 편미분을 묶어서 $({\partial{f} \over x_0},{\partial{f} \over x_1})$을 계산해보자. 이 때, $({\partial{f} \over x_0},{\partial{f} \over x_1})$ 처럼 모든 변수의 편미분을 벡터로 정리한 것을 $기울기^{gradient}$라고 한다. 기울기는 예를 들어 다음과 같이 구할 수 있다.

In [34]:
import numpy as np

def numerical_gradient(f, x):
    h = 1e-4
    grad = np.zeros_like(x)

    for idx in range(x.size):
        # f(x+h) 계산
        tmp_val = x[idx]
        x[idx] = tmp_val + h
        fxh1 = f(x)

        # f(x-h) 계산
        x[idx] = tmp_val - h
        fxh2 = f(x)

        grad[idx] = (fxh1 - fxh2) / 2*h
        x[idx] = tmp_val # 값 복원

    # print('grad:', grad)

    return grad

def function_2(x):
    return x[0]**2 + x[1]**2

In [33]:
print(numerical_gradient(function_2, np.array([3.0, 4.0])))
print(numerical_gradient(function_2, np.array([0.0, 2.0])))
print(numerical_gradient(function_2, np.array([3.0, 0.0])))

grad: [6.e-08 8.e-08]
[6.e-08 8.e-08]
grad: [0.e+00 4.e-08]
[0.e+00 4.e-08]
grad: [6.e-08 0.e+00]
[6.e-08 0.e+00]


각각의 기울기를 정리하면 아래와 같다. <br>
* (3, 4) -> grad: (6.0, 8.0)
* (0, 2) -> grad: (0.0, 4.0)
* (3, 0) -> grad: (6.0, 0.0)

이러한 기울기들은 무엇을 의미하는 걸까? 그림으로 그려보면 이해가 될 것이다. 다만, 여기에서는 기울기의 결과에 마이너스를 붙인 백터를 그려보겠다. 기울기 그림은 아래처럼 방향을 가진 벡터(화살표)로 그려진다. 이 그림을 보면 기울기는 함수의 가장 낮은 장소를 가리키는 것 같다. 마치 나침반처럼 화살표들은 한 점을 향하고 있다. '가장 낮은 곳'에서 멀어질수록 화살표의 크기도 커짐을 알 수 있다.

<p align="center"><img src="imgs/4-9.png" width=500></p>

위의 그림에서 기울기는 가장 낮은 장소를 가리키지만, 실제로는 반드시 그렇다고도 할 수 없다. 사실 기울기는 각 지점에서 낮아지는 방향을 의미한다. 더 정확히 말하면, 기울기가 가리키는 쪽은 각 장소에서 함수의 출력값을 가장 크게 줄이는 방향인 것이다.

# 4.4.1 경사법(경사하강법)

기계학습 문제 대부분은 학습 단계에서 최적의 매개변수를 찾아낸다. 신경망 역시 최적의 매개변수를 학습 시에 찾아야 한다. 여기서 최적이란, 손실함수가 최소값이 될 때를 의미한다. 그러나 일반적인 문제의 손실함수는 매우 복잡해서 어디가 최솟점인지 찾기가 어렵다. 이럴 때 기울기를 이용하여, 함수의 최소 지점을 찾으려는 것이 경사 하강법이다. 여기서 주의할 점은 각 지점에서 함수의 값을 낮추는 지표가 기울기라는 것이다. 그러나 기울기가 가리키는 곳에 정말 함수의 최소값이 있는지는 보장할 수 없다. 실제로 복잡한 함수에서는 기울기가 가리키는 곳에 최솟값이 없는 경우가 대부분이다.
<br>
기울어진 방향이 꼭 최소값을 가리키는 것은 아니나, 그 방향으로 가야 함수의 값을 줄일 수 있다. 그래서 사실 선택의 여지가 별로 없긴 하다. (이 방법에서는!) 드디어 경사하강법을 소개한다. 경사하강법은 현 위치에서 기울어진 방향만큼 이동하는 것이다. 경사하강법을 수식으로 나타내면 아래와 같다.

$$\huge{x_0 = x_0 - \eta{\partial f \over \partial x_0}}$$
$$\huge{x_1 = x_1 - \eta{\partial f \over \partial x_1}}$$

위의 식에서 $\eta^{에타}$는 생신하는 양을 나타낸다. 이를 learning rate라고 한다. 한 번의 학습으로 얼마만큼을 학습해야 할 지, 즉 매개변수의 값을 얼마나 갱신하는 지를 정하는 것이 학습률이다. 위의 식은 1회에 해당하는 것이고 이를 여러 번 반복하면서 서서히 함수의 값을 줄여나가게 된다. 또 여기에서는 변수가 2개인 경우만 살펴봤지만, 변수가 늘어도 같은 식으로 갱신이 된다. 또한 학습률은 0.01이나 0.001 등 미리 특정 값으로 정해둬야 하는데, 일반적으로 너무 크거나 너무 작으면 '좋은 장소'를 찾아갈 수 없다. 경사 하강법은 다음과 같이 간단하게 구현할 수 있다.

In [49]:
def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x

    for i in range(step_num):
        grad = numerical_gradient(f, x)
        print('grad:', grad)
        x -= (lr * grad)

    return x

문제. 경사법으로 $f(x_0, x_1) = x_0^2+x_1^2$의 최솟값을 구하여라

In [50]:
def function_2(x):
    return x[0]**2 + x[1]**2

init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x, 0.1, 100)

[-6.e-08  8.e-08]
[-5.99999999e-08  7.99999998e-08]
[-5.99999998e-08  7.99999997e-08]
[-5.99999996e-08  7.99999995e-08]
[-5.99999995e-08  7.99999994e-08]
[-5.99999994e-08  7.99999992e-08]
[-5.99999993e-08  7.99999990e-08]
[-5.99999992e-08  7.99999989e-08]
[-5.99999990e-08  7.99999987e-08]
[-5.99999989e-08  7.99999986e-08]
[-5.99999988e-08  7.99999984e-08]
[-5.99999987e-08  7.99999982e-08]
[-5.99999986e-08  7.99999981e-08]
[-5.99999984e-08  7.99999979e-08]
[-5.99999983e-08  7.99999978e-08]
[-5.99999982e-08  7.99999976e-08]
[-5.99999981e-08  7.99999974e-08]
[-5.99999980e-08  7.99999973e-08]
[-5.99999978e-08  7.99999971e-08]
[-5.99999977e-08  7.99999970e-08]
[-5.99999976e-08  7.99999968e-08]
[-5.99999975e-08  7.99999966e-08]
[-5.99999974e-08  7.99999965e-08]
[-5.99999972e-08  7.99999963e-08]
[-5.99999971e-08  7.99999962e-08]
[-5.9999997e-08  7.9999996e-08]
[-5.99999969e-08  7.99999958e-08]
[-5.99999968e-08  7.99999957e-08]
[-5.99999966e-08  7.99999955e-08]
[-5.99999965e-08  7.99999954e-08

array([-2.9999994,  3.9999992])