## 勾配法

$${
  x_{0,t+1}
  =
  x_{0,t} - \left.\eta\frac{\partial f}{\partial x_0}\right|_t
}$$

$${
  x_{1,t+1}
  =
  x_{1,t} - \left.\eta\frac{\partial f}{\partial x_1}\right|_t
}$$

In [7]:
import numpy as np

def numerical_gradient(f, x):
    h = 1e-4
    grad = np.zeros_like(x) # xと同じ要素数の空の配列を用意する（生成する）

    for idx in range(x.size):
        tmp_val = x[idx]    # tmp_valに元の独立変数の値を保存する
        x[idx] = tmp_val + h    # x[idx]に元の値から少し正の方向へhだけ動かしたときの値を代入
        fxh1 = f(x) # 十分小さくxを動かした後の関数値をfxh1に代入

        x[idx] = tmp_val - h
        fxh2 = f(x)

        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val
    
    return grad
    

# 勾配降下法の実装

def gradient_descent(f, init_x, lr = 0.01, step_num = 100):
    """勾配降下法

    f: 適用する関数 \n
    init_x: 初期値 \n
    lr: 学習率（learning rate）（既定値:0.01）\n
    step_num: 勾配法による繰り返しの数（既定値:100）
    """
    x = init_x
    
    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x -= lr * grad
    
    return x

### 例
${f(x_0, x_1) = x_0^2 + x_1^2}$ の最小値を勾配法で求めよ。

In [8]:
def function_2(x):
    return np.sum(x**2)

init_x = np.array([-3.0, 4.0])  # 初期値は点(-3.0, 4.0)

print(gradient_descent(function_2, init_x = init_x, lr = 0.1))

[-6.11110793e-10  8.14814391e-10]


学習率（learning rate）は大きすぎても小さすぎてもいけないということについて、実験してみる

In [9]:
# 学習率が大きすぎる場合（lr = 10.0）

init_x = np.array([-3.0, 4.0])

print(gradient_descent(function_2, init_x = init_x, lr = 10.0, step_num = 100))  # [-2.58983747e+13 -1.29524862e+12]

[-2.58983747e+13 -1.29524862e+12]


In [None]:
# 学習率が小さすぎる場合（lr = 1e-10）

init_x = np.array([-3.0, 4.0])

print(gradient_descent(function_2, init_x = init_x, lr = 1e-10, step_num = 100))    # [-2.99999994  3.99999992]

[-2.99999994  3.99999992]


要するに、学習率が大きすぎると更新しすぎる（大きな値へと「発散」する）。逆に学習率が小さすぎるとほとんど更新されない。

学習率のようなパラメータを**ハイパーパラメータ**と言う。ニューラルネットワークのパラメータ（重みやバイアス）は学習によって自動的に決まるのに対し、ハイパーパラメータは人間が手動で設定される必要がある。

ハイパーパラメータは人間が試行錯誤し、うまく学習できるケースを探すという作業が必要になる。