<a href="https://colab.research.google.com/github/yukinaga/minnano_dl/blob/main/section_4/02_gradient_decent.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 勾配降下法
勾配降下法では、関数の傾き（勾配）に基づき関数を最小化します。  
ディープラーニングにおいて、出力と正解の誤差を最小化するために使われます。

## 勾配降下法とは？
「勾配降下法」は勾配法の一種で、勾配に基づき最小値を探索します。

こちらの多変数関数、$y=f(X)$の最小値を勾配降下法により探索する例を考えます。  

$$f(X) = f(x_1,x_2,\cdots, x_i,\cdots, x_n)$$

このとき、$X$の初期値を適当に決めた上で、以下のような式に基づき$X$の全ての要素を更新します。

（式 1）
$$ x_i \leftarrow x_i-\eta\frac{\partial f(X)}{\partial x_i} $$

ここで$\eta$は学習係数と呼ばれる定数で、$x_i$の更新速度を決めます。  
この式により、勾配$\frac{\partial f(X)}{\partial x_i} $が大きいほど（傾きが大きいほど）、$x_i$の値は大きく変更されることになります。  
これを$f(X)$が変化しなくなるまで（勾配が0になるまで）繰り返すことで、$f(X)$の最小値を求めます。

## 勾配降下法の実装
以下の簡単な一変数関数$f(x)$の最小値を、勾配降下法を使って求めます。  

$$f(x) = x^2 - 2x$$

この関数は、$x$の値が1のときに最小値$f(1) = -1$をとります。また、この関数を$x$で微分すると次の通りです。

$$\frac{d f(x)}{d x} = 2x-2$$

一変数なので、偏微分ではなく通常の微分を使っています。    
以下のコードは、上記の関数の最小値を、勾配降下法により求めます。  
（式1）を使って20回$x$を更新し、その過程を最後にグラフで表示します。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def my_func(x):  # 最小値を求める関数
    return x**2 - 2*x

def grad_func(x):  # 導関数
    return 2*x - 2

eta = 0.1  # 学習係数
x = 4.0  # xに初期値を設定
record_x = []  # xの記録
record_y = []  # yの記録
for i in range(20):  # 20回xを更新する
    y = my_func(x)
    record_x.append(x)
    record_y.append(y)
    x -= eta * grad_func(x)  # （式1）

x_f = np.linspace(-2, 4)  # 表示範囲
y_f = my_func(x_f)  

plt.plot(x_f, y_f, linestyle="dashed")  # 関数を点線で描画
plt.scatter(record_x, record_y)  # xとyの記録を点で表示

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

$x$の初期値は4ですが、そこから関数を滑り落ちるようにして最小値付近に到達しました。  
次第に$x$の間隔は狭くなっており、勾配が小さくなるとともに$x$の更新量が小さくなることが確認できます。  
  
勾配降下法により求められる最小値は厳密な最小値ではありませんが、現実の問題を扱う際は関数の形状さえ分からないことが多いので、勾配降下法により最小値を少しずつ探索するアプローチは有効です。

## 局所的な最小値
最小値には、全体の最小値と局所的な最小値があります。  
先程の例では関数が比較的単純なので、全体の最小値にあっさりとたどり着くことができました。  
しかしながら、ニューラルネットワークは複雑な関数なので、局所的な最小値に捕獲されて全体の最小値にたどり着けないことがあります。  
以下では、局所的な最小値の例を見ていきます。以下の関数$f(x)$の最小値を、勾配降下法を使って求めます。  

$$f(x) = x^4 + 2x^3 -3x^2 - 2x$$

この関数を$x$で微分すると次のようになります。

$$\frac{d f(x)}{d x} = 4x^3 + 6x^2 - 6x - 2$$

以下のコードでは、上記の関数に勾配降下法を適用しています。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def my_func(x):  # 最小値を求める関数
    return x**4 + 2*x**3 - 3*x**2 - 2*x

def grad_func(x):  # 導関数
    return 4*x**3 + 6*x**2 - 6*x - 2

eta = 0.01  # 学習係数
x = 1.6  # xに初期値を設定
record_x = []  # xの記録
record_y = []  # yの記録
for i in range(20):  # 20回xを更新する
    y = my_func(x)
    record_x.append(x)
    record_y.append(y)
    x -= eta * grad_func(x)  # （式1）

x_f = np.linspace(-2.8, 1.6)  # 表示範囲
y_f = my_func(x_f)  

plt.plot(x_f, y_f, linestyle="dashed")  # 関数を点線で描画
plt.scatter(record_x, record_y)  # xとyの記録を点で表示

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

関数の曲線が点線で表されていますが、左側の谷が全体の最小値で、右側の谷が局所的な最小値です。  
上記のコードでは`x = 1.6`を初期値としましたが、右側の谷に捕獲されて抜け出せなくなってしまいます。  
ディープラーニングにおいて、このような局所的な最小値に捕らわれてしまうのは深刻な問題です。  
適切に初期値を設定したり、あるいはランダムな動きを導入したりして、このような問題への対策が行われています。  
今回のケースでは、初期値が適切に設定されれば全体の最小値にたどり着くことができます。