## 重みパラメータに関する損失関数の勾配

重みパラメータを変数とする損失関数の勾配（バイアスも）を調整することで、ニューラルネットワークの学習を行うことが出来るようになる。
重みを $w$、損失関数を $L$ で表すと、偏微分 $\frac{\partial L}{\partial w}$ の行列で表せる。
重みパラメータは、ランダム（とりあえずガウス分布とか）に決めたりするようだ。

## 確率的勾配降下法
無作為に（確率的に）サンプリングデータを選んで勾配降下法を行う事を、確率的勾配降下法(Stochastic gradient descent)という。SGD と略される事が多い。

In [1]:
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient


class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3)

    def predict(self, x):
        return np.dot(x, self.W)

    def loss(self, x, t):
        # softmax 関数も一緒くたにしておくと便利
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)

        return loss


In [2]:
x = np.array([0.6, 0.9])
t = np.array([0, 0, 1])
# 1 ミニバッチ
net = simpleNet()
print(net.W)
p = net.predict(x)
print(p)
print("Max index: %d" % np.argmax(p))
print("Evaluate 0: %s" % net.loss(x, t))

# 2 勾配の算出
f = lambda w: net.loss(x, t)
dW = numerical_gradient(f, net.W)
print(dW)

# 3 パラメータ更新
net.W -= dW

# 4 繰り返し
print("Evaluate 1: %s" % net.loss(x, t))


[[-0.01710178  0.34625772 -0.10260102]
 [ 0.13223796 -0.26268691 -0.65794169]]
[ 0.1087531  -0.02866359 -0.65370813]
Max index: 0
Evaluate 0: 1.6118095297137
[[ 0.25661588  0.22366819 -0.48028408]
 [ 0.38492383  0.33550229 -0.72042611]]
Evaluate 1: 0.6845533294632116


1. ランダムにつけた重み(net.W)を元に、入力 x から結果を予測(predict)する。予測の結果最も大きな値を持つ要素が正解の可能性が一番高いと推定していることになる。予測結果を損失関数に渡すと（softmax を通しつつ）予測の評価を行うことが出来る。
1. 重みを変数とした損失関数について勾配を算出する。
1. 算出した勾配をもとにして、重みパラメータ更新を行う。
1. 更新された重みパラメータを使って、再度結果を予測・評価する。