### ニューラルネットワークに対する勾配

ニューラルネットワークに対する勾配について、その勾配とは「重みパラメータに関する損失関数の勾配」である。損失関数を${L}$として、重みパラメータ${\bm{W}}$の
$${
  \bm{W}
  =
  \begin{pmatrix}
    w_{11} & w_{12} & w_{13} \\
    w_{21} & w_{22} & w_{23}
  \end{pmatrix}
}$$
$${
  \frac{\partial L}{\partial \bm{W}}
  =
  \begin{pmatrix}
    \frac{\partial L}{\partial w_{11}} & \frac{\partial L}{\partial w_{12}} & \frac{\partial L}{\partial w_{13}} \\
    \frac{\partial L}{\partial w_{21}} & \frac{\partial L}{\partial w_{22}} & \frac{\partial L}{\partial w_{32}}
  \end{pmatrix}
}$$

重みパラメータの添え字については、一貫して「ある層${l}$から次の層${l+1}$へとネットワークを繋ぐとき、層${l}$のノード数${a}$、層${l+1}$のノード数${b}$として、その重みパラメータは${\bm{W} = \{w\}_{ba}}$である。

In [1]:
# ニューラルネットワークに対する勾配の実装
# まずは`simpleNet`クラスを実装

import sys, os
sys.path.append(os.pardir)
import numpy as np
from common.function import softmax, cross_entropy_error
from common.gradient import numerical_gradient

class simpleNet:# simpleNetクラスの実装
    def __init__(self):
        self.W = np.random.randn(2, 3) # ガウス分布で初期化した重みパラメータのコンストラクタ

    def predict(self, x):
        return np.dot(x, self.W)
    
    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)

        return loss

In [2]:
net = simpleNet()   # インスタンス化
print(net.W)

[[ 0.92789225 -0.55744582  1.09321097]
 [-0.71831179 -0.5517942  -1.76559394]]


In [3]:
x = np.array([0.6, 0.9])
p = net.predict(x)
print(p)

[-0.08974526 -0.83108227 -0.93310797]


In [4]:
np.argmax(p)    # 最大値のインデックス

0

In [5]:
t = np.array([0, 0, 1]) # 正解ラベル
net.loss(x, t)

1.4887560245527176

In [None]:
f = lambda w: net.loss(x, t)
dW = numerical_gradient(f, net.W)   # 損失関数を`f`として定義してあり、それの勾配を求めた。

In [7]:
print(dW)

[[ 0.31467345  0.14993449 -0.46460794]
 [ 0.47201018  0.22490173 -0.69691191]]
