# ニューラルネットワークの学習

NNの特徴は、データから学習できる点にある。ここで言う「学習」とは、重みパラメータの値をデータから自動で決定することを指す。機械学習の問題では、**汎化能力**を正しく評価するために訓練データとテストデータの2つに分けて学習する必要がある。（訓練データは教師データと呼ぶ場合もある。）**汎化能力**とは、まだみぬデータに対しての能力であり、この汎化能力を獲得することこそが機械学習の最終的な目標である。

## 損失関数
NNの性能の悪さを示す指標。

- 二乗和誤差
(4.1)
$$
    E = \frac{1}{2}\sum_{k}(y_k-t_k)^2
$$

In [3]:
import numpy as np

def mean_squared_error(y,t):
    return 0.5 * np.sum((y-t)**2)

→$y_k$は出力、$t_k$は教師データを表し、$k$はデータの次元数を表す。NNの出力と正解となる教師データの各要素の差の２乗を計算し、その総和を求める。

- 交差エントロピー誤差
(4.2)
$$
    E = -\sum_{k}t_klogy_k
$$

In [22]:
def cross_entropy_error(y,t):
    delta = 1e-7
    return-np.sum(t * np.log(y + delta))

→$y_k$は出力、$t_k$は正解ラベルを表す。$t_k$は正解ラベルとなるインデックスだけが1で、その他は0であるとする。そのため、式(4.2)は正解ラベルが1に対応する出力の自然対数を計算するだけになる。<br>
例えば、「2」が正解ラベルのインデックスであるとして、それに対応する出力が0.6の場合、-log0.6=0.51と計算できる。出力が0.1の場合は、-log0.1=2.30となる。式(4.2)は正解ラベルに対応する出力が大きければ大きいほど、0に近く。

→np.log(0)のような計算が発生した場合、np.log(0)はマイナスの無限大を表す-infとなり計算を進められない。その防止策として、微小な値であるdeltaを追加。

In [7]:
t = [0,0,1,0,0,0,0,0,0,0]
y= [0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]
cross_entropy_error(np.array(y),np.array(t))

0.510825457099338

## ミニバッチ学習

機械学習の問題は、訓練データが100個ある場合、その100個の損失関数の和を指標としている。そこで、訓練データ全ての損失関数の和を求めたいとすると、交差エントロピー誤差の場合<br>
(4.3)
$$
    E = -\frac{1}{N}\sum_n\sum_kt_{nk}logy_{nk}
$$

→Nはデータ数、$t_{nk}$はn個目のデータのk番目の値を意味する。(4.2)をN個分のデータに拡張した式である。最後にNで割って正規化することで1個あたりの「平均の損失関数」を求めている。そのように平均化すれば、訓練データの数に関係なくいつでも統一した指標が得られる。

また、ビッグデータともなれば、その数は数百万、数千万といったオーダーの巨大なデータになる。そこで訓練データからある個数だけを選び出し、その<u>かたまりごとに学習を行う</u>。
例えば、60000個の訓練データの中から100個を無作為に選び出して、その100個を使って学習を行う学習方法を**ミニバッチ学習**と言う。

ーなぜ損失関数を設定するのか？ー

NNの学習における「微分」の役割に注目すると解決する。<br>
最適なパラメータを探索する際に、損失関数の値が出来るだけ小さくなるようなパラメータを探す。ここで、出来るだけ小さな損失関数の場所を探すために、パラメータの微分（正確には勾配）を計算し、その微分の値を手がかりにパラメータの値を徐々に更新していく。

もし、その微分の値がマイナスとなれば、その重みパラメータを正の方向へ変化させることで、損失関数を減少させることができる。微分の値が0になると、重みパラメータをどちらに動かしても損失関数の値が変わらないため、その重みパラメータの更新はそこでストップする。

## 数値微分

(4.4)
$$
    \frac{df(x)}{dx} = \lim_{h \to 0}\frac{f(x + h) - f(x)}{h}
$$

式(4.4)を参考に、関数の微分を求める計算を実装する。

In [1]:
def numerical_diff(f,x):
    h = 1e-4
    return (f(x+h) - f(x-h)) / (2*h)

→式(4.4)をそのまま実装すると、誤差がうまれる。「真の微分」はxの位置での関数の傾きに対応するが、(4.4)では(x+h)とxの間の傾きに対応する。そのため厳密には真の微分と一致しない。誤差を減らす工夫として、中心差分近似を用いる。

→hを0に無限に近づけようとして、h=10e-50という値を用いると、<u>丸め誤差（小数の小さな範囲において数値が省略されてしまうことで、最終的な計算結果に生じる誤差）</u>が生じてしまう。$10^{-4}$程度の値を用いれば、良い結果が得られることがわかっている。

## 偏微分

複数の変数からなる関数の微分を、偏微分という。

例）$f(x_{0},x_{1})=x_{0}^{2}+x_{1}^{2},x_{0}=3,x_{1}=4$の時の$x_{0}$に対する偏微分$\frac{δf}{δx_{0}}$を求めよ。

In [2]:
def function_tmp1(x0):
    return x0*x0 + 4.0**2
numerical_diff(function_tmp1, 3.0)

6.00000000000378

## 勾配

全ての変数の偏微分をベクトルとしてまとめたものを勾配(gradient)という。

In [25]:
import numpy as np

def numerical_gradient(f,x):
    h = 1e-4
    grad = np.zeros_like(x)
    
    for idx in range(x.size):
        tmp_val = x[idx]
        #f(x+h)の計算
        x[idx] = tmp_val+h
        fxh1 = f(x)
        #f(x-h)の計算
        x[idx] = tmp_val-h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2)/(2*h)
        x[idx] = tmp_val
    return grad

→np.zeros_like(x)はxと同じ形状の配列で、その要素全てが0の配列を生成するということ。

点(3,4)での勾配を求める。

In [6]:
numerical_gradient(function_1, np.array([3.0,4.0]))

NameError: name 'function_1' is not defined

# 勾配法

学習の際に最適なパラメータ（重みやバイアス）を見つける必要がある。最適なパラメータというのは、関数が最小値をとるときのパラメータの値のこと。しかし一般的に損失関数は複雑で、どこに最小値があるか見当がつかない。そこで**勾配**をうまく利用して、関数の最小値を探す。<br>
**勾配**が示す方向は、各場所において<u>関数の値をもっとも減らす方向</u>。勾配方向へ進むことを繰り返すことで、関数の値を徐々に減らしていく。勾配法を数式で表すと、

(4.7)
$$
    x_{0} = x_{0} - η\frac{δf}{δx_{0}}, x_{1} = x_{1}-η\frac{δf}{δx_{1}}
$$

→ηは**学習率**を表す。1回の学習でどれだけパラメータを更新するか、ということを決める。なお、学習率の値は0.01や0.001など前もって何らかの値に決める必要がある。
学習率の値を変更しながら、正しく学習できているかどうか確認作業を行うのが一般的。

例）$f(x_{0},x_{1})=x_{0}^2 + x_{1}^2$の最小値を勾配法で求めよ。

In [14]:
def gradient_descent(f, x, lr, step_num):
    for i in range(step_num):
        grad = numerical_gradient(f,x)
        x -= lr * grad
    return x

def function_2(x):
    return x[0]**2 + x[1]**2
init_x = np.array([-3.0,4.0])
gradient_descent(function_2, x=init_x, lr=0.1, step_num=100)

array([-6.11110793e-10,  8.14814391e-10])

→init_xは初期値で、lrは学習率、ste_numは勾配法による繰り返しの数とする。最終的な結果は、(-6.1e-10, 8.1e-10)となり、ほとんど(0.0)に近い結果である。

学習率は、大きすぎると出力結果は発散してしまい、小さすぎるとほとんど更新されずに終わってしまう。
重みやバイアスは、訓練データと学習アルゴリズムによって<u>自動</u>で獲得されるパラメータであるのに対し、学習率は<u>手動で設定されるパラメータ</u>であるので、いろいろな値で試しながらうまく学習できるケースを探す、という作業が必要になる。

## NNに対する勾配

NNの学習においても勾配（重みパラメータに関する損失関数の勾配）を求める必要がある。

(4.8)
$$
    W =
    \left(
    \begin{matrix}
    w_{11} & w_{12} & w_{13} \\
    w_{21} & w_{22} & w_{23}
    \end{matrix}
    \right)
    \frac{δL}{δW} =
    \left(
    \begin{matrix}
    \frac{δL}{δw_{11}} & \frac{δL}{δw_{12}} & \frac{δL}{δw_{13}} \\
    \frac{δL}{δw_{21}} & \frac{δL}{δw_{22}} & \frac{δL}{δw_{23}}
    \end{matrix}
    \right)
$$

→形状が2×3の重みWだけをもつNNがあり、損失関数をLで表す場合。<br>
→1行1列目の要素である$\frac{δL}{δw_{11}}$は、$w_{11}$を少し変化させると損失関数Lがどれだけ変化するか、ということを表している。

実際に勾配を求める実装を行うために、simpleNetというクラスを実装する。

In [15]:
class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3)
    def predict(self, x):
        return np.dot(x, self.W)
    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)
        return loss

In [31]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a-c)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

→np.random.randn()：平均0、標準偏差1の正規分布に従う乱数を返す<br>
　np.dot()：Numpyで内積を計算する関数<br>

形状が2×3の重みパラメータを一つだけインスタンス変数としてもつ。predict(x)は予測するためのメソッド、loss(x, t)は損失関数を求めるためのメソッドである。<br>
ここで引数のxには入力データが、tには正解ラベルが入力されるものとする。

このsimpleNetを使ってみる。

In [32]:
net = simpleNet()
print(net.W)

[[-0.62006546 -1.59333854 -0.42197585]
 [ 0.6357717  -0.24165729  0.68248515]]


In [33]:
x = np.array([0.6, 0.9])
p = net.predict(x)
print(p)

[ 0.20015525 -1.17349468  0.36105113]


In [34]:
# 最大値のインデックス
np.argmax(p)

2

In [35]:
t = np.array([0,0,1])
net.loss(x, t)

0.7260662834310464

numerical_gradient(f, x)を使って、勾配を求める。

In [36]:
def f(W):
    return net.loss(x, t)
dW = numerical_gradient(f, net.W)
print(dW)

IndexError: index 2 is out of bounds for axis 0 with size 2