02 損失関数
==========

* ニューラルネットワークでは、ある「ひとつの指標」によって現在の状態を表す

    * そして、その指標を基準として、最適な重みパラメータの探索を行う
    
    * ニューラルネットワークの学習で用いられる指標は、`損失関数`と呼ばれる
    
* この`損失関数`は、任意の関数を用いることができるが、一般には`2乗和誤差`や`交差エントロピー誤差`などが用いられる

> `損失関数`：ニューラルネットワークの性能の"悪さ"を表す指標
>
> 現在のニューラルネットワークが教師データに対してどれだけ適合していないか、教師データに対してどれだけ一致していないかということを表す

## 1. 2乗和誤差

* `2乗和誤差`：損失関数の中でも最も有名

    * 以下の数式で表される
    
    * $y_k$：ニューラルネットワークの出力
    
    * $t_k$：教師データ
    
    * $k$：データの次元数
    
\begin{eqnarray}
E = \frac{1}{2}\sum_{k} (y_k-t_k)^2 
\end{eqnarray}

* 手書き数字の例では、$y_k$、$t_k$は次のような10個の要素からなるデータ

In [1]:
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

* この配列の要素は、最初のインデックスから順に、数字の「0」、「1」、「2」...に対応する

* ここでニューラルネットワークの出力である`y`は、`ソフトマックス関数`の出力
    
    * `ソフトマックス関数`の出力は確率として解釈できるので、上の例では「0」の確率は0.1、「1」の確率は0.05、「2」の確率は0.6となる
    
* 一方、`t`は教師データ

    * 正解となるラベルと`1`、それ以外を`0`とする
    
    * ここではラベルの「2」が`1`なので、正解は「2」であることを表している
    
* 正解ラベルを`1`として、それ以外は`0`で表す表記法を、`One-Hot表現`と呼ぶ

* 2乗和誤差は、ニューラルネットワークの出力となる教師データの各要素の差の2乗を計算し、その総和を求める

In [2]:
def mean_squared_error(y, t):
    return 0.5 * np.sum((y - t)**2)

* ここで、引数の`y`と`t`は、NumPyの配列とする

    * 実際に計算を行なってみる

In [3]:
# 「2」を正解とする
t =  [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [4]:
import numpy as np

# 例1：「2」の確率が最も高い場合(0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
mean_squared_error(np.array(y), np.array(t))

0.09750000000000003

In [5]:
# 例2：「7」の確率が最も高い場合(0.6)
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
mean_squared_error(np.array(y), np.array(t))

0.5975

* 1つ目は、正解を「2」として、ニューラルネットワークの出力が「2」で最も高い場合

* 2つ目は、正解は「2」だが、ニューラルネットワークの出力は「7」で最も高くなっている

* この結果では、1つ目の例の損失関数の方が小さくなっており、教師データとの誤差が小さいことがわかる

    * つまり、1つ目の例の方が、出力結果が教師データより適合していることを2乗和誤差は示している

## 2. 交差エントロピー誤差

* `交差エントロピー誤差`：`2乗和誤差`とは別の損失関数

    * $y_k$：ニューラルネットワークの出力
    
    * $t_k$：正解ラベル(正解ラベルとなるインデックスだけが`1`で、それ以外は`0`)
    
\begin{eqnarray}
E = -\sum_{k} t_k \log y_k
\end{eqnarray}

* 実質的には正解ラベルが`1`に対応する出力の自然対数を計算するだけになる

    * 正解ラベルとなる出力の結果によって、その値が決まる
    
    * 正解ラベルに対応する出力が大きければ大きいほど`0`に近づく
    
    * 出力が`1`のとき交差エントロピー誤差は`0`になる
    
    * 正解ラベルに対応する出力が小さければ、値は大きくなる

* 実際に、交差エントロピー誤差を実装する

    * 引数の`y`と`t`は、NumPyの配列とする

In [6]:
def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))

In [7]:
t =  [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

In [8]:
cross_entropy_error(np.array(y), np.array(t))

0.510825457099338

In [9]:
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))

2.302584092994546

* 1つ目の例では、正解となるラベルの出力0.6の場合で、交差エントロピー誤差はおよそ`0.51`

* その次は、正解となるラベルの出力が0.1と低い場合の例だが、この時の交差エントロピー誤差は`2.3`

    * これまでの議論と一致していることがわかる

## 3. ミニバッチ学習

* 機械学習の問題は、訓練データを使って学習を行う

    * 訓練データに対する`損失関数`を求め、その値をできるだけ小さくするようなパラメータを探し出す
    
    * そのため、`損失関数`は、全ての訓練データを対象として求める必要がある
    
    * つまり、訓練データが100個あれば、その100個の損失関数の和を指標とする

* 先ほどの損失関数の例は、一つのデータの損失関数を考えていた

    * 訓練データの全ての損失関数の和を求めたいとする(交差エントロピー誤差の場合)

\begin{eqnarray}
E = - \frac{1}{N} \sum_{n} \sum_{k} t_{nk} \log y_{nk}
\end{eqnarray}

* ここで、データが$N$個あるとして、$t_{nk}$は$n$個目のデータの$k$番目の値を意味する

    * $y_{nk}$：ニューラルネットワークの出力
    
    * $t_{nk}$：教師データ
    
* 一つのデータに対する損失関数を、単に$N$個分のデータに拡張して、最後に$N$で割って正規化する

* ここで、MNISTのデータセットは訓練データが60,000個あった

    * そのため、全てのデータを対象にして損失関数の和を求めるには少々時間がかかる
    
* そこで、データの中の一部を選び出し、その一部のデータを全体の「近似」として利用する

    * これを`ミニバッチ`と呼び、ミニバッチごとに学習を行う
    
    * 60,000枚の訓練データの中から、100枚を無作為に選び出して、その100枚を使って学習を行う(`ミニバッチ学習`)

* `ミニバッチ学習`のために、訓練データの中から指定された個数のデータをランダムに選び出すコードを書いてみる

    * それに先立ち、MNISTデータセットを読み込むためのコードを記述する

In [10]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

In [11]:
print(x_train.shape)

(60000, 784)


In [12]:
print(t_train.shape)

(60000, 10)


* この訓練データの中からランダムに10枚だけ抜き出すには、NumPyの`np.random.choice()`を使って、次のように書くことができる

    * `np.random.choice(60000, 10)`：0から60000未満の数字の中からランダムに10個の数字を選び出す

In [14]:
train_size = x_train.shape[0]
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)
x_batch = x_train[batch_mask]
t_batch = t_train[batch_mask]

* 実際のコードで示すと、ミニバッチとして選び出すインデックスを配列として取得できる

In [15]:
np.random.choice(60000, 10)

array([15155, 28764, 37764, 59840, 52865, 43911, 56091,  9382, 36223,
       40288])

* このランダムに選ばれたインデックスを指定して、ミニバッチを取り出し、`損失関数`を計算する

## 4. [バッチ対応版] 交差エントロピー誤差の実装

* 先ほど実装した`交差エントロピー誤差`を改良することで、バッチデータに対応したものが実装できる

    * ここでは、データが一つの場合と、データがバッチとしてまとめられて入力される場合の両方のケースに対応するように実装する

In [16]:
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    batch_size = y.shape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size

* ここで、$y$はニューラルネットワークの出力、$t$は教師データとする

    * $y$の次元数が1の場合(データ一つあたりの交差エントロピー誤差を求める場合)は、データの形状を整形する
    
    * そして、バッチの枚数で正規化し、1枚あたりの平均の交差エントロピー誤差を計算する

* また、教師データがラベルとして与えられたとき(「2」、「7」と与えられる)、交差エントロピー誤差は次のように実装することができる

In [17]:
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

* 実装のポイントは、One-Hot表現で`t`が`0`の要素は、交差エントロピーも`0`であるから、その計算も無視して良いということ

    * 解ラベルに対して、ニューラルネットワークの出力を得ることができれば、交差エントロピー誤差を計算することができる
    
    * そのため、`t`がOne-Hotラベルの時は`t * np.log(y)`で計算していたところは、`t`がラベル表現の場合は`np.log(y[np.arange(batch_size), t])`とする

* `np.arrange(batch_size)`は`0`から`batch_size - 1`までの配列を生成する

    * `batch_size`が`5`としたら、`np.arange(batch_size)`は`[0, 1, 2, 3, 4]`のNumPy配列を生成する
    
    * `t`にはラベルが`[2, 7, 0, 9, 4]`のように格納されているので、`y[np.arange(batch_size), t]`は、各データの正解ラベルに対応するNNの出力を抽出
    
        * この例では、`[y[0,2], y[1,7], y[2,0], y[3,9], y[4,4]]`のNumPy配列を生成する

## 5. なぜ損失関数を設定するのか？

* ニューラルネットワークの学習における「微分」の役割に注目すると、損失関数の導入の理由がわかる

    * NNの学習では、最適なパラメータ(重みとバイアス)を探索する際に、損失関数の値ができるだけ小さくなるようなパラメータを探す
    
    * ここで、できるだけ小さな損失関数の場所を探すために、バラメータの微分(勾配)を計算し、その微分の値を手がかりにパラメータの値を徐々に更新する

* ここに仮想上のニューラルネットワークがあったとして、そのニューラルネットワークのある一つの重みパラメータに注目するとする

    * この時、その一つの重みパラメータの損失関数に対する微分は、「その重みパラメータの値を少しだけ変化させた時に、損失関数がどのように変化するか」
    
    * もし微分の値がマイナスとなれば、その重みパラメータを正の方向へ変化させることで、損失関数を減少させることができる
    
    * もし微分の値がプラスとなれば、その重みパラメータを負の方向へ変化させることで、損失関数を減少させることができる
    
    * しかし、微分の値が`0`になると、重みパラメータをどちらに動かしても、損失関数の値が変わらないため、その重みパラメータの更新はストップする

* 認識精度を指標にしてはいけない理由は、微分がほとんどの場所で0になってしまい、パラメータの更新ができなくなってしまうため

> ニューラルネットワークの学習の際に、認識精度を"指標"にしてはいけない。
>
> その理由は、認識精度を指標にすると、パラメータの微分がほとんどの場所で0になってしまうため

* 具体例として、あるNNが現在100枚ある訓練データの中で32枚を正しく認識できているとする(認識精度32%)

    * 認識精度を指標とすると、重みパラメータの値を少し変えた場合でも変化が現れない
    
    * 損失関数を指標とした場合、パラメータの値を変化させると、それに反応して損失関数も連続的に変化する

* 認識精度はパラメータの微小な変化にはほとんど変化を示さず、もし変化があってもその値は不連続にいきなり変化する

    * これは活性化関数のステップ関数にも当てはまる
    
    * シグモイド関数ならば、微分はどの場所でも0にはならないので、NNは正しい学習が行える

| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/05/05 |