# ゼロから作るDeep Learning

## 4章 ニューラルネットワークの学習

### 4.2 損失関数(loss function)

#### 4.2.1 二乗和誤差

$$
E = \frac{1}{2} \sum_k(y_k-t_k)^2
$$

ここで $ y_k $ はニューラルネットワークの出力、$ t_k $は教師データ、$ k $はデータの次元数を表す

In [1]:
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [2]:
import numpy as np

def mean_squared_error(y, t):
    return 0.5 * np.sum((y-t)**2)

In [3]:
# 「２」を正解とする
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [4]:
# 例１：「２」の確率が最も高い場合（０．６）
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
mean_squared_error(np.array(y), np.array(t))


0.09750000000000003

In [5]:
# 例２：「７」の確率が最も高い場合（０．６）
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
mean_squared_error(np.array(y), np.array(t))


0.5975

例2のほうが例1より高い＝＞例１の損失関数のほうが小さい→例１のほうが結果が教師に適合している

#### 4.2.2 交差エントロピー誤差

$$
E = -\sum_k{t_k\log{y_k}}
$$

ここで $ \log $ 自然対数 $ \log_e $

In [6]:
import numpy as np
def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))

In [7]:
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [8]:
# 「２」を正解とする
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [9]:
# 例１：「２」の確率が最も高い場合（０．６）
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))


0.510825457099338

In [10]:
# 例２：「７」の確率が最も高い場合（０．６）
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))


2.302584092994546

##### 4.2.3 ミニバッチ学習

- 訓練データを学習する＝訓練データに対する損失関数を求め、その値をできるだけ小さくするようなパラメータを探し出すこと
- そのため、損失関数は、すべての訓練データを対象として求める必要がある。
- 今まではひとつの訓練データの損失関数を考えていた。
  - 交差エントロピーならこれ

$$
E = -\sum_k{t_k\log{y_k}}
$$



- 訓練データすべての損失関数の和を求めたいとすると
  - 交差エントロピーならこれ

$$
E = -\frac{1}{N}\sum_n\sum_k{t_{nk}\log{y_{nk}}}
$$

- "$ \frac{1}{N} $"の意味は？
  - 正規化が目的
  - １個あたりの「平均の損失関数」を求めることになる
  - 平均化すれば、訓練データの数に関係なく、いつでも統一した指標が得られる。
  
- 復習：正規化とは？
  - データをある決まった範囲に変換する処理を「正規化」(normalization)と言う
    - P.77 3.6 手書き数字認識 参照


- ミニバッチ学習とは
  - たとえば、60,000枚の訓練データの中から100枚を無作為に選び出して、その100枚を使って学習を行う。
  - このような学習手法をミニバッチ学習と言う。

In [3]:

%cd ../deep-learning-from-scratch/ch04

[Errno 2] No such file or directory: '../deep-learning-from-scratch/ch04'
/mnt/wd500/gotowork/workspace/study-dl-from-scratch/deep-learning-from-scratch/ch03


In [4]:
import sys,os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = \
    load_mnist(normalize=True, one_hot_label=True)

import numpy as np
# それぞれのデータの形状を出力
print(x_train.shape)
print(t_train.shape)

(60000, 784)
(60000, 10)


In [7]:
# 訓練データの中からランダムに10枚だけ抜き出す
train_size = x_train.shape[0]
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)
x_batch = x_train[batch_mask]
t_batch = x_train[batch_mask]

print(batch_mask)
print(x_batch)
print(t_batch)

[24663  4368 56242 36678 32575 39313 50768 54569  1389 31266]
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [8]:
np.random.choice(60000,10)

array([52912, 47676, 58752, 54521,   479,  2944, 29844, 41498, 10874,
       50951])

- カラスマークによれば
  - ミニバッチの損失関数は「テレビの視聴率」のようなもの

#### 4.2.4 [バッチ対応版] 交差エントロピー誤差の実装

In [9]:
import numpy as np

# 単体データでもバッチデータでも対応できるように
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    batch_size = y.shape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size


In [10]:
# 「２」を正解とする
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [11]:
# 例１：「２」の確率が最も高い場合（０．６）
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))

# この結果はミニバッチでないときと同じ

0.510825457099338

In [15]:
# 教師データtがone-hot表現でなくラベルとして与えられた時の交差エントロピー誤差
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size


In [None]:
# 「２」を正解とする
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [None]:
# 例１：「２」の確率が最も高い場合（０．６）
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))

# この結果は、正解をラベルでなくone-hotで与えているので、当然、間違い。

23.718987110506905

In [22]:
# 「２」を正解とするのを、ラベルで表現する(のを、試してみた。)
t = [2]

# 例１：「２」の確率が最も高い場合（０．６）
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))



0.510825457099338

In [23]:
# この結果は、合っている!!
# なぜだ ｔとyの次元数があってなくても良いのか(あってなくても良いように作ってあるということか?)

- こう書いてある
  * 実装のポイントは、one-hot表現でtが0の要素は、交差エントロピー誤差も0であるから、その計算は無視しても良いということです。
  * 言い換えれば、正解ラベルに対してニューラルネットワークの出力を得ることができれば、交差エントロピー誤差を計算することができるのです。

- ひとつずつ、確認する。


1. one-hot表現でtが0の要素
 - one-hot表現とは
  - 正解ラベルを１として、それ以外は０で表す表記法
2. 「正解ラベルを１として、それ以外は０で表すという表記」で、tが０の要素
3. すなわち「不正解の要素」ということだ。

つまり

「実装のポイントは、one-hot表現でtが0の要素は、交差エントロピー誤差も0であるから、その計算は無視しても良いということです。」


ここで言いたいことは、こういうことではないだろうか。

- 実装のポイントは、不正解の要素は、誤差もゼロであるから、無視して良いということ。

- 不正解とわかった時点で、以降の計算もしなくていいはずだ、ということ。


言い換えれば

- 正解ラベルに対してニューラルネットワークの出力を得ることができる  
  - = 誤差があることがわかる
    - = 誤差を計算する必要がある

本書ではこういう言い方はしてないようだが、自分はこのように理解した。


In [24]:
# np.log(y[np.arange(batch_size),t])の説明

In [25]:
# np.arange(batch_size) => 0からbatch_size-1までの配列を生成する
np.arange(5)

array([0, 1, 2, 3, 4])

In [26]:
t = [2, 7, 0, 9, 4]  # ラベルが格納されている
# batch_size=5なら
# y[np.arange(batch_size,t)] は [y[0,2], y[1,7], y[2,0], y[3,9], y[4,4]]のNumpy配列を返す。
# np.log(y[np.arange(batch_size),t])
# = np.log(  [ y[0,2],y[1,7],y[2,0]... ]  )

In [46]:
print("y",y)
yy = np.array(y)
print("yy", yy,yy.shape, yy.ndim)
yyy = yy.reshape(1, yy.size)
batch_size = yyy.shape[0]
print("yyy", yyy, batch_size)
print(np.arange(batch_size))
#yyy[np.arange(batch_size),t]
print(yyy[[0],t])
yyy[[0]]

y [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
yy [0.1  0.05 0.6  0.   0.05 0.1  0.   0.1  0.   0.  ] (10,) 1
yyy [[0.1  0.05 0.6  0.   0.05 0.1  0.   0.1  0.   0.  ]] 1
[0]
[0.6  0.1  0.1  0.   0.05]


array([[0.1 , 0.05, 0.6 , 0.  , 0.05, 0.1 , 0.  , 0.1 , 0.  , 0.  ]])

numpyに、arrangeを使って、配列を生成させる、というところが

「ミニバッチ」ということなのだろう。