# ニューラルネットワークの学習

データ駆動
---
- ニューラルネットワークはデータが全てデータからパターンを探す
- 特徴量とは、入力データから本質的なデータを的確に抽出できるように設計された変換器を指す
    - 従来の機械学習の多くは、特徴量に何を使用するかは人の手で行っている
- ニューラルネットワークでは特徴量の抽出も機械が学習する

損失関数(loss function)
---
- 性能の悪さを示す指標
- 現在のニューラルネットワークは教師データに対してどれだけ適合していないかを指す

[2乗和誤差(mean squared error)]
---
- 最も有名な損失関数
- 2つの　数字の誤差を2乗して和を出す

$\displaystyle
E = \frac{1}{2}\sum_k(yk - tk)^{2}
$

In [5]:
import numpy as np
def mean_squared_error(y, t):
    return 0.5 * np.sum((y - t) ** 2)

In [6]:
# 例: 0~9までの数字を分類するモデルの出力と教師データ
# 出力(2の確率が0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
# 正解ラベル(2を正解とする)
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
mean_squared_error(np.array(y), np.array(t))

0.09750000000000003

In [7]:
# 正解ラベル(7を正解とする)
y2 = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
# 正解ラベル(2を正解とする)
t2 = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
mean_squared_error(np.array(y2), np.array(t2))

0.5975

[交差エントロピー誤差]
---

$\displaystyle
E = -\sum_{k}t_k\log y_{k}
$

- tが正解ラベル、yが出力
- t log y の合計なのでyがon-hot表現であれば、正解ラベルだけが計算される
