# ニューラルネットワークの学習

## 1.1 データから学習する

* ニューラルネットワークの特徴は「プログラムがデータから自動的に学習する」ということ。  
具体的には「プログラムはデータから重みパラメータの値を自動的に更新」して学習を実行する。

## 1.2 損失関数

### 1.2.1 プログラムは何を指標として、重みパラメータを更新しているのか?

ニューラルネットワークの学習は「損失関数」を指標として、損失関数の値が小さくなるように重みパラメータを更新する。

### 1.2.2 二乗和誤差

損失関数として、最も有名

$$
{ \displaystyle
E = \frac{1}{2} \sum_k {(y_k-t_k)}^2}
\tag{4.1} \label{4.1}
$$

* ykはニューラルネットワークの出力、tkは教師データを表し、kはデータの次元数を表す。   
* ニューラルネットワークの出力と正解となる教師データの各要素の差の2乗の総和が2乗和誤差。   
* 出力結果の教師データの誤差が小さい場合，より小さい値を出力する。

In [5]:
import numpy as np

"""
二乗和誤差を実装
"""
def mean_squared_error(y, t):
    return 0.5*np.sum((y-t)**2)

In [6]:
# 正解を2とする
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

# パターン1：「2」の割合が最も高い場合
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

mean_squared_error(np.array(y), np.array(t))

0.09750000000000003

In [7]:
# パターン2：「7」の割合が最も高い場合
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]

mean_squared_error(np.array(y), np.array(t))

0.5975

パターン1の方がパターン2よりも二乗和誤差関数を実装した結果が小さい。  
つまり、パターン1の方が出力結果が教師データにより適合していることを二乗和誤差関数が示している。

### 1.2.3 交差エントロピー誤差

$$
{ \displaystyle
E = - \sum_k t_k \log y_k}
\tag{4.2} \label{4.2}
$$

tkは2乗和誤差と同様教師データであり、one-hot表現であるため、   
(4.2)は実質的には正解ラベルが1に対応する出力の自然対数を計算するだけになっている。   
ここで、自然対数のグラフは次のようになっている。   

In [9]:
"""
交差エントロピー誤差を実装
"""
def cross_entropy_error(y, t):
     delta = 1e-7    #np.log(0)防止
     return -np.sum(t * np.log(y + delta))

In [10]:
# 正解を2とする
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

# パターン1：「2」の割合が最も高い場合
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

cross_entropy_error(np.array(y), np.array(t))

0.510825457099338

In [11]:
# パターン2：「7」の割合が最も高い場合
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]

cross_entropy_error(np.array(y), np.array(t))

2.302584092994546

正解ラベルに対応する出力の値が大きいほど、交差エントロピー誤差は0に近づいている。

## 1.3 数値微分

## 1.4 勾配

## 1.5 学習アルゴリズムの実装

## 1.6 まとめ

* 機械学習で使用するデータセットは訓練データとテキストデータに分けて使用する。    

* 訓練データで学習を行い、学習したモデルの汎化能力をテストデータで評価する。    

* ニューラルネットワークの学習は損失関数を指標として、損失関数の値が小さくなるように重みパラメータを更新する。  

* 重みパラメータを更新する際には、重みパラメータの勾配を利用して、勾配方向に重みの値を更新する作業を繰り返す。  

* 微小な値を与えたときの差分によって微分を求めることを数値微分という。  

* 数値微分によって、重みパラメータの勾配を求めることが出来る。  

* 数値微分による計算には時間がかかるが、その実装は簡単である。   
  一方、次章で実装するやや複雑な誤差逆伝播法は、高速に勾配を求めることが出来る。