# For overtraining


多層パーセプトロンは層の数やノードの数を増やすことで、どんな関数でも近似することができます。
一方で、その表現力の高さ故に__過学習__を引き起こします。

$y=sin(x)$にノイズがのったデータを多層パーセプトロンで近似することを考えましょう。
まずは中間層が1層で、中間層のノード数が4の多層パーセプトロンでデータ点をフィットします。

In [None]:
#ライブラリのインポート
from keras.models import Sequential
from keras.layers import Dense
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline


In [None]:
np.random.seed(0)

nSample = 50

# x=(-pi, pi), t=sin(x)
x = np.linspace(-np.pi, np.pi, nSample)
t0 = np.sin(x)
t = t0 + 0.1 * np.random.randn(nSample)

# モデルの定義
model = Sequential()
model.add(Dense(4, activation='sigmoid', input_dim=1))  # ノード数が4の層を追加。活性化関数はシグモイド関数。
model.add(Dense(1, activation='linear'))  # ノード数が1の層を追加。活性化関数は線形関数。

model.compile(loss='mean_squared_error', optimizer='adam')

#  トレーニング
model.fit(x, t, batch_size=len(x), epochs=10000, verbose=0)

# プロット
plt.scatter(x, t, s=10, c='black', label='data')  # データ点のプロット
y = model.predict(x)
plt.plot(x, y, c='red', label='prediction')
plt.plot(x, t0, c='blue', label='y=sin(x)')
plt.legend()
plt.show()


ノイズの影響で理想の線からはずれていますが、おおよそ元の関数$y=sin(x)$が表現されています。
次に中間層が3層、中間層のノード数が40個の大きなモデルを使って同じことをしてみます。

In [None]:
np.random.seed(0)

nSample = 50

# x=(-pi, pi), t=sin(x)
x = np.linspace(-np.pi, np.pi, nSample)
t0 = np.sin(x)
t = t0 + 0.1 * np.random.randn(nSample)

# モデルの定義
model = Sequential()
model.add(Dense(40, activation='sigmoid', input_dim=1))  # ノード数が40の層を追加。活性化関数はシグモイド関数。
model.add(Dense(40, activation='sigmoid'))  # ノード数が40の層を追加。活性化関数はシグモイド関数。
model.add(Dense(40, activation='sigmoid'))  # ノード数が40の層を追加。活性化関数はシグモイド関数。
model.add(Dense(1, activation='linear'))  # ノード数が1の層を追加。活性化関数は線形関数。

model.compile(loss='mean_squared_error', optimizer='adam')

#  トレーニング
model.fit(x, t, batch_size=len(x), epochs=10000, verbose=0)

# プロット
plt.scatter(x, t, s=10, c='black', label='data')  # データ点のプロット
y = model.predict(x)
plt.plot(x, y, c='red', label='prediction')
plt.plot(x, t0, c='blue', label='y=sin(x)')
plt.legend()
plt.show()


よりデータ点をよく表現するフィットになっていますが、元の関数からはより大きくずれてしまいました。
このように深い多層パーセプトロンを用いると、その表現力ゆえにノイズを拾ってしまい本来目的とする表現とはかけはなれたものになってしまうことがあります。

過学習を抑制する手法としてどのようなものがあるのかを調べて上の例に適用してみてください。

一例として
- Early stopping
- 正則化(Regularization)
- Dropout

などがあります。