>**ニューラルネットワーク**は先ほどのパーセプトロンの重みづけをどのように行えばいいかをいわば自動化するためにあるといえる。
この章ではニューラルネットワークをどのように作るかを見ていく。

さて、ニューラルネットワークは入力層、中間層、出力層の層からなる。  
ニューロンのつながり方はパーセプトロンと何ら変わりなくここでは一度パーセプトロンを例に出して考えてみる。

もともとの関数系を思い出す。
>$y=0 \ (b+w_1x_1+w_2x_2\leq 0)$  
>$y=1 \ (b+w_1x_1+w_2x_2> 0)$ 
 
のように入力と重みとバイアスの線形結合で入力の値を決めていた。
明示的にバイアスも1という入力に対してのbの重みづけされたものという視点を持てばよりネットワークの形は明瞭になる。  
>$y=0 \ (b\cdot 1 +w_1x_1+w_2x_2\leq 0)$  
>$y=1 \ (b\cdot 1+w_1x_1+w_2x_2> 0)$  

といった具合である。ここで以下のような$h(x)$という関数を考える。  
>$h(x)=0\ (x\leq 0)$  
>$h(x)=1\ (x>0)$  

そうすると今までのものはすべて$a=b+w_1x_1+w_2x_2$として
>$y=h(a)$

と表せる。つまり$a$というノードが**活性化関数**$h()$を通して$y$というノードに変換されることになる。

以下ではstep関数の実装を行っている。ステップ関数は今扱った関数と同等の働きをする。

In [3]:
import numpy as np

x=np.array([-1,0.5,1.2])

def step_function(x):
    y=x>0
    return y.astype(int)

print(step_function(x))

[0 1 1]


活性化関数にはステップ関数だけでなくsigmoid関数などが存在する。以下に示す。

In [5]:
import numpy as np

x=np.array([-1,0.5,1.2])

def sigmoid(x):
    return 1/(1+np.exp(-x))

print(sigmoid(x))

[0.26894142 0.62245933 0.76852478]


>ステップ関数もシグモイド関数も非線形関数であるが
これは$h(x)$が線形すなわち$h(x)=ax+b$のようにかけるときには多層を重ね合わせても結局因子には定数と$x$の1乗項しか出てこないためである。
つまり操作h(h(...))は意味をなさないのである。このため非線形性を求められる。

さてここで3層のニューラルネットワークを実装してみる。
ここで添え字の確認をしておく、$n$層目の$m$個目のニューロンを$a^{(n)}_m$と書く、
また第$n$層目の重みのうち前層$m$番目から次の層$l$番目につなぐものを$w_{lm}^{(n)}$と書く。

これは例えば$a^{(1)}_1=w_{11}^{(1)}x_1+w_{12}^{(1)}x_2+b^{(1)}_1$  
といった風に書ける。行列表示すれば(あえて太字で書くと)  
$\bm{A}^{(1)}=\bm{X}\bm{W}^{(1)}+\bm{B}^{(1)}$  
となる。ただし成分は$\bm{A}^{(1)}=\begin{pmatrix}
a^{(1)}_1 & a^{(1)}_2 & a^{(1)}_3
\end{pmatrix}$,
$\bm{X}=\begin{pmatrix}
x_1 & x_2
\end{pmatrix}$
$\bm{W}^{(1)}=\begin{pmatrix}
w^{(1)}_{11} & w^{(1)}_{21} & w^{(1)}_{31} \\
w^{(1)}_{12} & w^{(1)}_{22} & w^{(1)}_{32} \\
\end{pmatrix}$,
$\bm{A}^{(1)}=\begin{pmatrix}
a^{(1)}_1 & a^{(1)}_2 & a^{(1)}_3
\end{pmatrix}$  
ここで実装を行います。各数値は適当に決めます。


In [7]:
X=np.array([1.0,0.5])
W1=np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
B1=np.array([0.01,0.02,0.03])
print(W1.shape)
print(X.shape)
print(B1.shape)

A1=np.dot(X,W1)+B1
print("A1")
print(A1)

(2, 3)
(2,)
(3,)
A1
[0.21 0.52 0.83]


活性化関数としてsigmoidを導入すれば

In [11]:
X=np.array([1.0,0.5])
W1=np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
B1=np.array([0.01,0.02,0.03])
print(X.shape)
print(W1.shape)
print(B1.shape)

A1=np.dot(X,W1)+B1
print("A1=")
print(A1)


Z1=sigmoid(A1)
print("Z1=")
print(Z1)

(2,)
(2, 3)
(3,)
A1=
[0.21 0.52 0.83]
Z1=
[0.55230791 0.62714777 0.69635493]


2層目3層目も同様に行う。ただし3層目では活性化関数はただの恒等関数$\sigma$を用いてそのままの値を返していることに注意する。

In [19]:
#2nd layer
W2=np.array([[0.1,0.4],[0.2,0.5],[0.3,0.6]])
B2=np.array([0.1,0.2])

print(f"Z1 shape={Z1.shape}")
print(f"W2 shape={W2.shape}")
print(f"B2 shape={B2.shape}")

A2=np.dot(Z1,W2)+B2
Z2=sigmoid(A2)
print(f"Z2={Z2}")


#3rd layer
def identify_function(x): #sigma
    return x

W3=np.array([[0.1,0.3],[0.2,0.4]])
B3=np.array([0.1,0.2])

A3=np.dot(Z2,W3)+B3
Y=identify_function(A3)

print(f"Y={Y}")


Z1 shape=(3,)
W2 shape=(3, 2)
B2 shape=(2,)
Z2=[0.62000438 0.7599326 ]
Y=[0.31398696 0.68997435]


これで順伝播方向のニューラルネットワークの処理の手続きは完了となる。