In [3]:
import numpy as np

X = np.array([1.0, 0.5])
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
B1 = np.array([0.1, 0.2, 0.3])

print(W1.shape)
print(X.shape)
print(B1.shape)

(2, 3)
(2,)
(3,)


In [4]:
A1 = np.dot(X, W1) + B1
A1

array([ 0.3,  0.7,  1.1])

In [6]:
def sigmoid(x):
    return 1 / ( 1 + np.exp(-x))

Z1 = sigmoid(A1)
Z1

array([ 0.57444252,  0.66818777,  0.75026011])

In [7]:
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

print(Z1.shape)
print(W2.shape)
print(B2.shape)

(3,)
(3, 2)
(2,)


In [8]:
A2 = np.dot(Z1, W2) + B2
Z2 = sigmoid(A2)

print(A2)
print(Z2)

[ 0.51615984  1.21402696]
[ 0.62624937  0.7710107 ]


In [9]:
def identity_function(x):
    return x

In [10]:
W3 = np.array([[0.1, 0.3], [0.2, 0.4]])
B3 = np.array([0.1, 0.2])

A3 = np.dot(Z2, W3) + B3
Y = identity_function(A3)

print(Y)

[ 0.31682708  0.69627909]


In [4]:
import numpy as np

def sigmoid(x):
    return 1 / ( 1 + np.exp(-x))

def identity_function(x):
    return x

def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    
    return network

def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)
    
    return y

network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
y

array([ 0.31682708,  0.69627909])

## 出力層の設計

機械学習の問題は、分類問題と回帰問題に大別できる。
- 分類問題
  - データがどのクラスに属するか　画像に写っている人の性別を分類する
- 回帰問題
  - 入力データから（連続的な）数値の予測を行う　画像に写っている人の体重を予測する

ニューラルネットワークはどのどちらにも用いることができる。
出力層の活性化関数に用いる関数が変わる。回帰問題では恒等関数、分類問題ではソフトマックス関数を使う。

恒等関数は与えられた入力をそのまま出力する。

ソフトマックス関数は次の数式で表される。

$$y_k = \cfrac{exp(a_k)}{\sum_{i=1}^{n} exp(a_i)}$$

In [5]:
a = np.array([0.3, 2.9, 4.0])
a

array([ 0.3,  2.9,  4. ])

In [6]:
exp_a = np.exp(a)
exp_a

array([  1.34985881,  18.17414537,  54.59815003])

In [7]:
sum_exp_a = np.sum(exp_a)
sum_exp_a

74.122154210163302

In [8]:
y = exp_a / sum_exp_a
y

array([ 0.01821127,  0.24519181,  0.73659691])

In [9]:
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

In [10]:
# np.exp(1000)などはオーバーフローしてしまいnanになる。
# そのため入力信号の最大値を引く。
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

In [12]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
y

array([ 0.01821127,  0.24519181,  0.73659691])

In [13]:
np.sum(y)

1.0

ソフトマックス関数の出力の総和は1になる。このためソフトマックス関数の出力を確率として解釈できる。
分類問題に用いた際に、出力を見て73%の確率で `y[2]` が正しいと言える。

ソフトマックス関数を適用しなくても出力の大小関係は変わらず、ソフトマックス関数の指数計算はそれなりの計算コストがあるため出力層のソフトマックス関数は省略されるのが一般的となる。
（機械学習は学習と推論の2つのフェーズに分けられ、推論フェーズでは出力層のソフトマックス関数は省略されるのが一般的）

### 出力層のニューロンの数

出力層のニューロンの数はクラス分類問題では分類したいクラスの数に設定する。