In [1]:
import numpy as np

def soft_max(x):
    y = np.exp(x) #e^x配列
    #print(y) #確認用
    
    sum_y = np.sum(y) ##配列の和
    #print(sum_y) #確認用
    
    r = y/sum_y #出力
    #print(r) #確認用
    return(r)

a = np.array([[1, 9], [1, 3]])
#soft_max()実行
print(soft_max(a))
#soft_max(a)の和を計算
print(np.sum(soft_max(a)))


[[3.34409346e-04 9.96860212e-01]
 [3.34409346e-04 2.47096942e-03]]
0.9999999999999998


softmax()関数を実装した。
定義に従って計算させた。
np.sum()は配列全要素の和を返し、sum()は配列の列ごとの和を配列で返す。
soft_max()の和は1になると考えられるので、和を計算させた。
ほとんど1になっていることが確認できた。
参考文献1には、まず入力配列の要素の最大値を計算し、各要素とその最大値の差を使って計算することでオーバーフローが防げるとある。この手法を用いてsoft_max2()関数を実装した。

In [2]:
def soft_max2(x):
    m = np.max(x)
    #print(m) #確認用
    
    y = np.exp(x-m) #e^x配列
    #print(y) #確認用
    
    sum_y = np.sum(y) ##配列の和
    #print(sum_y) #確認用
    
    r = y/sum_y #出力
    #print(r) #確認用
    return(r)

a = np.array([[1, 9], [1, 3]])
#soft_max2()実行
print(soft_max2(a))
#soft_max2(a)の和を計算
print(np.sum(soft_max2(a)))

print((soft_max(a)+soft_max2(a))/2)
print(np.sum((soft_max(a)+soft_max2(a))/2))

[[3.34409346e-04 9.96860212e-01]
 [3.34409346e-04 2.47096942e-03]]
1.0000000000000002
[[3.34409346e-04 9.96860212e-01]
 [3.34409346e-04 2.47096942e-03]]
0.9999999999999999


和を計算すると、1よりわずかに上回った。soft_max()に比べ、x軸の向きが反転しているからと考えられる。soft_max()とsoft_max2()の平均をとると誤差が小さくなった。しかし、実行速度が落ちるので意味はないと思われる。

また考察として、入力配列で単純に比を取ると
1/14,9/14,1/14,3/14であり、桁数に大きな差はでないがsoft_max()で行うと桁数に差が大きく生じるほど比に差が出ることが確認できた。

In [3]:
import numpy as np

def sigmoid(x):
    return(1/(1+np.exp(-x)))

a = np.array([[1,9],[1,3]])
print(sigmoid(a))

[[0.73105858 0.99987661]
 [0.73105858 0.95257413]]


sigmoid()関数を用いると、soft_max()の時と違って値同士の桁数にあまり差が出ないことが分かった。三層にして利用する場合、soft_max()関数を利用した場合、出力値間で非常に大きな差が生じてしまうと考えられる。

In [4]:
import numpy as np

#恒等関数
def identity_function(x):
    return x

def init_network():
    network={}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([[0.1, 0.2, 0.3]])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([[0.1, 0.2]])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([[0.1, 0.2]])
    return network
def forward(network, x):
    # layer 1
    W1=network['W1']
    b1=network['b1']
    a1=np.dot(x,W1)+b1
    z1=sigmoid(a1)
    # layer2 
    W2=network['W2']
    b2=network['b2']
    a2=np.dot(z1,W2)+b2
    z2=sigmoid(a2)
    # layer3
    W3=network['W3']
    b3=network['b3']
    a3=np.dot(z2,W3)+b3
    y=sigmoid(a3) #[[0.57855079 0.66736228]]
    #y=identity_function(a3) #[[0.57855079 0.66736228]]
    return y

network = init_network()
x=np.array([1.0,0.5])
y=forward(network,x)
print(y) #[0.31682708 0.69627909]

[[0.57855079 0.66736228]]


In [5]:
import numpy as np
import random  
network = init_network()
batch_size = 16
x=np.random.rand(1000,2)
for i in range(0,len(x),batch_size):
    x_batch = x[i:i+batch_size]
    y_batch = forward(network,x_batch)

In [6]:
x.shape

(1000, 2)

In [7]:
x_batch.shape

(8, 2)

サイズが小さくなっているのが分かった。1000/16だと余りがでるので、8になったのだと考えられる。

感想
活性化関数の働きについて少し理解することができた。また、ニューラルネットワークが辞書型で作成されていて、今まであまり辞書型を扱ったことがなかったので、こういうところで辞書が活躍するのかと感じた。
バッチ処理についてまだ理解が甘いので、もっと勉強したいです。

参考文献
1.https://omedstu.jimdofree.com/2018/08/15/numpy%E3%81%A7softargmax%E3%82%92%E5%AE%9F%E8%A3%85%E3%81%97%E3%81%A6%E3%81%BF%E3%81%9F/
2.http://yusuke-ujitoko.hatenablog.com/entry/2016/12/25/232555