In [1]:
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
from common import functions
import matplotlib.pyplot as plt

def print_vec(text, vec):
    print("*** " + text + " ***")
    print(vec)
    #print("shape: " + str(x.shape))
    print("")


In [2]:
# ウェイトとバイアスを設定
# ネートワークを作成
def init_network():
    print("##### ネットワークの初期化 #####")

    network = {}
    network['W1'] = np.array([
        [0.1, 0.3, 0.5],
        [0.2, 0.4, 0.6]
    ])

    network['W2'] = np.array([
        [0.1, 0.4],
        [0.2, 0.5],
        [0.3, 0.6]
    ])

    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['b2'] = np.array([0.1, 0.2])
    
    print_vec("重み1", network['W1'])
    print_vec("重み2", network['W2'])
    print_vec("バイアス1", network['b1'])
    print_vec("バイアス2", network['b2'])

    return network

# 順伝播
def forward(network, x):
    print("##### 順伝播開始 #####")

    W1, W2 = network['W1'], network['W2']
    b1, b2 = network['b1'], network['b2']
    
    u1 = np.dot(x, W1) + b1
    z1 = functions.relu(u1)
    u2 = np.dot(z1, W2) + b2
    y = functions.softmax(u2)
    
    print_vec("総入力1", u1)
    print_vec("中間層出力1", z1)
    print_vec("総入力2", u2)
    print_vec("出力1", y)
    print("出力合計: " + str(np.sum(y)))

    return y, z1

# 誤差逆伝播
def backward(x, d, z1, y):
    print("\n##### 誤差逆伝播開始 #####")

    grad = {}

    W1, W2 = network['W1'], network['W2']
    b1, b2 = network['b1'], network['b2']
    #  出力層でのデルタ
    delta2 = functions.d_sigmoid_with_loss(d, y)
    #  b2の勾配
    grad['b2'] = np.sum(delta2, axis=0)
    #  W2の勾配
    grad['W2'] = np.dot(z1.T, delta2)
    #  中間層でのデルタ
    delta1 = np.dot(delta2, W2.T) * functions.d_relu(z1)
    # b1の勾配
    grad['b1'] = np.sum(delta1, axis=0)
    #  W1の勾配
    grad['W1'] = np.dot(x.T, delta1)
        
    print_vec("偏微分_dE/du2", delta2)
    print_vec("偏微分_dE/du2", delta1)

    print_vec("偏微分_重み1", grad["W1"])
    print_vec("偏微分_重み2", grad["W2"])
    print_vec("偏微分_バイアス1", grad["b1"])
    print_vec("偏微分_バイアス2", grad["b2"])

    return grad
    
# 訓練データ
x = np.array([[1.0, 5.0]])
# 目標出力
d = np.array([[0, 1]])
#  学習率
learning_rate = 0.01
network =  init_network()
y, z1 = forward(network, x)

# 誤差
loss = functions.cross_entropy_error(d, y)

grad = backward(x, d, z1, y)
for key in ('W1', 'W2', 'b1', 'b2'):
    network[key]  -= learning_rate * grad[key]

print("##### 結果表示 #####")    


print("##### 更新後パラメータ #####") 
print_vec("重み1", network['W1'])
print_vec("重み2", network['W2'])
print_vec("バイアス1", network['b1'])
print_vec("バイアス2", network['b2'])


##### ネットワークの初期化 #####
*** 重み1 ***
[[0.1 0.3 0.5]
 [0.2 0.4 0.6]]

*** 重み2 ***
[[0.1 0.4]
 [0.2 0.5]
 [0.3 0.6]]

*** バイアス1 ***
[0.1 0.2 0.3]

*** バイアス2 ***
[0.1 0.2]

##### 順伝播開始 #####
*** 総入力1 ***
[[1.2 2.5 3.8]]

*** 中間層出力1 ***
[[1.2 2.5 3.8]]

*** 総入力2 ***
[[1.86 4.21]]

*** 出力1 ***
[[0.08706577 0.91293423]]

出力合計: 0.9999999999999999

##### 誤差逆伝播開始 #####
*** 偏微分_dE/du2 ***
[[ 0.08706577 -0.08706577]]

*** 偏微分_dE/du2 ***
[[-0.02611973 -0.02611973 -0.02611973]]

*** 偏微分_重み1 ***
[[-0.02611973 -0.02611973 -0.02611973]
 [-0.13059866 -0.13059866 -0.13059866]]

*** 偏微分_重み2 ***
[[ 0.10447893 -0.10447893]
 [ 0.21766443 -0.21766443]
 [ 0.33084994 -0.33084994]]

*** 偏微分_バイアス1 ***
[-0.02611973 -0.02611973 -0.02611973]

*** 偏微分_バイアス2 ***
[ 0.08706577 -0.08706577]

##### 結果表示 #####
##### 更新後パラメータ #####
*** 重み1 ***
[[0.1002612  0.3002612  0.5002612 ]
 [0.20130599 0.40130599 0.60130599]]

*** 重み2 ***
[[0.09895521 0.40104479]
 [0.19782336 0.50217664]
 [0.2966915  0.6033085 ]]

*** バイアス1 ***
[0.1002

In [18]:
# ウェイトとバイアスを設定
# ネートワークを作成
def init_network(input_layer_size, hidden_layer_size, output_layer_size):
    print("##### ネットワークの初期化 #####")

    network = {}
    network['W1'] = np.random.rand(input_layer_size, hidden_layer_size)
    network['W2'] = np.random.rand(hidden_layer_size, output_layer_size)
    network['b1'] = np.random.rand(hidden_layer_size)
    network['b2'] = np.random.rand(output_layer_size)
    
    print_vec("重み1", network['W1'] )
    print_vec("重み2", network['W2'] )
    print_vec("バイアス1", network['b1'] )
    print_vec("バイアス2", network['b2'] )

    return network

def init_network_zero(input_layer_size, hidden_layer_size, output_layer_size):
    print("##### ネットワークの初期化 #####")

    network = {}
    network['W1'] = np.zeros((input_layer_size, hidden_layer_size))
    network['W2'] = np.zeros((hidden_layer_size, output_layer_size))
    network['b1'] = np.zeros(hidden_layer_size)
    network['b2'] = np.zeros(output_layer_size)
    
    print_vec("重み1", network['W1'] )
    print_vec("重み2", network['W2'] )
    print_vec("バイアス1", network['b1'] )
    print_vec("バイアス2", network['b2'] )

    return network

def init_network_one(input_layer_size, hidden_layer_size, output_layer_size):
    print("##### ネットワークの初期化 #####")

    network = {}    
    network['W1'] = np.ones((input_layer_size, hidden_layer_size))
    network['W2'] = np.ones((hidden_layer_size, output_layer_size))
    network['b1'] = np.ones(hidden_layer_size)
    network['b2'] = np.ones(output_layer_size)
    
    print_vec("重み1", network['W1'] )
    print_vec("重み2", network['W2'] )
    print_vec("バイアス1", network['b1'] )
    print_vec("バイアス2", network['b2'] )

    return network

In [19]:
input_layer_size = 5
hidden_layer_size= 10
output_layer_size = 3

# 訓練データ
x = np.array([[1.0, 2.,3.,4.,5.0]])
# 目標出力
d = np.array([[0, 1, 2]])
#  学習率
learning_rate = 0.01

network =  init_network(input_layer_size, hidden_layer_size, output_layer_size)

print("network(initial)", network)

y, z1 = forward(network, x)

# 誤差
loss = functions.cross_entropy_error(d, y)

grad = backward(x, d, z1, y)
for key in ('W1', 'W2', 'b1', 'b2'):
    network[key]  -= learning_rate * grad[key]

print("##### 結果表示 #####")    
print("input_layer_size", input_layer_size)
print("hidden_layer_size", hidden_layer_size)
print("output_layer_size", output_layer_size)

print("##### 更新後パラメータ #####") 
print_vec("重み1", network['W1'])
print_vec("重み2", network['W2'])
print_vec("バイアス1", network['b1'])
print_vec("バイアス2", network['b2'])

print("network(result)", network)

##### ネットワークの初期化 #####
*** 重み1 ***
[[0.57322025 0.95174645 0.88814907 0.90436858 0.36529142 0.3511876
  0.50764866 0.45802555 0.52262087 0.91836482]
 [0.24240436 0.93439433 0.60312672 0.86351556 0.56706198 0.46290033
  0.71804486 0.09796426 0.61551088 0.14255815]
 [0.97068129 0.58824123 0.68769052 0.20080544 0.66600561 0.64588172
  0.60758958 0.99720828 0.0508448  0.9112383 ]
 [0.47549218 0.69497548 0.53852123 0.81964024 0.37258682 0.95023555
  0.80592949 0.69206019 0.84257916 0.62042443]
 [0.92284585 0.16647771 0.25905687 0.08136366 0.61297349 0.77405157
  0.33474658 0.84977547 0.50610029 0.96538248]]

*** 重み2 ***
[[0.69282669 0.21055643 0.45644276]
 [0.89608585 0.17312457 0.92769335]
 [0.61641306 0.63972426 0.66129044]
 [0.37489364 0.09826898 0.02591888]
 [0.28853959 0.29520911 0.58660328]
 [0.79439091 0.09547006 0.51302947]
 [0.27322387 0.75824051 0.67457213]
 [0.6568394  0.6226509  0.48293628]
 [0.28723336 0.12736468 0.52452388]
 [0.78620055 0.79557898 0.02064722]]

*** バイアス1 ***
[

In [20]:
network =  init_network_zero(input_layer_size, hidden_layer_size, output_layer_size)

print("network(initial)", network)

y, z1 = forward(network, x)

# 誤差
loss = functions.cross_entropy_error(d, y)

grad = backward(x, d, z1, y)
for key in ('W1', 'W2', 'b1', 'b2'):
    network[key]  -= learning_rate * grad[key]

print("##### 結果表示 #####")    
print("input_layer_size", input_layer_size)
print("hidden_layer_size", hidden_layer_size)
print("output_layer_size", output_layer_size)

print("##### 更新後パラメータ #####") 
print_vec("重み1", network['W1'])
print_vec("重み2", network['W2'])
print_vec("バイアス1", network['b1'])
print_vec("バイアス2", network['b2'])

print("network(result)", network)

##### ネットワークの初期化 #####
*** 重み1 ***
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

*** 重み2 ***
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

*** バイアス1 ***
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

*** バイアス2 ***
[0. 0. 0.]

network(initial) {'W1': array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]), 'W2': array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]]), 'b1': array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), 'b2': array([0., 0., 0.])}
##### 順伝播開始 #####
**

In [21]:
network =  init_network_one(input_layer_size, hidden_layer_size, output_layer_size)

print("network(initial)", network)

y, z1 = forward(network, x)

# 誤差
loss = functions.cross_entropy_error(d, y)

grad = backward(x, d, z1, y)
for key in ('W1', 'W2', 'b1', 'b2'):
    network[key]  -= learning_rate * grad[key]

print("##### 結果表示 #####")    
print("input_layer_size", input_layer_size)
print("hidden_layer_size", hidden_layer_size)
print("output_layer_size", output_layer_size)

print("##### 更新後パラメータ #####") 
print_vec("重み1", network['W1'])
print_vec("重み2", network['W2'])
print_vec("バイアス1", network['b1'])
print_vec("バイアス2", network['b2'])

print("network(result)", network)

##### ネットワークの初期化 #####
*** 重み1 ***
[[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]

*** 重み2 ***
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

*** バイアス1 ***
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]

*** バイアス2 ***
[1. 1. 1.]

network(initial) {'W1': array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]]), 'W2': array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]]), 'b1': array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]), 'b2': array([1., 1., 1.])}
##### 順伝播開始 #####
**

# 考察
ネットワークのノード数を変更して実行してみることにより、逆伝播処理がノード数に影響を受けないことが確認できた（ネットワークの層の数の変更については、いずれ確認してみたい）。

ネットワークの初期値を、乱数、０、１のそれぞれのケースで、逆伝播処理を実行してみることにより、逆伝播処理に与える影響を確認できた。