In [2]:
# 3層ニューラルネットワークの実装
# ニューロン 3→3→2→2

import numpy as np

# 活性化関数の定義(非線形変換)
# シグモイド関数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 恒等関数(今回は実装なし.代表的な関数:分類問題→softmax関数 など)
def identity_function(x):
    return x


# -------- ↓ニューラルネット↓ -------- #

# 入力値 x1,x2
X = np.array([[1.0, 0.5]]) 

# --------- ↓入力層から第1層への信号の伝播↓ --------- #

# 重み w  
# array[0]は入力層 x1 から第1層(a1,a2,a3)にかかる重み. 
# array[1]は入力層 x2 から第1層(a1,a2,a3)にかかる重み.
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) 

# バイアス B
# 第1層(a1,a2,a3)に加える固定値(ニューロンの発火しやすさの調節)
B1 = np.array([0.1, 0.2, 0.3]) 

# 第1層 A1 (a1,a2,a3) の「重み付き和」(重み付き信号とバイアスの総和)
A1 = np.dot(X, W1) + B1

# 活性化関数(sigmoid)による非線形変換
Z1 = sigmoid(A1)

print(A1)
print(Z1)

# --------- ↑入力層から第1層への信号の伝播↑ --------- #

# --------- ↓第1層から第2層への信号の伝播↓ --------- #

# 重み
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
# バイアス
B2 = np.array([0.1, 0.2])

print(Z1.shape)
print(W2.shape)
print(B2.shape)

# 第2層 A2 の「重み付き和」(重み付き信号とバイアスの総和)
A2 = np.dot(Z1, W2) + B2

# 活性化関数(sigmoid)による非線形変換
Z2 = sigmoid(A2)

print(A2)
print(Z2)

# --------- ↑第1層から第2層への信号の伝播↑ --------- #

# --------- ↓第2層から出力層への信号の伝播↓ --------- #

# 重み
W3 = np.array([[0.1, 0.3], [0.2, 0.4]])
# バイアス
B3 = np.array([0.1, 0.2])

# 出力層「重み付き和」(重み付き信号とバイアスの総和)
A3 = np.dot(Z2, W3) + B3

# 恒等関数
Y = identity_function(A3)

print(A3)
print(Y)

# --------- ↑第2層から出力層への信号の伝播↑ --------- #

# -------- ↑ニューラルネット↑ -------- #


[[0.3 0.7 1.1]]
[[0.57444252 0.66818777 0.75026011]]
(1, 3)
(3, 2)
(2,)
[[0.51615984 1.21402696]]
[[0.62624937 0.7710107 ]]
[[0.31682708 0.69627909]]
[[0.31682708 0.69627909]]


In [2]:
# 上記実装のまとめ
import numpy as np

# パラメータの初期化
def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) 
    network['b1'] = np.array([0.1, 0.2, 0.3]) 
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])

    return network


# 活性化,恒等関数の定義
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def identity_function(x):
    return x



# 入力→出力の伝播処理 = forward
def forward(network, x):
    w1, w2, w3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, w1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, w2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, w3) + b3
    y = identity_function(a3)

    return y


network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)

print(y)

[0.31682708 0.69627909]


In [6]:
# 出力層の設計
# 出力層は一般的に回帰問題：恒等関数,分類問題：ソフトマックス関数を用いる

# 恒等関数は入力された値をそのまま返す
def identity_function(a):
    return x


In [None]:
# ソフトマックス関数 インタプリタ
a = np.array([0.3, 2.9, 4.0])
exp_a = np.exp(a) # 指数関数
print(exp_a)

sum_exp_a = np.sum(exp_a)
print(sum_exp_a)

y = exp_a / sum_exp_a
print(y)

In [7]:
# ソフトマックス関数_オーバーフロー対策なし
def softmax_tmp(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a

    return y

In [10]:
# ソフトマックス関数のオーバーフロー対策
# 指数計算のため値が容易に巨大になりえる.
# 分母分子に任意の定数logCを足し引きしても結果は変わらないため利用する.
# logC の値は任意だがオーバーフロー対策の一つとして入力信号の中で最大の値を用いることが一般的

# オーバーフロー対策をせずに計算
a = np.array([1010,1000,990])
np.exp(a) / np.sum(np.exp(a)) # ソフトマックス関数の計算

# ↓出力結果_オーバーフローしている.
# C:\Users\mntt0\AppData\Local\Temp\ipykernel_2860\2240196628.py:8: RuntimeWarning: overflow encountered in exp
#   np.exp(a) / np.sum(np.exp(a)) # ソフトマックス関数の計算
# C:\Users\mntt0\AppData\Local\Temp\ipykernel_2860\2240196628.py:8: RuntimeWarning: invalid value encountered in divide
#   np.exp(a) / np.sum(np.exp(a)) # ソフトマックス関数の計算
# array([nan, nan, nan])


#--------------------------------------------------------------------------------------------------------------------------------


# オーバーフロー対策をして計算
a = np.array([1010,1000,990])
c = np.max(a)
print(a-c) # [  0 -10 -20]

np.exp(a-c) / np.sum(np.exp(a-c)) # ソフトマックス関数の計算

# ↓出力結果_オーバーフローせず計算可能
# array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])


[  0 -10 -20]


  np.exp(a) / np.sum(np.exp(a)) # ソフトマックス関数の計算
  np.exp(a) / np.sum(np.exp(a)) # ソフトマックス関数の計算


array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

In [11]:
# ソフトマックス関数
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a-c) # オーバーフロー対策
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a

    return y

In [13]:
# ソフトマックス関数試し使い
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)

[0.01821127 0.24519181 0.73659691]


**【コラム】**<br>

ソフトマックス関数を通しても値の大小の順番は変わらない。<br>
入力値が[a > b > c] の場合、ソフトマックス関数を通した後も[a > b > c]となる。<br>
ソフトマックス関数を通すことで総和を1に収め確率として扱うことができるが、入力値の大小から特定は可能なため、<br>
コンピューターの計算リソースを削減するために「学習」「推論」の「推論」の出力層には用いないことが一般的。<br>
出力層にソフトマックス関数を用いる理由は「学習」のフェーズに関係してくる。