In [112]:
import numpy as np

입력값과 임의의 타겟값의 지정

In [113]:
data = np.array(([1],[2],[3]))
data

array([[1],
       [2],
       [3]])

In [114]:
target = np.array(([0.5],[0.1]))
target

array([[0.5],
       [0.1]])

임의의 가중치 지정

In [115]:
w1 = [[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]]
w1

[[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]]

In [116]:
w2 = [[0.7, 0.8], [0.9, 0.1]]
w2

[[0.7, 0.8], [0.9, 0.1]]

In [117]:
w1.append(w2)
w1

[[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]], [[0.7, 0.8], [0.9, 0.1]]]

In [118]:
w = w1
w

[[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]], [[0.7, 0.8], [0.9, 0.1]]]

In [119]:
w[0]

[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]

In [120]:
w[1]

[[0.7, 0.8], [0.9, 0.1]]

In [121]:
w[0][0]

[0.1, 0.2]

In [122]:
w[0][0][0]

0.1

In [123]:
b = [[0.5],[0.3]]
b

[[0.5], [0.3]]

In [124]:
b[1]

[0.3]

In [125]:
b[0][0]

0.5

순전파의 계산 과정 - 은닉층 입력

In [126]:
w_array = np.array(w[0])
w_array

array([[0.1, 0.2],
       [0.3, 0.4],
       [0.5, 0.6]])

순전파의 계산 과정 - 은닉층 출력(활성화 함수 연산-시그모이드 함수)

In [127]:
class activation:
  def sigmoid(self, x):
    return 1 / (1+np.e**-x)
  
  def sigmoid_diff(self, x):
  # 활성화 함수의 계산 값이 예측값이다.
    return x * (1 - x)

In [128]:
def forward_cal(input, w, b):
  activation1 = activation()
  hidden_output = input
  hidden_output_array = []
  hidden_output_array.append(hidden_output)
  
  for i in range(len(w)):
    w_numpy_array = np.array(w[i])
    hidden_input = w_numpy_array.T @ hidden_output + b[i][0]
    hidden_output = activation1.sigmoid(hidden_input)
    hidden_output_array.append(hidden_output)

  predict = hidden_output

  return predict, hidden_output_array

In [129]:
predict, hidden_output_array = forward_cal(data, w, b)
predict

array([[0.86103399],
       [0.75879129]])

In [130]:
hidden_output_array

[array([[1],
        [2],
        [3]]), array([[0.93702664],
        [0.96442881]]), array([[0.86103399],
        [0.75879129]])]

In [131]:
hidden_output_array[0]

array([[1],
       [2],
       [3]])

In [132]:
hidden_output_array[1]

array([[0.93702664],
       [0.96442881]])

비용함수의 정의(오차 제곱합)

In [133]:
target

array([[0.5],
       [0.1]])

In [134]:
predict

array([[0.86103399],
       [0.75879129]])

In [135]:
class cost_function:
  def error_squared_sum(self, predict, target):
    return 0.5*((predict - target)**2)

In [136]:
cost_function = cost_function()

In [137]:
cost_function.error_squared_sum(predict, target)

array([[0.06517277],
       [0.21700298]])

역전파 계산

역전파 계산을 위해서는 미분식을 구할 수 있어야 한다. 

오차 함수를 정하면서 해당 함수의 미분식을 미리 알고 있으므로 미분식에 대한 함수를 미리 만들 수 있다.

활성화 함수의 미분함수

오차 역전파(델타값 계산 : 노드 입력의 변화에 따른 비용 함수의 변화량)

In [138]:
w

[[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]], [[0.7, 0.8], [0.9, 0.1]]]

In [139]:
w = w[::-1]
w

[[[0.7, 0.8], [0.9, 0.1]], [[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]]

In [140]:
b

[[0.5], [0.3]]

In [141]:
b = b[::-1]
b

[[0.3], [0.5]]

In [142]:
hidden_output_array = hidden_output_array[::-1]
hidden_output_array

[array([[0.86103399],
        [0.75879129]]), array([[0.93702664],
        [0.96442881]]), array([[1],
        [2],
        [3]])]

In [143]:
def cal_delta(target, predict, w, hidden_output_array):
  activation1 = activation()
  delta = ((predict - target) * activation1.sigmoid_diff(predict).tolist())
  delta_array = []
  delta_array.append(delta.tolist())
  
  # 출력층 이전의 층들에 대한 delta 값을 계산한다.
  for i in range(len(w) - 1):
    delta = (np.array(delta_array[i]).T @ np.array(w[0]).T).T * activation1.sigmoid_diff(np.array(hidden_output_array[1+i]))
    delta_array.append(delta.tolist())
  return delta_array

In [144]:
delta_array = cal_delta(target, predict, w, hidden_output_array)
delta_array

[[[0.043199326918126744], [0.1205766380251159]],
 [[0.007476326694688966], [0.001747440588389323]]]

In [145]:
hidden_output_array

[array([[0.86103399],
        [0.75879129]]), array([[0.93702664],
        [0.96442881]]), array([[1],
        [2],
        [3]])]

In [146]:
delta_array[0]

[[0.043199326918126744], [0.1205766380251159]]

In [147]:
np.array(delta_array[0]).shape

(2, 1)

해당 델타값은 출력층의 각 노드들의 입력값의 변화량에 따른 오차 함수의 변화량이다.

델타값을 통해 가중치 변화량에 따른 오차함수의 변화량을 구할 수 있다.

가중치 변화에 따른 오차함수의 변화량은 이전 노드의 출력값이다.

In [148]:
def cal_w_update(delta_array, hidden_output_array, b):
  w_diff = []
  b_diff = []
  for i in range(len(delta_array)):
    w_diff_list = (np.array(delta_array[i]) @ np.array(hidden_output_array[i+1]).T).tolist()
    w_diff.append(w_diff_list)

    b_diff_list = np.sum(np.array(delta_array[i]) * np.array(b[i]))
    b_diff.append(b_diff_list)
  
  return w_diff, b_diff

In [149]:
w_diff, b_diff = cal_w_update(delta_array, hidden_output_array, b)

In [150]:
w_diff

[[[0.040478920322688954, 0.04166267548387157],
  [0.11298352246660469, 0.11628758361206636]],
 [[0.007476326694688966, 0.014952653389377932, 0.0224289800840669],
  [0.001747440588389323, 0.003494881176778646, 0.005242321765167969]]]

In [151]:
b_diff

[0.04913278948297279, 0.0046118836415391445]

은닉층-출력층 사이 가중치 변화량에 따른 오차 함수의 변화량을 구할 수 있었다.

delta 값을 이용하여 입력-은닉층까지의 가중치 변화량에 따른 오차 함수의 변화량을 계산한다.

각 은닉노드의 출력에 대한 오차 함수의 변화량을 계산하기 위해서는 delta 값에 노드 입력에 대한 변화량을 곱해준다.

이는 각 은닉노드 출력의 변화에 따른 오차 함수의 변화량이다.

은닉노드의 입력의 변화에 따른 오차 함수의 변화량, 즉 delta1 을 계산한다.

이후 동일하게 은닉 노드의 입력, 즉 데이터값을 통해 입력-은닉 노드의 가중치 변화량에 대한 오차 함수의 변화량을 계산한다.

In [152]:
w_diff = w_diff[::-1]
w_diff

[[[0.007476326694688966, 0.014952653389377932, 0.0224289800840669],
  [0.001747440588389323, 0.003494881176778646, 0.005242321765167969]],
 [[0.040478920322688954, 0.04166267548387157],
  [0.11298352246660469, 0.11628758361206636]]]

In [153]:
b_diff = b_diff[::-1]
b_diff

[0.0046118836415391445, 0.04913278948297279]

In [154]:
w = w[::-1]
w

[[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]], [[0.7, 0.8], [0.9, 0.1]]]

In [155]:
b = b[::-1]
b

[[0.5], [0.3]]

In [156]:
w_diff[0]

[[0.007476326694688966, 0.014952653389377932, 0.0224289800840669],
 [0.001747440588389323, 0.003494881176778646, 0.005242321765167969]]

In [157]:
w[0]

[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]

In [158]:
for i in range(len(w)):
  w_narray = np.array(w[i])
  print(w_narray)

  w_diff_narray = np.array(w_diff[i]).T
  print(w_diff_narray)

  new_w = w_narray - w_diff_narray
  print(new_w)

  b_narray = np.array(b[i])
  print(b_narray, "b")

  b_diff_narray = np.array(b_diff[i])
  print(b_diff_narray)

  new_b = b_narray - b_diff_narray
  print(new_b)


[[0.1 0.2]
 [0.3 0.4]
 [0.5 0.6]]
[[0.00747633 0.00174744]
 [0.01495265 0.00349488]
 [0.02242898 0.00524232]]
[[0.09252367 0.19825256]
 [0.28504735 0.39650512]
 [0.47757102 0.59475768]]
[0.5] b
0.0046118836415391445
[0.49538812]
[[0.7 0.8]
 [0.9 0.1]]
[[0.04047892 0.11298352]
 [0.04166268 0.11628758]]
[[ 0.65952108  0.68701648]
 [ 0.85833732 -0.01628758]]
[0.3] b
0.04913278948297279
[0.25086721]


In [193]:
def w_parameter_update(w, w_diff, b, b_diff):
  new_w_array = []
  new_b_array = []

  for i in range(len(w)):
    w_narray = np.array(w[i])
    w_diff_narray = np.array(w_diff[i]).T

    new_w = w_narray - w_diff_narray
    
    new_w_array.append(new_w.tolist())

    b_narray = np.array(b[i])
    b_diff_narray = np.array(b_diff[i])
  
    new_b = b_narray - b_diff_narray

    new_b_array.append(new_b.tolist())

  return new_w_array, new_b_array

In [194]:
new_w, new_b = w_parameter_update(w, w_diff, b, b_diff)

In [195]:
new_w

[[[0.09252367330531104, 0.19825255941161068],
  [0.28504734661062203, 0.39650511882322137],
  [0.4775710199159331, 0.594757678234832]],
 [[0.659521079677311, 0.6870164775333953],
  [0.8583373245161284, -0.01628758361206635]]]

In [196]:
new_b

[[0.49538811635846086], [0.2508672105170272]]