In [60]:
import numpy as np

입력값과 임의의 타겟값의 지정

In [61]:
data = np.array(([1],[2],[3]))
data

array([[1],
       [2],
       [3]])

In [62]:
target = np.array(([0.5],[0.1]))
target

array([[0.5],
       [0.1]])

임의의 가중치 지정

In [63]:
w1 = np.array(([0.1, 0.2], [0.3, 0.4], [0.5, 0.6]))
w1

array([[0.1, 0.2],
       [0.3, 0.4],
       [0.5, 0.6]])

In [64]:
b1 = np.array(([0.5]))
b1

array([0.5])

In [65]:
w2 = np.array(([0.7, 0.8], [0.9, 0.1]))
w2

array([[0.7, 0.8],
       [0.9, 0.1]])

In [66]:
b2 = np.array(([0.3]))
b2

array([0.3])

순전파의 계산 과정 - 은닉층 입력

In [67]:
hidden_input1 = w1.T @ data + b1
hidden_input1

array([[2.7],
       [3.3]])

순전파의 계산 과정 - 은닉층 출력(활성화 함수 연산-시그모이드 함수)

In [68]:
class activation:
  def sigmoid(self, x):
    return 1 / (1+np.e**-x)

In [69]:
act = activation()

In [70]:
hidden_output1 = act.sigmoid(hidden_input1)
hidden_output1

array([[0.93702664],
       [0.96442881]])

은닉층-출력층까지의 계산(활성화 함수-시그모이드)

In [71]:
hidden_input2 = w2.T @ hidden_output1 + b2
hidden_input2

array([[1.82390458],
       [1.1460642 ]])

In [72]:
hidden_output2 = act.sigmoid(hidden_input2)
hidden_output2

array([[0.86103399],
       [0.75879129]])

In [73]:
predict = hidden_output2
predict

array([[0.86103399],
       [0.75879129]])

비용함수의 정의(오차 제곱합)

In [74]:
target

array([[0.5],
       [0.1]])

In [75]:
predict

array([[0.86103399],
       [0.75879129]])

In [76]:
class cost_function:
  def error_squared_sum(self, predict, target):
    return 0.5*((predict - target)**2)

In [77]:
cost_function = cost_function()

In [78]:
cost_function.error_squared_sum(predict, target)

array([[0.06517277],
       [0.21700298]])

역전파 계산

역전파 계산을 위해서는 미분식을 구할 수 있어야 한다. 

오차 함수를 정하면서 해당 함수의 미분식을 미리 알고 있으므로 미분식에 대한 함수를 미리 만들 수 있다.

활성화 함수의 미분함수

In [79]:
class activation:
  def sigmoid(self, x):
    return 1 / (1+np.e**-x)
  
  def sigmoid_diff(self, x):
  # 활성화 함수의 계산 값이 예측값이다.
    return x * (1 - x)

오차 역전파(델타값 계산 : 노드 입력의 변화에 따른 비용 함수의 변화량)

In [80]:
activation = activation()

In [81]:
delta2 = (predict - target) * activation.sigmoid_diff(predict)
delta2

array([[0.04319933],
       [0.12057664]])

해당 델타값은 출력층의 각 노드들의 입력값의 변화량에 따른 오차 함수의 변화량이다.

델타값을 통해 가중치 변화량에 따른 오차함수의 변화량을 구할 수 있다.

가중치 변화에 따른 오차함수의 변화량은 이전 노드의 출력값이다.

In [82]:
hidden_output1

array([[0.93702664],
       [0.96442881]])

In [83]:
w2_diff = (delta2 @ hidden_output1.T).T
w2_diff

array([[0.04047892, 0.11298352],
       [0.04166268, 0.11628758]])

In [84]:
b2_diff = np.sum(delta2*b2)
b2_diff

0.04913278948297279

은닉층-출력층 사이 가중치 변화량에 따른 오차 함수의 변화량을 구할 수 있었다.

delta 값을 이용하여 입력-은닉층까지의 가중치 변화량에 따른 오차 함수의 변화량을 계산한다.

In [85]:
delta2

array([[0.04319933],
       [0.12057664]])

In [86]:
w2

array([[0.7, 0.8],
       [0.9, 0.1]])

각 은닉노드의 출력에 대한 오차 함수의 변화량을 계산하기 위해서는 delta 값에 노드 입력에 대한 변화량을 곱해준다.

In [87]:
delta2.T @ w2.T

array([[0.12670084, 0.05093706]])

이는 각 은닉노드 출력의 변화에 따른 오차 함수의 변화량이다.

은닉노드의 입력의 변화에 따른 오차 함수의 변화량, 즉 delta1 을 계산한다.

In [88]:
delta1 = (delta2.T @ w2.T).T * activation.sigmoid_diff(hidden_output1)
delta1

array([[0.00747633],
       [0.00174744]])

이후 동일하게 은닉 노드의 입력, 즉 데이터값을 통해 입력-은닉 노드의 가중치 변화량에 대한 오차 함수의 변화량을 계산한다.

In [89]:
w1_diff = (data * delta1.T).T
w1_diff

array([[0.00747633, 0.01495265, 0.02242898],
       [0.00174744, 0.00349488, 0.00524232]])

In [90]:
b1_diff = np.sum(delta1*b1)
b1_diff

0.0046118836415391445