오차 역전파를 통해 오차를 기반으로 가중치를 수정한 후 더 좋은 성능을 낼 수 있도록 모형을 개선한다.

임의의 입력 값과 출력값의 설정

In [233]:
import numpy as np

In [234]:
input = np.array([[1,2,3]])
input.shape

(1, 3)

In [235]:
target = np.array([[0.5,0.1]])
target

array([[0.5, 0.1]])

In [236]:
print(input.shape, target.shape)

(1, 3) (1, 2)


임의의 가중치 설정

In [237]:
w1 = np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
w1.shape

(2, 3)

In [238]:
w2 = np.array([[0.7,0.9],[0.8,0.1]])
w2.shape

(2, 2)

In [239]:
b1 = np.array([[0.5],[0.5]])
b1.shape

(2, 1)

In [240]:
b2 = np.array([[0.3],[0.3]])
b2.shape

(2, 1)

순전파를 통한 출력값 계산

In [241]:
print(input.shape,w1.shape)

(1, 3) (2, 3)


In [242]:
g11 = w1@(input.T)+b1
g11

array([[2.7],
       [3.3]])

In [243]:
g12 = w1.dot(input.T)+b1
g12

array([[2.7],
       [3.3]])

In [244]:
print(np.equal(g11, g12))

[[ True]
 [ True]]


In [245]:
h = 1/(1+np.exp(-g11))
h

array([[0.93702664],
       [0.96442881]])

함수화

In [246]:
def hidden_cal(x,w,b):
  g = w.dot(x)+b
  h = 1/(1+np.exp(-g))
  return h

In [247]:
h2 = hidden_cal(h,w2,b2)
h2

array([[0.86103399],
       [0.75879129]])

비용 함수 정의 및 1차 미분식 계산

비용 함수로는 오차 제곱합을 사용, 미분식의 계산을 편리하게 하기 위한 1/2 연산의 추가

활성화 함수로 사용하는 시그모이드 함수의 미분

In [248]:
from sympy import Derivative, symbols

x = symbols('x')

In [249]:
fx = 1/(1+np.e**-x)

In [250]:
fprime = Derivative(fx, x).doit()
fprime

1.0*2.71828182845905**(-x)/(1 + 2.71828182845905**(-x))**2

역전파를 통한 1차 미분값 구하기

은닉층에서 출력층까지 연결되는 가중치가 변했을 때 비용 함수의 변화량

In [251]:
target.astype

<function ndarray.astype>

In [252]:
target[0,0]

0.5

In [253]:
target[0,1]

0.1

In [254]:
h2

array([[0.86103399],
       [0.75879129]])

In [255]:
h2[0]

array([0.86103399])

In [256]:
h2[1]

array([0.75879129])

In [257]:
h2[0]-target[0,0]

array([0.36103399])

In [258]:
h2[0]*(1-h2[0])

array([0.11965446])

In [259]:
bw41 = (h2[0]-target[0,0]) * (h2[0]*(1-h2[0])) * h[0]
bw41

array([0.04047892])

In [260]:
bw42 = (h2[1]-target[0,1]) * (h2[1]*(1-h2[1])) * h[0]
bw42

array([0.11298352])

In [261]:
bw51 = (h2[0]-target[0,0]) * (h2[0]*(1-h2[0])) * h[1]
bw51

array([0.04166268])

In [262]:
bw52 = (h2[1]-target[0,1]) * (h2[1]*(1-h2[1])) * h[1]
bw52

array([0.11628758])

In [266]:
bb2 = (h2[0]-target[0,0]) * (h2[0]*(1-h2[0])) * 1 + (h2[1]-target[0,1]) * (h2[1]*(1-h2[1])) * 1
bb2

array([0.16377596])

은닉층에서 입력층으로 거슬러 올라가는 계산