<a href="https://colab.research.google.com/github/msjun23/Deep-Learning-from-Scratch/blob/main/Chapter3/implement_network.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#3층 신경망 구현하기

넘파이의 다차원 배열을 사용하여 신경망의 순방향 처리를 완성할 수 있다.

0. 입력층(0층) : 2개
1. 첫 번째 은닉층(1층) : 3개
2. 두 번째 은닉층(2층) : 2개
3. 출력층(3층) : 2개의 뉴런으로 구성

- $w_{다음 층 번호, 앞 층 번호}^{(n 층으로 향하는)}$, $a_{m번째뉴런}^{(n층)}$
- $w_{12}^{(1)}$ : 1층으로 향하는 가중치, 앞 층의 2번째 뉴런에서 다음 층의 1번째 뉴런으로
- $a_1^{(1)}$ : 1층의 1번째 뉴런

위의 표현을 이용해 $a_1^{(1)}$을 표현하면, 다음과 같다.
$$a_1^{(1)}=w_{11}^{(1)}x_1+w_{12}^{(1)}x_2+b_1^{(1)}$$

각 층의 모든 뉴런에 대해 위와 같이 표현할 수 없기에 행렬의 곱을 이용해 다음과 같이 간소화하여 표현할 수 있다.
$$\textbf{A}^{(1)}=\textbf{XW}^{(1)}+\textbf{B}^{(1)}$$

이때 $\textbf{A}^{(1)}, \textbf{X}, \textbf{B}^{(1)}, \textbf{W}^{(1)}$는 다음과 같다.
$$\textbf{A}^{(1)}=(a_1^{(1)},a_2^{(2)},a_3^{(3)}), \textbf{X}=(x_1,x_2), \textbf{B}^{(1)}=(b_1^{(1)},b_2^{(2)},b_3^{(3)}), \\\textbf{W}=\begin{pmatrix}
w_{11}^{(1)} &w_{21}^{(1)}  &w_{31}^{(1)} \\ 
w_{12}^{(1)} &w_{22}^{(1)}  &w_{32}^{(1)} 
\end{pmatrix}$$

넘파이의 다차원 배열을 이용해 위의 식 $\textbf{A}^{(1)}=\textbf{XW}^{(1)}+\textbf{B}^{(1)}$를 구현하면 다음과 같다.

In [1]:
# 입력층(0층)에서 1층으로 신호 전달 구현
import numpy as np

X = np.array([1.0, 0.5])
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
B1 = np.array([0.1, 0.2, 0.3])

print(W1.shape)
print(X.shape)
print(B1.shape)

A1 = np.dot(X, W1) + B1

(2, 3)
(2,)
(3,)


은닉층에서의 가중치의 합(가중 신호와 편향의 총합)을 $a$로 표기하고, 활성화 함수 $h()$로 변환된 신호를 $z$로 표현한다. 여기에서는 활성화 함수로 sigmoid 함수를 사용한다.

1층의 각 뉴런에서 각 $a$를 입력으로 받아 활성화 함수를 거쳐 변환된 신호 $z$를 출력한다.

In [2]:
def sigmoid(x):
  return 1 / (1 + np.exp(-x))

Z1 = sigmoid(A1)

print(A1)
print(Z1)

[0.3 0.7 1.1]
[0.57444252 0.66818777 0.75026011]


In [3]:
# 1층에서 2층으로 신호 전달 구현
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

print(Z1.shape)
print(W2.shape)
print(B2.shape)

A2 = np.dot(Z1, W2) + B2
Z2 = sigmoid(A2)

(3,)
(3, 2)
(2,)


In [4]:
# 2층에서 출력층으로 신호 전달 구현
def identity_function(x):
  return x

W3 = np.array([[0.1, 0.3], [0.2, 0.4]])
B3 = np.array([0.1, 0.2])

A3 = np.dot(Z2, W3) + B3
Y = identity_function(A3)   # Y = A3

print(Y)

[0.31682708 0.69627909]


In [5]:
# 구현 정리
def init_network():
  network = {}    # dictionary
  network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
  network['b1'] = np.array([0.1, 0.2, 0.3])
  network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
  network['b2'] = np.array([0.1, 0.2])
  network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
  network['b3'] = np.array([0.1, 0.2])

  return network

def forward(network, x):
  W1, W2, W3 = network['W1'], network['W2'], network['W3']
  b1, b2, b3 = network['b1'], network['b2'], network['b3']

  a1 = np.dot(x, W1) + b1
  z1 = sigmoid(a1)
  a2 = np.dot(z1, W2) + b2
  z2 = sigmoid(a2)
  a3 = np.dot(z2, W3) + b3
  y = identity_function(a3)

  return y

network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y)

[0.31682708 0.69627909]
