# 3.4.1 표기법 설명

<img src="images/3_15.png" height="200px" width="500px">

다음 그림은 3층 신경망을 보여주고 있다. 여기서 0층인 $x_1, x_2$는 입력층을, 1층과 2층은 은닉층을, 3층인 $y_1, y_2$는 출력층을 보여준다.

앞으로 
$w_{1 2}^{(1)}$
이와 같은 표기를 사용할 텐데, 우선 아랫 첨자의 1은 다음 층의 첫번째 뉴런이라는 의미이고, 2는 전 층의 2번째 뉴런을 의미한다. 그리고 윗 첨자의 (1)은 1층의 가중치라는 의미를 가진다.

# 3.4.2 각 층의 신호 전달 구현하기

<img src="images/3_17.png" height="200px" width="500px">

이 신경망에는 편향인 1을 추가하였다.<br>
위 그림을 참고해 $a_1^{(1)}$을 수식으로 표현해보면,

$
a_1^{(1)} = w_{11}^{(1)}x_1 + w_{12}^{(1)}x_2 + b_1^{(1)}
\qquad$ [식 3.8]

이다.

여기서 

$A^{(1)} = (a_1^{(1)}\;a_2^{(1)}\;a_3^{(1)})$

$X = (x_1, x_2)$

$B^{(1)} = (b_1^{(1)}\;b_2^{(1)}\;b_2^{(1)})$

$W^{(1)} = 
\begin{pmatrix}
w_{11}^{(1)} & w_{21}^{(1)} & w_{31}^{(1)} \\
w_{12}^{(1)} & w_{22}^{(1)} & w_{32}^{(1)}
\end{pmatrix}
$

라 하면,

[식 3.8]을 간소화 할 수 있다.<br>
그 결과는 다음과 같다.

$
A^{(1)} = XW^{(1)} + B^{(1)}
\quad$ [식 3.9]

이를 이용해 [식 3.9]를 구현해보자.

In [3]:
import numpy as np

X = np.array([1.0, 0.5])
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
B1 = np.array([0.1, 0.2, 0.3])

print(W1.shape)
print(X.shape)
print(B1.shape)

A1 = X@W1 + B1

(2, 3)
(2,)
(3,)


In [1]:
from functions import Function as F

1층에서의 활성화 함수의 처리를 나타내면 다음과 같다.

<img src="images/3_18.png" height="200px" width="600px">

여기서 1층은 은닉층이며, 이 안에서는 가중치에 입력값이 곱해지고 편향을 더한 값 $a$와 활성화 함수에 대입되어 신호로 변환되어 출력된 값을 $z$라 하자.<br>
그럼 결과는 다음과 같다.

In [4]:
Z1 = F.sigmoid(A1)

print(A1)
print(Z1)

[0.3 0.7 1.1]
[0.57444252 0.66818777 0.75026011]


2층에서도 마찬가지로 처리한다.
<img src="images/3_19.png" height="200px" width="500px">

In [5]:
W2 = np.array([[0.1, 0.4],[0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

print(Z1.shape)
print(W2.shape)
print(B2.shape)

A2 = Z1@W2 + B2
Z2 = F.sigmoid(A2)

(3,)
(3, 2)
(2,)


마지막으로 2층에서 출력층으로 신호를 처리하면,
<img src="images/3_20.png" height="200px" width="500px">
그리고 출력층의 활성화 함수는 은닉층의 활성화 함수와 다르다는 것을 명시하기 위해 $h()$가 아닌 $\sigma ()$를 사용하였다.

In [7]:
def identity_function(x):
    return x

W3 = np.array([[0.1, 0.3],[0.2, 0.4]])
B3 = np.array([0.1, 0.2])

A3 = Z2@W3 + B3
Y = identity_function(A3)

# 3.4.3 구현 정리

여태 까지 진행한 구현들을 정리하면 다음과 같다.

In [8]:
def init_network():
    network = {}
    network["W1"] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network["W2"] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network["W3"] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network["b1"] = np.array([0.1, 0.2, 0.3])
    network["b2"] = np.array([0.1, 0.2])
    network["b3"] = np.array([0.1, 0.2])
    
    return network

def forward(network, x):
    W1, W2, W3 = network["W1"], network["W2"], network["W3"]
    b1, b2, b3 = network["b1"], network["b2"], network["b3"]
    
    a1 = x@W1 + b1
    z1 = F.sigmoid(a1)
    a2 = z1@W2 + b2
    z2 = F.sigmoid(a2)
    a3 = z2@W3 + b3
    y = identity_function(a3)
    
    return y

network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y)

[0.31682708 0.69627909]
