# 1. 층과 뉴런

`1` 입력층을 제외한 층의 수가 총 층의 수이며 $L$로 표기한다.

`2` 뉴런의 출력을 나타내는 법

* $a^{[i]}$ : activation의 앞글자를 땀, $i$번째 층의 출력

* $a^{[i]}_{j}$ : $i$번째 층의 $j$번째 출력

* $n^{[i]}$ : $i$번째 층의 뉴런 수

* 종합 1 : 2번째 층의 마지막($n$) 번째 뉴런 출력은? $\to a^{[2]}_{n^{[2]}}$

* 첫 번째 층의 모든 뉴런의 출력은?

$$a^{[1]} = \begin{bmatrix} a_{1}^{[1]} \\  
                            a_{2}^{[1]} \\ 
                            \dots \\ 
                            a_{n^{[1]}}^{[1]}\end{bmatrix}$$

***

# 2. 가중치와 편향

`1` 가중치는 `0.4, 0.6, 1` 처럼 전 층 뉴런의 곱해지는 숫자들이며 알파벳 $W$를 사용해 표기한다.

`2` 가중치를 나타내는 법

* $W^{[i]}$ : $i-1$과 $i$번째 층 사이에 있는 가중치들

* $w^{[i]}_{j,k}$ : $i-1$층의 $j$번째 뉴런, $i$번째 층의 $k$번째 뉴런 사이의 가중치

* 가중치를 행렬로 나타내는 법(ex : 2번째 층의 가중치들)

$$W^{[2]} = \begin{bmatrix} w_{1,1}^{[2]} & w_{2,1}^{[2]} \cdots & w_{n^{[1]},1}^{[2]} \\
                            w_{1,2}^{[2]} & w_{2,2}^{[2]} \cdots & w_{n^{[1]},2}^{[2]} \\ 
                            \cdots & \cdots & \cdots \\
                            w_{1,n^{[2]}}^{[2]} & w_{2,n^{[2]}}^{[2]} \cdots & w_{n^{[1]},n^{[2]}}^{[2]} \\ 
                            \end{bmatrix}$$



`3` 편향을 나타내는 법($b$)

* $b^{[i]}$ : $i$번째 층의 편향

* $b^{[i]}_{j}$ : $i$번째 층의 $j$번째 뉴런의 편향

* 첫 번째 층 뉴런들의 편향 벡터 표현

$$b^{[i]} = \begin{bmatrix} b_{1}^{[1]} \\  
                            b_{2}^{[1]} \\ 
                            \dots \\ 
                            b_{n^{[1]}}^{[1]}\end{bmatrix}$$

***

# 3. 가중치와 편향 초기화

`1` 리스트안에 들어 있는 내용이 `[10,5,5,3]`이라면, 입력층에는 뉴런이 10개, 1번째 층에는 5개, 2번째 층에는 5개, 3번째 층에는 3개가 있다.

`2` 첫 번째 층의 가중치 행렬은 `5 x 10` 차원의 행렬로 나타낼 수 있다.

`3` 즉, $i$번째 층의 가중치 행렬의 차원은 $n^{[i]} \times n^{[i-1]}$만큼의 차원을 가진다.

`4` $i$번째 층의 편향은 $i$번째 층의 뉴런 숫자만큼의 차원을 가진다. $n^{[i]} \times 1$

In [2]:
# | code-fold : true
import numpy as np


np.random.seed(42)

def initialize_parameters(neurons_per_layer):
    """신경망의 가중치와 편향을 초기화해주는 함수"""
    L = len(neurons_per_layer)- 1 
    parameters = {}
    
    for l in range(1, L+1):
        parameters['W' + str(l)] = np.random.randn(neurons_per_layer[l],neurons_per_layer[l-1]) * np.sqrt(1/neurons_per_layer[l])
        parameters['b' + str(l)] = np.random.randn(neurons_per_layer[l])*np.sqrt(1/neurons_per_layer[l])
        
    return parameters


neurons_per_layer = [10, 5, 5, 3]
initialize_parameters(neurons_per_layer)

{'W1': array([[ 0.22213732, -0.06183368,  0.28965512,  0.68111966, -0.10471657,
         -0.10470923,  0.70624544,  0.34320724, -0.20995533,  0.24264023],
        [-0.20724669, -0.20828068,  0.10820882, -0.85564494, -0.77140671,
         -0.25146263, -0.45295185,  0.14053568, -0.40608071, -0.63160142],
        [ 0.65545806, -0.10097023,  0.03019953, -0.63716676, -0.24345536,
          0.04960609, -0.51473998,  0.16801726, -0.26861379, -0.13044941],
        [-0.26909138,  0.82836399, -0.00603614, -0.47302271,  0.36785327,
         -0.54597788,  0.09340664, -0.87639112, -0.59398286,  0.08803902],
        [ 0.33025229,  0.07663823, -0.05171948, -0.13465767, -0.66121514,
         -0.32192412, -0.20600392,  0.47275943,  0.15367077, -0.78845553]]),
 'b1': array([ 0.14493476, -0.17221403, -0.30272872,  0.27354995,  0.461077  ]),
 'W2': array([[ 0.41648113, -0.37530949, -0.13828398,  0.14814551,  0.43627704],
        [-0.21429323, -0.08302922, -0.49476804, -0.53495987,  0.36337259],
        [ 

***

# 4. 입력 변수와 목표변수

`1`  MNIST data

<center><img src = "3.png" width = 500></center>

* $x^{(i)}$ : $i$번째 데이터의 입력 변수(벡터 값임)

* $x^{(i)}_{j}$ : $i$번째 데이터의 $j$번째 픽셀 값

* $y^{(i)}$ : $i$번째 데이터의 목표 변수 (lable 값) $\to$ 모델링 시에는 `one-hot encoding`을 통해 범주형 변수로 바꿔준다.


$$y^{(1)}  = \begin{bmatrix} 0 \\ 0 \\ 0 \\ 0 \\ 0 \\ 1 \\ 0 \\ 0 \\ 0 \\ 0 \end{bmatrix}$$

***

# 5. 순전파

인풋 데이터가 들어가서 마지막 층까지 처리돼서 출력되는 과정

`1` 수학적 표현

* 입력층과 첫 번째 층 사이 순전파에서 첫 번째 뉴런의 출력

$$z_{1}^{[1]} = w_{1,1}^{[1]}a_{1}^{[0]} + w_{2,1}^{[1]}a_{2}^{[0]} + \cdots +  w_{n^{[0]},1}^{[1]}a_{n^{[0]}}^{[0]} + b^{[1]}_1$$

* 첫 번째 뉴런의 활성화 함수(`여기선 시그모이드`)를 거친 최종 출력

$$a_1^{[1]} = \sigma(z_1^{[1]})$$

`2` 일반화된 표현

$$z^{[l]} = W^{(l)}a^{[l-1]} + b^{[l]}$$

$$a^{[l]} = \sigma(z^{[l]})$$

`3` 코드구현

In [12]:
# | code-fold : true
# 인공 신경망 구현에 사용할 라이브러리 임포트
import numpy as np
import pandas as pd

# numpy 임의성 조절
np.random.seed(42)

# 데이터 셋 가지고 오기
dataset = pd.read_csv('./data/MNIST_preprocessed.csv', sep=',', header=None).values

# 입력, 목표 변수 데이터 셋 나누기
X = dataset[:, 0:784]
Y = dataset[:, 784:]

# training, testing 데이터 셋 나누기
X_train, X_test = X[0:250,], X[250:,]
Y_train, Y_test = Y[0:250,], Y[250:,]

def sigmoid(x):
    """시그모이드 함수"""
    return 1/(1 + np.exp(-x))

def initialize_parameters(nodes_per_layer):
    """신경망의 가중치와 편향을 초기화해주는 함수"""
    L = len(nodes_per_layer) - 1  # 층 개수 저장
    parameters = {}
    
    # 1층 부터 L 층까지 돌면서 가중치와 편향 초기화
    for l in range(1, L+1):
        parameters['W' + str(l)] = np.random.randn(nodes_per_layer[l], nodes_per_layer[l-1]) * np.sqrt(1. / nodes_per_layer[l])
        parameters['b' + str(l)] = np.random.randn(nodes_per_layer[l]) * np.sqrt(1. / nodes_per_layer[l])
        
    return parameters

def feed_forward(x, parameters):
    """순전파 함수"""
    cache = {'a0': x}
    L = len(parameters) // 2
    
    for l in range(1, L+1):
        # 전 층 뉴런의 출력, 현재 층 뉴런들의 가중치, 편향 데이터를 가지고 온다.
        a_prev = cache['a' + str(l-1)]
        W = parameters['W' + str(l)]
        b = parameters['b' + str(l)]
        
        # 데이터로 z와 a를 계산한다.
        z = W @ a_prev + b
        a = sigmoid(z)

        # 결과 값을 캐쉬에 저장한다.
        cache['z' + str(l)] = z
        cache['a' + str(l)] = a
                
    return a, cache


# 테스트 코드
neurons_per_layer = [784, 128, 64, 10]
parameters = initialize_parameters(neurons_per_layer)
feed_forward(X_train[0], parameters)[0]

array([0.39847399, 0.63077823, 0.79833093, 0.9305652 , 0.67941177,
       0.67579947, 0.05318345, 0.37468731, 0.12677545, 0.64191774])

***

# 6. 가설 함수와 손실 함수

`1` 신경망 학습 : 입력 변수에 대한 목표 변수를 잘 예측하는 가중치와 편향을 찾는 것

`2` 가설 함수 : 주어진 입력 변수를 통해 예측값을 계산하는 함수 

* 예측값은 순전파를 통해 계산되며 신경망의 가중치와 편향에 따라 달라진다.

$$h_{w}(x) = a^{[L]} = \sigma(W^{[L]}a^{[L-1]} + b^{[L]})$$

`3` 손실 함수 $J(W)$

* 학습을 통해 가중치와 편향을 변경하는 기준

* 종류가 매우 다양, 대표적인 예 : 평균 제곱 오차

$$J(W) = \frac {1}{2mn^{[L]}}\sum_{i=1}^{m}\sum_{k=1}^{n^{[L]}} (h_w(x^{(i)})_k - y_k^{(i)})^2$$

* 식이 좀 어렵게 보이지만, 그냥 모든 데이터에 대해서 모든 뉴런의 예측 제곱 오차 평균을 구하겠다는 내용임

* 예제 : 하나의 데이터에 대해서 신경망의 가설함수 아웃풋과 실제 목표 변수가 다음과 같이 있다고 하자.

$$h_{W}(x^{(i)}) = \begin{bmatrix} 0.1 \\ 0.4 \\ 0.95 \\ 0.5 \\ 0.2 \\ 0.4 \\ 0.2 \\ 0.2 \\ 0.1 \\ 0.0 \end{bmatrix}, \quad y^{(i)} = \begin{bmatrix} 0 \\ 0 \\ 1 \\0 \\0 \\ 0\\ 0  \\0 \\ 0\\ 0\end{bmatrix}, \quad (h_w(x^{(i)})_k - y_k^{(i)})^2 = \begin{bmatrix} 0.01 \\ 0.16 \\ 0.0025 \\ 0.25 \\ 0.04 \\ 0.16 \\ 0.04 \\ 0.04 \\ 0.01 \\ 0 \end{bmatrix}$$

* 이렇게 하면 하나의 데이터데 대한 평균 제곱 오차를 구한 것이며, 이를 모든 학습 데이터에 대해서 반복하여 합하면 된다. 그리고 이를 총 데이터 개수와 출력층 뉴런의 개수로 나누어 주는 것이다.