In [1]:
from typing import Tuple, Callable

import numpy as np

### 1. 활성 함수(activation function)
$$sigmoid(\boldsymbol{x}) = \frac {1} {1 + e^{-\boldsymbol{x}}}$$
$$\sigma(\boldsymbol{z})_{i} = \frac {e^{z_{i}}} {\sum_{i=1} ^K e_{z_{i}}}$$

In [6]:
def sigmoid(x: np.ndarray) -> np.ndarray:
    return 1 / (1 + np.exp(-x))

def softmax(z: np.ndarray) -> np.ndarray:
    return np.exp(z) / np.sum(np.exp(z))

### 2. 신경망(neural network) 모델

In [19]:
class NeuralNetwork:
    def __init__(self, n_input: int, n_output: int, n_hidden: int) -> None:
        self.W2 = np.random.randn(n_input, n_hidden)  # he initialization
        self.b2 = np.random.randn(n_hidden)
        self.W3 = np.random.randn(n_hidden, n_output)
        self.b3 = np.random.randn(n_output)
        
    def forward(self, x: np.ndarray) -> np.ndarray:
        a1 = x
        z2 = a1 @ self.W2 + self.b2
        a2 = sigmoid(z2)
        z3 = a2 @ self.W3 + self.b3
        y = a3 = softmax(z3)
        return y

    def __call__(self, x: np.ndarray) -> np.ndarray:
        return self.forward(x)
    
    
model = NeuralNetwork(n_input=2, n_output=2, n_hidden=2)

### 3. 오차 함수 (error function, loss function)

주어진 수식만을 이용하여 CE(cross entropy) 오차 함수를 구현하시오. (구글링, 메인 교재 참고, 서브 강의 참고 금지)
- delta는 log의 진수 조건을 만족하기 위해 필요하므로 반드시 사용
- N은 데이터 개수 (행 개수)
- $y$는 정답(label) $\hat{y}$은 예측값(prediction)

$$CE = -\sum_{i=1} ^N (\boldsymbol{y_{i}} \cdot \log \boldsymbol{\hat{y_{i}}} + (1 - \boldsymbol{y_{i}}) \cdot \log (1 - \boldsymbol{\hat{y_{i}}}))$$

In [8]:
def cross_entropy_loss(y_data: np.ndarray, t_data: np.ndarray) -> np.ndarray:
    delta = 1e-4
    return -np.sum(t_data * np.log(y_data + delta) + (1 - t_data) * np.log((1 - y_data) + delta))

### 4. 활성함수 미분

메인 교재와 서브 강의를 이용하여 시그모이드(sigmoid) 함수를 미분하시오. (구글링 금지)

### 5. 오차역전파 (backpropagation)

메인 교재와 서브 강의 및 다음 수식을 참고하여 2번과 3번에 대한 오차역전파(backpropagation) 공식을 구하시오. (구글링 금지)

$$\frac {\partial sigmoid} {\partial \boldsymbol{z}} = sigmoid(\boldsymbol{z}) \cdot (1 - sigmoid(\boldsymbol{z}))$$

$$\frac {\partial \sigma} {\partial \boldsymbol{z}} = \sigma(\boldsymbol{z}) \cdot (1 - \sigma(\boldsymbol{z}))$$

a. $J(W^{(2)}) = \frac{dE} {dW^{(2)}} = \begin{pmatrix} 
\frac{\partial E} {\partial W^{(2)}_{11}} & \frac {\partial E} {\partial W^{(2)}_{21}} \\
\frac {\partial E} {\partial W^{(2)}_{12}} & \frac {\partial E} {\partial W^{(2)}_{22}} \end{pmatrix}$

b. $J(W^{(3)}) = \frac{dE} {dW^{(3)}} = \begin{pmatrix} 
\frac{\partial E} {\partial W^{(3)}_{11}} & \cdots & \frac {\partial E} {\partial W^{(3)}_{o1}} \\
\vdots & \ddots & \vdots \\ 
\frac {\partial E} {\partial W^{(3)}_{1m}} & \cdots & \frac {\partial E} {\partial W^{(3)}_{om}} \end{pmatrix}$

c. $J(\boldsymbol{b^{(2)}}) = \frac{dE} {d\boldsymbol{b^{(2)}}} = \begin{pmatrix} \frac{\partial E} {\partial b^{(2)}_{1}} \frac{\partial E} {\partial b^{(2)}_{2}} \end{pmatrix}$

d. $J(\boldsymbol{b^{(3)}}) = \frac{dE} {d\boldsymbol{b^{(3)}}} = \begin{pmatrix} \frac{\partial E} {\partial b^{(3)}_{1}} \frac{\partial E} {\partial b^{(3)}_{2}} \end{pmatrix}$