# Chap01 - 신경망 복습

## 1.1 수학과 파이썬 복습

### 1.1.2 행렬의 원소별 연산

In [1]:
import numpy as np

In [2]:
W = np.array([[1, 2, 3], 
              [4, 5, 6]])
X = np.array([[0, 1, 2], 
              [3, 4, 5]])

In [3]:
W + X

array([[ 1,  3,  5],
       [ 7,  9, 11]])

In [4]:
# element-wise(point-wise)
W * X

array([[ 0,  2,  6],
       [12, 20, 30]])

### 1.1.3 브로드캐스트 (Broadcast)

- https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html

In [5]:
A = np.array([[1, 2], 
              [3, 4]])

A * 10

array([[10, 20],
       [30, 40]])

$$
\begin{bmatrix}
1 & 2 \\ 3 & 4
\end{bmatrix}
*
\begin{bmatrix}
10 & 20
\end{bmatrix}
= 
\begin{bmatrix}
1 & 2 \\ 3 & 4
\end{bmatrix}
*
\begin{bmatrix}
10 & 20 \\ 10 & 20
\end{bmatrix}
=
\begin{bmatrix}
10 & 40 \\ 30 & 80
\end{bmatrix}
$$

In [7]:
A = np.array([[1, 2], 
              [3, 4]])
b = np.array([10, 20])

A * b

array([[10, 40],
       [30, 80]])

### 1.1.4 벡터의 내적과 행렬의 곱

- $\mathbf{x} = (x_1, \dots, x_n)$, $\mathbf{y} = (y_1, \dots, y_n)$ 에 대하여, 백터의 내적은 두 벡터에서 대응하는 원소들의 곱을 모두 더한 것

$$
\mathbf{x} \cdot \mathbf{y} = \mathbf{x}^{T} \mathbf{y} = x_1y_1 + x_2y_2 + \cdots + x_ny_n
$$


> 벡터의 내적은 직관적으로 '두 벡터가 얼마나 같은 방향을 향하고 있는가'를 나타낸다. 벡터의 길이가 1이라고 가정하고, 두 벡터가 완전히 같은 방향이면 두 벡터의 내적은 1이 된다.

In [10]:
# 벡터의 내적
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

np.dot(a, b)

32

In [11]:
# 행렬의 곱
A = np.array([[1, 2], 
              [3, 4]])
B = np.array([[5, 6], 
              [7, 8]])

np.matmul(A, B)

array([[19, 22],
       [43, 50]])

In [12]:
np.dot(A, B)

array([[19, 22],
       [43, 50]])

> https://github.com/rougier/numpy-100

## 1.2 신경망의 추론

### 1.2.1 신경망 추론의 전체 그림

In [13]:
# Inpur -> hidden
W1 = np.random.randn(2, 4)  # 가중치
b1 = np.random.randn(4)
x = np.random.randn(10, 2)
h = np.matmul(x, W1) + b1  # b1 은 브로드캐스팅 됨

In [14]:
h

array([[-3.33462594,  1.83375388,  1.36724767, -0.78160224],
       [-3.31796424,  1.07546246,  0.98015921, -0.49495683],
       [-4.18341648,  1.1503361 ,  0.95845804, -0.80703702],
       [-2.72641124,  0.01163217,  0.47651541,  0.09384387],
       [-3.51206655,  1.12462725,  0.99186665, -0.57695321],
       [-3.22412013,  0.76790655,  0.82920093, -0.35008666],
       [-2.71258202, -0.89403187,  0.01377586,  0.43420399],
       [-3.68717149,  1.61922506,  1.2329531 , -0.81787355],
       [-3.10348124,  2.41349991,  1.68011143, -0.9206346 ],
       [-3.31372714,  1.33131827,  1.111451  , -0.58843528]])

- 비선형 변환 : 시그모이드 함수(sigmoid function)

$$
\sigma(x) = \frac{1}{1 + \exp{(-x)}}
$$

In [15]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [16]:
a = sigmoid(h)  # 활성화(activation)

a

array([[0.03440223, 0.86220831, 0.79693511, 0.31397467],
       [0.03496003, 0.74563434, 0.72713981, 0.37872656],
       [0.01501737, 0.7595723 , 0.72281297, 0.30852225],
       [0.06143276, 0.50290801, 0.6169247 , 0.52344376],
       [0.02897084, 0.75484601, 0.72945646, 0.35963396],
       [0.03826806, 0.68306787, 0.69618594, 0.41336141],
       [0.06223499, 0.29027849, 0.50344391, 0.60687709],
       [0.02443092, 0.83468823, 0.77433502, 0.30621523],
       [0.04296389, 0.91785096, 0.84291929, 0.28482861],
       [0.03510326, 0.79105861, 0.75239952, 0.35699395]])

In [17]:
a.shape

(10, 4)

In [18]:
# hidden -> output
W2 = np.random.randn(4, 3)
b2 = np.random.randn(3)

s = np.matmul(a, W2) + b2  # score 값

In [19]:
s

array([[-2.66883962e-01,  9.38922574e-02,  1.10333791e+00],
       [-8.67869189e-02,  2.39539933e-01,  9.92154210e-01],
       [-1.03642770e-01,  1.76227184e-01,  1.03129749e+00],
       [ 2.36378452e-01,  5.47614350e-01,  8.13989934e-01],
       [-9.82273246e-02,  2.17445018e-01,  1.00641342e+00],
       [ 1.05545234e-03,  3.16776467e-01,  9.44196857e-01],
       [ 5.38248858e-01,  7.85386036e-01,  6.62533868e-01],
       [-2.18709051e-01,  1.10956765e-01,  1.08457452e+00],
       [-3.72002672e-01,  2.47587644e-02,  1.17703439e+00],
       [-1.54103014e-01,  1.85832801e-01,  1.02917877e+00]])

### 1.2.2 계층으로 클래스화 및 순전파 구현 

- 완전연결계층(fully connected layer)에 의한 변환은 기하학에서의 아핀(Affine) 변환에 해당

In [30]:
import numpy as np

# 시그모이드(Sigmoid) 레이어 구현
class Sigmoid:
    '''Sigmoid Layer class
    
    Sigmoid layer에는 학습하는 params가 따로 없으므로 
    인스턴스 변수인 params는 빈 리스트로 초기화
    
    '''
    def __init__(self):
        self.params = []
    
    def forward(self, x):
        """순전파(forward propagation) 메서드
        Args:
            x(ndarray): 입력으로 들어오는 값
        Returns:
            Sigmoid 활성화 값
        """
        return 1 / (1 + np.exp(-x))

In [31]:
# 완전연결계층(Affine) 구현
class Affine:
    '''FC layer'''
    def __init__(self, W, b):
        """
        Args: 
            W(ndarray): 가중치(weight)
            b(ndarray): 편향(bias)
        """
        self.params = [W, b]
        
    def forward(self, x):
        """순전파(forward propagation) 메서드
        Args:
            x(ndarray): 입력으로 들어오는 값
        Returns:
            out(ndarray): Wx + b
        """
        W, b = self.params
        out = np.matmul(x, W) + b
        return out

<img src="./images/basic_nn.png" width="70%" height="70%" />

In [35]:
class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size):
        I, H, O = input_size, hidden_size, output_size
        
        # 가중치와 편향 초기화
        # input -> hidden
        W1 = np.random.randn(I, H)  
        b1 = np.random.randn(H)
         # hidden -> output
        W2 = np.random.randn(H, O) 
        b2 = np.random.randn(O)
        
        # 레이어 생성
        self.layers = [
            Affine(W1, b1),
            Sigmoid(),
            Affine(W2, b2)
        ]
        
        # 모든 가중치를 리스트에 모은다.
        self.parmas = [layer.params for layer in self.layers]
        # self.params = []
        # for layer in self.layers:
        #     self.params += layer.params
        
    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x

In [36]:
x = np.random.randn(10, 2)
model = TwoLayerNet(2, 4, 3)
s = model.predict(x)

In [34]:
s

array([[-2.37208419, -1.2272713 , -0.71600047],
       [-1.99217296, -1.11038922, -1.17477847],
       [-2.4097767 , -0.97492006, -1.02192888],
       [-2.11839519, -1.48960661, -0.51950315],
       [-2.18613271, -0.8669607 , -1.35818199],
       [-2.49563619, -0.91864415, -1.03032285],
       [-2.92241833, -1.28789096, -0.19786216],
       [-2.57245646, -0.69173756, -1.35170837],
       [-2.26468526, -0.77741298, -1.44616699],
       [-2.81967667, -0.84530049, -0.87213041]])

In [37]:
s

array([[-0.3557911 , -0.66037635, -0.3281263 ],
       [ 0.22745096, -0.14754727, -0.20193402],
       [ 0.42144866, -0.37246175, -0.43626679],
       [-0.49126246, -0.50797159, -0.20269287],
       [ 0.10785604, -0.58505229, -0.47976242],
       [-0.22429006, -0.41612883, -0.23535545],
       [-0.13092219, -0.60470566, -0.42340892],
       [ 0.65300882, -0.42005398, -0.51794339],
       [-0.29888822, -0.24882564, -0.11788807],
       [-0.31995078, -0.68040913, -0.3912852 ]])

## 1.3 신경망의 학습

### 1.3.1 손실 함수(Loss Function)

- 신경망의 성능을 나타내는 척도로 손실(loss)을 사용

- 신경망의 손실은 손실 함수를 사용해 구함 

- 다중 클래스 분류(multi-class classification)의 경우 **교차 엔트로피 오차**(CEE, Cross Entropy Error)를 사용


- Softmax 함수의 식은 다음과 같다. 
    - 즉 class가 $n$개 일 때, $k$ 번째 클래스의 확률 $y_k$ 를 구하는 식

$$
y_{k} = \frac{\exp{(s_k)}}{\sum_{i=1}^{n}{\exp{(S_i)}}}
$$


- Cross Entropy 식은 다음과 같다.
     - $t_k$는 $k$번째 클래스에 해당하는 정답 레이블
     - $\log$는 밑을 $e$로 하는 로그
     - 정답 레이블 $t_k$는 원-핫 벡터이기 때문에, 실질적으로 $1$에만 해당하는 인덱스만 계산 된다.

$$
\begin{align*}
L &- -\sum_{k}{\left[ t_k \log{y_k} + (1-t_k) \log{(1-y_k)}\right]} \\ 
&= - \sum_{k}{t_k \log{y_k}}
\end{align*}
$$

#### Softmax with Loss 레이어 

- 해당 교재에서는 소프트맥스 함수와 교차 엔트로피 오차를 계산하는 레이어인 `SoftmaxWithLoss` 클래스를 구현하여 사용한다.

- [밑바닥 부터 시작하는 딥러닝-1]의 5.6.3 에서 확인할 수 있다.

- `common/layer.py`에서 `SoftmaxWithLoss` 클래스를 확인할 수 있다.

![](./images/softmaxwitloss.png)