# 신경망 복습
- 시그모이드 함수에 대한 설명 [링크](https://velog.io/@metterian/%EB%8C%80%EC%B2%B4-%EC%8B%9C%EA%B7%B8%EB%AA%A8%EC%9D%B4%EB%93%9CSigmoid-%ED%95%A8%EC%88%98%EA%B0%80-%EB%AD%94%EB%8D%B0)

In [1]:
import numpy as np

In [2]:
# 시그모이드 함수 정의
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [3]:
x = np.random.randn(10, 2) # 10의 샘플 데이터, 데이터 한개에 입력이 2개 들억마
W1 = np.random.randn(2, 4)
b1 = np.random.randn(4)
W2 = np.random.randn(4, 3)
b2 = np.random.randn(3)

h = np.matmul(x, W1) + b1
a = sigmoid(h)
s = np.matmul(a, W2) + b2


여기서 $x$의 형상은 (10,2)이다. 2차원 데이터 10개가 미니배치로 처리된다는 뜻이다. 그리고 최종 출력인 $s$의 형상은 (10,3)이 된다.  
즉, 각 데이터는 **3차원** 데이터로 변환 되었다는 뜻이다. (10개의 데이터)

In [4]:
x

array([[-1.58092121, -0.82513827],
       [ 0.06871648,  0.80309211],
       [-1.79383287,  0.26074672],
       [-0.36632401, -1.18437086],
       [-0.72273923, -0.55746734],
       [ 0.5921558 ,  0.33383509],
       [-0.57090784, -0.21050217],
       [ 1.93359996,  1.89415545],
       [-0.51065796, -1.01660497],
       [-0.54290326, -1.3681997 ]])

In [5]:
s

array([[ 0.58068217, -1.75672898, -0.8693984 ],
       [ 1.16058176, -1.79280375, -1.06484197],
       [ 0.90635456, -1.5801317 , -1.04533034],
       [ 0.58339994, -1.96449277, -0.80039834],
       [ 0.71320792, -1.8359119 , -0.88185515],
       [ 0.99951332, -1.95961013, -0.96901566],
       [ 0.8230642 , -1.81510225, -0.92779118],
       [ 1.42071959, -1.93101837, -1.15147672],
       [ 0.60921949, -1.92484176, -0.81984863],
       [ 0.53797658, -1.95193275, -0.78659576]])

이렇게 신경망은 3차원 데이터를 출력한다. 따라서 각 차원의 값을 이용하여 3개의 클래스 분류를 할 수 있다. 이 경우, 출력된 3차원 벡터의 각 차원은 각 클래스에 대응하는 점수(score)가 된다.

| 1번째 클래스일 확률 | 2번째 클래스일 확률 | 3번째 클래스일 확률 |
| ------------------- | ------------------- | ------------------- |
| -1.16618845         | 1.83387914          | 1.21169264          |

### 1.2.2 계층으로 클래스화 및 순전파 구현
신경망의 계층(Layer)를 구현 해보자. 
> 순전파(Forward Propagation): 입력층에서 출력층으로 향하는 전파
역전파(Backward Propagatoin): 데이터(기울기)를 순전파와 반대 방향으로 전달

여기서는 각 계층을 모두 클래스 형태로 구현 할 것입니다. 본 포스팅에서는 계층을 구현할 때 다음과 같은 구현 규칙을 따르겠습니다.
- 모든 계층은 forward()와 backward() 메소드르 가진다.
- 모든 계층은 인스터든 변수인 params와 grads를 가진다  
  
params: 가중치와 편향 같은 매개변수를 저장  
grads: params에 저장된 각 매개변수에 대응하여, 해당 매개변수의 기울기를 보관

#### Sigmoid 계층 구현

In [6]:
class Sigmoid:
    def __init__(self):
        self.params = []
    def forward(self, x):
        return 1 / (1 + np.exp(-x))

#### Affine 계층 구현

In [7]:
class Affine:
    def __init__(self, W,b):
        self.params = [W,b] # 가중치와 편향 저장
        
    def forward(self, x):
        W,b = self.params
        out = np.matmul(x, W) + b
        return out

Affine 계층이 초기화 될때 무조건 가중치과 편향을 입력 받아 params 리스트에 저장한다. foward를 진행 할때 이 params에서 가중치와 편향을 가져와서 out을 출력 한다. 

이 번 포스팅에서 구현할 신경망의 구조는 다음 그림과 같다.

<img src="./images/fig1-11.png" width=600 />

In [8]:
class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size):
        I,H,O = input_size, hidden_size, output_size
        
        # 가중치, 편향 초기화
        W1 = np.random.randn(I, H)
        b1 = np.random.randn(H)
        W2 = np.random.randn(H, O)
        b2 = np.random.randn(O)
        
        
        # Layer Class 저장
        self.layers = [
            Affine(W1,b1),
            Sigmoid(),
            Affine(W2, b2)
        ]
        
        # 도는 가중치를 리스트에 모은다.
        self.params = []
        for layer in self.layers:
            self.params += layer.params
            
    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x

In [9]:
x = np.random.randn(10, 2)
model = TwoLayerNet(input_size = 2, hidden_size = 4, output_size = 3)
s = model.predict(x)

In [10]:
s

array([[-0.27015811, -0.4424734 ,  0.66313966],
       [-0.28848802, -0.62220867,  0.79751107],
       [-0.65262826, -2.05965159,  1.51541516],
       [-0.31645364, -0.95184501,  1.25626564],
       [-0.23625201, -0.43740492,  0.78999392],
       [-0.25103893, -0.73009047,  1.28059955],
       [-0.27479095, -0.83981107,  1.58098757],
       [-0.14574824,  0.02207983,  1.73395153],
       [-0.70407324, -1.62112377,  0.86720396],
       [-0.31683321, -1.01094901,  1.46840511]])

아까와 동일하게 클래스틀 통해 3개의 클래스의 대한 값을 얻을 수 있다.

## 1.3 신경망의 학습
학습을 통해 좋은 신경망을 만드는 것이 딥러닝의 목적입니다. 일반적으로 추론이란, 다중 클래스 분류등의 문제에 답을 구하는 작업입니다. 한편, 딥러닝에서의 학습은 최적의 매개 변수 값을 찾는 작업입니다. 

### 1.3.1 손실 함수
신경망 학습에서는 학습이 얼마나 잘 되고 있는지 알기 위한 '척도'가 필요합니다. 일반적으로 학습 단계의 특정 시점에서 신경망의 성능을 나타내는 척도로 **손실**(Loss)를 사용합니다.   

신경망의 손실은 **손실함수**(Loss function)을 사용해 구합니다. 특히, 분류 문제인 다중 클래스 문제(multi-class classification)문제에서는 **교차 엔트로피 오차**(Cross Entropy Error)를 사용합니다. 교차 엔트로피 오차는 딥러닝이 출력하는 각 클래스의 '확률'과 '정답 레이블'을 이용해 구할 수 있습니다.  

위 위에서 만든 딥러닝 계층에 Softmax 계층과 Cross Entropy Error 계층을 새로 추가합니다. (Softmax 계층은 소프트맥스 함수를, Cross Entropy Error 계층은 교차 엔트로피 오차를 구하는 계층입니다.) 구현 하고자 하는 신경망을 나타내면 다음 그림과 같습니다. 

<img src="./images/fig1-12.png" width=600/>

#### 소프트맥스 함수
소프트맥스 함수를 나타내면 다음과 같습니다. 

$$
y_k = \frac{exp(S_k)}{\sum_{i=1}^{n}exp(S_i)}
$$

위 식을 해석하면 출력이 총 $n$ 개일 때, $k$번째 출력 $y_k$를 구하는 계산식입니다.  $y_k$는 $k$번째 클래스에 속할 확률을 나타냅니다.  

소프트맥스 함수의 출력의 각 원소는 $0≤y_k≤1$의 법위 값을 갖습니다. 이 원소들을 모두 더하면 1.0이 됩니다. 즉, 소프트맥스를 통하면 확률로 해석이 가능해진다는 것이죠. 소프트맥스 함수를 통해 출력을 받으면 이는 바로 교차 엔트로피 오차 계층으로 들어가게 됩니다. 

#### 교차 엔트로피 오차
이때 교차 엔트로피 오차의 수식은 다음과 같습니다.

$$
L = -\sum_{k}t_klogy_k
$$

여기서 $t_k$는 $k$번째 클래스에 해당하는 정답 레이블(=[0,0,1]) 입니다. $log$는 네이피어 상수(혹은 오일러 수) $e$를 밑으로 하는 로그 입니다.   

나아가 미니배치를 고려하면 교차 엔트로피 오차의 식은 다음과 같습니다. 이 식에서 데이터는 $N$개이며, $t_nk$는 $n$번재 데이터의 $k$차원째의 값을 의미합니다. 그리고 $y_nk$는 신경망의 출력이고, $t_nk$는 정답 레이블 입니다. 

$$
L = -\frac{1}{N}\sum_{n}\sum_{k}t_klogy_k
$$

위 식에서는 $N$으로 나눠서 1개당 '**평균 손실 함수**'를 구합니다. 이렇게 평균을 구함으로써 미니배치의 크게이 관계없이 항상 일관된 척도를 얻을 수 있습니다. 

In [12]:
def croos_entropy_error(y, t):
    if n.dim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    # 정답 데이터가 원핫 벅터일 경우 정답 레이블 인덱스로 변환
    if t.size == y.size:
        t = t.argmax(axis=1)
        
    batch_size = y.shape[0]
    
    return - np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size



def softmax(x):
    if x.ndim == 2:
        x = x - x.max(axis=1, keepdims=True)
        x = np.exp(x)
        x /= x.sum(axis=1, keepdims=True)
        
    else x.ndim == 1:
        x = x - np.max(x)
        x = np.exp(x) / np.sum(np.exp(x))
    

class SoftmaxWithLoss:
    def __init__(self):
        self.params, self.grads = [], []
        self.y = None
        self.t = None
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        

In [32]:
np.max(np.arange(1,10).reshape(3,3), keepdims=0).ndim

0

In [37]:
-np.log(0.6)

0.5108256237659907

In [38]:
-np.log(0.1)

2.3025850929940455