## 1.2 신경망의 추론
신경망에서 수행하는 작업은 두 단계로 나눌 수 있다. 이번 절에서는 '추론'에 집중해보자

In [1]:
# 완전연결계층에 의한 변환
# 미니배치를 적용한 예시

import numpy as np

W1 = np.random.randn(2, 4)  # 가중치
b1 = np.random.randn(4)     # 편향
x = np.random.randn(10, 2)  # 입력

# 입력노드가 2개일 때, 4개의 출력노드를 갖는 신경망
# (10, 2) -> (10, 2) x (2, 4) + (4) = (10, 4)

h = np.matmul(x, W1) + b1

In [4]:
print(x.shape)
print(x)

(10, 2)
[[ 0.96693241 -0.02815344]
 [ 1.34707481 -0.46435713]
 [ 0.60334194  0.92355497]
 [-1.22126792 -0.1603039 ]
 [-0.04535196  0.67409964]
 [-0.86934708  0.45223215]
 [-0.49676093  0.00206163]
 [ 0.56662034 -1.52395026]
 [-0.04539973 -0.09461   ]
 [ 0.96083142 -0.17576389]]


In [5]:
print(h.shape)

(10, 4)


In [6]:
print(h)

[[-2.40998083 -0.49736758 -1.10430266 -0.09364953]
 [-2.66759939 -0.4793049  -0.3929734  -0.72038846]
 [-2.36911973 -0.48202799 -3.22141159  1.11786253]
 [ 0.08932306 -0.76262406  1.9057381   0.48741976]
 [-1.54733631 -0.57349504 -1.76384308  1.04932676]
 [-0.54000855 -0.68388286 -0.16774919  1.07105614]
 [-0.78380111 -0.66756058  0.59029107  0.43085266]
 [-1.38684507 -0.63569432  3.40213664 -1.67252596]
 [-1.25167653 -0.6204084   0.30253843  0.16908045]
 [-2.34639071 -0.50709207 -0.70011763 -0.26063872]]


그런데 완전연결계층에 의한 변환은 '선형 변환'이다.

여기에 **'비선형 효과'**를 부여하는 것이 바로 **활성화함수(Activation Function)**이다.

비선형 활성화 함수를 이용함으로써 신경망의 표현력을 높일 수 있다. 이번 예제에서는 시그모이드 함수(Sigmoid Function)을 활성화 함수로 사용한다.

![Image of Sigmoid](https://www.researchgate.net/profile/Knut_Kvaal/publication/239269767/figure/fig2/AS:643520205430784@1530438581076/An-illustration-of-the-signal-processing-in-a-sigmoid-function.png)

시그모이드 함수는 임의의 실수를 입력받아 0에서 1사이의 실수를 출력한다.

* 시그모이드 함수 구현하기

In [7]:
# sigmoid function

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [8]:
a = sigmoid(h)
a

array([[0.08241477, 0.3781595 , 0.24893457, 0.47660471],
       [0.06491253, 0.38241628, 0.40300172, 0.32730745],
       [0.08555798, 0.38177336, 0.03836787, 0.75359202],
       [0.52231593, 0.31807683, 0.87053959, 0.61949841],
       [0.17547132, 0.36043075, 0.14630967, 0.7406456 ],
       [0.36818559, 0.33539524, 0.45816077, 0.74479771],
       [0.31350124, 0.33904328, 0.64343193, 0.60607726],
       [0.1999119 , 0.34622049, 0.96777124, 0.15808769],
       [0.22241006, 0.34968857, 0.57506294, 0.5421697 ],
       [0.08735309, 0.37587546, 0.33178615, 0.4352067 ]])

In [9]:
a.shape

(10, 4)

* 10개의 데이터를 갖는 2개의 입력노드가있다. 은닉층을 거쳐서 3개의 출력 노드를 갖는 완전신경망을 구현해보자

In [10]:
import numpy as np

# define sigmoid function
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Fully-connected Layer
x = np.random.randn(10, 2)
W1 = np.random.randn(2, 4)
b1 = np.random.randn(4)
W2 = np.random.randn(4, 3)
b2 = np.random.randn(3)

h1 = np.matmul(x, W1) + b1
a1 = sigmoid(h1)
h2 = np.matmul(a1, W2) + b2
print(h2)

h1_dot = np.dot(x, W1) + b1
a1_dot = sigmoid(h1_dot)
h2_dot = np.dot(a1_dot, W2) + b2
print(h2_dot)

print(h2 == h2_dot)

[[-0.51795082 -1.75524138 -3.89433186]
 [-0.3352913  -0.35151051 -4.36980344]
 [ 0.25931231 -0.09451576 -3.28232598]
 [-0.10334649 -1.87849782 -2.80223497]
 [ 0.44216298 -0.53821412 -2.3901712 ]
 [-0.65190302 -0.72343581 -4.68629951]
 [ 0.08865513 -0.78720629 -3.26749759]
 [-0.58274662 -1.72390954 -4.2648517 ]
 [ 0.28193041 -0.16954535 -3.18084949]
 [ 0.03755955  0.14269063 -4.03761042]]
[[-0.51795082 -1.75524138 -3.89433186]
 [-0.3352913  -0.35151051 -4.36980344]
 [ 0.25931231 -0.09451576 -3.28232598]
 [-0.10334649 -1.87849782 -2.80223497]
 [ 0.44216298 -0.53821412 -2.3901712 ]
 [-0.65190302 -0.72343581 -4.68629951]
 [ 0.08865513 -0.78720629 -3.26749759]
 [-0.58274662 -1.72390954 -4.2648517 ]
 [ 0.28193041 -0.16954535 -3.18084949]
 [ 0.03755955  0.14269063 -4.03761042]]
[[ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]]


np.dot()내적으로 계산한 값이나 np.matmul() matrix multiplication으로 계산한 값이나 결과는 같다. 

In [11]:
print(h2_dot.shape)

(10, 3)


**해석**<br>
입력 x의 형상은 (10, 2)이다. 이는 2차원 데이터 10개가 미니배치로 처리된다는 뜻이다.<br>
최종 출력인 s의 형상은 (10, 3)이 된다. 10개의 데이터가 한꺼번에 처리되어(미니배치) 3차원 데이터로 변환되었다는 뜻이다.

한편 위의 신경망은 3차원 데이터를 출력한다. 따라서 각 차원의 값을 이용하여 3클래스 분류를 할 수 있다.<br>
이 경우, 출력된 3차원 벡터의 각 차원은 각 클래스에 대응하는 '점수(score)'가 된다.

## 1.2.2 계층으로 클래스화 및 순전파 구현

이번 장에서는 신경망에의 처리를 계층(layer)로 구현해본다.<br>
Affine 계층, Sigmoid 계층 등을 구현한다.<br>
각 계층은 **파이썬 클래스로 구현**하며 기본 변환을 수행하는 메서드의 이름은 forward()로 한다.<br/>

* 모든 계층은 forward()와 backward() 메서드를 가진다.
* 모든 계층은 인스턴스 변수인 params와 grads를 가진다.

-forward()와 backward()는 각각 순전파와 역전파를 수행한다.<br>
-params는 가중치와 편향 같은 매개변수를 담는 리스트이다.<br>
-grads는 params에 저장된 각 매개변수에 대응하여, 해당 매개변수의 기울기를 보관하는 리스트이다.

### 순전파 구현하기
이번 절에서는 순전파만 구현할 것이므로 앞서 정의한 규칙 중 두 사항만 적용한다.<br>
* 첫째, 각 계층은 forward()메서드만 가진다.
* 둘째, 매개변수들은 params인스턴스 변수에 보관한다.

### #1. 시그모이드 함수 클래스 구현

In [12]:
# 구현하기
# 우선 Sigmoid계층부터 구현을 한다.

import numpy as np

class Sigmoid:
    def __init__(self):
        self.params = []  # Sigmoid 함수에서는 학습할 매개변수가 없기 때문에 빈 리스트가 저장된다.
        
    def forward(self, x):
        return 1 / (1 + np.exp(-x))

위에서 우리는 Sigmoid 함수를 클래스로 구현했다<br>
주 반환 처리는 forward(x)메서드가 담당한다.<br>
한편 Sigmoid 계층에서는 학습하는 매개변수가 따로 없으므로 인스턴스 변수인 params는 빈 리스트로 초기화한다.

### #2. Affine 계층 구현

In [15]:
class Affine:
    def __init__(self, W, b):
        self.params = [W, b]  # Affine계층은 가중치와 편향을 매개변수로 받는다.
                              # list인 params 인스턴스 변수에 가중치와 편향이 저장된다.
        
    def forward(self, x):  # forward()메서드는 순전파 처리를 구현한다.
        W, b = self.params
        out = np.matmul(x, W) + b
        return out

이번 예제에서는 입력 x가 Affine계층 -> Sigmoid계층 -> Affine 계층을 차례로 거쳐 점수인 s를 얻게 된다.<br>
이 신경망을 TwoLayerNet이라는 클래스로 추상화하고, 주 추론 처리는 predict(x)메서드로 구현한다.

![alt text](2-layer-network.PNG "TwoLayerNet")

앞으로는 위의 그림처럼 계층 관점에서 신경망을 표현하며 구현할 것이다.

### #3. TwoLayerNet 구현

In [18]:
class TwoLayerNet:
    
    # 초기화 메서드
    def __init__(self, input_size, hidden_size, output_size):
        I, H, O = input_size, hidden_size, output_size
        
        # 1. 가중치와 편향 초기화
        W1 = np.random.randn(I, H)  # (I, H)
        b1 = np.random.randn(H)     # (H)
        W2 = np.random.randn(H, O)  # (H, O)
        b2 = np.random.randn(O)     # (O)
        
        # 2. 계층 생성
        # 3개의 계층을 생성한다. 
        self.layers = [
            Affine(W1, b1),
            Sigmoid(),
            Affine(W2, b2)
        ]
        
        # 3. 모든 가중치를 리스트에 모은다.
        # 학습해야할 가중치 매개변수들을 params 리스트에 저장한다.
        self.params = []
        for layer in self.layers:
            self.params += layer.params
    
    # 추론 메서드 predict(x)
    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x

노드와 엣지로 부터 시작된 신경망을 계층으로 표현하고, 계층을 쌓아서 이렇게 아름다운 layer를 쌓을 수 있구나! 

TwoLayerNet 클래스를 이용해 신경망의 추론을 수행해보자

In [43]:
x = np.random.randn(10, 2)
model = TwoLayerNet(2, 4, 3)
s = model.predict(x)
s

array([[ 2.493504  ,  0.30873184, -0.45831549],
       [ 2.40062751,  0.35734057, -0.41455773],
       [ 2.56094171,  0.30904921, -0.49435139],
       [ 2.43633048, -0.18866437, -0.36408759],
       [ 2.74911524,  0.28769381, -0.59453653],
       [ 2.07424602,  0.73271601, -0.30743365],
       [ 2.26458466,  0.54492544, -0.37943449],
       [ 2.73110202,  0.12851387, -0.58847229],
       [ 2.34487776,  0.33967927, -0.26962542],
       [ 2.4008548 ,  0.24383621, -0.38656985]])

### 정리

In [45]:
import numpy as np

class Sigmoid:
    def __init__(self):
        self.params = []
    
    def forward(self, x):
        return 1 / (1 + np.exp(-x))
        
class Affine:
    def __init__(self, W, b):
        self.params = [W, b]
        
    def forward(self, x):
        W, b = self.params
        out = np.dot(x, W) + b
        return out

    
class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size):  # input node의 사이즈, hidden node의 사이즈, output node의 사이즈로 생각해보면 어떨까?
        I, H, O = input_size, hidden_size, output_size
        
        #1. 가중치와 편향 초기화
        W1 = np.random.randn(I, H)
        b1 = np.random.randn(H)
        W2 = np.random.randn(H, O)
        b2 = np.random.randn(O)
        
        #2. 3개의 계층 생성
        self.layers = [
            Affine(W1, b1),
            Sigmoid(),
            Affine(W2, b2)
        ]
        
        #3. 학습해야 할 가중치 리스트 저장
        self.params = []
        for layer in self.layers:
            self.params += layer.params
    
    # 추론 메서드
    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x
    
x = np.random.randn(10, 2)
model = TwoLayerNet(2, 4, 3)
s = model.predict(x)
s

array([[ 1.92936313,  1.81592209,  0.46067534],
       [ 2.16202546,  1.8668982 ,  0.76216333],
       [ 2.49347178,  2.34648163,  1.08957452],
       [ 2.85151413,  2.44173226,  1.02630831],
       [ 1.90330748,  2.24290409, -0.16376717],
       [ 2.68528544,  2.4434506 ,  1.08576007],
       [ 1.58891617,  1.58158574,  0.38762407],
       [ 1.97411161,  2.07629872,  0.25089728],
       [ 1.95862107,  1.81930577,  0.50127526],
       [ 2.07381279,  1.85443573,  0.65318318]])

Debugging하는데 애를썼네...;;<br>
디버깅은 Visual Studio를 통해 해야겠군...!(공부해야할게 하나 추가되었다...하하!)