# Chapter 1 신경망 복습

## 1.1 수학과 파이썬 복습

### 1.1.1 벡터와 행렬

- 벡터: 크기와 방향을 가진 양, 숫자가 일렬로 늘어선 집합, 1차원 배열
- 행렬: 2차원 배열, 가로는 행, 서로를 열이라 한다.
- 텐서

실제는 열벡터 방식을 사용하지만 책에서는 구현의 편의성을 위해 행벡터 사용, N개의 원소로 이뤄진 벡터는 1XN 형상의 배열로 변환해서 사용

In [1]:
import numpy as np

In [2]:
x = np.array([1, 2, 3])
x.__class__

numpy.ndarray

In [3]:
x.ndim

1

In [4]:
W = np.array([[1,2,3], [4,5,6]])

In [5]:
W.shape

(2, 3)

In [7]:
W.ndim

2

### 1.1.2 행렬의 원소별 연산

In [8]:
W = np.array([[1,2,3], [4,5,6]])
X = np.array([[0,1,2], [3,4,5]])

In [9]:
W + X

array([[ 1,  3,  5],
       [ 7,  9, 11]])

In [10]:
W * X

array([[ 0,  2,  6],
       [12, 20, 30]])

### 1.1.3 브로드캐스트

In [11]:
A = np.array([[1, 2], [3, 4]])
A * 10

array([[10, 20],
       [30, 40]])

In [13]:
b = np.array([[10, 20]])

In [14]:
A * b

array([[10, 40],
       [30, 80]])

[브로드캐스트 규칙](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html)
1. 동일 차원의 원소 수가 같은 경우
2. 동일 차원의 원소 수 중 하나가 1인 경우

#### 브로드캐스트 예시

가능:  
A &nbsp; &nbsp; &nbsp; &nbsp; (3d array): &nbsp; 15 x 3 x 5  
B &nbsp; &nbsp; &nbsp; &nbsp; (2d array): &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3 x 1  
Result (3d array): &nbsp; 15 x 3 x 5

불가능:  
A &nbsp; &nbsp; &nbsp; &nbsp; (2d array): &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 2 x 1  
B &nbsp; &nbsp; &nbsp; &nbsp; (3d array): &nbsp; &nbsp; 8 x 4 x 3 

### 1.1.4 벡터의 내적과 행렬의 곱

#### 벡터의 내적

두 벡터에서 대응하는 원소를 곱한 후 모두 더한 것.  
두 벡터가 얼마나 같은 방향으로 향하는 지를 나타낸다.

#### 행렬의 곱

첫번째 행렬의 행벡터와 두번째 행렬의 열벡터의 내적으로 계산, 대응하는 행벡터와 열벡터의 원소 수는 동일해야한다.

In [15]:
# 벡터의 내적
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.dot(a, b)

32

In [16]:
# 행렬의 곱
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
np.matmul(A, B)    # np.dot(A, B)와 동일하지만 벡터 내적과 행렬 곱을 구분해주기 위해 np.matmul() 사용

array([[19, 22],
       [43, 50]])

[100 numpy exercises](https://github.com/rougier/numpy-100): 넘파이 연습문제

### 1.1.5 행렬의 형상 확인

행렬 곱에서 대응하는 차원의 원소 수가 같아야 한다. 행렬 A와 B를 곱해준다면 A의 두번째 차원의 원소 수는 B의 첫번째 차원의 수와 같아야 하고 결과 C의 형상은 (A의 첫번째 차원 X B의 두번째 차원)이 된다.

## 1.2 신경망의 추론

#### 신경망의 수행 작업
1. 학습
2. 추론

In [31]:
# 완전연결 계층 미니배치 버전
import numpy as np
W1 = np.random.randn(2, 4)    # 가중치
b1 = np.random.randn(4)       # 편향
x = np.random.randn(10, 2)    # 입력
h = np.matmul(x, W1) + b1

In [32]:
h

array([[-1.75352243e+00,  4.24643661e+00,  2.03992509e+00,
         9.77577881e-01],
       [-1.03525275e+00,  1.27013130e+00,  8.13523980e-01,
        -1.01917153e+00],
       [ 1.66648680e-01,  2.58566466e-03,  5.22586798e-01,
        -1.34561238e+00],
       [-9.63853539e-02,  4.45287071e+00,  2.56574712e+00,
         2.11420046e+00],
       [-2.91368005e+00,  5.08274564e+00,  2.13707562e+00,
         9.78265093e-01],
       [-2.42213353e-02,  1.63066525e+00,  1.24561275e+00,
        -1.35225754e-01],
       [-1.05379131e+00,  1.50876584e+00,  9.21938010e-01,
        -8.36241173e-01],
       [-1.77118875e+00,  3.08820382e+00,  1.48593311e+00,
         2.67655748e-02],
       [-1.57491701e-01, -1.52170125e-01,  3.65477789e-01,
        -1.66081237e+00],
       [ 6.20287095e-01, -6.04245293e-01,  3.51860504e-01,
        -1.57309586e+00]])

In [33]:
# 시그모이드 함수
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [34]:
# 활성화 함수에 의한 변환
a = sigmoid(h)

In [35]:
# 추론 과정 종합
import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.random.randn(10, 2)
W1 = np.random.randn(2, 4)
b1 = np.random.randn(4)
W2 = np.random.randn(4, 3)
b2 = np.random.randn(3)

h = np.matmul(x, W1) + b1
a = sigmoid(h)
s = np.matmul(a, W2) + b2

#### 계층 구현 규칙

1. 모든 계층은 forward(), backward() 메소드를 가진다.
2. 모든 계층은 인스턴스 변수인 params, grads를 가진다.

In [36]:
# 순전파만 구현: forward
import numpy as np

class Sigmoid:
    
    def __init__(self):
        # 시그모이드 계층은 학습할 매개변수가 없으므로 빈 리스트로 초기화
        self.params = []
        
        
    def forward(self, x):
        return 1 / (1 + np.exp(-x))
    

class Affine:
    
    def __init__(self, W, b):
        self.params = [W, b]
        
    
    def forward(self, x):
        W, b = self.params
        out = np.matmul(x, W) + b
        return out

In [40]:
# 입력-Affine-Sigmoid-Affine-점수
class TwoLayerNet:
    
    def __init__(self, input_size, hidden_size, output_size):
        I, H, O = input_size, hidden_size, output_size
        
        # 가중치와 편향 초기화
        W1 = np.random.randn(I, H)
        b1 = np.random.randn(H)
        W2 = np.random.randn(H, O)
        b2 = np.random.randn(O)
        
        # 계층 생성
        self.layers = [
            Affine(W1, b1),
            Sigmoid(),
            Affine(W2, b2)
        ]
        
        # 모든 가중치를 리스트에 모은다
        self.params = []
        for layer in self.layers:
            self.params += layer.params
            
    
    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        
        return x

In [41]:
x = np.random.randn(10, 2)
model = TwoLayerNet(2, 4, 3)
s = model.predict(x)

## 1.3 신경망의 학습

- 손실함수
- 오차역전파법

역전파의 계산그래프
- 곱셈 노드: 입력을 서로 바꾼 값을 상류의 기울기와 곱해준다
- 분기 노드: 복제 노드
- repeat 노드: 상류의 기울기를 모두 더해서 구한다.
- sum 노드: 상류의 기울기를 모든 화살표로 전파, repeat과 sum은 서로 반대 관계에 있는 노드
- matmul 노드: 행렬의 형상을 유지해주는 방식으로 다른 입력값을 transpose한 값을 상류의 기울기와 행렬곱 해준다.

In [42]:
# repeat 노드
import numpy as np

D, N = 8, 7

x = np.random.randn(1, D)
y = np.repeat(x, N, axis=0)

dy = np.random.randn(N, D)
dx = np.sum(dy, axis=0, keepdims=True)

In [43]:
# sum 노드
import numpy as np

D, N = 8, 7

x = np.random.randn(N, D)
y = np.sum(x, axis=0, keepdims=True)

dy = np.random.randn(1, D)
dx = np.repeat(dy, N, axis=0)

In [44]:
# matmul 노드
class MatMul:
    
    def __init__(self, W):
        self.params = [W]
        self.grads = [np.zeros_like(W)]
        self.x = None
        
    
    def forward(self, x):
        W, = self.params
        out = np.matmul(x, W)
        self.x = x
        
        return out
    
    
    def backward(self, dout):
        W, = self.params
        dx = np.matmul(dout, W.T)
        dW = np.matmul(self.x.T, dout)
        self.grads[0][...] = dW
        
        return dx

#### 얕은 복사와 깊은 복사

얕은 복사  
grads[0] = dW와 같은 형식으로 메모리를 가리키기만 한다. 값을 변경하면 같이 변경된다.

깊은 복사  
grads[0][...] = dW와 같은 형식, 데이터를 덮어씌워 한 쪽의 값이 변경되도 다른 쪽은 변경되지 않는다.

In [45]:
# 시그모이드 계층 역전파까지 구현
class Sigmoid:
    
    def __init__(self):
        self.params, self.grads = [], []
        self.out = None
        
        
    def forward(self, x):
        out = 1 / (1 + np.exp(-x))
        self.out = out
        
        return out
    
    
    def backward(self, dout):
        dx = dout * (1.0 - self.dout) * self.dout
        
        return dx

In [46]:
# Affine 계층 역전파까지 구현
class Affine:
    
    def __init__(self, W, b):
        self.params = [W, b]
        self.grads = [np.zeros_like(W), np.zeros_like(b)]
        self.x = None
        
    
    def forward(self, x):
        W, b = self.params
        out = np.matmul(x, W) + b
        self.x = x
        
        return out
    
    
    def backward(self, dout):
        W, b = self.params
        dx = np.matmul(dout, W.T)
        dW = np.matmul(self.x.T, dout)
        db = np.sum(dout, axis=0)
        
        self.grads[0][...] = dW
        self, grads[1][...] = db
        
        return dx

#### Softmax with Loss 계층

softmax 계층의 역전파  
출력과 정답레이블의 차: $y_i - t_i$