# Chapter 1. 신경망복습
## 수학과 파이썬 복습

In [1]:
# 벡터와 행렬
import numpy as np

x = np.array([1,2,3])
x.__class__ # 클래스 이름 표기

numpy.ndarray

In [2]:
x.shape

(3,)

In [6]:
x.ndim #1차원 배열이고 원소 수 3개인 벡터

1

In [7]:
W = np.array([[1,2,3],[4,5,6]])

In [8]:
W.shape

(2, 3)

In [9]:
W.ndim

2

In [11]:
#행렬의 원소별(element-wise) 연산
W = np.array([[1,2,3],[4,5,6]])
X = np.array([[0,1,2],[3,4,5]])
W+X

array([[ 1,  3,  5],
       [ 7,  9, 11]])

In [12]:
W*X

array([[ 0,  2,  6],
       [12, 20, 30]])

In [13]:
# 브로드캐스트
A = np.array([[1,2],[3,4]])
A*10

array([[10, 20],
       [30, 40]])

In [15]:
b = np.array([10,20])
A*b

array([[10, 40],
       [30, 80]])

In [17]:
# 벡터의 내적과 행렬의 곱
#벡터의 내적
a = np.array([1,2,3])
b = np.array([4,5,6])
np.dot(a,b)

32

In [18]:
#행렬의 곱
A = np.array([[1,2],[3,4]])
B = np.array([[5,6],[7,8]])
np.matmul(A,B)

array([[19, 22],
       [43, 50]])

* 물론 둘다 np.dot() 가능하나 코드 상 분리해주어 의도를 명확히 하라!
* 행렬 형상 확인도 중요하다.

## 신경망의 추론
### 신경망 추론 전체 그림

In [20]:
# 완전연결계층에 의한 변환 미니배치 버전
import numpy as np
W1 = np.random.randn(2,4) #가중치
b1 = np.random.randn(4) # 편향
x = np.random.randn(10,2) # 입력
h = np.matmul(x, W1) + b1
# 이를 비선형 효과 부여하는 것이 시그모이드입니다.

In [21]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [22]:
a = sigmoid(h)

In [25]:
# 신경망의 추론 정리
import numpy as np
def sigmoid(x):
    return 1 / (1+np.exp(-x))

x = np.random.randn(10,2)
W1 = np.random.randn(2,4)
b1 = np.random.randn(4)
W2 = np.random.randn(4,3)
b2 = np.random.randn(3)

h = np.matmul(x, W1) + b1
a = sigmoid(h)
s = np.matmul(a, W2) + b2

In [26]:
print(s)

[[ 0.22070427  0.32307613 -1.20986535]
 [ 0.52263912 -0.15912166 -0.68624819]
 [ 0.59003801  0.05614804 -0.83803558]
 [ 0.14413684  0.54482023 -1.3760161 ]
 [ 0.52064946 -0.40946672 -0.58298002]
 [ 0.25810473  0.60267809 -1.32834165]
 [ 0.10706905  0.70880746 -1.40915585]
 [ 0.54234954 -0.05454548 -0.75123151]
 [ 0.30853025  0.12010321 -1.00253962]
 [ 0.5450725  -0.32357665 -0.60411009]]


In [27]:
#계층 클래스화 및 순전파 구현
#sigmoid

import numpy as np

class Sigmoid:
    def __init__(self):
        self.params = [] #학습할 매개변수 없으니 빈 것이다.
        
    def forward(self, x):
        return 1 / (1+np.exp(-x))


In [28]:
class Affine:
    def __init__(self, W, b):
        self.params = [W, b]
        
    def forward(self, x):
        W, b = self.params
        out = np.matmul(x, W) + b
        return out

In [29]:
class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size):
        I, H, O = input_size, hidden_size, output_size
        
        # 가중치와 편향 초기화
        W1 = np.random.randn(I, H)
        b1 = np.random.randn(H)
        W2 = np.random.randn(H, O)
        b2 = np.random.randn(O)
        
        # 계층 생성
        self.layers = [
            Affine(W1, b1),
            Sigmoid(),
            Affine(W2, b2)
        ]
        
        # 모든 가중치를 리스트에 모은다.
        self.params = []
        for layer in self.layers:
            self.params += layer.params
            
    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x
        

In [31]:
a = ['A', 'B']
a += ['C', 'D']
a# 파이썬에서 리스트 결합방식

['A', 'B', 'C', 'D']

In [32]:
x = np.random.randn(10,2)
model = TwoLayerNet(2,4,3)
s = model.predict(x)

## 신경망의 학습
### 손실 함수
* 다중 클래스 분류 : 교차 엔트로피 오차
### 미분과 기울기
### 연쇄 법칙
### 계산 그래프
* 덧셈 노드
* 곱셈 노드
* 분기 노드
* Repeat 노드

In [33]:
import numpy as np
D, N = 8,7
x = np.random.randn(1, 0)
y = np.repeat(x, N, axis=0)
dy = np.random.randn(N, D) # 무작위 기울기
dx = np.sum(dy, axis = 0, keepdims = True)

In [35]:
# Sum 노드
import numpy as np
D, N = 8,7
x = np.random.randn(N, D) # 입력
y = np.sum(x, axis = 0, keepdims= True)

dy = np.random.randn(1, D)
dx = np.repeat(dy, N, axis=0) # 역전파 기울기

Sum 노드의 순전파 = Repeat 노드의 역전파  
Sum 노드의 역전파 = Repeat 노드의 순전파

In [37]:
#MatMul 노드
class MatMul:
    def __init__(self, W):
        self.params = [W]
        self.grads = [np.zeros_like(W)]
        self.x = None
        
    def forward(self, x):
        W, = self.params #???
        out = np.matmul(x, W)
        self.x = x
        return out
    
    def backward(self, dout):
        W, = self.params
        dx = np.matmul(dout, W.T)
        dW = np.matmul(self.x.T, dout)
        self.grads[0][...] = dW #[...]으로 생략 기호를 활용하면, 넘파이 뱅려이 가리키는 메모리 위치를 고정시킨 후 그 위치에 원소를 덮는다.
        return dx

In [38]:
a = np.array([1,2,3])
b = np.array([4,5,6])

In [39]:
#sigmoid 계층
class Sigmoid:
    def __init__(self):
        self.params, self.grads = [],[]
        self.out = None
        
    def forward(self, x):
        out = 1 / (1+ np.exp(-x))
        self.out = out
        return out
    
    def backward(self, dout):
        dx = dout * (1.0 - xelf.out) * self.out
        return dx

In [40]:
#Affine
class Affine:
    def __init__(self, W, b):
        self.params = [W,b]
        self.grads = [np.zeros_like(W), np.zeros_like(b)]
        self.x = None
        
    def forward(self, x):
        W, b = self.params
        out = np.matmul(x, W) + b
        self.x = x
        return out
    
    def backward(self, dout):
        W, b = self.params
        dx = np.matmul(dout, W.T)
        dW = np.matmul(self.x.T, dout)
        db = np.sum(dout, axis = 0)
        
        self.grads[0][...] = dW
        self.grads[1][...] = db
        return dx

In [43]:
# 가중치 갱신
# 미니배치, 기울기 계산, 매개변수 갱신, 반복

class SGD:
    def __init__(self, lr=0.01): #초기화 학습률
        self.lr = lr
        
    def update(self, params, grads): #매개변수 갱신
        for i in range(len(params)):
            params[i] -= self.lr * grads[i]

    model = TwoLayerNet(...)
    optimizer = SGD()

    for i in range(10000):
        ...
        x_batch, t_batch = get_mini_batch(...) #미니배치 획득
        loss = model.forward(x_batch, t_batch)
        model.backward()
        optimizer.update(model.params, model.grads)
        ...

## 신경망으로 문제를 풀다
### 스파이럴 데이터셋

In [45]:
#스파이럴 데이터셋
import sys
sys.path.append('..') #부모 디렉터리 파일 가져오도록 설정
from dataset import spiral
import matplotlib.pyplot as plt

x, t = spiral.load_data()
print('x', x.shape)
print('t', t.shape)

x (300, 2)
t (300, 3)


In [46]:
# 신경망 구현
import sys
sys.path.append('..')
import numpy as np
from common.layers import Affine, Sigmoid, SoftmaxWithLoss

class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size):
        I, H, O = input_size, hidden_size, output_size
        
        # 가중치와 편향 초기화
        W1 = 0.01 * np.random.randn(I, H)
        b1 = np.zeros(H)
        W2 = 0.01 * np.random.randn(H, O)
        b2 = np.zeros(O)
        
        #계층 생성
        self.layers = [
            Affine(W1, b1),
            Sigmoid(),
            Affine(W2, b2)
        ]
        self.loss_layer = SoftmaxWithLoss()
        
        # 가중치, 기울기를 리스트에 모으기
        self.params, self.grads = [], []
        for layer in self.layers:
            self.params += layer.params
            self.grads += layer.grads

In [47]:
# predict 메서드
def predict(self, x):
    for layer in self.layers:
        x = layer.forward(x)
        return x
    
def forward(self, x, t):
    score = self.predict(x)
    loss = self.loss_layer.forward(Score, t)
    return loss

def backward(self, dout=1):
    dout = self.loss_layer.backward(dout)
    for layer in reversed(Self.layers):
        dout = layer.backward(dout)
    return dout

In [None]:
# 학습용 코드
