In [2]:
import sys, os
sys.path.append(os.pardir)  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
import numpy as np
from common.gradient import numerical_gradient
from collections import OrderedDict
from dataset.mnist import load_mnist


In [3]:
from common.functions import *
from common.util import im2col, col2im

#Relu 활성화함수
class Relu:
    def __init__(self):
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0

        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout

        return dx

#Sigmoid 활성화함수
class Sigmoid:
    def __init__(self):
        self.out = None

    def forward(self, x):
        out = sigmoid(x)
        self.out = out
        return out

    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out

        return dx

#Affine
#foward 와 back의 다차원 행렬로의 확장.
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        
        self.x = None
        self.original_x_shape = None
        # 가중치와 편향 매개변수의 미분
        self.dW = None
        self.db = None

    def forward(self, x):
        # 텐서 대응
        self.original_x_shape = x.shape
        x = x.reshape(x.shape[0], -1) # shape[0]와 행을 맞추고, 열은 알아서 맞게 변경
        self.x = x
        out = np.dot(self.x, self.W) + self.b

        return out

    #역전파
    def backward(self, dout):
        #dout이라는 전 미분값을 받으면..
        dx = np.dot(dout, self.W.T)      #  입력값의 미분값
                                         # 다음 깊이에서 dout이 될 수 있다.
        
        self.dW = np.dot(self.x.T, dout) # Weight의 미분값  !!중요,, weight의 행렬 shape가 같게 나온다,but task들의 개수만큼 미분값이 더해진다. 
                                         # x_T와 dout의 각 행과 열은  w = x*dS의 식에 맞는 짝인데, 행과 열 곱의 합이 dw에 들어간다. 즉 
                                         # batch의 각 원소들의 dw해당값이 모두 더해져버렸다. 평균을 내야 좀더 학습이 세밀하게 된다!
                                         # 그래서 처음 손실함수에서 받을때부터 batch만큼 값을 나누어서 준다!!
        
        self.db = np.sum(dout, axis=0)   # 편향에 대한 결과값 증가량은 전달받은 미분값만큼이다..
                                         #  현 노드에서 bias의 영향력, 편미분값은 1이기 때문에
                                         #  bias는 다음 노드들의 미분값만큼만 결과에 영향력을 행사할 수 있다 
                                         #  즉 1* dout 이 bias가 가지는 영향력(결과에 대한 미분값)이다.
                                         #  평균을 내기위해서 각 배치들의 미분 합 / 배치수를 하면맞다
                                         #  그래서 batch 차원을 기준으로 합!!,,bias는 노드 수 만큼만 있다. 노드수 = output 수
                                         #  처음 입력받을때 batch수만큼 나눴으므로 그냥 합해주면된다!!
                                         
        dx = dx.reshape(*self.original_x_shape)  # 입력 데이터 모양 변경(텐서 대응)
        return dx


#학습을 위해 마지막 결과의 차이 필요

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None # 손실함수
        self.y = None    # softmax의 출력
        self.t = None    # 정답 레이블(원-핫 인코딩 형태)
        
    # 순방향 출력시
    def forward(self, x, t):
        self.t = t
        #결과 값을 softmax로 출력하여 교차 엔트로피 오차 계산
        self.y = softmax(x) 
        self.loss = cross_entropy_error(self.y, self.t)
        return self.loss
    
    #역방향시
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        
        if self.t.size == self.y.size: # 정답 레이블이 원-핫 인코딩 형태일 때
            
            # 오차 만큼을 전달해준다.
            # softmax 함수의 손실함수가 cross-entropy일때 역전파는 y-t로 딱 떨어진다.
            # 안에서 batch들의 미분값들이 더해질 것이므로 평균을 위해서는, batch_size로 처음에 나누어준 값을 준다.
            
             # !! 데이터는 batch만큼 한번에 들어가지만 weight는 한개만 존재!!
            # 역전파 계산을 할때, w를 구하기위해 x인풋과 dout을 연산할 때 여러 데이터 미분값들의 합이 되어버린다 그래서 batch로 나눈다
            # dW = x_T * dout 이 될텐데 이때, x와 dout은 batch data만큼의 정보를 가지고 있다.
            # 행렬 곱시 x_T * dout의  x_T의 행과 dout의 열은 알맞는 x * dout 값 짝이며, W(행,열)에 그 미분값들의 합이 더해진다.
            # 그래서 평균을 내기 위해 batch만큼 나눈다!!
            
            # 데이터 한개당 오차로 넘겨주는 것!
            # 이 값을 굳이 batch_size로 나누지 않느다면
            # 나중에 learning rate를 낮춰줘야한다... (기울기를 얼만큼 이동할지의 비율)
            dx = (self.y - self.t) / batch_size
        else:
            dx = self.y.copy()
            dx[np.arange(batch_size), self.t] -= 1
            dx = dx / batch_size
        
        return dx




In [4]:
class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)#*np.sqrt(2/hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)#*np.sqrt(2/output_size) 
        self.params['b2'] = np.zeros(output_size)

        # 계층 생성
        self.layers = OrderedDict() #순서대로 Dict??
        
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])
        
        #마지막층은 SoftMax
        self.lastLayer = SoftmaxWithLoss()
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        
        return x
        
    # x : 입력 데이터, t : 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        if t.ndim != 1 : t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    # x : 입력 데이터, t : 정답 레이블
    # 수치적 미분
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads

    #오차역전파
    def gradient(self, x, t):
        # forward
        self.loss(x, t)

        # backward
        dout = 1
        #마지막 레이어에서는 1 미분값 전달.
        dout = self.lastLayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        
        #dx를 dout으로 전달받으며 역방향으로 전달하며
        # dW를 와 db를 구한다.
        # 모든 gradient를 담은 dict를 반환
        for layer in layers:
            dout = layer.backward(dout)

        # 결과 저장
        grads = {}
        grads['W1'], grads['b1'] = self.layers['Affine1'].dW, self.layers['Affine1'].db
        grads['W2'], grads['b2'] = self.layers['Affine2'].dW, self.layers['Affine2'].db

        return grads

In [5]:
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 기울기 계산
    #grad = network.numerical_gradient(x_batch, t_batch) # 수치 미분 방식
    grad = network.gradient(x_batch, t_batch) # 오차역전파법 방식(훨씬 빠르다)
    
    # 갱신
    # 각 W 와 b의 현재 기울기* rate만큼 빼준다.
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        print("loss",loss)
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

loss 2.301491603781489
0.0953 0.0897
loss 0.40037327134014106
0.9033666666666667 0.9068
loss 0.2646801438180453
0.9230666666666667 0.9277
loss 0.27794835364350007
0.9352333333333334 0.935
loss 0.12316523043259706
0.9448166666666666 0.9442
loss 0.2355077385633875
0.9507166666666667 0.9484
loss 0.10412939955084566
0.957 0.9545
loss 0.15079937549189318
0.9607333333333333 0.9562
loss 0.1803403776231497
0.9643833333333334 0.9588
loss 0.14602527549987285
0.9658666666666667 0.9614
loss 0.06472236917544485
0.9689833333333333 0.9622
loss 0.05147109798387797
0.9684166666666667 0.963
loss 0.04621437133770941
0.9733166666666667 0.9664
loss 0.18197303263254447
0.9748 0.9657
loss 0.13113794922163138
0.9766 0.9675
loss 0.09852479506485931
0.9761166666666666 0.9675
loss 0.12968902906985463
0.9780666666666666 0.9683
