In [36]:
import numpy as np
import sys
sys.path.append("C:/Users/82103/Py_3_10/deep-learning-from-scratch")
from common.functions import *
from dataset.mnist import load_mnist
from common.gradient import numerical_gradient

In [3]:
# 사과 쇼핑 계산 그래프 예제에서 모든 계층을 각각 다른 class로 구현
# 곱셈 계층 구현
# 순전파 계산과 역전파 계산을 하는 함수를 가지고 있다
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        # 입력값을 객체의 멤버 변수로 저장 -> 역전파 시 사용
        self.x = x
        self.y = y
        
        out = x * y
        return out
    
    # dout은 다음 계층에서 건네받은 편미분값
    def backward(self, dout):
        # 두개의 입력 변수에 대한 각각의 편미분 값을 생성
        dx = dout * self.y
        dy = dout * self.x
        
        return dx, dy        

In [4]:
apple = 100 # 사과의 가격
apple_num = 2 # 사과의 개수
tax = 1.1 # 소비세

firstLayer = MulLayer()
secondLayer = MulLayer()

# forward계산
apple_price = firstLayer.forward(apple, apple_num)
price = secondLayer.forward(apple_price, tax)
print(price)

# backward계산
dprice = 1
dapple_price, dtax = secondLayer.backward(dprice)
dapple, dapple_num = firstLayer.backward(dapple_price)

print(dapple, dapple_num, dtax)

220.00000000000003
2.2 110.00000000000001 200


In [5]:
# 덧셈 계층 구현
class AddLayer:
    def __init__(self):
        pass
    
    # 덧셈 노드에서 역전파를 계산할 때 입력값 크게 영향 x
    def forward(self, x, y):
        out = x + y
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy
    

In [6]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

appleLayer = MulLayer()
orangeLayer = MulLayer()
addLayer = AddLayer()
taxLayer = MulLayer()

# forward계산
# 계산값을 다음층으로 순차적으로 넘겨주면서 계산
apple_price = appleLayer.forward(apple, apple_num)
orange_price = orangeLayer.forward(orange, orange_num)
sum_price = addLayer.forward(apple_price, orange_price)
price = taxLayer.forward(sum_price, tax)
print(price)

# backward계산
dprice = 1
dsum_price, dtax = taxLayer.backward(dprice)
dapple_price, dorange_price = addLayer.backward(dsum_price)
dapple, dapple_num = appleLayer.backward(dapple_price)
dorange, dorange_num = orangeLayer.backward(dorange_price)

print(dapple, dapple_num, dorange, dorange_num, dtax)

715.0000000000001
2.2 110.00000000000001 3.3000000000000003 165.0 650


In [23]:
# 활성화 함수의 계층 구현하기
# Relu함수
# 함수의 입력값이 <=0이면 0으로 출력해주는 특징이 있다.
class Relu:
    def __init__(self):
        self.mask = None
        
    def forward(self, x):
        # 넘파이의 마스킹 연산을 이용해서 입력 배열 중 0보다 작은 원소의 인덱스에는 True를 저장, 
        # 0보다 큰 원소의 인덱스에는 False를 저장한 마스크를 생성한다,
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0 # True인 부분 즉, 입력 배열의 원소 중 0보다 작은 부분을 0으로 만들어준다.
        return out
    
    # Relu함수를 편미분 했을 때 1 또는 0
    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout * 1 
        return dx
    

In [12]:
# Sigmoid함수
# 계산 그래프에서 세부 계층으로 나눈 뒤 역전파를 파악함에 주의
class Sigmoid:
    def __init__(self):
        self.out = None
        
    def forward(self, x):
        out = 1 / (1 + np.exp(-x))
        self.out = out # 순전파의 출력값 저장 -> 역전파에 사용하기 위함
        return out
    
    def backward(self, dout):
        dx = dout * (1 - self.out) * self.out
        return dx

In [9]:
# Affine 계층 구현 -> 행렬곱연산
# 배치용 Affine으로 구현하되 배치 수 N = 2라고 가정한다(데이터가 2개)
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
        
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        
        return out
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T) # self.W.T는 self.W의 transpose를 의미한다
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dx

In [19]:
# 출력층의 활성화함수인 Softmax함수와 loss함수를 한 계층으로 묶어서 생각
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None
        self.y = None
        self.t = None
        
    def forward(self, x, t):
        self.y = softmax(x)
        self.t = t
        self.loss = cross_entropy_error(self.y, t)
        
        return self.loss
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        
        return dx # 역전파 값을 담은 넘파이 배열 반환       

In [37]:
# 코드가 깔끔하진 않지만 gradient의 구현은 대략적으로 맞은듯??
class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
        self.params = {} # 파라미터들을 담을 딕셔너리 선언
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        self.hidden1_affine_layer = None
        self.hidden1_relu_layer = None
        self.hidden2_affine_layer = None
        self.last_layer = None
        
    # 정의해 두었던 계층을 이용한 순전파 처리    
    def predict(self, x):
        W1, b1, W2, b2 = self.params['W1'], self.params['b1'], self.params['W2'], self.params['b2']
        self.hidden1_affine_layer = Affine(W1, b1)
        self.hidden1_relu_layer = Relu()
        self.hidden2_affine_layer = Affine(W2, b2)
        
        a1 = self.hidden1_affine_layer.forward(x)
        z1 = self.hidden1_relu_layer.forward(a1)
        
        a2 = self.hidden2_affine_layer.forward(z1)
        y = softmax(a2)
        
        return y
    
    def loss(self, x, t):
        y = self.predict(x)
            
        return cross_entropy_error(y, t)
    
    # 수치 미분을 통한 기울기 연산
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads

        
    # 정의해 두었던 계층을 이용한 역전파 처리
    def gradient(self, x, t):
        grads = {}
        
        self.last_layer = SoftmaxWithLoss()
        y = self.predict(x)
        loss = self.last_layer.forward(y, t)
        
        dloss = self.last_layer.backward()
        da2 = self.hidden2_affine_layer.backward(dloss)
        
        grads['W2'] = self.hidden2_affine_layer.dW
        grads['b2'] = self.hidden2_affine_layer.db
        
        dz1 = self.hidden1_relu_layer.backward(da2)
        da1 = self.hidden1_affine_layer.backward(dz1)
        
        grads['W1'] = self.hidden1_affine_layer.dW
        grads['b1'] = self.hidden1_affine_layer.db
        
        return grads
        

In [38]:
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)
print(x_train.shape)

(60000, 784)


In [39]:
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)
x_batch = x_train[:3]
t_batch = t_train[:3]

grad_backprop = network.gradient(x_batch, t_batch)
grad_nu = network.numerical_gradient(x_batch, t_batch)

for key in grad_nu.keys():
    diff = np.average(np.abs(grad_backprop[key] - grad_nu[key]))
    print(key + ":" +str(diff))

NameError: name 'predict' is not defined