In [1]:
import numpy as np

training_data = np.loadtxt('mnist_train.csv', delimiter = ",", dtype = np.float32)
test_data = np.loadtxt('mnist_test.csv', delimiter = ",", dtype = np.float32)

In [2]:
def sigmoid(x):
    return 1 / (1+np.exp(-x))

# 수치미분 함수
def numerical_derivative(f, x):
    delta_x = 1e-4 # 0.000
    grad = np.zeros_like(x) # x 크기의 어레이 선언 및 초기화
    
    it = np.nditer(x, flags = ['multi_index'], op_flags = ['readwrite'])
    
    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx] # x 바뀌기 때문에 저장해둠
        x[idx]= float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_x)
        
        x[idx] = tmp_val - delta_x
        fx2 = f(x) # f(x-delta_x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        x[idx] = tmp_val
        it.iternext()
        
    return grad

In [3]:
class NeuralNetwork:
    
    # 생성자
    def __init__(self, input_nodes, hidden_nodes, output_nodes):
        
        self.input_nodes = input_nodes     # input_nodes = 784
        self.hidden_nodes = hidden_nodes     # hidden_nodes = 100
        self.output_nodes = output_nodes     # output _nodes = 10
        
        # 2층 hidden layer unit
        # 가중치 W, 바이어스 b 초기화
        self.W2 = np.random.rand(self.input_nodes, self.hidden_nodes)      # W2 = (784 x 100)
        self.b2 = np.random.rand(self.hidden_nodes)                        # b2 = (100,)
        
        # 3층 output layer unit
        self.W3 = np.random.rand(self.hidden_nodes, self.output_nodes)     # W3 = (100 x 10)
        self.b3 = np.random.rand(self.output_nodes)                        # b3 = (10,)
        
        # Learning Rate 초기화
        self.learning_rate = 1e-4
        
    
    # feed forward 를 통하여 입력층부터 출력층까지 데이터 전달, 손실함수(cross-entropy) 값 계산
    def feed_forward(self):
        
        delta = 1e-7    # log 무한대 발산 방지
    
        z1 = np.dot(self.input_data, self.W2) + self.b2
        y1 = sigmoid(z1)
        
        z2 = np.dot(y1, self.W3) + self.b3
        y = sigmoid(z2)
    
        # cross-entropy 
        return  -np.sum( self.target_data*np.log(y + delta) + (1-self.target_data)*np.log((1 - y)+delta ) )    
    
    def loss_val(self):
        
        delta = 1e-7    # log 무한대 발산 방지
    
        z1 = np.dot(self.input_data, self.W2) + self.b2
        y1 = sigmoid(z1)
        
        z2 = np.dot(y1, self.W3) + self.b3
        y = sigmoid(z2)
    
        # cross-entropy 
        return  -np.sum( self.target_data*np.log(y + delta) + (1-self.target_data)*np.log((1 - y)+delta ) )    
    
    # input_data : 784개, target_data : 10개
    def train(self, training_data):
        
        # 0 ~ 1 사이 값으로 정규화(Nomalization)
        # 만약 정답이 5라면 index 5번째는 0.99, 나머지는 0.01로 정규화
        self.target_data = np.zeros(output_nodes) + 0.01
        self.target_data[int(training_data[0])] = 0.99
        
        # 입력 데이터가 0 ~ 255여서 overflow 발생 가능 -> 모든 입력 0 ~ 1로 정규화
        self.input_data = (training_data[1:] / 255.0 * 0.99) + 0.01
        
        f = lambda x : self.feed_forward()
        
        self.W2 -= self.learning_rate * numerical_derivative(f, self.W2)
    
        self.b2 -= self.learning_rate * numerical_derivative(f, self.b2)
        
        self.W3 -= self.learning_rate * numerical_derivative(f, self.W3)
    
        self.b3 -= self.learning_rate * numerical_derivative(f, self.b3)
   
    
    # query, 즉 미래 값 예측 함수
    def predict(self, xdata):
        
        z1 = np.dot(input_data, self.W2) + self.b2       
        y1 = sigmoid(z1)                               
        
        z2 = np.dot(y1, self.W3) + self.b3         
        y2 = sigmoid(z2)                      
    
        predicted_num = np.argmax(y)     # 가장 큰 값을 가지는 인덱스를 정답으로 인식
    
        return y, result
    
    # 정확도 측정함수
    def accuracy(self, test_data):
        
        matched_list = []
        not_matched_list = []
        
        for index in range(len(test_data)):
            
            label = int(test_data[index, 0])
            
            # Nomalization
            data = (test_data[index, 1:] / 255.0 * 0.99) + 0.01
            
            predicted_num = self.predict(data)
            
            if label == predicted_num:
                matched_list.append(index)
            else :
                not_matched_list.append(index)
                
        print("Current Acurracy =", 100*(len(matched_list)/len(test_data), " %"))
            
        return matched_list, not_matched_list

In [None]:
input_nodes = 784
hidden_nodes = 100
output_nodes = 10

nn = NeuralNetwork(input_nodes, hidden_nodes, output_nodes)

for step in range(30001):     # 전체 training data의 50%
    
    index = np.random.randint(0, len(training_data)-1)
    
    nn.train(training_data[index])
    
    print("step =", step, "loss_val =", nn.loss_val())

step = 0 loss_val = 143.77341309854825
step = 1 loss_val = 143.77341309854825
step = 2 loss_val = 143.77341309854825
