In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import axes3d
from matplotlib import cm
%matplotlib inline

# 손실함수

## 4.2.1 오차제곱합  
$E = {1 \over 2}\sum_{k}^{}{(y_{k}-t_{k})^2}$

In [None]:
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [None]:
def sum_squares_error(y, t):
    return 0.5 * np.sum((y-t)**2)

sum_squares_error(np.array(y), np.array(t))

## 4.2.2 교차 엔트로피 오차
$E = -\sum_{k}^{}{t_{k}logy_{k}}$

In [None]:
def cross_entropy_error(y, t):
    delta = 1e-7 # if y == 0: log(0) == -inf이기 때문
    return -np.sum(t*np.log(y+delta))

cross_entropy_error(np.array(y), np.array(t))

## 4.2.3 미니 배치 학습
모든 데이터 말고 일부를 추려 전체의 '근사치'로 학습하자.

In [None]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

print(x_train.shape)
print(t_train.shape)

In [None]:
train_size = x_train.shape[0]
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size) # 이는 데이터셋중 무작위 10개 추출위한 인덱스
x_batch = x_train[batch_mask]
t_batch = t_train[batch_mask]

## 4.2.4 교차 엔트로피 오차 구현  
$E = -{1 \over N} \sum_{n}^{}{\sum_{n}^{}{t_{nk}logy_{nk}}}$  

- one-hot encoding 되어있는 데이터일 때

In [None]:
def cross_entropy_error(y, t):
    delta = 1e-7
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    batch_size = y.shape[0]
    return -np.sum(t*np.log(y + delta)) / batch_size

cross_entropy_error(np.array(y),np.array(t))

- one-hot encoding 안되어있을 때(label-encoding)  
  
    t*np.log(y) 를 np.log(y[np.arange(batch_size), t] + 1e-7) 로 변경

In [None]:
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
def cross_entropy_error(y, t):
    delta = 1e-7
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t]+ delta)) / batch_size
cross_entropy_error(np.array(y),np.array(t))

## 4.2.5 왜 손실함수를 설정하는가?  
정확도를 지표로 삼는 다면 불연속적이기 때문에 미분이 불가능함. 그래서 미분이 가능한 손실함수를 지표로 사용해야한다.  

# 4.3 수치미분

## 4.3.1 미분

- 수치 미분

x 와 x+h인 지점에서의 평균 기울기를 의미

In [None]:
def numerical_diff(f,x):
    h = 1e-4
    return (f(x+h)-f(x))/h

위와 같은 코드는 float32자료형을 쓰는데 소수점 8자리까지 표현하지만, 너무 작은 수라 오차가 생긴다.

## 4.3.2 수치 미분의 예

$f(x) = 0.01x^2 + 0.1x$  
이를 미분해보자

In [None]:
def function_1(x):
    return 0.01*(x**2) + 0.1*x

In [None]:
x = np.arange(0.0, 20.0, 0.1)
y = function_1(x)

plt.xlabel('x')
plt.ylabel('y')
plt.plot(x,y)
plt.show()

$f'(x) = 0.02x+0.1$  
x 가 5, 10일 때 기울기 = 2,3 으로 아주 근사함을 확인 가능 

In [None]:
print(numerical_diff(function_1,5))
print(numerical_diff(function_1,10))

## 4.3.3 편미분

변수가 2개인 경우  
$f(x_{0},x_{1}) = x_{0}^{2} + x_{1}^{2}$

In [None]:
def function_2(x):
    return np.sum(x**2)

$x_{0} = 3, x_{1}=4$일 때 기울기를 구하라

In [None]:
def function_tmp1(x0): # x1 을 4로 고정
    return x0*x0 + 4.0**2.0
print(numerical_diff(function_tmp1,3.0))

def function_tmp2(x1): # x0 를 3으로 고정
    return 3.0**2.0 + x1*x1

print(numerical_diff(function_tmp2,4.0))

## 4.4기울기

편미분을 동시에 계산하자

In [None]:
def _numerical_gradient_no_batch(f,x): # 한개씩 계산 가능 배치 없이
    h = 1e-4
    grad = np.zeros_like(x) # 변수 개수만큼 배열 생성 기울기 벡터가 변수 개수만큼 가짐
    for idx in range(x.size):
        tmp_val = x[idx]
        
        x[idx] = tmp_val + h
        fxh1 = f(x) # f(x+h)
        x[idx] = tmp_val - h
        fxh2 = f(x) # f(x-h)
        
        grad[idx] = (fxh1-fxh2) / (2*h)
        x[idx] = tmp_val # 위에서 x 값을 변경했기 때문에 다시 원래값으로 복원
    return grad

def numerical_gradient(f, X):
    if X.ndim == 1:
        return _numerical_gradient_no_batch(f, X)
    else:
        grad = np.zeros_like(X)
        
        for idx, x in enumerate(X):
            grad[idx] = _numerical_gradient_no_batch(f, x)
        
        return grad
numerical_gradient(function_2,np.array([3.0,4.0]))

In [None]:
def function_2(x):
    if x.ndim == 1:
        return np.sum(x**2)
    else:
        return np.sum(x**2, axis=1)


def tangent_line(f, x):
    d = numerical_gradient(f, x)
    print(d)
    y = f(x) - d*x
    return lambda t: d*t + y

In [None]:
x0 = np.arange(-2, 2.5, 0.25)
x1 = np.arange(-2, 2.5, 0.25)
X, Y = np.meshgrid(x0, x1)

X = X.flatten()
Y = Y.flatten()

grad = numerical_gradient(function_2, np.array([X, Y]) )

plt.figure()
plt.quiver(X, Y, -grad[0], -grad[1],  angles="xy",color="#666666")
plt.xlim([-2, 2])
plt.ylim([-2, 2])
plt.xlabel('$x_0$')
plt.ylabel('$x_1$')
plt.grid()
plt.legend()
plt.draw()
plt.show()

## 4.4.1 경사하강법(Gradient Descent)

기울기를 이용하여 매개변수의 공간의 최소점을 찾자  
$x_{0} = x_{0} - \eta{\delta f \over \delta x_{0}}$  
$x_{1} = x_{1} - \eta{\delta f \over \delta x_{1}}$  
  
$\eta$ 는 얼마나 갱신할 지, 즉 Learning Rate * 지점에서의 기울기를 뺌으로서 갱신한다.    
learning rate의 경우 너무 크면 발산하게 되고 너무 작으면 수렴하지 못하는 문제점이 있다.

In [None]:
def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    
    for i in range(step_num):
        grad = numerical_gradient(f, x) # 스텝만큼 기울기 구함
        x -= lr*grad # x 갱신
    return x

In [None]:
def function_2(x):
    return x[0]**2 + x[1]**2

init_x = np.array([-3.0, 4.0])

gradient_descent(function_2, init_x)

In [None]:
init_x = np.array([-3.0, 4.0])
def gradient_descent_dr(f, init_x, lr=0.1, step_num=10):
    x = init_x
    tmp = []
    for i in range(step_num):
        tmp.append(x.copy())
        grad = numerical_gradient(f, x) # 스텝만큼 기울기 구함
        x -= lr*grad # x 갱신
    return x, np.array(tmp)
x, tmp = gradient_descent_dr(function_2, init_x)
plt.figure(figsize=(10,10))
plt.scatter(tmp[:,0],tmp[:,1],c=np.arange(len(tmp)))
plt.scatter(0.,0.,marker = '^',c = 'r',s=1000)
plt.grid()
plt.xlim(-5,5)
plt.ylim(-5,5)
plt.show()

## 4.4.2 신경망에서의 기울기  
$
W = \left( 
    \begin{matrix}  
            w_{11} & w_{12} & w_{13}\\
            w_{21} & w_{22} & w_{23}\\
    \end{matrix} 
    \right)  
$  
  
$
{\delta L \over \delta W}= \left( 
    \begin{matrix}  
            {\delta L \over \delta w_{11}} & {\delta L \over \delta w_{12}} & {\delta L \over \delta w_{13}}\\
            {\delta L \over \delta w_{21}} & {\delta L \over \delta w_{22}} & {\delta L \over \delta w_{23}}\\
    \end{matrix} 
    \right)
$  
  
$W$ 는 가중치 행렬, ${\delta L \over \delta W}$는 가중치의 편미분 행렬

In [None]:
import sys, os
sys.path.append(os.pardir)
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient

In [None]:
class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3) # w.shape(2,3) 정규분포로 초기화
        
    def predict(self, x):
        return np.dot(x,self.W)
    
    def loss(self,x,t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y,t)
        return loss
    
    def back_propagation(self,dW):
        self.W = self.W-dW

In [None]:
net = simpleNet()
print(net.W) # 가중치 행렬

x = np.array([0.6,0.9])
p = net.predict(x)
print('probability',p) # [1,2] * [2,3] = [1,3] 행렬 연산 shape

print(np.argmax(p))

t = np.array([0,0,1])
print(net.loss(x,t))

In [None]:
def f(W):
    return net.loss(x,t)
def pred(x):
    return np.argmax(net.predict(x))

dW = numerical_gradient(f,net.W)
print(dW)

In [None]:
net = simpleNet()
x = np.array([0.6,0.9])
t = np.array([0,0,1])
f = lambda w : net.loss(x,t)

for step in range(10):
    print('loss:',net.loss(x,t))
    dW = numerical_gradient(f,net.W)
    net.back_propagation(dW)
    
print('predict = ',pred(x))
print('real = ',np.argmax(t))

## 4.5.1 2층 신경망 클래스 구현하기

In [None]:
import sys, os
sys.path.append(os.pardir)
from common.functions import *
from common.gradient import numerical_gradient

$((input\_size , hidden\_size) + (hidden\_size)) \times (hidden\_size, output\_size) + (output\_size)$

In [None]:
class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size) # 난수로 (input x hidden 배열생성)
        self.params['b1'] = np.zeros(hidden_size)
        
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        
    def predict(self, x):
        # weight, bias
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
        
        # calc
        a1 = np.dot(x, W1) + b1 # first layer(Dense) , in TF layers.Dense(hidden_size)
        z1 = sigmoid(a1) # activation
        a2 = np.dot(a1,W2) + b2 # second layer(dense)
        y = softmax(a2)
        
        return y
    
    def loss(self, x, t):
        y = self.predict(x)
        
        return cross_entropy_error(y,t) # loss 
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        t = np.argmax(t, axis=1)
        
        acc = np.sum(y == t) / float(x.shape[0]) # y==t인 것들 합 / 데이터 개수
        return acc

    # back propagation을 위한 gradient dict, 수치미분을 이용한 계산
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads

In [None]:
# net = TwoLayerNet(784,512,10)

# from two_layer_net import TwoLayerNet
# net = TwoLayerNet(784,512,10)

## 4.5.2 미니배치 학습 구현하기

In [1]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet
import tqdm

In [None]:
# test data 사용안함

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

train_loss_list = []

iters_num = 1000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

for i in tqdm.tqdm(range(iters_num)):
    # 배치 추출
    batch_mask = np.random.choice(train_size, batch_size) # 배치로 사용할 인덱스들
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    grad = network.numerical_gradient(x_batch, t_batch) # 수치미분
#     grad = network.gradient(x_batch, t_batch) # 오차 역전파 성능 더 좋음
    
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate*grad[key] # 기울기만큼 파라미터 수정
        
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)

  0%|▏                                                                              | 3/1000 [01:12<6:47:59, 24.55s/it]

In [None]:
x = list(range(1, len(train_loss_list)+1))
plt.plot(x, train_loss_list)

## 4.5.3 시험 데이터로 평가하기

In [None]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

In [None]:
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
    # 배치 추출
    batch_mask = np.random.choice(train_size, batch_size) # 배치로 사용할 인덱스들
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    grad = network.numerical_gradient(x_batch, t_batch) # 수치미분
#     grad = network.gradient(x_batch, t_batch) # 오차 역전파 성능 더 좋음
    
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate*grad[key] # 기울기만큼 파라미터 수정
        
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print('train acc, test acc | '+ str(train_acc)+ ', '+str(test_acc))