수치 미분
- 경사법에서의 기울기(경사): 나아갈 방향의 기준값
- 미분: 한순간의 변화량을 표시한 것

In [None]:
# 미분 구현의 나쁜 예시

def numerical_diff(f, x):    # 수치 미분에서 따옴
    h = 1e-50
    return (f(x + h) - f(x)) / h

# 이 방식은 반올림 오차를 일으킨다 -> 작은 값이 생략되어 최종 계산 결과의 오차 발생

In [None]:
# 파이썬에서의 반올림 오차

np.float32(1e-50)    # 32비트 부동소수점

# 값이 0.0 이 되어 올바르게 표현 불가능

수치 미분에는 오차가 포함됩니다.
중심 차분(중앙 처분): x를 중심으로 그 전후의 차분을 계산한다는 의미

In [None]:
# 두 개선점을 적용해 수치 미분 구현

def numerical_diff(f, x):
    h = 1e-4                             # 0.0001 
    return (f(x+h) ー f(x-h)) / (2*h)

In [None]:
# 2차 함수

def function_1(x):
    return 0.01*x**2 + 0.1*x 

In [None]:
# 함수 그리기

import numpy as np 
import matplotlib.pylab as plt 

x = np.arange(0.0, 20.0, 0.1)    # 0에서 20까지 0.1 간격의 배열 x를 만든다(20은 미포함)
y = function_1(x) 
plt.xlabel("x") 
plt.ylabel("f(x)") 
plt.plot(x, y) 
plt.show()

# 미분 계산
numerical_diff(function_1, 5)
numerical_diff(function_1, 10)

In [None]:
# 편미분 파이썬 구현

def function_2(x):
    return x[0]**2 + x[1]**2    # 또는 return np.sum(x**2)

In [None]:
# 편미분 문제1

def function_tmp1(x0):
    return x0*x0 + 4.0**2.0

numerical_diff(function_tmp1, 3.0)

In [None]:
# 편미분 문제2

def function_tmp2(x1):
    return 3.0**2.0 + x1*x1

numerical_diff(function_tmp2, 4.0)

In [None]:
# 기울기: 모든 변수의 편미분을 백터로 정리한 것
# 기울기 구하기

def numerical_gradient(f, x):
    h = 1e-4 # 0.0001 
    grad = np.zeros_like(x) # x와 형상이 같은 배열을 생성 
    
    for idx in range(x.size):
        tmp_val = x[idx] 
        # f(x+h) 계산
        
        x[ idx] = tmp_val + h 
        fxh1 = f(x) 
        # f(x-h) 계산 
        
        x[idx] = tmp_val - h 
        fxh2 = f(x) 
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 값 복원 
        
    return grad


# 세 점 (3, 4), (0, 2), (3, 0)에서의 기울기를 구하기

numerical_gradient(function_2, np.array([3.0, 4.0]))
numerical_gradient(function_2, np.array([0.0, 2.0]))
numerical_gradient(function_2, np.array([3.0, 0.0]))

- 기울기 그림은 p.129의 그림처럼 방향을 가진 벡터(화살표)로 그려진다.
- 그림에서의 기울기는 가장 낮은 장소를 가리키지만, 실제는 반드시 그렇다고는 할 수 없다.
- 기울기 가 가리키는 쪽은 각 장소에서 함수의 출력 값을 가장 크게 줄이는 방향입니다.

경사법(경사 하강법)
: 매개변수 공간이 광대하여 어디가 최솟값이 되는 곳인지를 짐작할 수 없을 때 
  기울기를 잘 이용해 함수의 최솟값(또는 가능한 한 작은 값)을 찾으려는 것

In [None]:
# 경사 하강법 구현

def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    
    for i in range(step_num)
        grad = numerical_gradient(f, x)
        x -= lr * grad
    return x

In [None]:
# p.132 문제

def function_2(x):
    return x[0]**2 + x[1]**2

init _x = np.array([-3.0, 4.0])
gradient_desceent(function_2, init_x=init_x, 1r=0.1, step_num=100)


# 학습률이 너무 큰 예: lr=10.0 

init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x=init_x, lr=10.0, step_num=100)


# 학습률이 너무 작은 예: lr=1e-10 

init_x = np.array([-3.0, 4.0]) 
gradient_desceent(function_2, init_x=init_x, lr=1e-10, step_num=100)

In [None]:
# 기울기를 구하는 코드

import sys, os 
sys.path.append(os.pardir) 
import numpy as np f
rom common.functions import softmax, cross _entropy_error 
from common.gradient import numerical_gradient

class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3) # 정규분포로 초기화
        
    def predict(self, x):
        return np.dot(x, self.W)
    
    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)
        
        return loss

In [None]:
net = simpleNet()
print(net.W)    # 가중치 매개변수

x = np.array([0.6, 0.9])
p = net.predict(x)
print(p)

np.argmax(p)    # 최댓값의 인덱스

t = np.array([0, 0. 1])    # 정답 레이블
net.loss(x, t)

In [None]:
def f(W):
    return net.loss(x, t) 

dW = numerical_gradient(f, net.W) 
print(dW)

In [None]:
f = lambda w: net.loss(x, t)
dW = numerical_gradient(f, net.W)

학습 알고리즘 구현하기


- 전제
신경망에는 적응 가능한 가중치와 편향이 있고, 이 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정 을 '학습'이라 합니다. 신경망 학습은 다음과 같이 4단계로 수행합니다. 

- 1단계 - 미니배치 
훈련 데이터 중 일부를 무작위로 가져옵니다. 이렇게 선별한 데이터를 미니배치라 하며, 그 미니배치의 손실 함수 값을 줄이는 것이 목표입니다.

- 2단계 - 기울기 산출 
미니배치의 손실 함수 값을 줄이기 위해 각 가중치 매개변수의 기울기를 구합니다. 기울기는 손실 함수의 값 을 가장 작게 하는 방향을 제시합니다. 

- 3단계 - 매개변수 갱신 
가중치 매개변수를 기울기 방향으로 아주 조금 갱신합니다.

- 4단계 - 반복 
1~3단계를 반복합니다.


이는 경사 하강법으로 매개변수를 갱신하는 방법 이며, 이때 데이터를 미니배치로 무작위로 선정하기 때문에 '확률적 경사 하강법' 이라고 부른다. 

In [None]:
# 2층 신경망 클래스 구현

import sys, os 
sys.path, append(os.pardir) 
from common. functions impor *
from common.gradient import numerical _gradient 

class TwoLayerNet:
    def__init__(self, input_size, hidden_size, output_size, weight _init_std=0.01):
        # 가중치 초기화 
        self. params = {}
        self params['W1'] = weight_init_std *
                            np.random.randn(input _size, hidden_size) 
        self.params ['b1'] = np.zeros(hidden size) 
        self.params ['W2'] = weight_init_std *
                             np.random.randn(hidden _size, output_size) 
        self.params['b2'] = np.zeros(output_size)
        
    def predict(self, x):
        W1 , W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2'] 
        
        a1 = np.dot(x, W1) + b1 
        z1 = sigmoid(a1) 
        a2 = np.dot(z1, W2) + b2 
        y = softmax(a2) 
        return y 
    
    # x: 입력 데이터, t: 정답 레이블 
    def loss(self, x, t): 
        y = self.predict(x) 
        
        return cross_entropy_error(y, t) 
    
    def accuracy(self, x, t): 
        y = self.predict(x) 
        y = np.argmax(y, axis=1) 
        t = np.argmax(t, axis=1) 
        
        accuracy = np.sum(y == t) / float(x.shape[0]) 
        return accuracy 
    
    # x: 입력 데이터, t: 정답 레이블 
    def numerical_gradient(self, x, t): 
        loss_W = lambda_W: self.loss(x, t) 
            
        grads = {} 
        grads['W1'] = numerical_gradient(loss _W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss _W, self.params['b1']) 
        grads['W2'] = numerical_gradient(loss_W, self.params['W2']) 
        grads['b2'] = numerical_gradient(loss_W, self.params['b2']) 
        
        return grads

params: 신경망의 매개변수를 보관하는 딕셔너리 변수(인스턴스 변수) 

grads: 기울기 보관하는 딕셔너리 변수(numerical_ gradient0 메서드의 반환 값)

__init__(self, input_size, hiden_size, output_size): 초기화를 수행한다. 
인수는 순서대로 입력층의 뉴런 수, 은닉층의 뉴런 수, 출력층의 뉴런 수 

predict(self, x): 예측(추론)을 수행한다. 
인수 x는 이미지 데이터 

loss(self, x, t): 손실 함수의 값을 구한다. 
인수 x는 이미지 데이터, t는 정답 레이블(아래 칸의 세 메서드의 인수들도 마찬 가지) 

accuracy(self,x, t): 정확도를 구한다. 

numerical_gradient(self, x, t): 가중치 매개변수의 기울기를 구한다. 

gradient(self, x, t): 가중치 매개변수의 기울기를 구한다.

In [None]:
net = TwoLayerNet(irput_size=784, hidden_size=100, output_size=10) 
net.params['W1'].shape    # (784, 100) 
net.params['b1'].shape    # (100,) 
net.params['W2'].shape    # (100, 10) 
net.params['b2'].shape    # (10,)

In [None]:
x = np.random.rand(100, 784)    # 더미 입력 데이터(100장 분량) 
y = net.predict(x)

In [None]:
x = np.random.rand(100, 784)    # 더미 입력 데이터(100장 분량) 
t = np.random.rand(100, 10)    # 더미 정답 레이블(100장 분량) 

grads = net.numerical_gradient(x, t)    # 기울기 계산 

grads['W1'].shape    # (784, 100) 
grads['b1'].shape    # (100,) 
grads['W2'].shape    # (100, 10) 
grads['b2'].shape    # (10,)

In [None]:
# 시험 데이터로 평가하기 구현

import numpy as np 
from dataset.mnist import load_mnist 
from two_layer_net import TwoLayerNet 
(x_train, t_train), (x_test, t_test) =  
   load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10) 

# 하이퍼파라미터 
iters_num = 10000    # 반복 횟수 설정 
train_size = x_train.shape[0] 
batch_size = 100    # 미니배치 크기
learning_rate = 0.1 

train_loss_list = [] 
train_acc_list = [] 
test_acc_list = [] 

# 1에폭당 반복 수 
iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num): 
    # 미니배치 획득 
    batch_mask = np.random.choice(train_size, batch_size) 
    x_batch = x_train[batch_mask] 
    t_batch = t_train[batch_mask] 
    
    # 기울기 계산 
    grad = network.numerical_gradient(x_batch, t_batch) 
    # grad = network.gradient(x_batch, t_batch) # 성능 개선판! 
    
    # 매개변수 갱신 
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key] 
    
    # 학습 경과 기록 
    loss = network.loss(x_batch, t_batch) 
    train_loss_list.append(loss)
    
    # 1에폭당 정확도 계산 
    if i % iter_per_epoch == 0 : 
        train_acc = network.accuracy(x_train, t_train) 
        test_acc = network.accuracy(x_test, t_test) 
        train_acc_list.append(train_acc) 
        test_acc_list.append(test_acc) 
        print("train acc, test acc I " + str(train_acc) +  ", " + str(test_acc))