5.7.4 오차역전파법을 사용한 학습 구현

In [10]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from mnist import load_mnist
from two_layer_net import TwoLayerNet

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

iters_num = 1000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]

    # 오차역전파법으로 기울기 연산
    grad = network.gradient(x_batch, t_batch)

    # 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]

    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)

    if i%iter_per_epoch == 0:
        train_acc = network.accuracy(x_test, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

ValueError: operands could not be broadcast together with shapes (3,10) (3,) 

5.8 정리
    - 모든 계층에서 forward, backward 메서드 구현
    - forward: 데이터를 순방향으로
    - backward: 데이터를 역방향으로 전파함으로써 가중치 매개변수의 기울기를 효과적으로 학습

    - 계산 그래프의 노드는 국소적 계산으로 구성되어 전체 계산 구성
    - 계산 그래프의 순전파는 통상의 계산 수행
    - 계산 그래프의 역전파는 각 노드의 미분 연산 가능

    - 수치 미분과 오차역전파법의 결과를 비교하여 구현의 오류를 발견할 수 있음