In [1]:
import numpy as np

# repeatノードの練習
D, N = 8, 7

# forwardの実装
# 1行データをN行データにする
# 1次元の配列を作成
x = np.random.randn(1, D)
print(x)
# 1次元データを1行のデータとして、これをN行データにする。
# 増えた行は1行データをコピーしたものを入れる
# axisを指定することでどの軸方向に複製するかを指定する。
y = np.repeat(x, N, axis=0)
print(y)

# backwardの実装
# N行データを1行データにする。
dy = np.random.randn(N, D)
# keepdims=Trueにすると、2次元配列の次元数を維持する。
# Trueだと(1,D)になる。Falesだと(D,)となる。
dx = np.sum(dy, axis=0, keepdims=True)


[[ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]]
[[ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]
 [ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]
 [ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]
 [ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]
 [ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]
 [ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]
 [ 0.2716913   0.31328554 -0.33179391  0.34225014 -0.20148623 -0.81429876
   1.52860886  1.69701163]]


In [2]:
# Sumノード

D, N = 8, 7
x = np.random.randn(N, D)
print(x)
y = np.sum(x, axis=0, keepdims=True)
print(y)

dy = np.random.randn(1, D)
dx = np.repeat(dy, N, axis=0)
print(dy)


[[-1.55112429  1.94546382  0.01693351 -0.40759367 -0.07287369 -1.57047863
  -0.41548384 -0.35526037]
 [ 0.39682276  0.7640211  -0.21745515  0.15166842 -0.78898379 -1.41786413
   1.01034943  0.12521147]
 [-0.67740824 -1.17617023  0.72255832  1.7014048  -1.36562217  1.6851131
  -1.30418126  1.35705874]
 [ 0.947782   -0.31486945 -0.6594238  -0.5162289   0.18278371  0.56466281
  -1.08844818  0.63771416]
 [-1.75597948 -0.18889256 -0.10846751  0.80069804  1.23564232 -0.38523916
   2.2398292   0.57629531]
 [ 1.83442896 -0.62676626  0.48121026  0.86738215  1.28155851  0.64308016
   1.0045709   0.22484296]
 [-0.08745612 -0.3653156   0.71374704  1.53317494 -0.34225107  0.3687522
  -0.96797894 -0.11917784]]
[[-0.89293442  0.03747081  0.94910268  4.13050579  0.13025381 -0.11197364
   0.4786573   2.44668442]]
[[ 0.42454909 -0.29515752  0.88010903  0.24197382  1.02841382 -0.53366261
  -0.18075845  2.5273183 ]]


In [3]:
class MuatMul:
    """行列の積を演算するノード
    """
    def __init__(self, W):
        self.params = [W]
        self.grads = [np.zeros_like(W)]
        self.x = None

    def forwrad(self, x):
        (W,) = self.params
        # 入力と重みの内積を演算
        out = np.dot(x, W)
        # backwardで使用するため入力ベクトルxを保存
        self.x = x
        return out

    def backward(self, dout):
        (W,) = self.params
        dx = np.dot(dout, W.T)
        dW = np.dot(self.x.T, dout)
        self.grads[0][...] = dW
        return dx


In [4]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
# aにbをコピーする。
# この処理はシャロ―コピー（浅いコピー）と呼ばれ、aはbが示すアドレスを参照するようになる。
# つまり、aの元アドレスは参照されなくなる。
a = b
print(a)


[4 5 6]


In [5]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
# a=bと同じ結果になるように見えるが
# この処理はディープコピー(深いコピー)と呼ばれ、aは元のアドレスを保持したまま値が上書きされる。
# aのアドレスを保持したままbの値で上書きしたい場合、このような処理を行う。
a[...] = b
print(a)


[4 5 6]


In [6]:
import sys

sys.path.append("..")  # 親ディレクトリのファイルをインポートするための設定
from dataset import spiral
from matplotlib import pyplot as plt


In [7]:
x, t = spiral.load_data()
print("x", x.shape)
print("t", t.shape)


x (300, 2)
t (300, 3)


In [8]:
from common.layers import Affine, Sigmoid, SoftmaxWithLoss


class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size):
        I, H, O = input_size, hidden_size, output_size
        # 重みとバイアスの初期化
        W1 = 0.01 * np.random.randn(I, H)
        b1 = np.zeros(H)
        W2 = 0.01 * np.random.randn(H, O)
        b2 = np.zeros(0)

        # レイヤーの生成
        self.layers = [Affine(W1, b1), Sigmoid(), Affine(W2, b2)]
        self.loss_layer = SoftmaxWithLoss()

        # 全ての重みと勾配をリストにまとめる
        self.params, self.grads = [], []
        for layer in self.layers:
            self.params += layer.params
            self.grads += layer.grads

    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x

    def forward(self, x, t):
        score = self.predict(x)
        loss = self.loss_layer.forward(score, t)
        return loss

    def backward(self, dout=1):
        dout = self.loss_layer.backward(dout)
        for layer in reversed(self.layers):
            dout = layer.backward(dout)
        return dout


In [13]:
from common.optimizer import SGD
from dataset import spiral
from ch01.two_layer_net import TwoLayerNet

max_epoch = 300
batch_size = 30
hidden_size = 10
learning_rate = 1.0

x, t = spiral.load_data()
model = TwoLayerNet(input_size=2, hidden_size=hidden_size, output_size=3)
optimizer = SGD(lr=learning_rate)

data_size = len(x)
# data_size=300
print(f"data size = {data_size}")
max_iters = data_size // batch_size
# max_iters=10
print(f"max iters = {max_iters}")
total_loss = 0
loss_count = 0
loss_list = []

# 300エポックループ
for epoch in range(max_epoch):
    # データのシャッフル
    # 引数で指定した数だけ、ランダムなインデックスを作成する
    idx = np.random.permutation(data_size)
    x = x[idx]
    t = t[idx]

    # 1エポックあたり10回ループ
    for iters in range(max_iters):
        # x,tはそれぞれ300個のデータが格納されている。
        # itersが1カウントアップされるごとに、30個ずつデータをミニバッチとして取り出す
        batch_x = x[iters * batch_size : (iters + 1) * batch_size]
        batch_t = t[iters * batch_size : (iters + 1) * batch_size]

        # ミニバッチ単位で学習を行う。
        loss = model.forward(batch_x, batch_t)
        model.backward()
        optimizer.update(model.params, model.grads)

        total_loss += loss
        loss_count += 1

        if (iters + 1) % 10 == 0:
            avg_loss = total_loss / loss_count
            print(
                "[epoch %d | iter %d / %d | loss %.2f"
                % (epoch + 1, iters + 1, max_iters, avg_loss)
            )
            loss_list.append(avg_loss)
            total_loss, loss_count = 0, 0


data size = 300
max iters = 10
[epoch 1 | iter 10 / 10 | loss 1.13
[epoch 2 | iter 10 / 10 | loss 1.13
[epoch 3 | iter 10 / 10 | loss 1.12
[epoch 4 | iter 10 / 10 | loss 1.12
[epoch 5 | iter 10 / 10 | loss 1.11
[epoch 6 | iter 10 / 10 | loss 1.14
[epoch 7 | iter 10 / 10 | loss 1.16
[epoch 8 | iter 10 / 10 | loss 1.11
[epoch 9 | iter 10 / 10 | loss 1.12
[epoch 10 | iter 10 / 10 | loss 1.13
[epoch 11 | iter 10 / 10 | loss 1.12
[epoch 12 | iter 10 / 10 | loss 1.11
[epoch 13 | iter 10 / 10 | loss 1.09
[epoch 14 | iter 10 / 10 | loss 1.08
[epoch 15 | iter 10 / 10 | loss 1.04
[epoch 16 | iter 10 / 10 | loss 1.03
[epoch 17 | iter 10 / 10 | loss 0.96
[epoch 18 | iter 10 / 10 | loss 0.92
[epoch 19 | iter 10 / 10 | loss 0.92
[epoch 20 | iter 10 / 10 | loss 0.87
[epoch 21 | iter 10 / 10 | loss 0.85
[epoch 22 | iter 10 / 10 | loss 0.82
[epoch 23 | iter 10 / 10 | loss 0.79
[epoch 24 | iter 10 / 10 | loss 0.78
[epoch 25 | iter 10 / 10 | loss 0.82
[epoch 26 | iter 10 / 10 | loss 0.78
[epoch 27 | iter