# Common以下のコード補足

In [1]:
import sys
sys.path.append('..')
import numpy as np
from common.time_layers import RNN

***
# functions

## softmax関数
xが1次元，2次元の場合に分けて，オーバーフロー対策のために各データから最大値を引く

In [2]:
x = np.random.rand(3, 10)
print(x)
print(x.max(axis=1, keepdims=True))
print(x - x.max(axis=1, keepdims=True))

[[0.11135296 0.122053   0.03633232 0.88701696 0.88453433 0.39621719
  0.1948172  0.67292786 0.61929743 0.55097712]
 [0.32564866 0.46566645 0.4740782  0.62373923 0.39011894 0.26955994
  0.97346434 0.46335032 0.97516368 0.20834321]
 [0.34916043 0.83728344 0.17019238 0.08548609 0.98580415 0.99480285
  0.26105012 0.87504177 0.27055001 0.33323742]]
[[0.88701696]
 [0.97516368]
 [0.99480285]]
[[-0.775664   -0.76496397 -0.85068464  0.         -0.00248264 -0.49079977
  -0.69219976 -0.21408911 -0.26771953 -0.33603984]
 [-0.64951501 -0.50949723 -0.50108548 -0.35142444 -0.58504474 -0.70560374
  -0.00169934 -0.51181336  0.         -0.76682047]
 [-0.64564242 -0.15751941 -0.82461047 -0.90931676 -0.0089987   0.
  -0.73375273 -0.11976108 -0.72425284 -0.66156543]]


## cross_entropy_error
- 1データ分
$$
L = - \Sigma_k t_k \log y_k
$$

- バッチ
$$
L = - \frac{1}{N} \Sigma_n \Sigma_k t_{nk} \log y_{nk}
$$

- targetラベルがone-hot-vectorであれば，正解ラベルに対応するlog yを計算するだけ．

In [3]:
# 教師データのone-hot-vectorを正解ラベルのインデックスに変換
t = np.array([[0, 0, 1, 0],
              [1, 0, 0, 0],
              [0, 0, 0, 1]])  # target
y = np.random.rand(*t.shape)  # 入力
print(f'y_org: \n {y}')
print(f't_org: \n {t}')

batch_size = y.shape[0]  # バッチ

t = t.argmax(axis=1)  # targetをone-hot-vectorからインデックスに変換

out = -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size
print(f'out: \n {out}')
print(f't_argmax: \n {t}')

y_org: 
 [[0.31257018 0.34488643 0.89503249 0.81652211]
 [0.22353089 0.93211929 0.46599576 0.07547959]
 [0.05032798 0.44844512 0.03888196 0.75487034]]
t_org: 
 [[0 0 1 0]
 [1 0 0 0]
 [0 0 0 1]]
out: 
 0.6301031654087983
t_argmax: 
 [2 0 3]


***
# layers

## SigmoidWithLoss
$$
y = \frac{1}{1 + \exp(-x)}
\\ \\
L = - \{ t \log y + (1 - t) \log(1 - y) \}
$$
- CBOWモデルの高速化(多値分類を二値分類に置き換える)で使用．2クラス分類．
- 答えが不正解のときt = 0, 正解のときt = 1が渡される．


In [4]:
x = np.random.rand(5).reshape(5, 1)  # 入力
y = 1 / (1 + np.exp(-x))  # Sigmoid
# 以下の配列と t = 0 or 1 のラベルをcross_entropy_errorに渡せばよい
print(y)
print(np.c_[1 - y, y])

[[0.54160303]
 [0.70733586]
 [0.67806709]
 [0.50306421]
 [0.62419483]]
[[0.45839697 0.54160303]
 [0.29266414 0.70733586]
 [0.32193291 0.67806709]
 [0.49693579 0.50306421]
 [0.37580517 0.62419483]]


## Embedding
- CBOWモデルの高速化．入力層->中間層の全結合層MatMulレイヤの代わりに使う．
- MuｔMulでやったことは単語IDのone-hot-vectorと重みW_inの積和で，これはW_inから単語IDに対応するインデックスの行を抜き出すことに等しい

In [5]:
# forwardメソッド
W = np.random.rand(5, 3)  # 重み
contexts = np.array([[0, 2],
                     [1, 3],
                     [2, 4],
                     [3, 0],
                     [4, 2]])  # window_size=2, n=6のコンテキスト

print(f'W: \n {W}')

# コンテキストの数と同じだけEmbeddingレイヤを使ってコンテキストの列ごとに処理する
for i in range(contexts.shape[1]) :
    idx = contexts[:, i]
    out = W[idx]
    print(f'out_{i}: \n {out}')

W: 
 [[0.40764955 0.56311368 0.78249991]
 [0.99117109 0.47447357 0.7678935 ]
 [0.61934867 0.70504507 0.93998326]
 [0.43767825 0.26531322 0.09519192]
 [0.35273241 0.12578239 0.53037447]]
out_0: 
 [[0.40764955 0.56311368 0.78249991]
 [0.99117109 0.47447357 0.7678935 ]
 [0.61934867 0.70504507 0.93998326]
 [0.43767825 0.26531322 0.09519192]
 [0.35273241 0.12578239 0.53037447]]
out_1: 
 [[0.61934867 0.70504507 0.93998326]
 [0.43767825 0.26531322 0.09519192]
 [0.35273241 0.12578239 0.53037447]
 [0.40764955 0.56311368 0.78249991]
 [0.61934867 0.70504507 0.93998326]]


In [6]:
# backwardメソッド
grad = np.ones_like(W)  # 勾配
dW = grad
dW[...] = 0  # 勾配を初期化

dout = np.arange(W.size).reshape(W.shape)
print(f'dW_init: \n {dW}')
print(f'dout: \n {dout}')
print(f'idx: \n {contexts[:, 1]}')

np.add.at(dW, contexts[:, 1], dout)  # dWの指定した行にdoutの各行を足していく
print(f'dW: \n {dW}')

dW_init: 
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
dout: 
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
idx: 
 [2 3 4 0 2]
dW: 
 [[ 9. 10. 11.]
 [ 0.  0.  0.]
 [12. 14. 16.]
 [ 3.  4.  5.]
 [ 6.  7.  8.]]


***
# trainer
## Trainer

In [7]:
# データのシャッフル
np.random.permutation(10)

array([1, 2, 9, 7, 4, 6, 8, 3, 0, 5])

In [8]:
x = np.random.randn(1000)
data_size = len(x)
batch_size = 32
max_iters = data_size // batch_size  # 31
max_epoch = 10
eval_interval = 20

In [9]:
# fitメソッド
for epoch in range(max_epoch):
    print(f'--------------epoch: {epoch}--------------')
    print('ここでデータをシャッフル')
    
    for iters in range(max_iters):
        print(f'--------iters: {iters}--------')
        print('ミニバッチを取得')
        print('順伝播で損失計算')
        print('逆伝播で勾配計算')
        print('max_gradを指定していれば勾配クリッピング')
        print('パラメータ更新 (optimizer.update)')
        print('total_lossに損失の値を足し上げる')
        print('loss_countに損失関数の計算回数をカウント')
        
        if (eval_interval is not None) and (iters % eval_interval) == 0:
            print('------eval------')
            print('損失の平均を計算，出力，リスト追加')
            print('total_loss, loss_countを初期化')

--------------epoch: 0--------------
ここでデータをシャッフル
--------iters: 0--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
------eval------
損失の平均を計算，出力，リスト追加
total_loss, loss_countを初期化
--------iters: 1--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 2--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 3--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 4--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 5--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
lo

逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 28--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 29--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 30--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------------epoch: 3--------------
ここでデータをシャッフル
--------iters: 0--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
------eval------
損失の平均を計算，出力，リスト追加
total_loss, loss_countを初期化
--------iters: 1--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 2

--------iters: 1--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 2--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 3--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 4--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 5--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 6--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (optimizer.update)
total_lossに損失の値を足し上げる
loss_countに損失関数の計算回数をカウント
--------iters: 7--------
ミニバッチを取得
順伝播で損失計算
逆伝播で勾配計算
max_gradを指定していれば勾配クリッピング
パラメータ更新 (op

In [10]:
# remove_duplicate関数
param0 = np.random.rand(3, 2)
param1 = np.random.rand(3, 2)
param2 = param0

grad0 = np.random.rand(*param0.shape)
grad1 = np.random.rand(*param1.shape)
grad2 = np.random.rand(*param2.shape)

params = [param0, param1, param2]
grads = [grad0, grad1, grad2]

print('params:')
for param in params:
    print(param)

print('')
print('grads: ')
for grad in grads:
    print(grad)

params:
[[0.93045654 0.4905727 ]
 [0.49870966 0.66568473]
 [0.61964113 0.55019474]]
[[0.63848707 0.17872674]
 [0.45618938 0.25803042]
 [0.40786247 0.42609544]]
[[0.93045654 0.4905727 ]
 [0.49870966 0.66568473]
 [0.61964113 0.55019474]]

grads: 
[[0.11146234 0.71098111]
 [0.39039955 0.16017788]
 [0.21971684 0.85103332]]
[[0.81315365 0.51003043]
 [0.76415778 0.76162947]
 [0.58297523 0.62952891]]
[[0.17607174 0.65581518]
 [0.20152484 0.06226587]
 [0.72038493 0.22736975]]


In [11]:
def remove_duplicate(params, grads):
    params, grads = params[:], grads[:]  # copy list

    while True:
        find_flg = False
        L = len(params)

        # 二つのループで全ての組み合わせをチェック
        for i in range(0, L - 1):
            for j in range(i + 1, L):
                # 重みを共有する場合
                if params[i] is params[j]:
                    grads[i] += grads[j]  # 勾配の加算
                    find_flg = True
                    params.pop(j)  # 共有する重みを削除
                    grads.pop(j)  # 共有する重みの勾配を削除
                # 転置行列として重みを共有する場合（weight tying）
                elif params[i].ndim == 2 and params[j].ndim == 2 and \
                     params[i].T.shape == params[j].shape and np.all(params[i].T == params[j]):
                    grads[i] += grads[j].T
                    find_flg = True
                    params.pop(j)
                    grads.pop(j)

                if find_flg: break
            if find_flg: break

        if not find_flg: break

    return params, grads

params_removed, grads_removed = remove_duplicate(params, grads)

In [12]:
print('params_removed: ')
for param in params_removed:
    print(param)

print('')
print('grads_removed: ')
for grad in grads_removed:
    print(grad)

params_removed: 
[[0.93045654 0.4905727 ]
 [0.49870966 0.66568473]
 [0.61964113 0.55019474]]
[[0.63848707 0.17872674]
 [0.45618938 0.25803042]
 [0.40786247 0.42609544]]

grads_removed: 
[[0.28753408 1.36679629]
 [0.59192439 0.22244375]
 [0.94010177 1.07840307]]
[[0.81315365 0.51003043]
 [0.76415778 0.76162947]
 [0.58297523 0.62952891]]


***
# time_layers.py
- 5章RNN以降に使うレイヤ

In [39]:
batch_size = 10  # バッチ数
vocab_size = 20  # 語彙数
wordvec_size = 5  # Embeddingで単語を分散表現にしたときの次元数．TimeRNNへの入力の次元数になる．
hidden_size = 3  # 状態ベクトルの次元数
time_size = 10
N, V, D, H, T = batch_size, vocab_size, wordvec_size, hidden_size, time_size

***
## RNN
- RNNの基本的なクラス
- T個に展開することでTimeRNNレイヤを実装する

In [25]:
Wx = (np.random.randn(D, H) / np.sqrt(D)).astype('f')  # xを変換する重み
Wh = (np.random.randn(H, H) / np.sqrt(H)).astype('f')  # h_prevを変換する重み
b = np.zeros(H).astype('f')  # バイアス

In [26]:
# RNNレイヤの重み，バイアスの形状
print(f'Wh shape: {Wh.shape}')
print(f'Wx shape: {Wx.shape}')
print(f'b shape : {b.shape}')

Wh shape: (3, 3)
Wx shape: (5, 3)
b shape : (3,)


### 初期化 init

In [33]:
params = [Wx, Wh, b]  # 重みとバイアス
grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]  # 各パラメータの勾配
cache = None  # forwardの値を保持してbackwardで使うため

### forward

In [34]:
h_prev = np.random.rand(N, H)
x = np.random.rand(N, D)
print(f'h_prev shape: {h_prev.shape}')
print(f'x shape: {x.shape}')

h_prev shape: (10, 3)
x shape: (10, 5)


In [35]:
print(f'np.dot(h_prev, Wh) shape: \n {np.dot(h_prev, Wh).shape}')
print(f'np.dot(x, Wx) shape: \n {np.dot(x, Wx).shape}')

# forwardの計算
t = np.dot(h_prev, Wh) + np.dot(x, Wx) + b
h_next = np.tanh(t)
print(f'h_next shape: \n {h_next.shape}')

np.dot(h_prev, Wh) shape: 
 (10, 3)
np.dot(x, Wx) shape: 
 (10, 3)
h_next shape: 
 (10, 3)


In [36]:
cache = (x, h_prev, h_next)  # backwardで使うため保持しておく

### backward

In [37]:
print('========= before backward =========')
for i, grad in enumerate(grads):
    print(f'grads[{i}]')
    print(grad)
print()

print('========= backward calculation =========')
dh_next = np.random.rand(*h_next.shape)  # backwardの引数として与えられる
print(f'dh_next shape: {dh_next.shape}')

dt = dh_next * (1 - h_next ** 2)  # tanhの逆伝播
print(f'dt shape: {dt.shape}')

db = np.sum(dt, axis=0)  # repeatノード
dWh = np.dot(h_prev.T, dt)  # MutMulノード
dh_prev = np.dot(dt, Wh.T)  # MutMulノード
dWx = np.dot(x.T, dt)  # MutMulノード
dx = np.dot(dt, Wx.T)  # MutMulノード
print(f'db shape: {db.shape}')
print(f'dWh shape: {dWh.shape}')
print(f'dh_prev shape: {dh_prev.shape}')
print(f'dWx: {dWx.shape}')
print(f'dx: {dx.shape}')

grads[0][...] = dWx
grads[1][...] = dWh
grads[2][...] = db
print()

print('========= after backward =========')
for i, grad in enumerate(grads):
    print(f'grads[{i}]')
    print(grad)

grads[0]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
grads[1]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
grads[2]
[0. 0. 0.]

dh_next shape: (10, 3)
dt shape: (10, 3)
db shape: (3,)
dWh shape: (3, 3)
dh_prev shape: (10, 3)
dWx: (5, 3)
dx: (10, 5)

grads[0]
[[1.6385713  0.5992886  1.3254359 ]
 [1.3031543  0.44167006 0.91066885]
 [1.6392217  0.6206667  1.5461644 ]
 [1.117295   0.5276224  1.1569396 ]
 [2.1873345  0.85939556 1.9590347 ]]
grads[1]
[[1.7745235  0.5525992  2.0052967 ]
 [1.7437236  0.89958906 2.3303983 ]
 [1.6056706  0.7441318  2.398694  ]]
grads[2]
[3.0948243 1.3283973 3.4508855]


## TimeRNNレイヤ
- T個の時系列データを扱うレイヤ
- RNNレイヤをT個使用

### 初期化 init

In [72]:
params = [Wx, Wh, b]  # 重みとバイアスをインスタンス変数で保持する
time_grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]  # 各パラメータの勾配も保持
time_layers = None  # RNNレイヤをT個まとめて管理する

h, dh = None, None  # 状態ベクトル，状態ベクトルの勾配
stateful = False  # Trueのときは状態ベクトルを引き継ぐ

### forward

In [73]:
# xsはEmbeddingで変換された単語の分散表現をT個まとめたもの
xs = np.random.rand(N, T, D)
print('dim of xs: (batch_size, time_size, wordvec_size)')
print(f'xs shape: {xs.shape}')
print(f'Wx shape: {Wx.shape}')

dim of xs: (batch_size, time_size, wordvec_size)
xs shape: (10, 10, 5)
Wx shape: (5, 3)


In [74]:
time_layers = []  # RNNレイヤをT個まとめるリスト
hs = np.empty((N, T, H), dtype='f')  # 出力となる状態ベクトルの容器

In [75]:
# stateful = False または 一度目のforward処理の場合に h を0で初期化
if not stateful or h is None:
    h = np.zeros((N, H), dtype='f')

In [76]:
# 時系列に沿って順伝播
for t in range(T):
    layer = RNN(*params)  # TimeRNNクラスのインスタンス変数のパラメータを渡してRNNレイヤを作る
    h = layer.forward(xs[:, t, :], h)  # 時間tのxとh_prevを渡してh_nextを出力させる
    hs[:, t, :] = h  # 時間tの状態ベクトルを更新
    time_layers.append(layer)  # レイヤを保持

### backward

In [77]:
dhs = np.random.rand(N, T, H)  # backwardの引数として渡される
dxs = np.empty((N, T, D), dtype='f')  # 出力用の箱
dh = 0  # 状態ベクトルの勾配計算用
grads = [0, 0, 0]

In [82]:
# 時系列の逆順に逆伝播
for t in reversed(range(T)):
    layer = time_layers[t]  # 時間tのRNNレイヤを取り出す
    dx, dh = layer.backward(dhs[:, t, :] + dh)  # 上流から伝播した勾配と状態ベクトルの勾配の和を取る
    dxs[:, t, :] = dx  # 時間tにおけるxsの勾配を更新
    
    for i, grad in enumerate(layer.grads):
        grads[i] += grad  # 各時間のRNNの勾配を足し合わせていく
        
for i, grad in enumerate(grads):
    time_grads[i][...] = grad  # インスタンス変数の勾配を更新する

## TimeAffineレイヤ

In [3]:
N, T, H, D = 2, 8, 3, 8  # バッチ数，単語数，隠れベクトル次元数，語彙数
W = np.random.rand(H, D)
b = np.random.rand(D,)

In [9]:
hs = np.random.rand(N, T, H)

In [10]:
rhs = hs.reshape(N*T, -1)

In [13]:
np.dot(rhs, W).shape

(16, 8)