# 3.1 推論ベースの手法とニューラルネットワーク

In [17]:
import sys
sys.path.append('..')
import numpy as np
from common.layers import MatMul, SoftmaxWithLoss
from common.util import preprocess

単語IDが0の単語を全結合層で変換する例

In [2]:
c = np.array([[1, 0, 0, 0, 0, 0, 0]])
print(c.shape)  # ミニバッチ処理を考えて2次元にしている
W = np.random.randn(7, 3)
h = np.dot(c, W)
print(h)

(1, 7)
[[1.29974161 0.95047189 0.73161655]]


MatMulレイヤを使う

In [3]:
layer = MatMul(W)
h = layer.forward(c)
print(h)

[[1.29974161 0.95047189 0.73161655]]


# 3.2 シンプルなword2vec (CBOWモデル)

## CBOWモデルの推論処理
**入力層 - 中間層 - 出力層** という単純なモデルを考える
- 入力層と出力層のニューロンの数は単語ベクトルの要素数
- 入力層の数はコンテキストとして与える単語数
- 全ての入力層から中間層への変換は重み$\mathrm{W_{in}}$の全結合層によって，中間層から出力層への変換は重み$\mathrm{W_{out}}$の全結合層によって行われる
- 中間層は各入力層の全結合による変換後の値を平均したもの
- 出力層の値は各単語のスコア．Softmax関数を適用すると各単語の確率になる．
- 学習後の重み$\mathrm{W_{in}}, \mathrm{W_{out}}$が単語の分散表現になる．中間層のニューロンの数を入力層よりも少なくすることで，密なベクトルが得られる．

In [4]:
# サンプルデータ
c0 = np.array([[1, 0, 0, 0, 0, 0, 0]])
c1 = np.array([[0, 0, 1, 0, 0, 0, 0]])

# 重み初期化
W_in = np.random.randn(7, 3)
W_out = np.random.randn(3, 7)

# レイヤ生成
in_layer0 = MatMul(W_in)
in_layer1 = MatMul(W_in)
out_layer = MatMul(W_out)

# forward
h0 = in_layer0.forward(c0)
h1 = in_layer1.forward(c1)
h = 0.5 * (h0 + h1)
s = out_layer.forward(h)

# スコア出力
print(s)

[[ 3.01604295  0.65472736 -0.71989758 -0.7050117   1.11093053 -0.42000925
   2.91196432]]


## CBOWモデルの学習
ネットワークから出力されるスコアにSoftmax関数を適用することで確率を得ることができる．上の例では，単語IDが0と2の単語と共起する単語を予測するようなタスクを考えている．正解が単語IDが1の単語であれば，s[1]が最も高くなるように重みを調整することになる．  
追加する層は
- Softmaxレイヤ
- Cross Entropy Errorレイヤ

の2つ．すでに実装しているSoftmax with Lossレイヤで実装できる．

<br/>

最終的に利用する単語の分散表現の選択肢は次の3つ
- 入力側の重み: 行ベクトルが各単語の分散表現に対応．こちらだけを使うのが最もポピュラーな方法．
- 出力側の重み: 列ベクトルが各単語の分散表現に対応．
- 入出力の重み: 両方を足し合わせるなどの方法
***

# 3.3 学習データの準備
## コンテキストとターゲット
**コーパス &rarr; (コンテキスト & ターゲット)** という処理を行う  
まずはコーパスを作る

In [7]:
text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)
print(f'corpus: {corpus}')
print(f'id_to_word: {id_to_word}')

corpus: [0 1 2 3 4 1 5 6]
id_to_word: {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}


コンテキストとターゲットを作る関数を実装

In [8]:
def create_contexts_target(corpus, window_size=1):
    '''コンテキストとターゲットの作成
    :param corpus: コーパス（単語IDのリスト）
    :param window_size: ウィンドウサイズ（ウィンドウサイズが1のときは、単語の左右1単語がコンテキスト）
    :return: tuple (contexts, target)
    '''
    target = corpus[window_size:-window_size]  # 端の単語を除く
    contexts = []

    # コーパスの両端からwindow_size分を除いてループ
    # ターゲットのidxになる
    for idx in range(window_size, len(corpus)-window_size):
        cs = []
        # 今のidxから前後window_size分を見てコンテキストとして追加する
        for t in range(-window_size, window_size + 1):
            if t == 0:
                continue
            cs.append(corpus[idx + t])
        contexts.append(cs)

    return np.array(contexts), np.array(target)

In [12]:
contexts, target = create_contexts_target(corpus, window_size=1)
print(f'contexts:\n{contexts}')
print(f'target: {target}')

contexts:
[[0 2]
 [1 3]
 [2 4]
 [3 1]
 [4 5]
 [1 6]]
target: [1 2 3 4 1 5]


## one-hot表現への変換
NNに入力するためone-hotベクトルに変換する

In [13]:
def convert_one_hot(corpus, vocab_size):
    '''one-hot表現への変換
    :param corpus: 単語IDのリスト（1次元もしくは2次元のNumPy配列）
    :param vocab_size: 語彙数
    :return: one-hot表現（2次元もしくは3次元のNumPy配列）
    '''
    N = corpus.shape[0]

    if corpus.ndim == 1:
        one_hot = np.zeros((N, vocab_size), dtype=np.int32)
        for idx, word_id in enumerate(corpus):
            one_hot[idx, word_id] = 1

    elif corpus.ndim == 2:
        C = corpus.shape[1]
        one_hot = np.zeros((N, C, vocab_size), dtype=np.int32)
        for idx_0, word_ids in enumerate(corpus):
            for idx_1, word_id in enumerate(word_ids):
                one_hot[idx_0, idx_1, word_id] = 1

    return one_hot

In [14]:
vocab_size = len(word_to_id)
target = convert_one_hot(target, vocab_size)
contexts = convert_one_hot(contexts, vocab_size)

In [16]:
contexts

array([[[1, 0, 0, 0, 0, 0, 0],
        [0, 0, 1, 0, 0, 0, 0]],

       [[0, 1, 0, 0, 0, 0, 0],
        [0, 0, 0, 1, 0, 0, 0]],

       [[0, 0, 1, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 0]],

       [[0, 0, 0, 1, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0]],

       [[0, 0, 0, 0, 1, 0, 0],
        [0, 0, 0, 0, 0, 1, 0]],

       [[0, 1, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 1]]], dtype=int32)

# CBOWモデルの実装

In [18]:
class SimpleCBOW:
    def __init__(self, vocab_size, hidden_size):
        V, H = vocab_size, hidden_size

        # 重みの初期化
        W_in = 0.01 * np.random.randn(V, H).astype('f')
        W_out = 0.01 * np.random.randn(H, V).astype('f')

        # レイヤの生成
        self.in_layer0 = MatMul(W_in)
        self.in_layer1 = MatMul(W_in)
        self.out_layer = MatMul(W_out)
        self.loss_layer = SoftmaxWithLoss()

        # すべての重みと勾配をリストにまとめる
        layers = [self.in_layer0, self.in_layer1, self.out_layer]
        self.params, self.grads = [], []
        for layer in layers:
            self.params += layer.params
            self.grads += layer.grads

        # メンバ変数に単語の分散表現を設定
        self.word_vecs = W_in

    def forward(self, contexts, target):
        h0 = self.in_layer0.forward(contexts[:, 0])
        h1 = self.in_layer1.forward(contexts[:, 1])
        h = (h0 + h1) * 0.5
        score = self.out_layer.forward(h)
        loss = self.loss_layer.forward(score, target)
        return loss

    def backward(self, dout=1):
        ds = self.loss_layer.backward(dout)
        da = self.out_layer.backward(ds)
        da *= 0.5
        self.in_layer1.backward(da)
        self.in_layer0.backward(da)
        return None