# word2vecの高速化

> 何もかも知ろうとしてくろうはするな。
> さもなと、何ひとつ覚えられない

前章のシンプルな実装ではコーパスで扱う語彙数が増えると実用に耐えない。そこでEmbeddingレイヤと、Negative Samplingという損失関数を導入する。

## word2vecの改良1


前章のプログラムでは語彙数が7であったが、実際には100万ということも珍しくない. 100万の行列に対する各レイヤーでの行列積の演算に多くの時間が必要となる. 具体的に指摘すると次の2点がボトルネックである. 

- 入力層のone-hot表現と重み行列$W_{in}$の行列積
- 中間層と重み行列$W_{out}$の行列積

前者はEmbeddingレイヤを導入することで解決する。後者をNegative Sampling損失関数で解決する. 


### Embeddingレイヤ

よく考えてみるとone-hotベクトルと、重み行列の積は行を抽出していることと同じである. そのため素直に行列積を実装したMatMulレイヤを使う必要はないのである. 

### Embeddingレイヤの実装

In [2]:
# numpyの挙動を確認
import numpy as np
W = np.arange(21).reshape(7,3)
W

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17],
       [18, 19, 20]])

In [3]:
W[2]

array([6, 7, 8])

In [5]:
idx = np.array([1, 0, 3, 0])
W[idx]

array([[ 3,  4,  5],
       [ 0,  1,  2],
       [ 9, 10, 11],
       [ 0,  1,  2]])

## word2vecの改良2

### 中間層以降の計算の問題点

中間層で計算を減らしたとしても、スコア値は語彙数分だけ必要となるし、ソフトマックスには指数があるため計算には非常にコストがかかる. 

### 多値分類から二値分類へ

Negative samplingでは「二値分類」がキーアイディアである。つまり、語彙数分計算する多値問題を二値問題に変換（近似）できれば計算量を削減することができる。重み行列では特定の単語に対する値を抽出し、スコアが求められれば良い. 

### シグモイド関数と交差エントロピー誤差

二値問題として解くにはスコアにシグモイド関数を適用する。損失関数には交差エントロピーを使う。


### 多値分類から二値問題へ（実装編）

### Negative Sampling

二値問題に変換できれば負例については適度に学習させることができる。つまり、ある入力における出力がその正解と比べるだけでなく、間違いを間違いとして判定できるように学習させることである。これによりすべてを学習させることがないので、計算量を減らすことが可能である。

学習させる負例は10個程度である。ランダムに決めるのではなく、コーパスにおける頻度を見て決めることが多い。

In [2]:
# numpyにおけるrandomな選択
import numpy as np
np.random.choice(10)

9

In [8]:
# 候補のなからからサンプリング
words = 'You say goodbye I say hello.'.split(' ')
words

['You', 'say', 'goodbye', 'I', 'say', 'hello.']

In [9]:
np.random.choice(words)

'You'

In [10]:
np.random.choice(words, size =5)

array(['say', 'say', 'hello.', 'You', 'goodbye'], dtype='<U7')

In [11]:
np.random.choice(words, size = 5, replace=False)

array(['say', 'hello.', 'goodbye', 'I', 'say'], dtype='<U7')

In [15]:
# 分布に従ってサンプリング
p = [.5, .1, .05, .2, .05, .1]
np.random.choice(words, p = p)

'I'