# word2vecとは？

## 前置き

単語をベルトルに変換する手法は主に2つあります。  

- **カウントベース**  
- **推論ベース**  

このうち、**推論ベース**と呼ばれる手法が**word2vec**です。

## ポイント

単語をニューラルネットワークに入力するには、**単語をベクトルに変換**する必要があります。これがミソです。  
ここでのベクトルはone-hot表現の行列のことを言います。  
なぜ単語をベクトルに変換することがミソかと言うと、**演算可能になるから**です。  
例えば、りんごが[1, 1]、みかんが[1, 2]のベクトルで表せれるとすると、りんご[1, 1]に重み[0, 1]を足し算すれば、  
みかん[1, 2]を得ることができます。この例は極端かもしれませんが、  
**単語をベクトルに変換し、演算可能にする**ことで推論を可能にしているのです。

## word2vecのモデルは？

### C-BOW（continuous bag-of-words）

簡単に言うと、ターゲット（予測したい単語）を周囲のコンテキストから予測する手法のことです。  
例えば、**You ○○○ goodbye, I say hello.**というテキストデータが与えられた時、  
○○○の周囲の単語（You, goodbye）から○○○に入る単語を予測させることがC-BOWの手法になります。  
テキストデータをニューラルネットワークの入力データとして使用し、出力として当てはまる単語の確率を出します。  
よって、ニューラルネットワークに入力するデータはターゲットの周囲にあるコンテキストになります。

### skip-gram

簡単に言うと、ある単語から周囲のコンテキスト（ターゲットとなる複数の単語）を予測する手法のことです。  
例えば、○○○ say ○○○, I say hello.というテキストデータが与えられた時、  
sayから周囲の単語（○○○、○○○）に入る単語を予測させることがskip-gramの手法です。  
よって、ニューラルネットワークに入力するデータはターゲットの間にある単語になります。  
前述したC-BOWと全く逆のアプローチです。

# C-BOW

## 計算グラフ

## スクラッチ

In [1]:
import numpy as np

In [84]:
def preprocess(text):
    text = text.lower()
    words = text.replace('.', ' .').split(' ')
    
    word_to_id = {}
    id_to_word = {}
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word
    
    corpus = np.array([word_to_id[w] for w in words])
    
    return corpus, word_to_id, id_to_word

In [85]:
text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)

In [86]:
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

In [87]:
def one_hot(corpus):
    return np.identity(len(np.unique(corpus)))[corpus]

In [88]:
corpus = one_hot(corpus)

In [89]:
corpus

array([[1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.]])

In [90]:
def make_contexts_target(corpus, window_size=1):
    contexts = []
    target = corpus[window_size:-window_size]
    
    for idx in range(window_size, len(corpus)-window_size):
        context = []
        for t in range(-window_size, window_size + 1):
            if t == 0:
                continue
            context.append(corpus[idx + t])
        contexts.append(context)

    return np.array(contexts), np.array(target)

In [91]:
contexts, target = make_contexts_target(corpus)

In [92]:
print(contexts.shape)
contexts

(6, 2, 7)


array([[[1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0.]],

       [[0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0.]],

       [[0., 0., 0., 1., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0.]],

       [[0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1.]]])

In [93]:
print(target.shape)
target

(6, 7)


array([[0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.]])

In [94]:
contexts.shape

(6, 2, 7)

In [37]:
def forward_loss(output):
    exp_out = np.exp(output + 1e-08)
    exp_out_sum = np.sum(np.exp(output + 1e-08))
    softmax =  exp_out / exp_out_sum
    return -np.sum(np.log(softmax) * target) 

In [38]:
def forward(contexts, target):
    hidden_size = contexts.shape[1] + 1
    w_in = np.random.randn(contexts.shape[2], hidden_size)
    w_out = np.random.randn(hidden_size, contexts.shape[2])

    cross_entropy = []
    for context in contexts:
        context_dot = []
        for word in context:
            word = word.reshape(1, word.shape[0])
            h = np.dot(word, w_in)
            context_dot.append(h)
        h_sum = np.sum(np.array(context_dot), axis=0)
        h_out = np.dot(h_sum, w_out)
        
        loss = forward_loss(h_out)
        cross_entropy.append(loss)
        
    return np.sum(np.array(cross_entropy))

In [39]:
forward = forward(contexts, target)

In [40]:
forward

922951.3155415655

In [None]:
class MatMul:
    def __init__(self, W):
        self.params = [W]
        self.grads = [np.zeros_like(W)]
        self.x = None
        
    def forward(self, x):
        W, = self.params
        out = np.dot(x, W)
        self.x = x
        return out
        
    def backward(self, dout):
        W, = self.params
        dx = np.dot(dout, W.T)
        dw = np.dot(self.x.T, dout)
        self.grads[0][...] = dw
        return dx

In [None]:
def softmax(x):
    if x.ndim == 2:
        x = x - x.max(axis=1, keepdims=True)
        x = np.exp(x)
        x /= x.sum(axis=1, keepdims=True)
    elif x.ndim == 1:
        x = x - np.max(x)
        x = np.exp(x) / np.sum(np.exp(x))

    return x


def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    # 教師データがone-hot-vectorの場合、正解ラベルのインデックスに変換
    if t.size == y.size:
        t = t.argmax(axis=1)

    batch_size = y.shape[0]

    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

In [None]:
class SoftmaxWithLoss:
    def __init__(self):
        self.params, self.grads = [], []
        self.y = None  # softmaxの出力
        self.t = None  # 教師ラベル

    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)

        # 教師ラベルがone-hotベクトルの場合、正解のインデックスに変換
        if self.t.size == self.y.size:
            self.t = self.t.argmax(axis=1)

        loss = cross_entropy_error(self.y, self.t)
        return loss

    def backward(self, dout=1):
        batch_size = self.t.shape[0]

        dx = self.y.copy()
        dx[np.arange(batch_size), self.t] -= 1
        dx *= dout
        dx = dx / batch_size

        return dx

# skip-gram

## 実装

# word2vecの改良

## Embedding

入力データはone-hotをかけた行列になるため、単語数が多くなるにつれ、計算量が異常に増えます。  
隠れ層の計算は対象の単語のベクトルを抽出することでしたが、これまで実装したやり方だと、  
その他の関係ない単語のベクトルを計算対象と入れてしまっているため、計算コストが非常に大きいです。  
そのため、Embeddingを用いて、巨大な行列の計算対象となる部分のみ抽出し、演算を行うように改良します。

## Negative sampling

これまでは多値分類としてSoftmax関数を使ってcross entropyを計算していましたが、  
それを二値分類として扱い、Sigmoid関数を用いて計算コストを削減する方法をとります。  
また、これまでは計算対象でないベクトルまでSoftmax関数にかけていましたが、  
Embeddingを用いて、計算対象となるベクトルのみをSigmoid関数にかけていきます。  

しかし、これだけでは正しい単語しか学習できません。  
つまり、具体的にどんなベクトルが正しいもので、どんなベクトルが間違っているかまでは学習ができていないということです。  
そのため、間違っているベクトルも学習をさせるというのがNegative samplingの考え方です。  
しかし、間違っているベクトルは無数にあるので、全てを学習させるのは現実的でないので、  
少数の間違いベクトルを学習させ、正しいベクトルと間違っているベクトルの両方を学習させ、その損失を得ることが目標となります。  
少数の間違いベクトルをサンプリングすることをNegative samplingと言います。

Negative samplingはランダムでサンプリングするのではなく、コーパスの統計データに基づいてサンプリングを行います。  
つまり、コーパスの中でよく使われる単語はサンプリングされやすく、あまり使われない単語はサンプリングされにくくするということです。  
具体的には、コーパスの中で出てくる単語の出現回数をカウントし、確率分布を作成して、そこからサンプリングします。  

In [None]:
class UnigramSampler:
    def __init__(self, corpus, power, sample_size):
        self.sample_size = sample_size
        self.word_p = None
        self.vocab_size = None

        count_word = {}
        for i in range(len(corpus)):
            if str(corpus[i]) not in count_word:
                count_word[str(corpus[i])] = 1
            else:
                count_word[str(corpus[i])] += 1

        self.p_words = np.array(list(count_word.values()))
        self.p_words = np.power(self.p_words, power)
        self.p_words /= np.sum(self.p_words)
        self.vocab_size = len(self.p_words)
        
    def get_negative_sample(self, target):
        batch_size = target.shape[0]
        
#         negative_sample = np.zeros((batch_size, self.sample_size), dtype=np.int32)
        
        return np.random.choice(self.vocab_size, size=(batch_size, self.sample_size), replace=False, p=self.p_words)

In [81]:
count_word = {}
for unique_c in np.unique(corpus):
    count_word[unique_c] = 0

for c in corpus:
    count_word[c] += 1

In [104]:
corpus

array([[1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.]])

In [110]:
count_word = {}
for i in range(len(corpus)):
    if str(corpus[i]) not in count_word:
        count_word[str(corpus[i])] = 1
    else:
        count_word[str(corpus[i])] += 1

count_word

{'[1. 0. 0. 0. 0. 0. 0.]': 1,
 '[0. 1. 0. 0. 0. 0. 0.]': 2,
 '[0. 0. 1. 0. 0. 0. 0.]': 1,
 '[0. 0. 0. 1. 0. 0. 0.]': 1,
 '[0. 0. 0. 0. 1. 0. 0.]': 1,
 '[0. 0. 0. 0. 0. 1. 0.]': 1,
 '[0. 0. 0. 0. 0. 0. 1.]': 1}

In [113]:
power = 0.75
sample_size = 5

count_word = {}
for i in range(len(corpus)):
    if str(corpus[i]) not in count_word:
        count_word[str(corpus[i])] = 1
    else:
        count_word[str(corpus[i])] += 1
        
p_words = np.array(list(count_word.values()))
p_words = np.power(p_words, power)
p_words /= np.sum(p_words)
vocab_size = len(p_words)

np.random.choice(vocab_size, size=sample_size, replace=False, p=p_words)

array([1, 6, 4, 0, 3])

In [116]:
corpus

array([[1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.]])

In [115]:
corpus[[1, 6, 4, 0, 3]]

array([[0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.]])

# サーベイ

## 埋め込み学習