# 4章コードの補足

In [6]:
import sys
sys.path.append('..')
import numpy as np
import collections
from common.util import create_contexts_target

# negative_sampling_layer
## UnigramSampler
- CBOWモデルの高速化の後半部分．
- 負例をランダムに抽出して学習させる際の選び方．
- コーパス中の単語の出現確率に従ってサンプリングする．

### 初期化 init

In [21]:
corpus = np.array([1, 1, 3, 2, 1, 1, 0, 3, 4, 5, 0, 0])  # コーパスは単語IDのリスト
power = 0.75  # 確率に1未満で累乗し，低頻度の単語に下駄をはかせる
sample_size = 3  # サンプリングする数

# Counterでコーパス中の単語の出現回数をカウントできる
counts = collections.Counter()
for word_id in corpus:
    counts[word_id] += 1
print(counts)
print(counts[0])

Counter({1: 4, 0: 3, 3: 2, 2: 1, 4: 1, 5: 1})
3


In [23]:
vocab_size = len(counts)  # 語彙数 = countsの長さ

p = np.zeros(vocab_size)  # 語彙数と同じ要素数の配列で確率を保持する

# 各単語IDの出現回数を格納
for i in range(vocab_size):
    p[i] = counts[i]

# 出現回数を0.75乗して稀な単語の確率に少し下駄をはかせる
word_p = np.power(p, power)
print(f'original p: {p}')
print(f'powerd word_p: {word_p}', end='\n\n')

# np.sum(p) = 単語数 で割って確率にする
p /= np.sum(p)
word_p /= np.sum(word_p)
print(f'p_out: {p}')
print(f'word_p_out: {word_p}')

original p: [3. 4. 1. 2. 1. 1.]
powerd word_p: [2.27950706 2.82842712 1.         1.68179283 1.         1.        ]

p_out: [0.25       0.33333333 0.08333333 0.16666667 0.08333333 0.08333333]
word_p_out: [0.23284685 0.28891787 0.10214789 0.1717916  0.10214789 0.10214789]


### get_negative_sample

In [25]:
# コンテキストとターゲットを作る
window_size = 1
contexts, target = create_contexts_target(corpus, window_size)

In [18]:
batch_size = target.shape[0]

In [19]:
negative_sample = np.zeros((batch_size, sample_size), dtype=np.int32)
print(negative_sample)

[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]


In [26]:
for i in range(batch_size):
    p = word_p.copy()  # 確率を取得
    target_idx = target[i]  # ターゲットを保持
    p[target_idx] = 0  # ターゲットの確率は0
    p /= p.sum()  # ターゲットを除いて確率を再計算
    negative_sample[i, :] = np.random.choice(vocab_size, size=sample_size, replace=True, p=word_p)

In [27]:
print(negative_sample)

[[1 4 2]
 [4 0 5]
 [5 0 1]
 [1 3 2]
 [1 0 0]
 [1 4 1]
 [1 1 0]
 [3 4 2]
 [3 0 0]
 [3 1 0]]


## NegativeSamplingLoss

### 初期化 init