In [8]:
import numpy as np
from sklearn.utils.extmath import randomized_svd
import ptb
from tqdm import tqdm_notebook as tqdm

## PTB dataset 読み込み

In [2]:
# load PTB dataset
corpus,word_to_id,id_to_word = ptb.load_data("train")

Downloading ptb.train.txt ... 
Done


In [3]:
print(len(corpus))
print(corpus[:30])

929589
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]


In [5]:
print(id_to_word[0])
print(id_to_word[1])

print(word_to_id["car"])
print(word_to_id["happy"])

aer
banknote
3856
4428


## PTBデータセットでの評価

In [14]:
def create_co_matrix(corpus, vocab_size, window_size=1):
    '''共起行列の作成
    :param corpus: コーパス（単語IDのリスト）
    :param vocab_size:語彙数
    :param window_size:ウィンドウサイズ（ウィンドウサイズが1のときは、単語の左右1単語がコンテキスト）
    :return: 共起行列
    '''
    corpus_size = len(corpus)
    co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32)

    for idx, word_id in tqdm(enumerate(corpus)):
        for i in range(1, window_size + 1):
            left_idx = idx - i
            right_idx = idx + i

            if left_idx >= 0:
                left_word_id = corpus[left_idx]
                co_matrix[word_id, left_word_id] += 1

            if right_idx < corpus_size:
                right_word_id = corpus[right_idx]
                co_matrix[word_id, right_word_id] += 1

    return co_matrix

def ppmi(C, verbose=False, eps = 1e-8):
    '''PPMI（正の相互情報量）の作成
    :param C: 共起行列
    :param verbose: 進行状況を出力するかどうか
    :return:
    '''
    M = np.zeros_like(C, dtype=np.float32)
    N = np.sum(C)
    S = np.sum(C, axis=0)
    total = C.shape[0] * C.shape[1]
    cnt = 0

    for i in tqdm(range(C.shape[0])):
        for j in range(C.shape[1]):
            pmi = np.log2(C[i, j] * N / (S[j]*S[i]) + eps)
            M[i, j] = max(0, pmi)

            if verbose:
                cnt += 1
                #if cnt % (total//100 + 1) == 0:
                    #print('%.1f%% done' % (100*cnt/total))
    return M

def cos_similarity(x, y, eps=1e-8):
    '''コサイン類似度の算出
    :param x: ベクトル
    :param y: ベクトル
    :param eps: ”0割り”防止のための微小値
    :return:
    '''
    nx = x / (np.sqrt(np.sum(x ** 2)) + eps)
    ny = y / (np.sqrt(np.sum(y ** 2)) + eps)
    return np.dot(nx, ny)

def most_similar(query, word_to_id, id_to_word, word_matrix, top=5):
    '''類似単語の検索
    :param query: クエリ（テキスト）
    :param word_to_id: 単語から単語IDへのディクショナリ
    :param id_to_word: 単語IDから単語へのディクショナリ
    :param word_matrix: 単語ベクトルをまとめた行列。各行に対応する単語のベクトルが格納されていることを想定する
    :param top: 上位何位まで表示するか
    '''
    if query not in word_to_id:
        print('%s is not found' % query)
        return

    print('\n[query] ' + query)
    query_id = word_to_id[query]
    query_vec = word_matrix[query_id]

    vocab_size = len(id_to_word)

    similarity = np.zeros(vocab_size)
    for i in range(vocab_size):
        similarity[i] = cos_similarity(word_matrix[i], query_vec)

    count = 0
    for i in (-1 * similarity).argsort():
        if id_to_word[i] == query:
            continue
        print(' %s: %s' % (id_to_word[i], similarity[i]))

        count += 1
        if count >= top:
            return

In [15]:
windows_size = 2
wordvec_size=1000

vocab_size = len(word_to_id) # 単語数を取得
C = create_co_matrix(corpus,vocab_size,windows_size)
W = ppmi(C,verbose=True)

try:
    U,S,V = randomized_svd(W,n_components=wordvec_size,n_iter=5,random_state=None)
except ImportError:
    U,S,V = np.linalg.svd(W)
    
word_vecs = U[:,:wordvec_size]

querys = ["you","year","car","toyota"]
for query in querys:
    most_similar(query,word_to_id,id_to_word,word_vecs,top=5)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for idx, word_id in tqdm(enumerate(corpus)):


0it [00:00, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm(range(C.shape[0])):


  0%|          | 0/10000 [00:00<?, ?it/s]

  pmi = np.log2(C[i, j] * N / (S[j]*S[i]) + eps)
  pmi = np.log2(C[i, j] * N / (S[j]*S[i]) + eps)



[query] you
 tends: 0.11818362772464752
 do: 0.10482048988342285
 unesco: 0.10358085483312607
 dragging: 0.10331516712903976
 never: 0.10303110629320145

[query] year
 quarter: 0.252916157245636
 fiscal: 0.20647349953651428
 year-earlier: 0.20188084244728088
 next: 0.18657837808132172
 this: 0.18471147119998932

[query] car
 auto: 0.20797163248062134
 rental: 0.20588675141334534
 cars: 0.16630524396896362
 lexus: 0.1510336995124817
 chevrolet: 0.14837981760501862

[query] toyota
 honda: 0.3601066470146179
 lexus: 0.350749135017395
 motor: 0.3276401162147522
 nissan: 0.2852756679058075
 motors: 0.26612669229507446
