# 词向量探索之旅

### 环境准备

确保已将 `histwords` 目录加入 `PYTHONPATH`，并已安装依赖。


In [2]:
import sys
sys.path.append('/root/workspace/MicroDistanc-Word2Vec/histwords')

## 1. 从斯坦福大学HistWords项目中获取词向量

In [None]:
import pickle
import numpy as np

# 加载词表
with open('/root/workspace/MicroDistanc-Word2Vec/Chinese_sgns_basic/1990-vocab.pkl', 'rb') as f:
    vocab = pickle.load(f)

# 加载词向量
vecs = np.load('/root/workspace/MicroDistanc-Word2Vec/Chinese_sgns_basic/1990-w.npy')

# 获取某个词的向量
words = ['病毒', '电脑', '疾病', '计算机']
for word in words:
    if word in vocab:
        idx = vocab.index(word)
        vector = vecs[idx]
        print(vector.shape) # 输出向量维度
    else:
        print('词不在词表中')
        


(300,)
(300,)
(300,)
(300,)


In [4]:
from itertools import combinations
from numpy.linalg import norm

# 获取所有在词表中的词及其向量
word_vecs = {}
for word in words:
    if word in vocab:
        idx = vocab.index(word)
        word_vecs[word] = vecs[idx]

# 计算两两余弦相似度
def cosine_similarity(a, b):
    return np.dot(a, b) / (norm(a) * norm(b))

for w1, w2 in combinations(word_vecs.keys(), 2):
    sim = cosine_similarity(word_vecs[w1], word_vecs[w2])
    print(f"{w1} - {w2} 的余弦相似度: {sim:.4f}")


病毒 - 电脑 的余弦相似度: 0.2628
病毒 - 疾病 的余弦相似度: 0.3643
病毒 - 计算机 的余弦相似度: 0.3050
电脑 - 疾病 的余弦相似度: 0.1756
电脑 - 计算机 的余弦相似度: 0.4383
疾病 - 计算机 的余弦相似度: 0.1918


## 调用HistWords提供的API端口

In [4]:
from representations.sequentialembedding import SequentialEmbedding
from representations.embedding import Embedding
# SequentialEmbedding是Word2Vec（SGNS）词向量
# Embedding是SVD词向量

# 加载词向量：单一时间点
embedding = Embedding.load('/root/workspace/MicroDistanc-Word2Vec/Chinese_sgns_basic/1990')
# 获取词向量
vector = embedding.represent('病毒')
print(vector.shape)

(300,)
