在大规模语料上预训练好的词向量可以应用于下游的自然语言处理任务

In [1]:
!pip install torchtext



In [3]:
import torch
import torchtext.vocab as vocab

# 查看提供的预训练词嵌入的名称。
vocab.pretrained_aliases.keys()

dict_keys(['charngram.100d', 'fasttext.en.300d', 'fasttext.simple.300d', 'glove.42B.300d', 'glove.840B.300d', 'glove.twitter.27B.25d', 'glove.twitter.27B.50d', 'glove.twitter.27B.100d', 'glove.twitter.27B.200d', 'glove.6B.50d', 'glove.6B.100d', 'glove.6B.200d', 'glove.6B.300d'])

查看glove词嵌入提供的预训练模型

预训练的GLoVe模型的命名规范：模型.（数据集.）数据集词数.词向量维度

In [5]:
glove = [key for key in vocab.pretrained_aliases.keys() if "glove" in key]
glove

['glove.42B.300d',
 'glove.840B.300d',
 'glove.twitter.27B.25d',
 'glove.twitter.27B.50d',
 'glove.twitter.27B.100d',
 'glove.twitter.27B.200d',
 'glove.6B.50d',
 'glove.6B.100d',
 'glove.6B.200d',
 'glove.6B.300d']

第一次创建预训练词向量实例时会自动下载相应的词向量到cache指定文件夹（默认为.vector_cache），因此需要联网。

In [43]:
cache_dir = "/Users/luowei/PycharmProjects/动手学深度学习pyTorch版本code/data/cache"
# glove = vocab.pretrained_aliases["glove.6B.50d"](cache=cache_dir)
glove = vocab.GloVe(name='6B', dim=50, cache=cache_dir) # 与上面等价

100%|█████████▉| 399999/400000 [00:11<00:00, 34588.61it/s]


# 使用glove实例的属性：

1. stoi：词到索引的字典
2. itos：索引到词的映射（列表）
3. vectors：词向量

In [131]:
# 总词数
print('总词数:',len(glove.stoi))

print('W的维度：',glove.vectors.shape)

总词数: 400000
W的维度： torch.Size([400000, 50])


In [72]:
index = glove.stoi['man']
word = glove.itos[i]
vector = glove.vectors[index]

print(index,word)
print(vector)

300 man
tensor([-0.0944,  0.4301, -0.1722, -0.4553,  1.6447,  0.4033, -0.3726,  0.2507,
        -0.1059,  0.1078, -0.1085,  0.1518, -0.6540,  0.5505,  0.5959, -0.4628,
         0.1185,  0.6445, -0.7095,  0.2395, -0.8291,  1.2720,  0.0330,  0.2935,
         0.3911, -2.8094, -0.7074,  0.4106,  0.3894, -0.2913,  2.6124, -0.3458,
        -0.1683,  0.2515,  0.3122,  0.3164,  0.1254, -0.0126,  0.2230, -0.5659,
        -0.0863,  0.6255, -0.0576,  0.2937,  0.6600, -0.5311, -0.4823, -0.9793,
         0.5314, -0.1173])


# 应用预训练的词向量

# 求k近邻
作用：在嵌入空间embed中寻找离x最近的k个向量。

In [134]:
def knn(W, x, k):
    # 添加1e-9是为了数值的稳定性
    # W中每一行都是一个词的词向量，与
    cos = torch.matmul(W, x.view((-1,)))/ (
        (torch.sum(W*W, dim=1) + 1e-9).sqrt() * torch.sum(x*x).sqrt()
    )
    print('x.shape',x.shape)
    print('x.view((-1,)).shape',x.view((-1,)).shape)
    _, topk = torch.topk(cos, k=k)
    topk = topk.cpu().numpy()
    return topk, [cos[i].item() for i in topk]

x.view((-1,))的理解：将x转换为行向量

In [103]:
a = torch.arange(1, 17)
b = a.reshape(1,16)
c = a.view((-1,))
d = a.view((-1)) # d和c等价
e = torch.matmul(a,b.T)
print(a.shape)
print(b.shape) # b:matrix
print(b[0][0])
print(c.shape) # a:list
print(a[0])

torch.Size([16])
torch.Size([1, 16])
tensor(1)
torch.Size([16])
tensor(1)


In [124]:
W = torch.arange(1, 17).reshape(4,4)
x = [1,2,3,4]
x = torch.tensor(x,dtype=torch.long).view(-1,)
res = torch.matmul(W,x.T)
print(W)
print(x)
print(res)

tensor([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12],
        [13, 14, 15, 16]])
tensor([1, 2, 3, 4])
tensor([ 30,  70, 110, 150])


# 求近义词

In [45]:
def get_similar_tokens(query_token, k ,embed):
    topk, cos = knn(
        embed.vectors,
        embed.vectors[embed.stoi[query_token]],
        k+1
    )
    for i, c in zip(topk[1:], cos[1:]): # 除去输入词
        print('cosine sim=%3.f:%s' % (c, (embed.itos[i])))

In [65]:
get_similar_tokens('mac',3,glove)

cosine sim=  1:os
cosine sim=  1:macintosh
cosine sim=  1:pc


# 求类比词

类比关系：例如，“man”（男人）: “woman”（女人）:: “son”（儿子） : “daughter”（女儿）是一个类比例子：“man”之于“woman”相当于“son”之于“daughter”。

求类比词的问题可以定义为：**对于类比关系中的四个词，给定前3个词a，b，c求d。**

思路：搜索与vec(c) + vec(b) - vec(a)的结果向量最相似的词向量

In [74]:
def get_analogy(token_a, token_b, token_c, embed):
    vecs = [embed.vectors[embed.stoi[t]]
                for t in [token_a, token_b, token_c]]
    
    x = vecs[1] - vecs[0] + vecs[2]
    topk, cos = knn(embed.vectors, x, 1)
    return embed.itos[topk[0]]

In [135]:
# 男-女类比
get_analogy('man', 'woman', 'son', glove) # 'daughter'

x.shape torch.Size([50])
x.view((-1,)).shape torch.Size([50])


'daughter'

In [91]:
# 首都-国家类比
get_analogy('beijing', 'china', 'moscow', glove) # 'daughter'

'russia'

In [92]:
# 形容词-形容词最高级类比
get_analogy('bad', 'worst', 'big', glove) # 'biggest'

'biggest'

In [100]:
# 动词一般时-动词过去时类比
get_analogy('do', 'did', 'have', glove) # 'biggest'

'had'