In [39]:
import torch
import torch.nn as nn

In [40]:
embedding = nn.Embedding(num_embeddings=10,  # 单词表的单词数目
                         embedding_dim=4,  # 输出词向量的维度大小
                         # 默认为False;这个参数的作用是为了加快非常用单词的优化,
                         # 在深度学习模型中,当反向传播获取词向量的梯度以后,如果设置这个参数为True,
                         # 则词向量的梯度会除以这个单词在mini-batch中出现的频率,通过这个缩放操作,
                         # 可以让出现频率较少的单词的梯度比较大,这样可以加快低频词的词向量参数的收敛速度
                         scale_grad_by_freq=True,
                         # 如果这个参数设置为True,则词嵌入矩阵在反向传播中计算得到的矩阵为稀疏矩阵
                         # 这个参数在单词表中单词数目巨大的时候非常有用.
                         # 如果使用稀疏的梯度矩阵,则必须使用稀疏的优化器,如optim.SGD,optim.SparseAdam,optim.AdaGrad
                         sparse=True)  # 默认为False

In [41]:
embedding.weight  # 内部实现了torch.nn.init.normal_随机初始化

Parameter containing:
tensor([[ 2.1336,  0.3786, -1.7507, -0.1529],
        [ 0.7800,  1.0670,  0.5643,  0.3104],
        [-0.4224,  0.0613,  1.6505,  0.4844],
        [ 0.3949, -1.5489, -0.1594, -2.0160],
        [-0.7706, -0.4554,  0.5075, -0.6271],
        [ 0.3089,  0.8688,  0.8076, -0.7691],
        [ 0.8895, -1.3092,  0.5314,  0.6191],
        [-0.3528, -0.1659, -0.6191, -0.0057],
        [-1.9220,  0.9760, -0.2774,  2.8665],
        [ 0.6762, -0.5006, -1.5577,  0.4623]], requires_grad=True)

In [42]:
print(embedding.num_embeddings)
print(embedding.embedding_dim)

10
4


In [43]:
pre_em = torch.arange(40, dtype=torch.float32).reshape(10, 4)
embedding_pre = nn.Embedding.from_pretrained(pre_em, sparse=True,
                                             scale_grad_by_freq=True)  # 从预训练的词嵌入矩阵得到词嵌入模块(类方法,参数含义与上相同)
embedding_pre.weight

Parameter containing:
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.],
        [24., 25., 26., 27.],
        [28., 29., 30., 31.],
        [32., 33., 34., 35.],
        [36., 37., 38., 39.]])

In [44]:
print(embedding_pre.num_embeddings)
print(embedding_pre.embedding_dim)

10
4


In [45]:
entry = torch.tensor([[0, 1, 2],
                      [5, 6, 7]], dtype=torch.long)

In [46]:
print(embedding_pre(entry))  # 通过取出对应元素索引序号的行,来获取某个元素对应的词向量
print(embedding_pre(entry).shape)  # (2, 3) <--> (10, 4) --> (2, 3, 4)

tensor([[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]],

        [[20., 21., 22., 23.],
         [24., 25., 26., 27.],
         [28., 29., 30., 31.]]])
torch.Size([2, 3, 4])


In [47]:
entry1 = torch.tensor([1, 2])
print(embedding_pre(entry1))
print(embedding_pre(entry1).shape)  # (2,) <-->(10, 4) --> (2, 4)

tensor([[ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])
torch.Size([2, 4])
