# 文本 embeding

In [1]:
import torch.nn as nn
import math

In [5]:
class Embeddings(nn.Module):
    def __init__(self, embed_dim, vocab):
        """
        Embeddings and Softmax
        与其他序列转导模型类似，使用学习好的嵌入层将输入token和输出token转换为向量.
        使用线性变换和 softmax 函数将decoder输出转换为预测的下一个token概率。
        :param embed_dim: (int) embedding后词向量维度
        :param vocab: (Tensor)输入词向量
        """
        super(Embeddings, self).__init__()
        self.lut = nn.Embedding(vocab, embed_dim)
        self.embed_dim = embed_dim

    def forward(self, x):
        # 此处的缩放是为了让 embeding 后的尺度在一个合适的范围内
        return self.lut(x) * math.sqrt(self.embed_dim)

# 测试例子

In [4]:
import torch

"""
首先 word1 和 word2 表示的两句话，这里的0，1，2，3 表示单词的索引，用过索引来表示对应的单词
embeding 的形状是 (4,5),这里 4 是因为例子中单词共有 4 个对应一个单词一行，
至于 5 这个维度其实是需要调的，词汇多关系复杂维度低不足以表达太高容易过拟合
"""
word1 = torch.LongTensor([0, 1, 2])
word2 = torch.LongTensor([3, 1, 2])
embedding = torch.nn.Embedding(4, 5)
print(embedding.weight)
print('word1:')
print(embedding(word1))
print('word2:')
print(embedding(word2))

Parameter containing:
tensor([[ 0.1758, -1.4697,  1.4782, -0.5715, -0.7141],
        [-1.0198,  0.0553,  0.2517,  0.2503,  0.4059],
        [ 0.6559, -0.7183,  0.0511, -1.0875,  0.4223],
        [ 0.0113,  0.2559, -1.4108, -1.5821,  0.1742]], requires_grad=True)
word1:
tensor([[ 0.1758, -1.4697,  1.4782, -0.5715, -0.7141],
        [-1.0198,  0.0553,  0.2517,  0.2503,  0.4059],
        [ 0.6559, -0.7183,  0.0511, -1.0875,  0.4223]],
       grad_fn=<EmbeddingBackward0>)
word2:
tensor([[ 0.0113,  0.2559, -1.4108, -1.5821,  0.1742],
        [-1.0198,  0.0553,  0.2517,  0.2503,  0.4059],
        [ 0.6559, -0.7183,  0.0511, -1.0875,  0.4223]],
       grad_fn=<EmbeddingBackward0>)
