# 构建词嵌入：特征可计算

token本身无法计算，将其映射到一个连续的向量空间，才可进行后续运算。独热编码（
* 使非偏序关系的变量取值不具有偏序性，并且到圆点是等距的。
* 将离散特征的取值扩展到了欧式空间，让特征之间的**距离计算更加合理**
）+ 矩阵方法的高效实现。

## 定义输入

In [2]:
# 简化，假设现在有如下token：

import torch
input_ids = torch.tensor([2,3,4,5])
print(input_ids)

tensor([2, 3, 4, 5])


In [5]:
# 假设有只包含6个单词的词汇表
# 创建大小为3的嵌入
# 会生成一个6*3的权重矩阵

vocab_size = 6 # 词汇表大小
output_dim = 3 # 编码大小

# 设计随机种子，确保Embedding实验结果的可重复性
torch.manual_seed(123)
embedding_layer = torch.nn.Embedding(vocab_size, output_dim)

print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
        [ 0.9178,  1.5810,  1.3010],
        [ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-1.1589,  0.3255, -0.6315],
        [-2.8400, -0.7849, -1.4096]], requires_grad=True)


## 词嵌入测试1

In [8]:
# 词嵌入测试1:

print(embedding_layer(torch.tensor([5])))

tensor([[-2.8400, -0.7849, -1.4096]], grad_fn=<EmbeddingBackward0>)


## 词嵌入测试2

In [9]:
# 词嵌入测试2:

print(embedding_layer(torch.tensor(input_ids)))

tensor([[ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-1.1589,  0.3255, -0.6315],
        [-2.8400, -0.7849, -1.4096]], grad_fn=<EmbeddingBackward0>)


  print(embedding_layer(torch.tensor(input_ids)))
