## 2.7 构建词符嵌入

- 我们准备用于大语言模型（LLM）的数据已经差不多就绪了
- 接下来，我们要做的最后一步是使用嵌入层将 token 嵌入到连续的向量表示中。token本身不可计算，需要将其映射到一个连续向量空间，才可以进行后续运算，这个映射的结果就是该token对应的embedding
- 通常，这些用来转换词符的嵌入层是大语言模型（LLM）的一部分，并且在模型训练的过程中会不断调整和优化。

<img src="https://github.com/datawhalechina/llms-from-scratch-cn/blob/main/Translated_Book/img/fig-2-15.jpg?raw=true" width="400px">

- 假设我们在分词后有以下四个输入示例，对应的输入ID分别是5、1、3和2：

In [1]:
import torch
input_ids = torch.tensor([2, 3, 5, 1])

- 为了简化问题，假设我们有一个只包含6个单词的小型词汇表，我们想要创建大小为3的嵌入。

In [2]:
vocab_size = 6
output_dim = 3

torch.manual_seed(123)
embedding_layer = torch.nn.Embedding(vocab_size, output_dim)

- 这将会生成一个6x3的权重矩阵：

In [3]:
print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
        [ 0.9178,  1.5810,  1.3010],
        [ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-1.1589,  0.3255, -0.6315],
        [-2.8400, -0.7849, -1.4096]], requires_grad=True)


- 由于嵌入层只是独热编码和矩阵乘法方法的一种更高效的实现，它可以被视为一个可以通过反向传播进行优化的神经网络层。
- 对于那些熟悉独热编码的人来说，上述嵌入层的方法本质上只是实现独热编码后进行矩阵乘法的一种更高效的手段，这种方法在全连接层中使用，其详细说明可以在补充代码[./embedding_vs_matmul](https://github.com/datawhalechina/llms-from-scratch-cn/tree/main/ch02/03_bonus_embedding-vs-matmul)中找到。
- 因为嵌入层只是独热编码和矩阵乘法方法的一种更高效的实现，所以它可以被视为一个可以通过反向传播算法进行优化的神经网络层。

- 要将ID为3的词符转换为一个3维向量，我们执行以下步骤：

In [4]:
print(embedding_layer(torch.tensor([3])))

tensor([[-0.4015,  0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)


- 注意，上述内容是`embedding_layer`权重矩阵中的第4行。
- 为了嵌入上面所有的四个`input_ids`值，我们执行以下操作：

In [5]:
print(embedding_layer(input_ids))

tensor([[ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-2.8400, -0.7849, -1.4096],
        [ 0.9178,  1.5810,  1.3010]], grad_fn=<EmbeddingBackward0>)


- 嵌入层本质上是一种查找操作：

<img src="https://github.com/datawhalechina/llms-from-scratch-cn/blob/main/Translated_Book/img/fig-2-16.jpg?raw=true" width="500px">

- **您可能对比较嵌入层与常规线性层的附加内容感兴趣：[../03_bonus_embedding-vs-matmul](https://github.com/datawhalechina/llms-from-scratch-cn/tree/main/ch02/03_bonus_embedding-vs-matmul)**