### Embedding层介绍

在编码器-解码器架构中，经常将需要输入的序列数据先经过 Embedding 层处理，再交给编码器和解码器

或者可以理解为 Embedding 层就是编码器、解码器中的一部分

假设编码器使用 RNN 来提取特征，解码器使用另一个 RNN 来获取输出结果图解如下：

![](md-img/Embedding.jpg)

其中输入数据（enc_input、dec_input）使用的是词表索引表示（不是独热编码）

<br>

### Embedding层的作用

假设现在有一个词表：

```python
{'hello': 0, 'go': 1, 'world': 2, 'hi': 3}
```

那么序列 [0, 2] 就表示 'hello world'

如果直接使用这样的数据，是不合适的：

- 词表中的键值对是随机的（于词表的构建过程相关）

- 这样无法表示词与词之间的相关性（hello 与 hi 是同义词）

Embedding 层首先将序列中的每一个词采用独热编码

然后设计一个全连接层，将 vocab_size 大小的一个 token 向量映射到指定的 embedding_size 大小的向量上

通过对 Embedding 层权重参数的学习，会导致相关性越强的 token 映射到的向量在空间中靠的越近（越相似）

这样得到的数据可以体现出不同 token 的相关性

此外，对于词表很大的数据集，表示一个 token 的代价就很大

通过 Embedding 层的映射，可以将 token 信息浓缩到 embedding_size 大小的向量上

<br>

### Pytorch代码

In [1]:
import torch
from torch import nn

创建 Embedding 层，指定要嵌入的词表的大小，以及最终要将一个 token 映射到的向量的大小

In [3]:
vocab_size = 30
embedding_size = 10
embedding = nn.Embedding(vocab_size, embedding_size)

输入数据形状为 (batch_size, seq_len)，其中每一个 token 使用词表中对应的索引表示

In [None]:
batch_size = 3
seq_len = 5
x = torch.randint(0, vocab_size, (batch_size, seq_len))
x

tensor([[25, 13,  7,  3, 20],
        [15,  3,  9, 26,  6],
        [15,  7,  2, 10,  1]])

最终得到的输出形状为 (batch_size, seq_len, embedding_size)，每一个 token 使用一个向量表示

In [10]:
output = embedding(x)
output.shape

torch.Size([3, 5, 10])