## 7.4如何训练含自注意力的模型
假设通过自注意力模型完成了从输入到还原输入的过程，通过这个简单过程，了解训练含自注意力模型的涉及的主要方法及运用这些方法的背后逻辑。具体训练过程如图7-19所示。
![image.png](attachment:image.png)
<center>图7-19 含自注意力的模型训练过程</center>

### 7.4.1 把标记向量化
将序列数据转换为嵌入向量的主要原因是为了提供给模型一个可学习的、低维稠密的表示形式，使模型能够更好地理解和处理文本数据。
嵌入向量是一个固定长度的向量，它将离散的、高维的输入序列映射到一个连续的、低维的向量空间中。通过嵌入向量，每个单词或符号都会被表示成一个稠密的实值向量，而不是原始数据的稀疏表示或one-hot编码。
嵌入向量的转换有以下主要原因：

### 7.4.2添加位置编码
在训练含自注意力机制的模型时，需要添加位置编码是因为自注意力机制本身无法捕捉输入序列中的位置信息。位置编码通过在输入序列中添加额外的向量表示来表示元素的位置信息，从而让模型能够感知元素在序列中的相对位置关系。
通过添加位置编码，自注意力模型可以对序列中的每个元素进行并行处理。与RNN（循环神经网络）不同，位置编码实现了对位置信息的建模，不需要在处理每个元素时依赖前一个元素的隐状态。这使得自注意力模型可以同时处理整个序列，从而克服了RNN模型无法并发处理的限制。
具体地说，位置编码通常使用三角函数或正弦函数和余弦函数的组合来计算。这种计算方式可以让不同位置的编码向量具有不同的频率和相位，从而形成不同的位置编码向量。在模型训练过程中，这些位置编码向量会与输入进行相加，从而在注意力机制中纳入位置信息。
通过添加位置编码，自注意力模型可以在不依赖RNN的情况下对序列进行建模，并有效捕捉序列中元素之间的相对位置关系。这样可以提高模型的并发性和计算效率，同时避免RNN在长序列中的梯度消失和梯度爆炸等问题。

### 7.4.3反嵌入过程
输入通常会经过一个Embedding层进行转换，将输入的离散化标记（如单词、字符或其他离散数据）映射为连续的低维向量表示。这个过程称为Embedding。
而逆嵌入（De-Embedding）是把标记向量化的逆过程，如图7-19所示，对网络最后一层输出的操作，将网络输出的连续向量表示映射回原始的离散化符号，这个过程可认为是逆嵌入过程。
以下是实现逆嵌入的简单实例： 

In [1]:
from transformers import DistilBertTokenizerFast, DistilBertModel

In [5]:
#下载一个预处理函数（tokenizer）来预处理文本 
tokenizer = DistilBertTokenizerFast.from_pretrained("distilbert-base-uncased")

#tokenizer主要功能包括分词，转换为单词或一些特殊字符等标记，然后把每个标记转换为整数。
tokens = tokenizer.encode('This is a input.', return_tensors='pt')
print("These are tokens!", tokens)
for token in tokens[0]:
    print("This are decoded tokens!", tokenizer.decode([token]))

These are tokens! tensor([[ 101, 2023, 2003, 1037, 7953, 1012,  102]])
This are decoded tokens! [CLS]
This are decoded tokens! this
This are decoded tokens! is
This are decoded tokens! a
This are decoded tokens! input
This are decoded tokens! .
This are decoded tokens! [SEP]


其中return_tensors='pt'代表返回torch.Tensor。

In [9]:
#下载一个预训练模型
model = DistilBertModel.from_pretrained("distilbert-base-uncased")
print(model.embeddings.word_embeddings(tokens))
for e in model.embeddings.word_embeddings(tokens)[0]:
    print("This is an embedding!", e)
    print("This is shape of Embedding",e.shape)
    break

Some weights of the model checkpoint at distilbert-base-uncased were not used when initializing DistilBertModel: ['vocab_projector.weight', 'vocab_transform.bias', 'vocab_transform.weight', 'vocab_projector.bias', 'vocab_layer_norm.weight', 'vocab_layer_norm.bias']
- This IS expected if you are initializing DistilBertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tensor([[[ 0.0390, -0.0123, -0.0208,  ...,  0.0607,  0.0230,  0.0238],
         [-0.0558,  0.0151,  0.0031,  ..., -0.0140, -0.0277,  0.0139],
         [-0.0440, -0.0236, -0.0283,  ...,  0.0053, -0.0081,  0.0170],
         ...,
         [-0.0788,  0.0202, -0.0352,  ...,  0.0119, -0.0037, -0.0402],
         [-0.0244, -0.0138, -0.0078,  ...,  0.0069,  0.0057, -0.0016],
         [-0.0199, -0.0095, -0.0099,  ..., -0.0235,  0.0071, -0.0071]]],
       grad_fn=<EmbeddingBackward0>)
This is an embedding! tensor([ 3.8952e-02, -1.2318e-02, -2.0844e-02, -5.2684e-04, -1.9758e-02,
         3.8324e-02, -2.0617e-02,  3.3877e-03, -2.2452e-02, -4.3990e-02,
         1.2990e-02, -1.6670e-02,  9.7562e-03, -1.2669e-02, -4.5170e-02,
         2.5090e-02,  4.4694e-02,  5.9726e-02, -5.0432e-03, -3.6367e-02,
        -7.3220e-03,  1.3156e-03, -2.8033e-02,  2.8017e-02,  1.1700e-02,
        -3.4161e-03, -1.7048e-02,  2.5037e-02,  2.1979e-02, -2.0812e-03,
         5.1738e-03, -1.2071e-03, -4.3487e-02,  3.1312e-02, -