![image.png](attachment:a15ac0d8-5061-4f48-a85d-870a9179fc60.png)

<font color=red> bert：只有编码器的transformer</font>       

- 第一个在nlp问题上使用很大网络的算法


![image.png](attachment:061ea70d-ebc1-4a38-a2a9-bcf7950c7310.png)

## 输入

BERT 的输入由以下三部分组成：

- Token Embeddings：词嵌入，表示输入文本的词汇信息。
    - 输入文本中的每个词（Token）都会被转换为对应的词嵌入向量。图中还展示了特殊Token，如表示句子开头的 `<bos>`、用于分类任务的 `<cls>` 和表示句子结束的 `<sep>`  。 
- Segment Embeddings：段嵌入，用于区分两个句子（如 NSP 任务中）。
    - 添加了额外的片段嵌入，用于区分句子对中的两个句子。图中示例里，同一句子的词对应相同的片段嵌入（如 “this movie is great” 对应 $E_A$，“i like it” 对应 $E_B$），让模型能分辨不同句子信息。 
- Position Embeddings：位置嵌入，表示每个词在序列中的位置。
    - 位置编码是可学习的。因为Transformer本身无法直接捕捉序列中词汇的先后顺序，BERT通过这种可学习的位置编码，让模型能理解词汇的位置信息，图中从 $E_0$ 到 $E_9$ 代表不同位置的嵌入向量。

  
BERT 的输入是这三者的加和。

![image.png](attachment:c65b2614-d20a-4868-9f7f-5b78483d6396.png)

## 预训练模型


为什么要有mask？     
由于 Transformer 编码器本身具备双向处理信息的能力，为了充分利用这一特性，就需要设计一种合适的训练任务。如果采用标准语言模型单向预测的方式，就无法完全发挥出 Transformer 双向编码的优势。带掩码的语言模型任务可以让模型在训练时，根据前后文信息来预测被掩码的词，从而使得 Transformer 的双向编码能力得以施展。

![image.png](attachment:73e50f6f-07e7-416b-b826-dfae2c629d9e.png)

下一句子预测（Next Sentence Prediction，NSP）：
该任务的主要目标是预测一个句子对中的两个句子在原始文本中是否相邻，即判断它们之间是否存在逻辑上的连贯性和顺序关系。

![image.png](attachment:91a3f937-b32e-49b2-bb70-d9951ec59789.png)

![image.png](attachment:5026e6b8-e7fe-416f-87bb-3187211a9f6a.png)

# 代码

先补充一下embedding操作吧）

nn.Embedding是一个用于创建嵌入层的类，它主要用于将离散的、高维的原始数据（如文本中的单词）转换为低维的、连续的向量表示。定义如下


In [None]:
torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False)
# num_embeddings：字典的大小，即嵌入的离散元素的总数。例如，在处理文本时，如果词汇表中有 10000 个单词，那么num_embeddings就可以设置为 10000。
# embedding_dim：每个嵌入向量的维度。例如，设置为 128，表示每个单词将被映射为一个 128 维的向量。

在训练过程中，nn.Embedding层的权重（即查找表中的嵌入向量）会通过反向传播算法进行更新，以最小化模型的损失函数。随着训练的进行，这些权重会逐渐学习到能够最好地表示输入数据语义结构的嵌入向量。

In [18]:
import torch
import torch.nn as nn

# 创建一个嵌入层，词汇表大小为1000，嵌入向量维度为128
embedding = nn.Embedding(num_embeddings=1000, embedding_dim=128)

# 假设输入是一个包含单词索引的张量，形状为(batch_size, sequence_length)
input_tensor = torch.LongTensor([[10, 20, 30], [40, 50, 60]])

# 将输入张量传入嵌入层，得到嵌入向量
output_embeddings = embedding(input_tensor)

print(output_embeddings.shape)  # 输出: torch.Size([2, 3, 128])，其中2是batch_size，3是sequence_length，128是embedding_dim

torch.Size([2, 3, 128])


- input_tensor = torch.LongTensor([[10, 20, 30], [40, 50, 60]]) 可以理解为有两个句子，每个句子包含三个单词，其中 [10, 20, 30] 是第一个句子中三个单词对应的索引，[40, 50, 60] 是第二个句子中三个单词对应的索引。
- input_tensor 的形状通常为 (batch_size, sequence_length)。其中，batch_size 表示一次输入到模型中的样本数量（这里就是句子的数量），sequence_length 表示每个样本的长度（这里就是每个句子包含的单词数量）。在这个例子中，batch_size = 2，sequence_length = 3。

ok 现在是正式代码