# 构建transformer流程学习记录

##embedding 前的输入转化，为什么文字能输入到模型

In [None]:
import numpy as np
import torch
import torch.nn as nn
from torch.autograd import Variable

# 构建词汇表
vocab = {"<pad>": 0, "hello": 1, "world": 2, "this": 3, "is": 4, "a": 5, "test": 6}
vocab_size = len(vocab)  # 词汇表大小
embedding_dim = 5  # 嵌入向量的维度

# 创建嵌入层
embedding = nn.Embedding(vocab_size, embedding_dim)

# 将文本转换为数值索引
text = "hello world this is"
indices = [vocab[word] for word in text.split()]  # 数值化后的输入
x = torch.tensor(indices)  # 转换为张量

# 使用嵌入层
embedded_vectors = embedding(x)

print("输入文本:", text)
print("数值化后的输入:", x)
print("嵌入矩阵的形状:", embedding.weight.shape)
print("输出的嵌入向量:", embedded_vectors)

## 构建embedding 层
本质上embedding层是一个词汇表，将文字输入embedding层的作用就是将转化为索引后的汉字变为一个自定义维度的向量（常用的是512）

In [None]:
import math
#embedding
import torch
from torch import nn

class Embedding(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(Embedding, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        #这里是在创建一个vocab_size行embedding_dim列的嵌入层张量，也可以理解为一个索引为vocab_size,value为embedding_dim的字典。
        self.embedding_dim = embedding_dim
        #这里是为了在后面缩放输入，是的输入的数据在训练过程中稳定。
        #但是我差一个例子来说明，如果没有这个缩放过程会有是吗影响

    def forward(self, x):
        return self.embedding(x) * math.sqrt(self.ebedding_dim)
        #这里x是经过tokenizer转化后的索引（数字）,embedding(x)的作用就是将x的里面的索引数字和embedding层里的索引进行匹配然后返回一个embedding_dim维度的向量。简单理解就是embedding(x)的作用就是在查表。

## 位置编码
为每个向量加上位置信息

In [None]:
#创建位置编码
class positional_encoding(nn.Module):
    def __init__(self,d_dim,dropout, max_len = 5000):
        super(positional_encoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        position_encoding_matrix = np.zeros((max_len,d_dim))
        # 创建每个输入大小的位置编码
        position = torch.arange(0,d_dim).unsqueeze(dim = 0)
        # 创建一个(1，d_dim)的张量方便后续通过广播计算
        div_term = math.exp(- torch.arange(0,d_dim,2) * math.log(10000.0) / d_dim)
        # 公式的基础写法
        position_encoding_matrix[:, 0::2] = torch.sin(position * div_term)
        position_encoding_matrix[:, 1::2] = torch.cos(position * div_term)
        position_encoding_matrix = position_encoding_matrix.unsqueeze(dim = 0)
        # 这里unsqueeze的作用是为其增加一个batch_size的维度是的这个位置编码可以通过广播机制加载到每个批次的输入上
        self.register_buffer('position_encoding_matrix', position_encoding_matrix)
        # 这里使用register_buffer是为了保障其不会被优化器改变

    def forward(self, x):
        x = x + self.position_encoding_matrix[:,x.size(1)]
        # 这里的x.size是为x匹配对应长度的位置编码
        return self.dropout(x)