# 构建transformer流程学习记录

##embedding 前的输入转化，为什么文字能输入到模型

In [None]:
from os import close
from sqlite3.dbapi2 import sqlite_version_info

import numpy as np
import torch
import torch.nn as nn
from sympy import sequence
from torch.ao.nn.quantized import LayerNorm
from torch.autograd import Variable
from torch.nn.functional import dropout

# 构建词汇表
vocab = {"<pad>": 0, "hello": 1, "world": 2, "this": 3, "is": 4, "a": 5, "test": 6}
vocab_size = len(vocab)  # 词汇表大小
embedding_dim = 5  # 嵌入向量的维度

# 创建嵌入层
embedding = nn.Embedding(vocab_size, embedding_dim)

# 将文本转换为数值索引
text = "hello world this is"
indices = [vocab[word] for word in text.split()]  # 数值化后的输入
x = torch.tensor(indices)  # 转换为张量

# 使用嵌入层
embedded_vectors = embedding(x)

print("输入文本:", text)
print("数值化后的输入:", x)
print("嵌入矩阵的形状:", embedding.weight.shape)
print("输出的嵌入向量:", embedded_vectors)

## 构建embedding 层
本质上embedding层是一个词汇表，将文字输入embedding层的作用就是将转化为索引后的汉字变为一个自定义维度的向量（常用的是512）

In [None]:
import math
#embedding
import torch
from torch import nn
import torch.nn.functional as F

class Embedding(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(Embedding, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        #这里是在创建一个vocab_size行embedding_dim列的嵌入层张量，也可以理解为一个索引为vocab_size,value为embedding_dim的字典。
        self.embedding_dim = embedding_dim
        #这里是为了在后面缩放输入，是的输入的数据在训练过程中稳定。
        #但是我差一个例子来说明，如果没有这个缩放过程会有是吗影响

    def forward(self, x):
        return self.embedding(x) * math.sqrt(self.ebedding_dim)
        #这里x是经过tokenizer转化后的索引（数字）,embedding(x)的作用就是将x的里面的索引数字和embedding层里的索引进行匹配然后返回一个embedding_dim维度的向量。简单理解就是embedding(x)的作用就是在查表。

## 位置编码
为每个向量加上位置信息

In [None]:
#创建位置编码
class positional_encoding(nn.Module):
    def __init__(self,d_dim,dropout, max_len = 5000):
        super(positional_encoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        position_encoding_matrix = np.zeros((max_len,d_dim))
        # 创建每个输入大小的位置编码
        position = torch.arange(0,d_dim).unsqueeze(dim = 0)
        # 创建一个(1，d_dim)的张量方便后续通过广播计算
        div_term = math.exp(- torch.arange(0,d_dim,2) * math.log(10000.0) / d_dim)
        # 公式的基础写法
        position_encoding_matrix[:, 0::2] = torch.sin(position * div_term)
        position_encoding_matrix[:, 1::2] = torch.cos(position * div_term)
        position_encoding_matrix = position_encoding_matrix.unsqueeze(dim = 0)
        # 这里unsqueeze的作用是为其增加一个batch_size的维度是的这个位置编码可以通过广播机制加载到每个批次的输入上
        self.register_buffer('position_encoding_matrix', position_encoding_matrix)
        # 这里使用register_buffer是为了保障其不会被优化器改变

    def forward(self, x):
        x = x + self.position_encoding_matrix[:,x.size(1)]
        # 这里的x.size是为x匹配对应长度的位置编码
        return self.dropout(x)

## 构建解码器

In [None]:
class Generator(nn.Module):
    def __init__(self, vocab_size, d_dim):
        super(Generator, self).__init__()
        self.proj = nn.Linear(d_dim, vocab_size)
        # 主要作用是把上一层的输出的每个序列对应的高纬度特征变为与词表的对应数值分布。然后在下面的softmax操作中变为对应概率分布，方便后续输出结果。

    def forward(self, x):
        return F.log_softmax(self.proj(x), dim=-1)

In [None]:
import copy

# 构建层复制器
def clones(module, N):
    return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])

In [None]:
# 构建编码器
# 既然解码器里有多个层，每个层又有两个子层，分别是自注意力层和前馈全连接层，每个子层后面跟着一个残差网络和归一化。为什么在encoder里没有体现？而只是简单的进行了最后一次的layernorm?
# 编码器里没有直接写编码层而是另外写了一个编码层类
class Encoder(nn.Module):
    def __init__(self, layer, N):
        super(Encoder, self).__init__()
        self.layers = clones(layer, N)
        self.norm = nn.LayerNorm(layer.size)
        # LayerNorm的作用和执行？

    def forward(self, x, mask):
        for layer in self.layers:
            x = layer(x,mask)
        return self.norm(x)

In [None]:
# 构建编码层
class EncoderLayer(nn.Module):
    def __init__(self, size, self_attn, feed_forward):
        super(EncoderLayer, self).__init__()
        self.self_attn = self_attn
        self.feed_forward = feed_forward
        self.size = size
        # 设置这个size是干嘛的
        self.sublayer = clones(SublayerConnection((size,dropout), 2))
        # 这个sublayerconnection又自己实现，包含了 残差网络和归一化层在里面

    def forward(self, x, mask):
        x = self.sublayer[0](x, lambda x:self.self_attn(x,x,x,mask))
        z = self.sublayer[1](x, self.feed_forward)
        # 为什么这里换成了Z?
        return z


In [None]:
#自注意力机制的实现代码
def attention(query,key,value,mask = None, dropout = None):
    # 这里qkv不再进行线性变化直接输入是因为在下面的多头注意力执行前已经进行了线性变换。所以注意这里不是原始的X而是经过线性变化的QKV
    d_k = query.size(-1)
    # 这里d_k 的值用Q或者K的都可以
    scores = torch.matmul(query,key.transpose(-1,-2)) / math.sqrt(d_k)
    # 将QK的任意一个的倒数第一二维度进行转置，是的QK计算后的到一个形状为(bs,seq_len,seq_len)的张量((sel_len,sel_len)实际就是每个序列间的注意力权重)，这个张量就是经过softmax前的注意力机制的权重

    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)
    # 这里加入mask是为了直接将不相关的元素排除掉，通过设置为-1e9使其在后面的softmax操作中的到的值很小

    p_attention = torch.softmax(scores, dim = -1)

    if dropout is not None:
        p_attention = dropout(p_attention)

    return torch.matmul(p_attention, value), p_attention
# 暂时还不明白为什么除了输出经过注意力权重和value计算后的结果后还要输出新的注意力权重
# 这里的注意力权重和输出将用于后面的多头注意力进行后面的计算

In [None]:
# 为什么多头就可以提升效果？单个的d_k为64 多个的为八个头 单个的d_k = 8
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, n_heads, dropout = 0.1):
        super(MultiHeadAttention, self).__init__()
        assert d_model % n_heads == 0
        # 这里是确保每个序列的高纬度特征能被平均的分配个每个注意力头
        self.d_k = d_model // n_heads
        self.n_heads = n_heads

        self.linears = clones(nn.Linear(d_model, d_model), 4)
        # 每个QKV输入需要进行线性变化，同时最后从新整合好的输出也需要线性变换所以这里是四个
        self.attn = None

        self.dropout = nn.Dropout(dropout)


    def forward(self, query, key, value, mask = None):
        # 注意这里的QKV都是一样的X在后面经过线性层的变换后才是真正的QKV
        if mask is not None:
            mask = mask.unsqueeze(1)

        batch_size = query.size(0)

        query,key,value = [linear(x).view(batch_size,-1,self.n_heads,self.d_k).transpose(1,2) for linear,x in zip(self.linears, (query, key, value))]

        output,self.attn = attention(query,key,value,mask = mask, dropout = self.dropout)

        output = output.transpose(1, 2).contiguous().view(batch_size, -1, self.n_heads * self.d_k)
        # 这里再次使用转置transpose(1, 2)是因为之前变换为多头的时候改变了内存的元数据，导致每一个元素的元数据实际上物理地址是不连续的，这里再次使用相同的转置使得元素在内存上是连续的，同时并将其变回原来的输入的样子。

        return self.linears[-1](output)
        # 这里使用最后一个线性层进行线性变换


