## Transformer经典问题：

1、transformer整体架构是怎么样的，几个部分组成？    
**输入处理**：词嵌入 + 位置编码（正弦函数），并添加 `<sos>`、`<eos>`、`<pad>` 特殊标记。  
**编码器（6层）**：每层含多头自注意力（带填充掩码）和前馈网络（FFN），每子层后接残差连接与层归一化。  
**解码器（6层）**：每层含掩码自注意力（填充+前瞻掩码）、交叉注意力（Q来自解码器，K/V来自编码器）、FFN，每子层后同样接残差+层归一化。  
**输出处理**：线性投影（维度扩展至词表大小，权重与输入词嵌入共享） + Softmax，输出各词概率分布。  

2、介绍transformer，详细介绍QKV过程？

序列X分别与权重矩阵相乘，得到Q,K,V。在多头注意力计算中，每一个头独立计算。  
拼接各头输出后乘W_0得到结果，注意力机制通过softmax(Q·K^T / sqrt(d_k))·V来实现词间动态关联。

3、讲⼀讲tansformer里的encoder和decoder，以及整体工作原理，还有交叉注意力。

编码器：通过多层自注意力和 FFN，将输入序列编码为富含上下文的表示。  
解码器：自回归生成目标序列，每步通过自注意力关注已生成内容，通过交叉注意力查询编码器输出。  
交叉注意力：Q 来自解码器，K/V 来自编码器，实现“解码时动态检索源信息”，完成语义对齐。  
整体流程：编码器输出作为“知识库”，解码器边生成边查询，实现高质量序列生成。  

4、transformer计算过程，softmax为什么要进⾏缩放？

缩放是为了防止梯度消失。
QK^T 的方差随 d_k增大而增大，导致 softmax 输入值过大，输出接近 one-hot，梯度趋近于零。
除以 sqrt(d_k)可稳定方差，使 softmax 输入处于敏感区，保证梯度有效，训练更稳定。

5、解释前馈神经网络（FFN）在Transformer中的作用及其设计理念

FFN使用两个全连接层加一个RELU激活函数  
作用：在注意力机制后引入非线性变换，增强模型表达能力。  
设计理念：先升维扩大特征空间以捕获复杂模式，再降维回归原始维度，保留关键信息。

6、为什么FFN要将高维度映射回低维度去呢？

升维是为了在高维空间中更好地分离和学习复杂特征；
降维是为了压缩信息、减少冗余，并将特征映射回模型主干的 d_model,d_ model维度，保持结构一致性，避免参数爆炸。

7、什么是残差连接，解释残差连接（Residual Connection）在Transformer中的作用及必要性

残差连接就是用上一层的输入加上本层的输出, y=x+sublayer(x)   
作用：缓解深层网络中的梯度消失，使信息和梯度可直接跨层传播。  
必要性：Transformer 堆叠 6 层以上，残差连接确保深层模型仍可有效训练，加速收敛。

8、FFN块的计算公式是什么？

$$
FFN(x) = max(0,x\cdot W_1+b_1)\cdot W_2+b_2
$$

9、encoder和decoder中掩码的区别

编码器：仅使用 填充掩码，屏蔽 padding 位置，防止无效信息干扰。  
解码器：使用 双重掩码：  
自注意力：前瞻掩码 + 填充掩码，防止看到未来词和 padding；  
交叉注意力：填充掩码，确保只关注编码器的有效输入  

10、Transformer怎么处理文字输入的？以及Transformer的输出是什么？

输入处理：文本 tokenization 后查表转为词嵌入，加上正弦位置编码，形成d_model,d_model维输入向量。  
输出：解码器输出经线性层 + Softmax，生成一个概率分布向量，表示词汇表中每个词在当前位置的出现概率

## 代码作业1：实现基础缩放点积注意力（Scaled Dot-Product Attention）

要求：  
基于教案中的注意⼒计算⽰例，实现⼀个基础的缩放点积注意⼒机制。你需要完善下列代码。

In [10]:
import torch
import torch.nn as nn
import torch.nn.functional as F
def scaled_dot_product_attention_demo(query, key, value, mask=None, dropout=0.0):
    """
    计算缩放点积注意力
    
    参数:
        query: 查询张量，形状为 (batch_size, seq_len, d_k)
        key: 键张量，形状为 (batch_size, seq_len, d_k)
        value: 值张量，形状为 (batch_size, seq_len, d_v)
        mask: 可选的掩码张量，形状为 (batch_size, seq_len, seq_len)
        dropout: dropout概率
    
    返回:
        output: 注意力输出，形状为 (batch_size, seq_len, d_v)
        attention_weights: 注意力权重，形状为 (batch_size, seq_len, seq_len)
    """
    # 请在这里实现注意力计算
    # 步骤：
    # 1. 计算Q和K的点积，除以sqrt(d_k)进行缩放
    # 2. 如果提供了掩码，将掩码位置的值设为负无穷大
    # 3. 应用softmax函数得到注意力权重
    # 4. 如果提供了dropout，应用到注意力权重上
    # 5. 用注意力权重对V进行加权求和
    pass

**这是我自己写的版本：**

In [11]:
def scaled_dot_product_attention_my(query, key, value, mask=None, dropout=0.0):
    # 1. 计算Q和K的点积，除以sqrt(d_k)进行缩放
    scores = torch.matmul(query, key.transpose(-1, -2))/math.sqrt(query.size(-1))
    # 2. 如果提供了掩码，将掩码位置的值设为负无穷大
    if mask is not None:
        scores = scores.masked_fill(~mask, -float('inf'))
    # 3. 应用softmax函数得到注意力权重
    attention_weights = F.softmax(scores,dim=-1)
    # 4. 如果提供了dropout，应用到注意力权重上
    if dropout != 0.0:
       attention_weights = nn.Dropout(attention_weights)
    # 5. 用注意力权重对V进行加权求和
    output = torch.matmul(attention_weights,value)
    
    return output,attention_weights

**接下来是使用AI修正后的版本：**

In [13]:
def scaled_dot_product_attention(query, key, value, mask=None, dropout=0.0):
    # 1. 计算 Q @ K^T / sqrt(d_k)
    d_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-1, -2)) / math.sqrt(d_k)

    # 2. 应用掩码（如果提供）
    if mask is not None:
        if mask.dtype != torch.bool:
            mask = mask.bool()
        scores = scores.masked_fill(~mask, -float('inf'))

    # 3. Softmax 得到注意力权重
    attention_weights = F.softmax(scores, dim=-1)

    # 4. 应用 dropout
    if dropout > 0.0:
        attention_weights = F.dropout(attention_weights, p=dropout, training=True)

    # 5. 加权求和得到输出
    output = torch.matmul(attention_weights, value)

    return output, attention_weights

**以下是测试代码：**

In [12]:
# 测试代码
def test_scaled_dot_product_attention():
    # 设置参数
    batch_size = 2
    seq_len = 4
    d_k = 64  # 键的维度
    d_v = 64  # 值的维度

    # 创建测试数据
    Q = torch.randn(batch_size, seq_len, d_k)
    K = torch.randn(batch_size, seq_len, d_k)
    V = torch.randn(batch_size, seq_len, d_v)

    print("=== 测试基础注意力 ===")
    output, attention_weights = scaled_dot_product_attention(Q, K, V)

    print(f"Q形状: {Q.shape}")
    print(f"K形状: {K.shape}")
    print(f"V形状: {V.shape}")
    print(f"输出形状: {output.shape}")
    print(f"注意力权重形状: {attention_weights.shape}")
    print(f"输出均值: {output.mean():.4f}")
    print(f"注意力权重行和: {attention_weights.sum(dim=-1)[0, 0]:.4f}")  # 应该接近1.0

    # 验证输出形状
    assert output.shape == (batch_size, seq_len, d_v), f"输出形状错误: {output.shape}"
    assert attention_weights.shape == (batch_size, seq_len, seq_len), f"注意力权重形状错误: {attention_weights.shape}"

    print("\n=== 测试带掩码的注意力 ===")
    # 创建掩码（模拟序列长度分别为2和3）
    mask = torch.tensor([
        [[0, 0, 1, 1], [0, 0, 1, 1], [0, 0, 1, 1], [0, 0, 1, 1]],  # 第1个样本，只关注前2个位置
        [[0, 0, 0, 1], [0, 0, 0, 1], [0, 0, 0, 1], [0, 0, 0, 1]]  # 第2个样本，只关注前3个位置
    ]).bool()


    output_masked, attention_weights_masked = scaled_dot_product_attention(Q, K, V, mask)
    print(f"掩码形状: {mask.shape}")
    print(f"带掩码输出形状: {output_masked.shape}")
    print(f"带掩码注意力权重形状: {attention_weights_masked.shape}")
    # 验证掩码效果 - 被掩码的位置注意力权重应该接近0
    masked_positions = attention_weights_masked[0, 0, 2:4]  # 第1个样本，第1行的被掩码位置
    print(f"被掩码位置的注意力权重: {masked_positions.tolist()}")
    print("✓基础测试通过！")
if __name__ == "__main__":
    test_scaled_dot_product_attention()

=== 测试基础注意力 ===
Q形状: torch.Size([2, 4, 64])
K形状: torch.Size([2, 4, 64])
V形状: torch.Size([2, 4, 64])
输出形状: torch.Size([2, 4, 64])
注意力权重形状: torch.Size([2, 4, 4])
输出均值: -0.1191
注意力权重行和: 1.0000

=== 测试带掩码的注意力 ===
掩码形状: torch.Size([2, 4, 4])
带掩码输出形状: torch.Size([2, 4, 64])
带掩码注意力权重形状: torch.Size([2, 4, 4])
被掩码位置的注意力权重: [0.5975434184074402, 0.4024565815925598]
✓基础测试通过！


## 代码作业2：实现前馈神经网络（FFN）模块

要求：基于教案中的FFN计算示例，实现⼀个完整的前馈神经网络模块。你需要完善下列代码：


**以下是我写的：**

In [15]:
import torch
import torch.nn as nn
import torch.nn.functional as F


class FeedForwardNetwork(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(FeedForwardNetwork, self).__init__()
        # 请在这里实现初始化代码
        # 要求：
        # 1. 第一个线性层：d_model -> d_ff
        self.Linear1 = nn.Linear(d_model,d_ff)
        # 2. 第二个线性层：d_ff -> d_model
        self.Linear2 = nn.Linear(d_ff,d_model)
        # 3. 添加dropout层
        self.Dropout = nn.Dropout(p=dropout)

    def forward(self, x):
        # 请在这里实现前向传播代码
        # 步骤：
        # 1. 第一个线性变换
        x = self.Linear1(x)
        # 2. ReLU激活函数
        x = F.relu(x)
        # 3. Dropout
        x = self.Dropout(x)
        # 4. 第二个线性变换
        x = self.Linear2(x)
        return x


# 扩展要求：实现带残差连接和层归一化的FFN模块
class TransformerFFN(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(TransformerFFN, self).__init__()
        # 请在这里实现初始化代码
        # 要求：
        # 1. 包含FeedForwardNetwork
        self.FFn = FeedForwardNetwork(d_model,d_ff,dropout)
        # 2. 添加层归一化（LayerNorm）
        self.norm = nn.LayerNorm(d_model)
        # 3. 添加dropout用于残差连接
        self.Dropout = nn.Dropout(p=dropout)
        pass

    def forward(self, x):
        # 请在这里实现前向传播代码
        # 步骤：
        residual = x
        # 1. 层归一化
        x = self.norm(x)
        # 2. FFN计算
        x = self.FFn(x)
        # 3. Dropout
        x = self.Dropout(x)
        # 4. 残差连接
        return residual + x


**以下是测试代码：**

In [16]:
# 测试代码
def test_ffn_modules():
    # 设置参数
    batch_size = 2
    seq_len = 10
    d_model = 512
    d_ff = 2048  # 4倍扩展

    # 创建模型
    ffn = FeedForwardNetwork(d_model, d_ff)
    transformer_ffn = TransformerFFN(d_model, d_ff)

    # 创建测试数据
    x = torch.randn(batch_size, seq_len, d_model)

    print("=== 测试基础FFN模块 ===")
    output1 = ffn(x)
    print(f"输入形状: {x.shape}")
    print(f"输出形状: {output1.shape}")
    print(f"维度扩展比例: {d_ff / d_model}")
    print(f"输出均值: {output1.mean():.4f}")
    print(f"输出标准差: {output1.std():.4f}")

    print("\n=== 测试带残差连接的FFN模块 ===")
    output2 = transformer_ffn(x)
    print(f"输入形状: {x.shape}")
    print(f"输出形状: {output2.shape}")
    print(f"输出均值: {output2.mean():.4f}")
    print(f"输出标准差: {output2.std():.4f}")

    # 验证输出形状
    assert output1.shape == (batch_size, seq_len, d_model), f"基础FFN输出形状错误: {output1.shape}"
    assert output2.shape == (batch_size, seq_len, d_model), f"TransformerFFN输出形状错误: {output2.shape}"

    # 验证维度变换
    print(f"\n=== 维度变换分析 ===")
    print(f"输入维度: {d_model}")
    print(f"中间维度: {d_ff}")
    print(f"输出维度: {d_model}")
    print(f"扩展比例: {d_ff / d_model}")

    print("✓测试通过！")

if __name__ == "__main__":
    test_ffn_modules()

=== 测试基础FFN模块 ===
输入形状: torch.Size([2, 10, 512])
输出形状: torch.Size([2, 10, 512])
维度扩展比例: 4.0
输出均值: 0.0188
输出标准差: 0.2485

=== 测试带残差连接的FFN模块 ===
输入形状: torch.Size([2, 10, 512])
输出形状: torch.Size([2, 10, 512])
输出均值: -0.0036
输出标准差: 1.0336

=== 维度变换分析 ===
输入维度: 512
中间维度: 2048
输出维度: 512
扩展比例: 4.0
✓测试通过！
