# 深度学习常用参数

## 基本概念

深度学习训练过程中的关键参数和概念对于构建、理解和优化模型至关重要。以下是一些最常见的参数和概念，以及它们的简要解释：

1. 学习率（Learning Rate）
- 学习率是优化算法中最重要的参数之一，它控制着权重调整的幅度。合适的学习率可以使模型快速收敛，而过高或过低的学习率都可能导致模型训练不成功。
2. 批次大小（Batch Size）
- 批次大小指的是在训练过程中一次前向和反向传播中用于更新网络权重的样本数量。它直接影响模型训练的内存消耗、速度和稳定性。
3. 迭代次数（Iterations）
- 迭代次数是指完成一个批次训练的总次数。一个迭代等于使用批次大小数量的样本进行一次前向传播和一次反向传播。
4. 循环次数（Epochs）
- 循环次数是指整个训练数据集被遍历的次数。一个Epoch意味着每个训练样本在训练过程中被使用了一次。
5. 损失函数（Loss Function）
- 损失函数计算模型的预测值和真实值之间的差异。它是训练过程中需要最小化的关键函数，不同的任务选择不同的损失函数。
6. 优化器（Optimizer）
- 优化器决定了模型参数的更新策略。常见的优化器包括SGD、Adam、RMSprop等，它们有助于快速有效地训练模型。
7. 正则化（Regularization）
- 正则化是一种减少模型过拟合的技术，它通过在损失函数中添加一个额外的项（例如L1或L2惩罚项）来限制模型的复杂度。
8. Dropout
- Dropout是一种特殊的正则化技术，它在训练过程中随机“丢弃”一部分神经网络的节点，从而防止模型过于依赖训练数据集中的特定样本。
9. 激活函数（Activation Function）
- 激活函数用于非线性变换输入，使得神经网络可以学习和表示复杂的数据。常见的激活函数包括ReLU、Sigmoid和Tanh等。
10. 学习率调度（Learning Rate Scheduling）
- 学习率调度指的是在训练过程中调整学习率的策略，例如，随着训练的进行逐渐减小学习率，以更细致地调整模型参数。

假设我们有一个数据集，总共包含1200个样本。我们想用这个数据集来训练一个深度学习模型。

样本数量：数据集中的总样本数为1200个。
为了训练模型，我们决定使用小批量梯度下降法，这需要我们设定一个批次大小（Batch Size）。

批次大小（Batch Size）：设定为100，意味着在每次训练（每次迭代）中，我们将使用100个样本。
接下来，我们需要确定循环次数（Epoch），即我们希望模型遍历整个数据集训练多少次。

循环次数（Epoch）：假设我们设置为5，这意味着我们希望模型遍历整个数据集5次来进行训练。
现在，我们来计算完成所有Epoch所需的迭代次数（Iteration）。

迭代次数（Iteration）  
由于每次迭代我们使用100个样本，而整个数据集有1200个样本，所以完成一次Epoch（即遍历一次整个数据集）需要的迭代次数为：

迭代次数（每个Epoch）=样本数量批次大小=1200/100=12迭代次数（每个Epoch）=批次大小样本数量​=1001200​=12
这意味着在每个Epoch中，我们需要12次迭代来遍历整个数据集。

既然我们计划进行5个Epoch的训练，那么总的迭代次数将会是：

总迭代次数 = 迭代次数（每个Epoch） × 循环次数（Epoch） = 12 × 5 = 60
结合起来
所以，在这个例子中：

我们有一个包含1200个样本的数据集。
我们设置批次大小（Batch Size）为100。
我们计划让模型遍历整个数据集5次（即5个Epoch）。
为了完成这5个Epoch的训练，我们将需要进行60次迭代。
这意味着在整个训练过程中，模型的权重将会根据训练数据更新60次，以逐步减少预测误差并提高模型的性能。

## batch_size的概念与作用

batch_size是指在深度学习模型训练过程中，每次迭代（iteration）所使用的样本数量。换句话说，它决定了模型在更新权重时所使用的数据量大小。在随机梯度下降（SGD）及其变种（如Adam、RMSprop等）中，batch_size的大小直接影响了模型的优化过程。



**为什么需要batch_size？**

在深度学习中，我们通常使用大量的数据来训练模型。如果每次迭代都使用整个数据集（即batch_size等于数据集大小），那么这种方法被称为批量梯度下降（Batch Gradient Descent）。然而，批量梯度下降存在以下问题：

计算量大：每次迭代都需要计算整个数据集的梯度，导致计算量非常大。  
收敛速度慢：由于每次迭代都使用整个数据集，模型需要更多的迭代次数才能收敛。

**小批量梯度下降的优点**  
计算量小：每次迭代只计算一个小批量的梯度，降低了计算量。  
收敛速度快：由于每次迭代都使用不同的小批量数据，模型能够更快地收敛到最优解。  
泛化能力强：小批量梯度下降引入了一定的随机性（因为每次迭代使用的小批量数据是随机的），有助于模型在训练过程中学习到更多的数据分布信息，从而提高泛化能力。

**如何选择合适的batch_size？**  

考虑硬件资源：batch_size的大小受到硬件资源的限制。如果GPU或CPU的内存不足，则需要减小batch_size。  
权衡训练速度和精度：较大的batch_size可以加快训练速度，但可能会导致模型精度下降；而较小的batch_size可以提高模型精度，但会减慢训练速度。因此，需要在训练速度和精度之间找到一个平衡点。  
尝试不同的值：在实际应用中，可以尝试不同的batch_size值，并观察模型在验证集上的性能表现。通常，可以使用一些常用的batch_size值（如32、64、128、256等）作为起点。

# GPU和显存分析

## nvidia-smi

nvidia-smi是Nvidia显卡命令行管理套件，基于NVML库，旨在管理和监控Nvidia GPU设备。
![image.png](attachment:image.png)
nvidia-smi的输出

这是nvidia-smi命令的输出，其中最重要的两个指标：  
- 显存占用  
- GPU利用率  

显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。

显存可以看成是空间，类似于内存。  
- 显存用于存放模型，数据  
- 显存越大，所能运行的网络也就越大  

GPU计算单元类似于CPU中的核，用来进行数值计算。衡量计算量的单位是flop： the number of floating-point multiplication-adds，浮点数先乘后加算一个flop。计算能力越强大，速度越快。衡量计算能力的单位是flops： 每秒能执行的flop数量

## 存储指标

在深度学习中会用到各种各样的数值类型，数值类型命名规范一般为TypeNum，比如Int64、Float32、Double64。

Type：有Int，Float，Double等  
Num: 一般是 8，16，32，64，128，表示该类型所占据的比特数目  
常用的数值类型如下图所示(int64 准确的说应该是对应c中的long long类型， long类型在32位机器上等效于int32)：

![image.png](attachment:image.png)

其中Float32 是在深度学习中最常用的数值类型，称为单精度浮点数，每一个单精度浮点数占用4Byte的显存。

举例来说：有一个1000x1000的 矩阵，float32，那么占用的显存差不多就是

1000x1000x4 Byte = 4MB

## 神经网络显存占用

神经网络模型占用的显存包括：
- 模型自身的参数
- 模型的输出

## 节省显存的方法

在深度学习中，一般占用显存最多的是卷积等层的输出，模型参数占用的显存相对较少，而且不太好优化。

节省显存一般有如下方法：

- 降低batch-size
- 下采样(NCHW -> (1/4)\*NCHW)
- 减少全连接层（一般只留最后一层分类用的全连接层）

# 深度学习常用概念

## 感受野

在卷积神经网络中，感受野(receptive field)不像输出由整个网络输入所决定的全连接网络那样，它是可以存在于网络中任意某层，输出仅由输入部分决定。

输出特征层中一个点映射在原始输入图像中的区域。

![image.png](attachment:image.png)

其中，3×3卷积对应的感受野大小就是3×3，而通过两层3×3的卷积之后，感受野的大小将会增加到5×5。

## Normalization

Normalization：规范化或标准化，就是把输入数据X，在输送给神经元之前先对其进行平移和伸缩变换，将X的分布规范化成在固定区间范围的标准分布。
![image.png](attachment:image.png)
μ：平移参数 ，δ：缩放参数 ，b ：再平移参数， g 再缩放参数，得到的数据符合均值为 b 、方差为g^2 的分布。

### Batch Normalization

Normalization 的作用很明显，把数据拉回标准正态分布，因为神经网络的Block大部分都是矩阵运算，一个向量经过矩阵运算后值会越来越大，为了网络的稳定性，我们需要及时把值拉回正态分布。

Normalization根据标准化操作的维度不同可以分为batch Normalization和Layer Normalization，不管在哪个维度上做noramlization，本质都是为了让数据在这个维度上归一化，因为在训练过程中，上一层传递下去的值千奇百怪，什么样子的分布都有。BatchNorm就是通过对batch size这个维度归一化来让分布稳定下来。LayerNorm则是通过对Hidden size这个维度归一化来让某层的分布稳定。

![image.png](attachment:image.png)
Batch Normalization（纵向规范化）针对单个神经元进行，利用网络训练时一个 mini-batch 的数据来计算该神经元xi的均值和方差,因而称为 Batch Normalization。
![image-2.png](attachment:image-2.png)

###  Layer Normalization

![image.png](attachment:image.png)
Layer Normalization（横向规范化）综合考虑一层所有维度的输入，计算该层的平均输入值和输入方差，然后用同一个规范化操作来转换各个维度的输入。
![image-2.png](attachment:image-2.png)
其中 i 枚举了该层所有的输入神经元。对应到标准公式中，四大参数 μ, δ, g, b 均为标量（BN中是向量），所有输入共享一个规范化变换。

### BN vs LN (两者对比)

**BatchNorm是对一个batch-size样本内的每个特征分别做归一化，LayerNorm是分别对每个样本的所有特征做归一化**。BN 的转换是针对单个神经元可训练的：不同神经元的输入经过再平移和再缩放后分布在不同的区间；而 LN 对于一整层的神经元训练得到同一个转换：所有的输入都在同一个区间范围内。如果不同输入特征不属于相似的类别（比如颜色和大小），那么 LN 的处理可能会降低模型的表达能力。

BN抹杀了不同特征之间的大小关系，但是保留了不同样本间的大小关系；LN抹杀了不同样本间的大小关系，但是保留了一个样本内不同特征之间的大小关系。（理解：BN对batch数据的同一特征进行标准化，变换之后，纵向来看，不同样本的同一特征仍然保留了之前的大小关系，但是横向对比样本内部的各个特征之间的大小关系不一定和变换之前一样了，因此抹杀或破坏了不同特征之间的大小关系，保留了不同样本之间的大小关系；LN对单一样本进行标准化，样本内的特征处理后原来数值大的还是相对较大，原来数值小的还是相对较小，不同特征之间的大小关系还是保留了下来，但是不同样本在各自标准化处理之后，两个样本对应位置的特征之间的大小关系将不再确定，可能和处理之前就不一样了，所以破坏了不同样本间的大小关系）。

在BN和LN都能使用的场景中，BN的效果一般优于LN，原因是基于不同数据，同一特征得到的归一化特征更不容易损失信息。但是有些场景是不能使用BN的，例如batch size较小或者序列问题中可以使用LN。这也就解答了RNN 或Transformer为什么用Layer Normalization？

**首先RNN或Transformer解决的是序列问题，一个存在的问题是不同样本的序列长度不一致，而Batch Normalization需要对不同样本的同一位置特征进行标准化处理，所以无法应用；当然，输入的序列都要做padding补齐操作，但是补齐的位置填充的都是0，这些位置都是无意义的，此时的标准化也就没有意义了**。

其次上面说到，BN抹杀了不同特征之间的大小关系；LN是保留了一个样本内不同特征之间的大小关系，这对NLP任务是至关重要的。对于NLP或者序列任务来说，一条样本的不同特征，其实就是时序上的变化，这正是需要学习的东西自然不能做归一化抹杀，所以要用LN。

**LN针对的是单独一个样本，在训练和预测阶段的使用并无差别；BN是针对一个batch进行计算的，训练时自然可以根据batch计算，但是预测时有时要预测的是单个样本，此时要么认为batch size就是1，不进行标准化处理，要么是在训练时记录标准化操作的均值和方差直接应用到预测数据，这两种解决方案都不是很完美，都会存在偏差**。

## 损失函数

### 回归任务常用损失函数

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### 分类任务常用损失函数

![image.png](attachment:image.png)

### 生成模型常用损失函数

![image.png](attachment:image.png)

## 激活函数

在神经网络中，激活函数（Activation Function）是引入非线性的一种关键操作。激活函数决定了每一层神经元的输出值，进而决定了网络的非线性表达能力，使其可以拟合复杂的函数和高维数据模式。

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)

激活函数的选择  
回归任务：输出层通常使用 线性激活，隐藏层可以选择 ReLU、Leaky ReLU。  
二分类任务：输出层一般使用 Sigmoid 激活，隐藏层可以用 ReLU、Leaky ReLU 或 Tanh。  
多分类任务：输出层一般使用 Softmax 激活，隐藏层可以用 ReLU 或 Swish。  
深层网络：隐藏层使用 ReLU、Leaky ReLU、PReLU 或 Swish 函数有助于解决梯度消失和神经元死亡问题。

# 深度学习常用函数

## model.eval()

在推理时，如果使用model.eval()将不启用 BatchNormalization 和 Dropout，保证BN和dropout不发生变化，pytorch框架会自动把BN和Dropout固定住，不会取平均，而是用训练好的值，不然的话，一旦test的batch_size过小，很容易就会被BN层影响结果。所以在利用原始.pth模型进行前向推理之前，一定要先进行model.eval()操作，不启用 BatchNormalization 和 Dropout。

## 梯度裁剪

梯度裁剪（Gradient Clipping）是一种防止梯度爆炸或梯度消失的优化技术，它可以在反向传播过程中对梯度进行缩放或截断，使其保持在一个合理的范围内。梯度裁剪有两种常见的方法：

按照梯度的绝对值进行裁剪，即如果梯度的绝对值超过了一个阈值，就将其设置为该阈值的符号乘以该阈值。
按照梯度的范数进行裁剪，即如果梯度的范数超过了一个阈值，就将其按比例缩小，使其范数等于该阈值。例如，如果阈值为1，那么梯度的范数就是1。
在PyTorch中，可以使用 `torch.nn.utils.clip_grad_value_` 和 `torch.nn.utils.clip_grad_norm_` 这两个函数来实现梯度裁剪，它们都是在梯度计算完成后，更新权重之前调用的。

在PyTorch中，nn.utils.clip_grad_norm_ 函数用于实现梯度裁剪。这个函数会首先计算出梯度的范数，然后将其限制在一个最大值之内。这样可以防止在反向传播过程中梯度过大导致的数值不稳定问题。

这个函数的参数如下：

- parameters：一个基于变量的迭代器，会进行梯度归一化。通常我们会传入模型的参数，如 model.parameters() 。
- max_norm：梯度的最大范数。如果梯度的范数超过这个值，那么就会对梯度进行缩放，使得其范数等于这个值。
- norm_type：规定范数的类型。默认为2，即L2范数。如果设置为1，则使用L1范数；如果设置为0，则使用无穷范数。

代码的工作流程如下：

- optimizer.zero_grad()：清零所有参数的梯度缓存。
- outputs = model(data)：前向传播，计算模型的输出。
- loss = loss_fn(outputs, target)：计算损失函数。
- loss.backward()：反向传播，计算当前梯度。
- nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)：对梯度进行裁剪，防止梯度爆炸。
- optimizer.step()：更新模型的参数。

**什么情况下需要梯度裁剪**

梯度裁剪主要用于解决神经网络训练中的梯度爆炸问题。以下是一些可能需要使用梯度裁剪的情况：

（1）深度神经网络：深度神经网络，特别是RNN，在训练过程中容易出现梯度爆炸的问题。这是因为在反向传播过程中，梯度会随着层数的增加而指数级增大。

（2）训练不稳定：如果你在训练过程中观察到模型的损失突然变得非常大或者变为NaN，这可能是梯度爆炸导致的。在这种情况下，使用梯度裁剪可以帮助稳定训练。

（3）长序列训练：在处理长序列数据（如机器翻译或语音识别）时，由于序列长度的增加，梯度可能会在反向传播过程中累加并导致爆炸。梯度裁剪可以防止这种情况发生。

需要注意的是，虽然梯度裁剪可以帮助防止梯度爆炸，但它不能解决梯度消失的问题。对于梯度消失问题，可能需要使用其他技术，如门控循环单元（GRU）或长短期记忆（LSTM）网络，或者使用残差连接等方法。

**注意事项**

梯度裁剪虽然是一种有效防止梯度爆炸的技术，但它也有一些潜在的缺点：

（1）选择合适的裁剪阈值：选择一个合适的梯度裁剪阈值可能会比较困难。如果阈值设置的太大，那么梯度裁剪可能就无法防止梯度爆炸；如果阈值设置的太小，那么可能会限制模型的学习能力。通常，这个阈值需要通过实验来确定。

（2）不能解决梯度消失问题：梯度裁剪只能防止梯度爆炸，但不能解决梯度消失问题。在深度神经网络中，梯度消失也是一个常见的问题，它会导致网络的深层部分难以训练。

（3）可能影响优化器的性能：某些优化器，如Adam和RMSProp，已经包含了防止梯度爆炸的机制。在这些优化器中使用梯度裁剪可能会干扰其内部的工作机制，从而影响训练的效果。

（4）可能引入额外的计算开销：计算和应用梯度裁剪需要额外的计算资源，尤其是在参数量非常大的模型中。

## torch.cat()

torch.cat() 是 PyTorch 中用于将多个张量在指定维度上进行连接的函数。与 torch.stack() 不同，torch.cat() 不会创建新维度，而是在现有维度上将张量连接在一起。

outputs = torch.cat(inputs, dim=?) → Tensor  
参数

inputs : 待连接的张量序列，可以是任意相同Tensor类型的python 序列  
dim : 选择的扩维, 必须在0到len(inputs[0])之间，沿着此维连接张量序列。

In [9]:
# 假设有三个形状相同的张量：
a = torch.tensor([1, 2])
print(a.shape)
b = torch.tensor([3, 4])
c = torch.tensor([5, 6])

# 可以使用 torch.cat 沿维度将它们堆叠起来：
cated = torch.cat([a, b, c], dim=0)
print(cated)

torch.Size([2])
tensor([1, 2, 3, 4, 5, 6])


In [11]:
# 超过现有维度会报错
torch.cat([a, b, c], dim=1)

IndexError: Dimension out of range (expected to be in range of [-1, 0], but got 1)

## torch.stack()

torch.stack 是 PyTorch 中用于沿新维度连接一组张量的函数。与 torch.cat 不同，torch.stack 会创建一个新的维度，将输入的张量堆叠在一起。

语法

torch.stack(tensors, dim=0)  
tensors：需要堆叠的张量序列，这些张量的形状必须相同。  
dim：新维度插入的位置，默认是 0，表示在最外层创建一个新的维度。

In [8]:
# 假设有三个形状相同的张量：
a = torch.tensor([1, 2])
print(a.shape)
b = torch.tensor([3, 4])
c = torch.tensor([5, 6])

# 可以使用 torch.stack 沿新维度将它们堆叠起来：
stacked = torch.stack([a, b, c], dim=0)
print(stacked)
print(stacked.shape)

torch.Size([2])
tensor([[1, 2],
        [3, 4],
        [5, 6]])
torch.Size([3, 2])


## masked_fill()

masked_fill方法有两个参数，mask和value，mask是一个pytorch张量（Tensor），元素是布尔值，value是要填充的值，**填充规则是mask中取值为True位置对应于self的相应位置用value填充**。

In [1]:
import torch

t = torch.randn(3,2)
t

tensor([[-1.7544, -1.5359],
        [-2.1221, -0.3324],
        [ 1.0647, -0.1458]])

In [2]:
m = torch.randint(0,2,(3,2))
m == 0

tensor([[False, False],
        [False,  True],
        [ True, False]])

In [3]:
t.masked_fill(m == 0, -1e9)

tensor([[-1.7544e+00, -1.5359e+00],
        [-2.1221e+00, -1.0000e+09],
        [-1.0000e+09, -1.4581e-01]])

## torch.topk()

在 PyTorch 中，torch.topk 函数是一个非常实用的工具，它允许我们从给定维度的张量中获取最大或最小的 k 个元素。这个函数返回两个值：一个包含顶部 k 个值的张量，以及这些值在原始张量中的索引。

torch.topk 函数的基本语法如下：

torch.topk(input, k, dim=None, largest=True, sorted=True, \*, out=None)
这里的参数意义如下：

input：输入的张量。

k：需要返回的元素数量。

dim：要排序的维度。如果不指定，则默认为输入张量的最后一个维度。

largest：一个布尔值，指定是返回最大还是最小的元素。

sorted：一个布尔值，指定返回的元素是否需要排序。

out：一个可选的输出缓冲元组，可以用来存放结果。

In [1]:
import torch

# 创建一个一维张量
x = torch.arange(1., 6.)

# 获取最大的三个元素及其索引
values, indices = torch.topk(x, 3)

In [2]:
values

tensor([5., 4., 3.])

In [3]:
indices

tensor([4, 3, 2])

## permute()

功能：可以对张量的多个维度进行任意顺序的重新排列。  
使用方式：permute(\*dims)，其中 dims 是新维度顺序的列表。  
适用场景：当你需要对张量的多个维度进行重排时，permute 非常灵活，可以指定任何顺序。  

In [5]:
x = torch.randn(2, 3, 4)  # 形状为 (2, 3, 4)
x_permuted = x.permute(2, 0, 1)  # 形状变为 (4, 2, 3)

## transpose()

功能：只能交换两个指定的维度。  
使用方式：transpose(dim0, dim1)，其中 dim0 和 dim1 是需要交换的两个维度。  
适用场景：当只需要交换两个维度的位置时，transpose 更简洁。

In [4]:
x = torch.randn(2, 3, 4)  # 形状为 (2, 3, 4)
x_transposed = x.transpose(1, 2)  # 形状变为 (2, 4, 3)

## contiguous()

contiguous() 是 PyTorch 中用于确保张量在内存中是连续存储的。当一个张量的形状被改变，比如通过 permute 或 transpose 操作时，它的元素在内存中的顺序可能会变得不连续，而 contiguous() 会创建一个连续存储的新张量，以便后续操作可以更有效地进行。

假设我们有一个张量在内存中按顺序排列，当对张量使用 permute 或 transpose 改变维度顺序时，虽然逻辑上的维度顺序改变了，但数据在物理内存中的位置并未真正调整。这时，如果需要对张量进行类似于 .view() 的操作，PyTorch 要求张量在内存中是连续的，这样可以确保按期望的顺序访问数据。

In [6]:
x = torch.randn(2, 3)
x_t = x.permute(1, 0)  # 交换维度顺序，x_t在内存中可能不连续
x_t = x_t.contiguous()  # 确保x_t在内存中连续

## torch.unsqueeze()

torch.unsqueeze 用于在张量的指定位置增加一个维度。新的维度大小为 1。

语法：

torch.unsqueeze(input, dim)  
input：输入张量。  
dim：要增加维度的位置索引。

In [12]:
x = torch.tensor([1, 2, 3])  # 形状为 (3,)
x_unsqueezed = torch.unsqueeze(x, 0)  # 在第0个维度增加维度
print(x_unsqueezed)  # 输出: tensor([[1, 2, 3]])
print(x_unsqueezed.shape)  # 输出: torch.Size([1, 3])

tensor([[1, 2, 3]])
torch.Size([1, 3])


## torch.squeeze()

torch.squeeze 用于移除张量中大小为 1 的维度（即单个元素的维度）。

语法：

torch.squeeze(input, dim=None)  
input：输入张量。  
dim（可选）：指定要移除的维度索引，如果该维度的大小为 1，则移除；如果不指定 dim，则移除所有大小为 1 的维度。

In [13]:
y = torch.tensor([[[1, 2, 3]]])  # 形状为 (1, 1, 3)
y_squeezed = torch.squeeze(y)  # 自动移除所有为1的维度
print(y_squeezed)  # 输出: tensor([1, 2, 3])
print(y_squeezed.shape)  # 输出: torch.Size([3])

tensor([1, 2, 3])
torch.Size([3])


In [14]:
# 如果只想去掉某一个维度（假设这里是第 0 维），可以指定 dim 参数：
y_squeezed_dim0 = torch.squeeze(y, dim=0)
print(y_squeezed_dim0.shape)  # 输出: torch.Size([1, 3])

torch.Size([1, 3])


## repeat()

repeat 是 PyTorch 中用于沿指定维度复制张量内容的操作，可以将张量扩展成更大的尺寸，而不是增加维度本身。

语法

tensor.repeat(\*sizes)  
sizes：一个整数元组，每个数值表示在对应维度上要复制的次数。

In [15]:
# 假设有一个形状为 (2, 3) 的张量：
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# 如果要在第 0 维度上复制 2 次，在第 1 维度上复制 3 次，可以这样使用 repeat：
x_repeated = x.repeat(2, 3)
print(x_repeated)

tensor([[1, 2, 3, 1, 2, 3, 1, 2, 3],
        [4, 5, 6, 4, 5, 6, 4, 5, 6],
        [1, 2, 3, 1, 2, 3, 1, 2, 3],
        [4, 5, 6, 4, 5, 6, 4, 5, 6]])


repeat 会实际扩展数据的内存，如果只想增加维度而不复制数据，可以使用 expand 方法。

## expand()

expand 是 PyTorch 中用于在指定维度上扩展张量的操作，但与 repeat 不同的是，expand 不会实际复制数据，而是创建一个“视图”，通过改变张量的形状来让数据在特定维度上重复显示，因此它的内存效率更高。

语法
 
tensor.expand(\*sizes)  
sizes：表示新形状的整数元组，其中每个维度的大小必须与原始大小相等或等于 1，才能扩展。

In [16]:
x = torch.tensor([[1, 2, 3]])  # 形状为 (1, 3)

# 如果要在第 0 维度上扩展到大小 2，可以使用 expand：
x_expanded = x.expand(2, 3)
print(x_expanded)

tensor([[1, 2, 3],
        [1, 2, 3]])


In [17]:
x.expand(2, 4)

RuntimeError: The expanded size of the tensor (4) must match the existing size (3) at non-singleton dimension 1.  Target sizes: [2, 4].  Tensor sizes: [1, 3]

expand 只能扩展原来是 1 的维度。如果一个维度大小不是 1，不能对该维度使用 expand。  
由于 expand 只是视图操作，修改 x_expanded 的内容也会影响到原始张量 x。

# 消融实验

消融实验（ablation study）是一种科学研究方法，用于确定一个条件或参数对结果的影响程度。当研究者提出了一个新的方案或方法时，消融实验通过逐一控制一个条件或参数，来观察结果的变化，以确定哪个条件或参数对结果的影响更大。

举个例子，假设在目标检测系统中，使用了A、B、C三种方法相加取得了不错的效果。但是我们并不知道这个效果是由于A、B还是C起的作用。为了确定哪个方法对结果的影响更大，我们可以保留A、B，移除C进行实验，观察结果的变化。通过这样的消融实验，我们可以最终确定到底是哪个方法对结果的影响更大。

总结来说，消融实验类似于"控制变量法"，通过逐一控制条件或参数来观察结果的变化，以确定它们对结果的影响程度。

消融实验的优点是可以帮助研究人员理解模型的不同组成部分对整体性能的贡献。通过逐步消除模型中的某些组件或功能，研究人员可以评估这些组件或功能对模型性能的影响。这有助于揭示模型的关键组件和关键功能，以及它们在任务中的作用。

消融实验的局限性在于，它可能无法完全反映真实世界的情况。通过消除某些组件或功能，消融实验可能会导致模型在特定任务上的性能下降，但在实际应用中，这些组件或功能可能是必要的。此外，消融实验可能无法考虑到组件之间的相互作用和复杂性，因此结果可能不完全准确。

总的来说，消融实验是一种有用的方法，可以帮助研究人员理解模型的工作原理和性能贡献，但需要谨慎解释和应用其结果。

既然消融实验的目的是展示各个模块/部分对于系统的作用，那么实验的设计者应当对系统的各个模块的构成以及总体的架构有详细的了解。比如说原始的模型M是由一个模块A组成，而新的设计在M的基础上增加了B和C模块，使得现在的模型成为了A+B+C，那么就要分别单独研究模块B与C对于整个系统的影响，此时实验应该按照下面的表格设计，

| |metric 1|	|...|	metric N|
|---|---|---|---|---|
A (baseline)|||||			
A+B|||||			
A+C	|	||||	
A+B+C (final)|	||||		

在上图中，metric 1 - N 表示N个用来评价系统性能的指标，比如图像分类任务中常用的top1 和 top5 error rate。原始模型M（只含有A模块）会被首先测试，得到的结果会成为baseline用来对比。接下来，分别测试模型A+B与A+C来分别测试B模块与C模块的单独作用。最后，就要把所有的模块都放在一起，也就是模型A+B+C，来测试最终模型的性能。

当模块C是基于模块B时，也就是不存在A+C模型的组合方式时，只需要将上表中对应A+C的行删去即可。