# 深度学习常用参数

## 基本概念

深度学习训练过程中的关键参数和概念对于构建、理解和优化模型至关重要。以下是一些最常见的参数和概念，以及它们的简要解释：

1. 学习率（Learning Rate）
- 学习率是优化算法中最重要的参数之一，它控制着权重调整的幅度。合适的学习率可以使模型快速收敛，而过高或过低的学习率都可能导致模型训练不成功。
2. 批次大小（Batch Size）
- 批次大小指的是在训练过程中一次前向和反向传播中用于更新网络权重的样本数量。它直接影响模型训练的内存消耗、速度和稳定性。
3. 迭代次数（Iterations）
- 迭代次数是指完成一个批次训练的总次数。一个迭代等于使用批次大小数量的样本进行一次前向传播和一次反向传播。
4. 循环次数（Epochs）
- 循环次数是指整个训练数据集被遍历的次数。一个Epoch意味着每个训练样本在训练过程中被使用了一次。
5. 损失函数（Loss Function）
- 损失函数计算模型的预测值和真实值之间的差异。它是训练过程中需要最小化的关键函数，不同的任务选择不同的损失函数。
6. 优化器（Optimizer）
- 优化器决定了模型参数的更新策略。常见的优化器包括SGD、Adam、RMSprop等，它们有助于快速有效地训练模型。
7. 正则化（Regularization）
- 正则化是一种减少模型过拟合的技术，它通过在损失函数中添加一个额外的项（例如L1或L2惩罚项）来限制模型的复杂度。
8. Dropout
- Dropout是一种特殊的正则化技术，它在训练过程中随机“丢弃”一部分神经网络的节点，从而防止模型过于依赖训练数据集中的特定样本。
9. 激活函数（Activation Function）
- 激活函数用于非线性变换输入，使得神经网络可以学习和表示复杂的数据。常见的激活函数包括ReLU、Sigmoid和Tanh等。
10. 学习率调度（Learning Rate Scheduling）
- 学习率调度指的是在训练过程中调整学习率的策略，例如，随着训练的进行逐渐减小学习率，以更细致地调整模型参数。

假设我们有一个数据集，总共包含1200个样本。我们想用这个数据集来训练一个深度学习模型。

样本数量：数据集中的总样本数为1200个。
为了训练模型，我们决定使用小批量梯度下降法，这需要我们设定一个批次大小（Batch Size）。

批次大小（Batch Size）：设定为100，意味着在每次训练（每次迭代）中，我们将使用100个样本。
接下来，我们需要确定循环次数（Epoch），即我们希望模型遍历整个数据集训练多少次。

循环次数（Epoch）：假设我们设置为5，这意味着我们希望模型遍历整个数据集5次来进行训练。
现在，我们来计算完成所有Epoch所需的迭代次数（Iteration）。

迭代次数（Iteration）  
由于每次迭代我们使用100个样本，而整个数据集有1200个样本，所以完成一次Epoch（即遍历一次整个数据集）需要的迭代次数为：

迭代次数（每个Epoch）=样本数量批次大小=1200/100=12迭代次数（每个Epoch）=批次大小样本数量​=1001200​=12
这意味着在每个Epoch中，我们需要12次迭代来遍历整个数据集。

既然我们计划进行5个Epoch的训练，那么总的迭代次数将会是：

总迭代次数 = 迭代次数（每个Epoch） × 循环次数（Epoch） = 12 × 5 = 60
结合起来
所以，在这个例子中：

我们有一个包含1200个样本的数据集。
我们设置批次大小（Batch Size）为100。
我们计划让模型遍历整个数据集5次（即5个Epoch）。
为了完成这5个Epoch的训练，我们将需要进行60次迭代。
这意味着在整个训练过程中，模型的权重将会根据训练数据更新60次，以逐步减少预测误差并提高模型的性能。

## batch_size的概念与作用

batch_size是指在深度学习模型训练过程中，每次迭代（iteration）所使用的样本数量。换句话说，它决定了模型在更新权重时所使用的数据量大小。在随机梯度下降（SGD）及其变种（如Adam、RMSprop等）中，batch_size的大小直接影响了模型的优化过程。



**为什么需要batch_size？**

在深度学习中，我们通常使用大量的数据来训练模型。如果每次迭代都使用整个数据集（即batch_size等于数据集大小），那么这种方法被称为批量梯度下降（Batch Gradient Descent）。然而，批量梯度下降存在以下问题：

计算量大：每次迭代都需要计算整个数据集的梯度，导致计算量非常大。  
收敛速度慢：由于每次迭代都使用整个数据集，模型需要更多的迭代次数才能收敛。

**小批量梯度下降的优点**  
计算量小：每次迭代只计算一个小批量的梯度，降低了计算量。  
收敛速度快：由于每次迭代都使用不同的小批量数据，模型能够更快地收敛到最优解。  
泛化能力强：小批量梯度下降引入了一定的随机性（因为每次迭代使用的小批量数据是随机的），有助于模型在训练过程中学习到更多的数据分布信息，从而提高泛化能力。

**如何选择合适的batch_size？**  

考虑硬件资源：batch_size的大小受到硬件资源的限制。如果GPU或CPU的内存不足，则需要减小batch_size。  
权衡训练速度和精度：较大的batch_size可以加快训练速度，但可能会导致模型精度下降；而较小的batch_size可以提高模型精度，但会减慢训练速度。因此，需要在训练速度和精度之间找到一个平衡点。  
尝试不同的值：在实际应用中，可以尝试不同的batch_size值，并观察模型在验证集上的性能表现。通常，可以使用一些常用的batch_size值（如32、64、128、256等）作为起点。

# GPU和显存分析

## nvidia-smi

nvidia-smi是Nvidia显卡命令行管理套件，基于NVML库，旨在管理和监控Nvidia GPU设备。
![image.png](attachment:image.png)
nvidia-smi的输出

这是nvidia-smi命令的输出，其中最重要的两个指标：  
- 显存占用  
- GPU利用率  

显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。

显存可以看成是空间，类似于内存。  
- 显存用于存放模型，数据  
- 显存越大，所能运行的网络也就越大  

GPU计算单元类似于CPU中的核，用来进行数值计算。衡量计算量的单位是flop： the number of floating-point multiplication-adds，浮点数先乘后加算一个flop。计算能力越强大，速度越快。衡量计算能力的单位是flops： 每秒能执行的flop数量

## 存储指标

在深度学习中会用到各种各样的数值类型，数值类型命名规范一般为TypeNum，比如Int64、Float32、Double64。

Type：有Int，Float，Double等  
Num: 一般是 8，16，32，64，128，表示该类型所占据的比特数目  
常用的数值类型如下图所示(int64 准确的说应该是对应c中的long long类型， long类型在32位机器上等效于int32)：

![image.png](attachment:image.png)

其中Float32 是在深度学习中最常用的数值类型，称为单精度浮点数，每一个单精度浮点数占用4Byte的显存。

举例来说：有一个1000x1000的 矩阵，float32，那么占用的显存差不多就是

1000x1000x4 Byte = 4MB

## 神经网络显存占用

神经网络模型占用的显存包括：
- 模型自身的参数
- 模型的输出

## 节省显存的方法

在深度学习中，一般占用显存最多的是卷积等层的输出，模型参数占用的显存相对较少，而且不太好优化。

节省显存一般有如下方法：

- 降低batch-size
- 下采样(NCHW -> (1/4)\*NCHW)
- 减少全连接层（一般只留最后一层分类用的全连接层）