在PyTorch或任何其他深度学习框架中讨论局部极值点是否是问题时，通常是指在训练神经网络过程中优化损失函数时遇到的挑战。传统上，在机器学习和数学优化领域，局部极值（以及鞍点）被认为是优化过程中的障碍，因为它们可能会阻碍找到全局最优解。

然而，在深度学习实践中，尤其是对于高维空间（如神经网络权重空间），有几个原因使得局部极值点不像理论上那么重要：

1. **维度灾难**：随着模型参数数量的增加，搜索空间的维度也会增加。在如此高的维度下，实际碰到严格意义上的局部极小值的概率变得非常低。更多情况下，算法会停在一个鞍点或者一个平缓的区域，而不是一个尖锐的局部最小值。

2. **损失函数特性**：深度学习中的损失函数通常是高度非凸的，这意味着存在大量的局部极值点。但是，经验表明，这些局部极值点往往具有类似的损失值，也就是说，即使你找到了一个局部极值点，它也可能提供了一个相对不错的解决方案。

3. **正则化与早停法**：在实际应用中，我们会使用各种策略来防止过拟合，比如L2正则化、dropout等。此外，早停（early stopping）也是一种常用的技巧，它可以在验证集性能不再改善时提前终止训练，从而避免陷入较差的局部极值点。

4. **随机性**：在训练深度学习模型时，我们通常采用随机梯度下降（SGD）及其变种（如Adam, RMSprop等）。这些方法引入了随机性，有助于跳出浅层的局部极值点。此外，通过调整学习率、动量等超参数，也可以帮助优化过程更好地探索参数空间。

5. **迁移学习与预训练模型**：在很多情况下，我们可以利用已经训练好的模型作为起点，这可以显著减少需要优化的参数空间，并且初始点通常已经接近一个好的解，减少了遇到差的局部极值的可能性。

综上所述，在PyTorch或其它深度学习框架中，虽然理论上局部极值点可能是一个问题，但在实践当中，由于上述因素的存在，这一问题往往不是训练深度学习模型的主要障碍。因此，当我们讨论深度学习中的优化问题时，通常更关注如何有效地探索巨大的参数空间以及如何设计出更加有效的优化算法，而不是过分担心局部极值点的问题。

SGD，全称为随机梯度下降（Stochastic Gradient Descent），是机器学习和深度学习中广泛使用的一种优化算法。它的主要作用是在训练模型时最小化损失函数(loss function)。SGD的基本思想来源于梯度下降(Gradient Descent)，但与传统的梯度下降方法不同的是，SGD在每次迭代中仅使用一个样本（或一小批样本）来计算梯度并更新模型参数，而不是使用全部数据集。

以下是SGD的一些关键特点：

1. **计算效率高**：由于每次更新只依赖于单个样本（或小批量样本）的梯度，SGD能够更快地进行参数更新，特别是在处理大规模数据集时效率更高。

2. **引入噪声**：因为SGD基于单个样本进行更新，这会向梯度估计中引入一定的噪声。这种噪声实际上有助于跳出局部极小值点，使得算法有可能找到更好的解。

3. **参数更新频繁**：相较于批量梯度下降，SGD的更新频率要高得多，因此它通常能更快地获得一个相对合理的权重设置。

4. **对学习率敏感**：SGD的表现高度依赖于学习率的选择。如果学习率过大，可能导致参数在最优解附近波动而无法收敛；如果学习率过小，则可能导致收敛速度慢的问题。

5. **变种丰富**：为了克服标准SGD的一些局限性，如选择合适的学习率、加速收敛等，研究人员开发了许多SGD的变种算法，比如带有动量(Momentum)的SGD、AdaGrad、RMSProp、Adam等。

总之，SGD及其各种改进版本是现代机器学习和深度学习领域中不可或缺的优化工具，对于提高模型训练效率和效果有着重要作用。在PyTorch等深度学习框架中，SGD通常是默认提供的优化器之一，便于用户直接应用于模型训练过程中。