在之前的课程中，我们已经完成了从0建立深层神经网络， 并完成正向传播的全过程。本节课开始，我们将以分类深层神经网络为例，为大家展示神经网络的学习和训练过程。在介绍PyTorch的基本工具AutoGrad库时，我们系统地介绍过数学中的优化问题和优化思想，我们介绍了最小二乘法以及梯度下降法这两个入门级优化算法的具体操作，并使用AutoGrad库实现了他们。接下来，我们将从梯度下降法向夕拓展，介绍神经网络的损失函数、常用优化算法等信息，实现神经网络的学习和迭代。本节主要讲解神经网络常用的损失函数，并在PyTorch中实现这些函数

# 机器学习中的优化思想

在之前的学习中，我们建立神经网络时总是先设定好w与6的值 (或者由我们调用的PyTorch类帮助我们随机生成权重向量w)，接着通过加和求出z，再在z上嵌套sigmoid或者softmax函数，最终获得神经网络的输出。我们的代码及计算流程，总是从神经网络的左侧向右侧计算的，之前我们提到过，这是神经网络的正向传播过程，但很明显，这并不是神经网络算法的全流程，这个流程虽然可以输出预测结果，但却无法保证神经网络的输出结果与真实值接近

![image.png](attachment:image.png)

在讲解线性回归时，我们提起过，线性回归的任务就是构造一个预测函数来映射输入的特征矩阵X和标签值y的线性关系。构造预测函数核心就是找出模型的权重向量w，并令线性回归的输出结果与真实值相近，也就是求解线性方程组中的w和6。对神经网络而言也是如此，我们的核心任务是求解一组最适合的w和b，令神经网络的输出结果与真实值接近。找寻这个w和6的过程就是“学习”，也叫做“训练”或者“建模”

![image.png](attachment:image.png)

那我们如何评价w和6是否合适呢? 我们又如何衡量我们的输出结果与真实值之间的差异大小呢?此时，我们就需要使用机器学习中通用的优化流程了。在讲解autograd的时候，其实我们已经提过这个优化流程，在这里我们稍微复习一下:

![image.png](attachment:image.png)

1)提出基本模型，明确目标<br>
我们的基本模型就是我们自建的神经网络架构，我们需要求解的就是神经网络架构中的权重向量w。

2)确定损失函数/目标函数<br>
我们需要定义某个评估指标，用以衡量模型权重为w的情况下，预测结果与真实结果的差异。当真实值与预测值差异越大时，我们就认为神经网络学习过程中丢失了许多信息，丢失的这部分被形象地称为”损失“，因此评估真实值与预测值差异的函数被我们称为“损失函数”

![image.png](attachment:image.png)

我们希望损失函数越小越好，以此，我们将问题转变为求解函数L(w)的最小值所对应的自变量w。但是，损失函数往往不是一个简单的函数，求解复杂函数就需要复杂的数学工具。在这里，我们使用的数学工具可能有两部分
将损失函数L(w)转变成凸函数的数学方法，常见的有拉格朗日变换等在凸函数上求解L(w)的最小值对应的w的方法，也就是以梯度下降为代表的优化算法

3)确定适合的优化算法<br>

4)利用优化算法，最小化损失函数，求解最佳权重w (训练)<br>
之前我们在线性回归上走过这个全流程。对线性回归，我们的损失函数是SSE，优化算法是最小二乘法和梯度下降法，两者都是对机器学习来说非常重要的优化算法。但遗憾的是，最小二乘法作为入门级优化算法，有较多的假设和先决条件，不足以应对神经网络需要被应用的各种复杂环境。梯度下降法应用广泛，不过也有很多问题需要改进。接下来，我将主要以分类深层神经网络为例来介绍神经网络中所使用的入门级损失函数及优化算法。

# 回归：误差平方和SSE

![image.png](attachment:image.png)

In [3]:
import torch
from torch.nn import MSELoss

In [4]:
yhat = torch.randn(size = (50,),dtype = torch.float32)
y = torch.randn(size = (50,),dtype = torch.float32)

In [10]:
# reduction = "sum" 时求的是SSE reduction = "mean" 时求的是MSE
criterion = MSELoss(reduction = "sum" )

In [11]:
loss  = criterion(yhat,y)
loss

tensor(77.6728)

# 二分类交叉熵损失函数 

在这一节中，我们将介绍二分类神经网络的损失函数:二分类交叉熵损失函数(Binary Cross Entropy Loss) ，也叫做对数损失 (log loss)。这个损失函数被广泛地使用在任何输出结果是二分类的神经网络中，即不止限于单层神经网络，还可被拓展到多分类中，因此理解二分类交叉熵损失是非常重要的一环。大多数时候，除非特殊声明为二分类，否则提到交叉熵损失，我们会默认算法的分类目标是多分类

二分类交叉熵损失函数是由极大似然估计推导出来的，对于有m个样本的数据言，在全部样本上的平均损失写作:

![image.png](attachment:image.png)

在单个样本的损失写作:

![image.png](attachment:image.png)

其中，In是以自然底数e为底的对数函数，w表示求解出来的一组权重(在等号的右侧，w在o里)，m是样本的个数，y;是样本i上真实的标签，o;是样本i上，基于参数w计算出来的sigmoid函数的返回值，x;是样本i各个特征的取值。我们的目标，就是求解出使L(w)最小的w取值。注意，在神经网络中，特征张量X是自变量，权重是w，但在损失函数中，权重w是损失函数的自变量，特征x和真实标签都是已知的数据，相当于是常数。不同的函数中，自变量和参数各有不同，因此大家需要在数学计算中，尤其是求导的时候避免混清。

## 极大似然估计求解二分类交叉熵损失 

在这里，我们基于极大似然法来推导交叉熵损失，这个推导过程能够帮助我们充分了解交叉熵损失的含义，以及为什么L(w)的最小化能够实现模型在数据集上的拟合最好

<li>极大似然估计 (Maximum Likelihood Estimate，MLE)的感性认识<br>
如果一个事件的发生概率很大，那这个事件应该很容易发生。如果我们希望一件事发生，就应该增加这件事发生的概率。假设现在存在事件A，其发生概率受权重w的影响。那为了事件A尽可能地发生，那我们只要寻找令其发生概率最大化的权重w。寻找相应的权重w，使得目标事件的发生概率最大，就是极大似然估计的基本方法。极大似然，就是“最大概率”，估计的是啥，就是权重w。<br>

其步骤如下: <br>
1、构筑似然函数P(w)，用于评估目标事件发生的概率，该函数被设计成目标事件发生时，概率最大<br>
2、对整体似然函数取对数，构成对数似然函数lnP(w)<br>
3、在对数似然函数上对权重w求导，并使导数为0，对权重进行求解

在二分类的例子中，我们的“任意事件”就是每个样本的分类都正确对数似然函数的负数就是我们的损失函数。接下来，我们来看看逻辑回归的对数似然函数是怎样构筑的

<li>构筑对数似然函数

二分类神经网络的标签是[0,1]，此标签服从伯努利分布(即0-1分布)，因此可得:样本i在由特征向量c;和权重向量w组成的预测函数中，样本标签被预测为1的概率为

![image.png](attachment:image.png)

对二分类而言，σ就是sigmoid函数的结果。<br>
样本i在由特征向量x;和权重向量w组成的预测函数中，样本标签被预测为0的概率为:

![image.png](attachment:image.png)

当B的值为1的时候，代表样本i的标签被预测为1，当P的值为1的时候，代表样本i的标签被预测为0。P与P相加是一定等于1的

假设样本i的真实标签y;为1，并且P也为1的话，那就说明我们将i的标签预测为1的概率很大，与真实值一致，那模型的预测就是准确的，拟合程度很高，信息损失很少。相反，如果真实标签yi为1，我们的P却很接近0，这就说明我们将的标签预测为1的概率很小，即与真实值一致的概率很小，那模型的预测就是失败的，拟合程度很低，信息损失很多。当y为0时，也是同样的道理。所以，当yi为1的时候，我们希望B非常接近1，当yi为0的时候，我们希望P非常接近1，这样，模型的效果就很好，信息损失就很少

![image.png](attachment:image.png)

将两种取值的概率整合，我们可以定义如下等式:

![image.png](attachment:image.png)

这个等式代表同时代表了P1和P0，在数学上，它被叫做逻辑回归的假设函数。

当样本i的真实标签yi为1的时候，1-y就等于0，P的0次方就是1，所以P(gilai,w)就等于P，这个时候，如果B为1，模型的效果就很好，损失就很小。<br>
同理，当yi为0的时候，P就等于P0，此时如果P0非常接近1，模型的效果就很好，损失就很小。

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

这就是我们的二分类交叉熵函数。为了数学上的便利以及更好地定义”损失”的含义，我们希望将极大值问题转换为极小值问题，因此我们对inP取负，并且让权重w作为函数的自变量，就得到了我们的损失函数L(w):

![image.png](attachment:image.png)

现在，我们已经将模型拟合中的“最小化损失”问题，转换成了对函数求解极值的问题。这就是一个，基于逻辑回归的返回值o的概率性质以及极大似然估计得出的损失函数。在这个函数上，我们只要追求最小值，就能让模型在训练数据上的拟合效果最好，损失最低

在极大似然估计中，我们只要在对数似然函数上对权重w求导，再令导数为0，就可以求解出最合适的w，但是对于像交叉熵这样复杂的损失函数，加上神经网络中复杂的权重组合，令所有权重的导数为0并一个个求解方程的难度很大。因此我们要使用优化算法，这部分我们下一章展开来聊