reduction-三个值，none: 不使用约简；mean:返回loss和的平均值；sum:返回loss的和。默认：mean。

## L1范数损失 L1Loss
在机器学习和深度学习中，L1范数损失通常用于正则化和稀疏性推动。通过最小化L1范数损失，可以鼓励模型产生稀疏的权重或特征选择，因为L1范数倾向于将一些权重或特征设置为零。
>$ J = loss(y, \hat y) = \sum|y - \hat y|$   
> $ \frac {\partial J} {\partial \hat y} = N_1 - N_2,  N_2表示 y≥\hat y的个数，N_1表示 y<\hat y的个数 $   
torch.nn.L1Loss(reduction='mean')


## 平滑版L1损失 SmoothL1Loss
>torch.nn.SmoothL1Loss(reduction='mean')

## 均方误差损失 MSELoss
计算 output 和 target 之差的均方差。   
MSE损失的优点是对较大的预测误差有较高的惩罚，因为差异的平方放大了较大的误差。同时，MSE损失在数学性质上也比较好，易于计算和求导。
>$ J = loss(y, \hat y) = \frac {1}{n} \sum \frac {1}{2}(y - \hat y)^2$   
>$ \frac {\partial J} {\partial \hat y} = \frac {1}{n} \sum (y - \hat y)$  
>torch.nn.MSELoss(reduction='mean')



## 交叉熵损失 CrossEntropyLoss
当训练有 C 个类别的分类问题时很有效. 可选参数 weight 必须是一个1维 Tensor, 权重将被分配给各个类别. 对于不平衡的训练集非常有效。
在多分类任务中，经常采用 softmax 激活函数+交叉熵损失函数，因为交叉熵描述了两个概率分布的差异，然而神经网络输出的是向量，并不是概率分布的形式。所以需要 softmax激活函数将一个向量进行“归一化”成概率分布的形式，再采用交叉熵损失函数计算 loss。
>$ loss(y, \hat y) = - \sum_c y_c\log(\hat y_c)$   
torch.nn.CrossEntropyLoss(weight=None,ignore_index=-100, reduction='mean')   
weight (Tensor, optional) – 自定义的每个类别的权重. 必须是一个长度为 C 的 Tensor   
ignore_index (int, optional) – 设置一个目标值, 该目标值会被忽略, 从而不会影响到 输入的梯度。

##  KL 散度损失 KLDivLoss
计算 input 和 target 之间的 KL 散度。KL 散度可用于衡量不同的连续分布之间的距离, 在连续的输出分布的空间上(离散采样)上进行直接回归时 很有效.   
>$ loss(\hat y, y) = - \sum_c y_c\log\hat y_c - \sum_c y_c\log y_c$   
torch.nn.KLDivLoss(reduction='mean')

## 二进制交叉熵损失 BCELoss
二分类任务时的交叉熵计算函数。用于测量重构的误差, 例如自动编码机. 注意目标的值 t[i] 的范围为0到1之间.
> $ loss(\hat y, y) = y * \log \hat y + (1-y)*\log(1-\hat y)$   
torch.nn.BCELoss(weight=None, reduction='mean')

## BCEWithLogitsLoss
BCEWithLogitsLoss损失函数把 Sigmoid 层集成到了 BCELoss 类中. 该版比用一个简单的 Sigmoid 层和 BCELoss 在数值上更稳定, 因为把这两个操作合并为一个层之后, 可以利用 log-sum-exp 的 技巧来实现数值稳定.

torch.nn.BCEWithLogitsLoss(weight=None, reduction='mean', pos_weight=None)


## MarginRankingLoss
$对于包含N个样本的batch数据 D(x_1, x_2, y), x_1, x_2是给定的待排序的两个输入，y代表真实的标签，属于{1, −1}。当y = 1时，x_1应该排在x_2之前，y = −1 时，x_1 应该排在x_2之后。$   
对于 mini-batch(小批量) 中每个实例的损失函数如下:
>$loss(x,y)=max(0, -y*(x1 - x2) + margin)$   
torch.nn.MarginRankingLoss(margin=0.0, reduction='mean')



## HingeEmbeddingLoss

torch.nn.HingeEmbeddingLoss(margin=1.0,  reduction='mean')

对于 mini-batch(小批量) 中每个实例的损失函数如下:


## 多标签分类损失 MultiLabelMarginLoss


torch.nn.MultiLabelMarginLoss(reduction='mean')


## 2分类的logistic损失 SoftMarginLoss

torch.nn.SoftMarginLoss(reduction='mean')

## 多标签 one-versus-all 损失 MultiLabelSoftMarginLoss

## cosine 损失 CosineEmbeddingLoss

