3. 损失函数

L2损失函数

实现简单，不做说明。

L2 loss的问题是梯度的值与x的值有关，在x特别大时，会有很大的梯度，训练不稳定。

L1损失函数

L1损失函数的形式为$loss = \sum_i |y_i - pred_i|$，导数为$sign(x)$，在$x = 0$处不可导，可以使用次梯度，取0。

L1 loss的问题与L2相反，梯度是常数，在x值很小时，梯度依然是1，如果学习率不变的话，很容易发生震荡，难以收敛到更高的精度。