<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#均方差误差函数" data-toc-modified-id="均方差误差函数-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>均方差误差函数</a></span></li><li><span><a href="#交叉熵误差损失函数的实现" data-toc-modified-id="交叉熵误差损失函数的实现-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>交叉熵误差损失函数的实现</a></span></li></ul></div>

In [6]:
import tensorflow as tf
import numpy as np 
from tensorflow import keras


在搭建完模型结构后，下一步就是选择合适的误差函数来计算误差。 常见的误差函数有均方差、 交叉熵、 KL 散度、 Hinge Loss 函数等，其中均方差函数和交叉熵函数在深度学习中比较常见，均方差函数主要用于回归问题，交叉熵函数主要用于分类问题

# 均方差误差函数
均方差(Mean Squared Error，简称 MSE)误差函数把输出向量和真实向量映射到笛卡尔坐标系的两个点上，通过计算这两个点之间的欧式距离(准确地说是欧式距离的平方)来衡量两个向量之间的距离：
$$
MSE(y, o) = \frac{1}{d_{out}}\sum_{i=1}^{d_{out}}(y_{i}-o_{i})^{2}
$$
MSE 误差函数的值总是大于等于 0，当 MSE 函数达到最小值 0 时， 输出等于真实标签，此时神经网络的参数达到最优状态。均方差误差函数广泛应用在回归问题中， 实际上， 分类问题中也可以应用均方差误差函数。

tensorflow代码实现如下：

In [11]:
o = tf.random.normal([2,10]) # 构造网络输出
y_onehot = tf.constant([1,3]) # 构造真实值
y_onehot = tf.one_hot(y_onehot, depth=10)
loss = keras.losses.MSE(y_onehot, o) # 计算均方差
loss

<tf.Tensor: id=72, shape=(2,), dtype=float32, numpy=array([1.4416579, 1.633992 ], dtype=float32)>

特别要注意的是， MSE 函数返回的是每个样本的均方差，需要在样本维度上再次平均来获得平均样本的均方差，实现如下：

In [12]:
loss = tf.reduce_mean(loss) # 计算 batch 均方差
loss

<tf.Tensor: id=74, shape=(), dtype=float32, numpy=1.5378249>

In [13]:
loss = keras.losses.MeanSquaredError()(y_onehot,o) # 计算 batch 均方差
loss

<tf.Tensor: id=95, shape=(), dtype=float32, numpy=1.5378249>

# 交叉熵误差损失函数的实现

In [16]:
import tensorflow as tf
import numpy as np
 
#logits代表wx+b的输出，并没有进行softmax（因为softmax后是一个和为1的概率）
logits = np.array([[1, 2, 7], [3, 5, 2], [6, 1, 3], [8, 2, 0],
                   [3, 6, 1]], dtype=np.float32)
#labels是[2,1,0,0,1]的ont-hot编码形式
labels = np.array([[0, 0, 1], [0, 1, 0], [1, 0, 0], [1, 0, 0],
                   [0, 1, 0]], dtype=np.float32)
# 公式计算，-np.log(y*softmax_out)
# y=n*c,softmax_out是n*c，相当于将每个样本softmax的c个特征中最大的取出来，再取负就是求最小
softmax_out=tf.nn.softmax(logits)
cross_entropy1 = -tf.reduce_sum(labels * tf.math.log(softmax_out), axis=1)   #对应元素相乘，非矩阵乘法
print(softmax_out.numpy())
print(cross_entropy1.numpy())

[[2.4561151e-03 6.6764127e-03 9.9086750e-01]
 [1.1419519e-01 8.4379470e-01 4.2010065e-02]
 [9.4649917e-01 6.3774614e-03 4.7123417e-02]
 [9.9719369e-01 2.4717962e-03 3.3452120e-04]
 [4.7123417e-02 9.4649917e-01 6.3774614e-03]]
[0.00917446 0.16984606 0.05498519 0.00281025 0.05498519]


In [17]:
import tensorflow as tf
import numpy as np

logits = [[4.0, 2.0, 1.0], [0.0, 5.0, 1.0]]
labels = [[1.0, 0.0, 0.0], [0.0, 0.8, 0.2]]
loss = tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits)
print(loss.numpy())

[0.16984604 0.82474494]
