交叉熵(Cross_entropy)是Loss函数的一种，用于描述预测值与真实值的差距大小，常见的Loss函数是均方平方误差(Mean Squared Erros,MSE),定义如下:

$$Error = \frac{(y - \bar{y})^{2}}{2}$$

TensorFlow交叉熵函数的输入logits未经过softmax或sigmoid函数处理，TensorFlow交叉熵函数会在其内部进行softmax或sigmoid函数的处理。TensorFlow针对分类问题，实现了五个交叉熵函数，分别是：
1. [tf.nn.sigmoid_cross_entropy_with_logits](https://tensorflow.google.cn/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits)
2. [tf.nn.softmax_cross_entropy_with_logits](https://tensorflow.google.cn/api_docs/python/tf/nn/softmax_cross_entropy_with_logits)
3. [tf.nn.sparse_softmax_cross_entropy_with_logits](https://tensorflow.google.cn/api_docs/python/tf/nn/sparse_softmax_cross_entropy_with_logits)
4. [tf.nn.weighted_cross_entropy_with_logits](https://tensorflow.google.cn/api_docs/python/tf/nn/weighted_cross_entropy_with_logits)
5. [tf.nn.softmax_cross_entropy_with_logits_v2](https://tensorflow.google.cn/api_docs/python/tf/nn/softmax_cross_entropy_with_logits_v2)

# tf.nn.sigmoid_cross_entropy_with_logits

tf.nn.sigmoid_cross_entropy_with_logits(logits=logits,labels=labels),logits的维度和labels的维度是一致的。

## 计算方式

对输入的logits，先通过sigmoid函数将logits各个维度的值压缩到\[0,1\]之间，再计算它们的交叉熵，过程如下：
1. 类别标签
$$y = labels$$
例如 有三个样本，其类别标签便如下所示：
$$y = [[1,0,0],[0,1,0],[0,0,1]]$$

2. sigmoid处理logits
$$p_{ij} = sigmoid(logits_{ij}) = \frac{1}{1 + e^{-logits_{ij}}}$$
由于logits与labels的维度是一致的，并且此处$p_{ij}$是指$logits[i]$第$j$个维度的值，因此假设
$$logits = [[56,32,24],[88,55,74],[66,12,34]]$$
经过sigmoid函数处理后的值为
$$sigmoid(logits) = [[1,1,1],[1,1,1],[1,0.99,1]]$$

3. 计算交叉熵损失
$$loss_{ij} = -[y_{ij}*lnp_{ij} + (1 - y_{ij})*ln(1 - p_{ij})]$$
这里$y_{ij}$是$y[i]$第$j$个维度的值

## 适用

每个类别相互独立但互不排斥的情况，例如一幅图中可以同时包含一条狗和一只大象，具体看例子中第4个样本，同时属于两个类。

## 输出

output不是一个数，而是一个batch中每个样本的loss，因此一般配合`tf.reduce_mean(loss)`使用

## 例子

In [1]:
import numpy as np

'定义sigmoid函数'
def sigmoid(x):
    return 1.0 / (1 + np.exp(-x))

# 5个样本三分类问题
y = np.array([[1,0,0],[0,1,0],[0,0,1],[1,1,0],[0,1,0]]) # 注意第4个样本同时属于两个类
logits = np.array([[12,3,2],[3,10,1],[1,2,5],[4,6.5,1.2],[3,6,1]])
# sigmoid函数处理logits
y_pred = sigmoid(logits)
# 计算交叉熵
E1 = -y * np.log(y_pred) - (1 - y) * np.log(1 - y_pred)
print('y_pred: ',y_pred)
print('E1: ',E1)

y_pred:  [[0.99999386 0.95257413 0.88079708]
 [0.95257413 0.9999546  0.73105858]
 [0.73105858 0.88079708 0.99330715]
 [0.98201379 0.99849882 0.76852478]
 [0.95257413 0.99752738 0.73105858]]
E1:  [[6.14419348e-06 3.04858735e+00 2.12692801e+00]
 [3.04858735e+00 4.53988992e-05 1.31326169e+00]
 [1.31326169e+00 2.12692801e+00 6.71534849e-03]
 [1.81499279e-02 1.50231016e-03 1.46328247e+00]
 [3.04858735e+00 2.47568514e-03 1.31326169e+00]]


In [2]:
'TensorFlow版本的计算'
import tensorflow as tf

sess = tf.Session()
y = np.array(y).astype(np.float64) # labels是float64的数据类型
E2 = sess.run(tf.nn.sigmoid_cross_entropy_with_logits(logits=logits,labels=y))
print('E2: ',E2)
loss = tf.reduce_mean(E2)
loss = sess.run(loss)
print('loss: ',loss)

'比较E1与E2的结果'
if E1.all() == E2.all():
    print('True')
else:
    print('False')

E2:  [[6.14419348e-06 3.04858735e+00 2.12692801e+00]
 [3.04858735e+00 4.53988992e-05 1.31326169e+00]
 [1.31326169e+00 2.12692801e+00 6.71534849e-03]
 [1.81499279e-02 1.50231016e-03 1.46328247e+00]
 [3.04858735e+00 2.47568514e-03 1.31326169e+00]]
loss:  1.255438694766465
True


由此可知计算出的交叉熵值，是logits每个维度对应的交叉熵损失。需要通过`tf.reduce_mean(loss)`来将所有交叉熵损失加总，此时不指定axis的方向。

# tf.nn.softmax_cross_entropy_with_logits

tf.nn.softmax_cross_entropy_with_logits(\_sentinel=None,labels=None,logits=None,dim=-1,name=None)

**labels**：和logits具有相同的type和shape的张量，是一个有效的概率。它满足`sum(labels)=1,one_hot=True`,即向量中只有一个值为1.0，其他值为0.0。

## 计算方式

对输入的logits，先通过softmax函数将logits各个维度的值压缩到\[0,1\]之间，此时logits各个维度的值的和为1，再计算它们的交叉熵，过程如下：

1. 类别标签
$$y = labels$$
例如 有三个样本，其类别标签便如下所示：
$$y = [[1,0,0],[0,1,0],[0,0,1]]$$

2. softmax处理logits
$$p_{ij} = softmax(logits_{i}) = \frac{e^{logits_{ij}}}{\sum_{j=0}^{numclasses-1} e^{logits_{ij}}}$$
由于logits与labels的维度是一致的，并且此处$p_{ij}$是指$logits[i]$第$j$个维度的值，因此假设
$$logits = [[56,32,24],[88,55,74],[66,12,34]]$$
经过softmax函数处理后的值为
$$softmax(logits) = \begin{bmatrix}1.00000000e+00 & 3.77513454e-11 & 1.26641655e-14 \\
       9.99999168e-01 & 4.65888227e-15 & 8.31528028e-07 \\
       1.00000000e+00 & 3.53262857e-24 & 1.26641655e-14\end{bmatrix}$$

3. 计算交叉熵损失
$$loss_{i} = -\sum_{j=0}^{numclasses-1}y_{ij}*lnp_{ij}$$
这里$y_{ij}$是$y[i]$第$j$个维度的值,此时loss是一个标量

## 适用

每个类别相互独立且相互排斥的情况，例如一幅图只能属于一类，而不能同时包含一条狗和一只大象

## 输出

output不是一个数，而是一个batch中每个样本的loss，因此一般配合`tf.reduce_mean(loss)`使用

## 例子

In [3]:
import numpy as np

def softmax(x):
    sum_raw = np.sum(np.exp(x),axis=-1) # 沿着横轴方向累加，注意numpy的axis取值方式与TensorFlow不同
    x1 = np.ones(np.shape(x))
    for i in range(np.shape(x)[0]):
        x1[i] = np.exp(x[i]) / sum_raw[i]
    return x1

y = np.array([[1,0,0],[0,1,0],[0,0,1],[1,0,0],[0,1,0]])# 每一行只有一个1
logits =np.array([[12,3,2],[3,10,1],[1,2,5],[4,6.5,1.2],[3,6,1]])
# logits经过softmax处理后
y_pred = softmax(logits)
# 计算交叉熵损失
E1 = - np.sum(y * np.log(y_pred),axis=-1)
print('y_pred : ',y_pred)
print('E1 : ',E1)

y_pred :  [[9.99831219e-01 1.23388975e-04 4.53922671e-05]
 [9.10938878e-04 9.98965779e-01 1.23282171e-04]
 [1.71478255e-02 4.66126226e-02 9.36239552e-01]
 [7.55098575e-02 9.19898383e-01 4.59175917e-03]
 [4.71234165e-02 9.46499123e-01 6.37746092e-03]]
E1 :  [1.68795487e-04 1.03475622e-03 6.58839038e-02 2.58349207e+00
 5.49852354e-02]


In [4]:
'TensorFlow版本'
import tensorflow as tf

sess = tf.Session()
y = np.array(y).astype(np.float64)
E2 = sess.run(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=logits))
loss = sess.run(tf.reduce_mean(E2))
print('E2 : ',E2)
print('loss : ',loss)

'比较E1与E2的结果'
if E1.all() == E2.all():
    print('True')
else:
    print('False')

Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See `tf.nn.softmax_cross_entropy_with_logits_v2`.

E2 :  [1.68795487e-04 1.03475622e-03 6.58839038e-02 2.58349207e+00
 5.49852354e-02]
loss :  0.5411129517625908
True


由此可知计算出的交叉熵值，是每个logits对应的交叉熵损失，由于共有5个样本，所以交叉熵损失有5个值。需要通过`tf.reduce_mean(loss)`来将所有交叉熵损失加总，此时不指定axis的方向。

# tf.nn.sparse_softmax_cross_entropy_with_logits

# tf.nn.weighted_cross_entropy_with_logits

# tf.nn.softmax_cross_entropy_with_logits_v2