#### 4.2.4 mini-batch版交叉熵误差的实现（P91）

这里的笔记内容是，针对于one-hot数据和非one-hot数据（标签形式）数据的疑惑，首先看下one-hot实现

In [26]:
def cross_entropy_error_one_hot(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    batch_size = y.shape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size

再来看看非one-hot的实现

In [27]:
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

可以看到，两种方式的区别在于前者是使用的`t * np.log(y + 1e-7)`，后者是使用`np.log(y[np.arange(batch_size), t] + 1e-7)`，学习到这里的时候我是很疑问的，**因为按照87页的交叉熵误差公式来说前者是更符合的。**

先来简单回忆下交叉熵误差是用来干啥的，为了简单，我们就拿2组数据来比较，如果第一组正确的标签是2，算法识别的概率是0.6，那么交叉熵的概率应该是-log0.6约等于0.51，第二组的标签是3，算法识别的概率是0.1，那么交叉熵为-log0.1约等于2.30，此时的平均损失函数为`(0.51 + 2.30) / 2 = 1.405`。

基于上面这个简单的例子，特别说明下，为了后面的编写简单，监督数据是5维的数据，也就是只识别0-4这5个标签，我们代入上面的两种代码中，先来看下one-hot

t[0]为[0,0,1,0,0]，t[1]为[0,0,0,1,0]，所以t就是一个2行5列的矩阵，那么对应的y其实也是个2行5列的矩阵，**注意，这里可能有一小部分同学学混了，以前不是A矩阵的列等于B举证的行才能A*B，是的，但是这里的不是相乘，而是点乘，也称为哈达马积，此时要求AB两个矩阵的shape是一样的。** y[0]为[0.1, 0.1, 0.6, 0, 0.25]，y[1]为[0.05, 0.15, 0,1, 0.1, 0.6]，此时的平均损失函数大概才为1.405，直接计算下看看

In [28]:
import numpy as np
y = np.array([[0.1, 0.1, 0.6, 0, 0.25],[0.05, 0.15, 0.1, 0.1, 0.6]])
print(y.shape)
t = np.array([[0,0,1,0,0],[0,0,0,1,0]])
print(t.shape)
print(cross_entropy_error_one_hot(y, t))

(2, 5)
(2, 5)
1.406704775046942


可以看到这里t的作用只是把y里面其他概率的干扰项给屏蔽掉，聚焦于标签的概率，即识别为2和3的平均概率。那继续看，如果是标签形式的数据，t的shape就是(1, 5)，即t = [2, 3]，表示t的第0个标签是2，第1个标签是3。那么对于y来说，识别为2的概率的位置在哪，是不是就是y矩阵里的第0行第2列，识别为3的位置就是第1行第3列。也就是说`y[np.arange(batch_size),t]`能抽出各个数据的正确解标签对应的神经网络的输出。

In [34]:
t = np.array([2, 3])
print(t.shape)
batch_size = y.shape[0]
print(y[np.arange(batch_size), t])

(2,)
[0.6 0.1]


可以看到此时就是针对0.6和0.1做log计算求和再平均，和one-hot就是一样的结果了。