## loss function

In [87]:
# 均方误差
def mean_square_error(y,t):
    # y 是预测值，t 是监督数据
    # t 传入的是 one-hot，比如 y = [0.1,0.3,0.5,0.05,0.15], t = [0,0,1,0,0], 表示预测为0.5概率的情况概率实际上发生
    size = y.shape[0]
    return (1/size) * np.sum((y-t) ** 2)


# mini-batch
# 如果想针对 多个数据 的 loss-function，以均方误差为例
def mean_square_error(y,t):
    """
    可以传入一维(单个数据)或者二维(多个数据)的 y (预测数据)，一维的会在函数内转换为二维
    传入的 t(监督数据) 可以是one-hot的形式，比如 t=[[0,0,1],[0,1,0]]，或者 t=[2,1]
    """
    if y.ndim == 1:  # y = [1,2,4]
        # 如果 ndim 为 1，为了统一，转换为 2 维
        y = y.reshape(1,y.size)  # [[1,2,4]]

    if t.ndim == 1:
        t = t.reshape(1,t.size)  # [[0,0,1]]

    if t.size != y.size: # 如果不等，说明t不是one-hot形式，转换为one-hot. 比如 t = [[2,1,4]]
        t_x = y.shape[0] 
        t_y = y.shape[1]
        t_bak = t.copy() # [[2,1,4]]
        t = np.zeros((t_x,t_y))
        t[np.arange(t_x),t_bak.flatten()] = 1  # t_bak.flattern: [2,1,4]

    # y 是预测值，t 是监督数据
    batch_size = y.shape[0]
    return np.sum((1/y.shape[1])* np.sum((y-t) ** 2, axis=1)) / batch_size


# 交叉熵误差
# E = -sigma(tk * log(yk)) # 在这里只有 t 中为 1 的数和对应位置的 y 参与运算 E = -log(yi)
def cross_entropy_error(y,t):
    delta = 1e-7  # 为了防止 yk 值过小，log(yk)的值就会非常大，导致溢出
    return -np.sum(t * np.log(y + delta))


# mini-batch
# 如果想针对 多个数据 的 loss-function，以交叉熵函数为例
def cross_entropy_error(y,t):
    
    """
    可以传入一维(单个数据)或者二维(多个数据)的 y (预测数据)，一维的会在函数内转换为二维
    传入的 t(监督数据) 可以是one-hot的形式，比如 t=[[0,0,1],[0,1,0]]，或者 t=[2,1]
    """

    delta = 1e-7

    if y.ndim == 1:  # y = [1,2,4] t = [0,0,1]
        # 如果 ndim 为 1，为了统一，转换为 2 维
        y = y.reshape(1,y.size)  # [[1,2,4]]
        t = t.reshape(1,t.size)  # [[0,0,1]]

    if t.size == y.size:  # 将 one-hot 形式转换为普通形式 比如 t=[[0,0,1],[0,1,0]] -->  t=[2,1]
        t = t.argmax(axis=1)
    
    batch_size = y.shape[0] # 数据个数 
    # return -np.sum(t*np.log(y + delta)) / batch_size
    return -np.sum(np.log(y[np.arange(batch_size),t])) / batch_size

In [103]:
# debug
import numpy as np

y = np.array([0.1, 0.3, 0.5, 0.05, 0.15])  # 预测比较准的 y
t = np.array([0, 0, 1, 0, 0])

y1 = np.array([0.4, 0.1, 0.3, 0.1, 0.1])  # 预测不准的 y
y2 = np.array([0.6, 0.1, 0.05, 0.15, 0.1])  # 预测非常不准的 y

# mini-batch
y3 = np.array([[0.1, 0.3, 0.5, 0.05, 0.15],[0.4,0.1,0.3,0.1,0.1],[0.6,0.1,0.05,0.15,0.1]])
    # one-hot
t3 = np.array([[0, 0, 1, 0, 0], [0, 0, 1, 0, 0], [0, 0, 1, 0, 0]])
    # not one-hot
t4 = np.array([2,2,2])

print('mean-square-error')
print(mean_square_error(y,t))
print(mean_square_error(y1,t))
print(mean_square_error(y2,t))
print('cross-entropy-error')
print(cross_entropy_error(y,t))
print(cross_entropy_error(y1,t))
print(cross_entropy_error(y2,t))
print('mini-batch and one-hot')
print(mean_square_error(y3,t3))
print(cross_entropy_error(y3,t3))
print('mini-batch and not one-hot')
print(mean_square_error(y3,t4))
print(cross_entropy_error(y3,t4))

mean-square-error
0.07500000000000001
0.13599999999999998
0.261
cross-entropy-error
0.6931471805599453
1.2039728043259361
2.995732273553991
mini-batch and one-hot
0.15733333333333333
1.6309507528132905
mini-batch and not one-hot
0.15733333333333333
1.6309507528132905
