In [48]:
import math
import numpy as np
from tensorflow.keras.losses import categorical_crossentropy

# 假設這是某個epoch的真實值與預測結果, batch_size = 6, features = 5
y_pred = np.array([[0.6268896, 0.25881532, 0.09150913, 0.02037693, 0.00240903],
                   [0.09165806, 0.3015705, 0.2891071, 0.26664162, 0.05102272],
                   [0.08631954, 0.11195231, 0.28462902, 0.30316573, 0.21393338],
                   [0.11869003, 0.18319334, 0.18643036, 0.3534843, 0.15820198],
                   [0.10678157, 0.18504941, 0.25989717, 0.26833403, 0.17993775],
                   [0.11031441, 0.15937562, 0.18078934, 0.4133129, 0.13620767]])

y_true = np.array([[0., 0., 1., 0., 0.],
                   [0., 0., 0., 0., 1.],
                   [0., 1., 0., 0., 0.],
                   [0., 1., 0., 0., 0.],
                   [0., 0., 1., 0., 0.],
                   [0., 0., 0., 1., 0.]])

"""
則以第一筆資料為例, categorical_crossentropy的計算方式為:
[ 0 * ln(0.6268896)
+ 0 * ln(0.25881532)
+ 1 * ln(0.09150913)
+ 0 * ln(0.02037693)
+ 0 * ln(0.00240903) ]
* -1
= 2.3913165302577313
所以只要取真實值對應的那個數就好, 其他都是0
對每一筆資料都會有對應的loss, 總共有batch_size筆資料
# 對於這個epoch, loss會是batch_size筆資料的loss值取平均, 也就是模型在每個epoch中最終得出的loss值
"""

# 呼叫keras的api, 它使用的是自然對數
print('直接使用tensorflow.keras.loss.categorical_crossentropy:')
print('\t6筆資料中真實值對應的機率: 0.09150913, 0.05102272, 0.11195231, 0.18319334, 0.25989717, 0.4133129')
print('\t6筆資料中真實值對應的loss: ', categorical_crossentropy(y_true, y_pred).numpy())
print('\t這個epoch最終的loss: ', categorical_crossentropy(y_true, y_pred).numpy().mean())
print()

# 手刻, math.log()就是自然對數; math.log(x, base)
print('根據公式計算:')
print('\t6筆資料中真實值對應的機率: 0.09150913, 0.05102272, 0.11195231, 0.18319334, 0.25989717, 0.4133129')
arr = [-math.log(0.09150913), -math.log(0.05102272), -math.log(0.11195231), -math.log(0.18319334), -math.log(0.25989717), -math.log(0.4133129)]
print('\t6筆資料中真實值對應的loss: ', arr)
print('\t這個epoch最終的loss: ', sum(arr) / 6)
print()

# 最完美情況: 每一筆都預測正確, 機率都是1, 其它都是0
print('最完美的情況:')
print('\t6筆資料中真實值對應的機率: [1, 1, 1, 1, 1, 1]')
arr = [-math.log(1), -math.log(1), -math.log(1), -math.log(1), -math.log(1), -math.log(1)]
print('\t6筆資料中真實值對應的loss: ', arr)
print('\t這個epoch最終的loss: ', sum(arr) / 6)
print()

# 最差情況: 每一個類別都有可能, 機率都是0.2
print('模型認為每一個都有可能的情況:')
print('\t6筆資料中真實值對應的機率: [0.2, 0.2, 0.2, 0.2, 0.2, 0.2]')
arr = [-math.log(0.2), -math.log(0.2), -math.log(0.2), -math.log(0.2), -math.log(0.2), -math.log(0.2)]
print('\t6筆資料中真實值對應的loss: ', arr)
print('\t這個epoch最終的loss: ', sum(arr) / 6)
print()

# 平均loss==1的情況, 機率為pow(math.e, -1)約為0.36
print('每筆資料中真實值對應的機率剛好為歐拉常數的-1次方(約為0.36)的情況:')
print('\t6筆資料中真實值對應的機率: ', [pow(math.e, -1), pow(math.e, -1), pow(math.e, -1), pow(math.e, -1), pow(math.e, -1), pow(math.e, -1)])
arr = [-math.log(pow(math.e, -1)), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1))]
print('\t6筆資料中真實值對應的loss: ', arr)
print('\t這個epoch最終的loss: ', sum(arr) / 6)
print()

# 也就是說, 只要每一筆資料中真實值對應的機率都 <= pow(math.e, -1), 且其中一筆資料 < pow(math.e, -1), 則平均loss就會 > 1, 此epoch的loss就會 > 1
print('每筆資料的真實值對映的機率都不高於0.36時, 只要有一筆資料的機率 < 0.36, 這個epoch的loss就會 > 1:')
print('\t6筆資料中真實值對應的機率: ', [pow(math.e, -1)-0.0001, pow(math.e, -1), pow(math.e, -1), pow(math.e, -1), pow(math.e, -1), pow(math.e, -1)])
arr = [-math.log(pow(math.e, -1)-0.0001), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1)), -math.log(pow(math.e, -1))]
print('\t6筆資料中真實值對應的loss: ', arr)
print('\t這個epoch最終的loss: ', sum(arr) / 6)
print()

# loss最差的情況: 當機率為0時, -ln(0)為無窮大(∞), loss也會是∞; 所以對於categorical crossentropy而言, 值域為[0, ∞)
print('loss非常大的範例情況:')
print('\t6筆資料中真實值對應的機率: [0.00000001, 0.00000001, 0.0000000001, 0.0000000001, 0.000000001, 0.000000001]')
arr = [-math.log(0.00000001), -math.log(0.00000001), -math.log(0.0000000001), -math.log(0.0000000001), -math.log(0.000000001), -math.log(0.000000001)] # 機率不能 <= 0, 不然會ValueError
print('\t6筆資料中真實值對應的loss: ', arr)
print('\t這個epoch最終的loss: ', sum(arr) / 6)

直接使用tensorflow.keras.loss.categorical_crossentropy:
	6筆資料中真實值對應的機率: 0.09150913, 0.05102272, 0.11195231, 0.18319334, 0.25989717, 0.4133129
	6筆資料中真實值對應的loss:  [2.39131654 2.97548426 2.18968228 1.69721319 1.34746916 0.88355029]
	這個epoch最終的loss:  1.9141192850880648

根據公式計算:
	6筆資料中真實值對應的機率: 0.09150913, 0.05102272, 0.11195231, 0.18319334, 0.25989717, 0.4133129
	6筆資料中真實值對應的loss:  [2.3913165302577313, 2.975484255263029, 2.189682301938554, 1.6972131811147098, 1.3474692261973618, 0.883550345757009]
	這個epoch最終的loss:  1.9141193067547324

最完美的情況:
	6筆資料中真實值對應的機率: [1, 1, 1, 1, 1, 1]
	6筆資料中真實值對應的loss:  [-0.0, -0.0, -0.0, -0.0, -0.0, -0.0]
	這個epoch最終的loss:  0.0

模型認為每一個都有可能的情況:
	6筆資料中真實值對應的機率: [0.2, 0.2, 0.2, 0.2, 0.2, 0.2]
	6筆資料中真實值對應的loss:  [1.6094379124341003, 1.6094379124341003, 1.6094379124341003, 1.6094379124341003, 1.6094379124341003, 1.6094379124341003]
	這個epoch最終的loss:  1.6094379124341003

每筆資料中真實值對應的機率剛好為歐拉常數的-1次方(約為0.36)的情況:
	6筆資料中真實值對應的機率:  [0.36787944117144233, 0.36787944117144233, 0.36787