<a href="https://colab.research.google.com/github/kuo8129/GenAI/blob/main/20250304HW_%E8%A7%A3%E9%87%8BCross_Entropy_%26_KL_divergence/20250304HW_%E8%A7%A3%E9%87%8BCross_Entropy_%26_KL_divergence.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 何謂Entropy (熵)？
Entropy為平均資訊量，又稱「亂度」，可用來衡量隨機變數的不確定性。

定義公式如下：

$$
H(X) = -\sum p(x) \log p(x)
$$

其中，
* $p(x)$ 為事件 $x$ 發生的機率

Entropy越大，平均資訊量越大，代表可能的情況越複雜；反之，若只有一個事件，發生的機率為1，則Entropy為0。

# 何謂Cross Entropy (交叉熵)？
Cross Entropy是一個用來衡量兩個機率分布之間差異的指標，可以作為衡量模型預測的結果和真實結果之間差距的損失函數(loss function)。

與Entropy的不同在於：Cross Entropy將 $p(x) \log p(x)$ 改成 $p(x) \log q(x)$ ，表示使用模型的預測來描述真實的機率分佈。

其定義公式如下：

$$
H(P, Q) = - \sum p(x) \log q(x)
$$

其中，
* $p(x)$ 是真實的機率分佈
* $q(x)$ 是模型預測的機率分佈

若模型預測的結果和真實結果相差甚遠，則Cross Entropy的值就會很大，代表模型預測的錯誤情況越大；反之，若模型預測的結果和真實結果很接近，Cross Entropy的值就會很小，代表模型預測越精準。

當 $Q=P$ 時，$H(P, Q)$ 有最小值 $H(P)$ ，$H(P)$ 不一定為0。

# 何謂Kullback-Leibler Divergence (KL Divergence、KL散度)？
KL Divergence是一個用來衡量兩個機率分佈相似度或差異度的指標。

與Cross Entropy的不同在於：KL Divergence等於Cross Entropy再減掉真實世界的Entropy。

其定義公式如下：

$$
D_{KL}(P||Q) = \sum p(x) \log \frac{p(x)}{q(x)} = H(P, Q) - H(P)
$$

其中，
* $p(x)$ 是真實的機率分佈
* $q(x)$ 是模型預測的機率分佈

若模型預測的機率分佈與真實的機率分佈相差很多時，KL Divergence就越大，代表差異很大；而若模型預測的機率分佈與真實的機率分佈很接近時，KL Divergence就越小，代表差異很小。

當 $Q=P$ 時，$H(P, Q) = H(P)$，此時 $D_{KL}(P||Q)$ 會有最小值0。

# 適用時機

### **Cross Entropy**

由於相較於均方差(Mean Squared Error, MSE)而言，Cross Entropy可直接衡量模型預測結果與真實結果的差異，並對錯誤預測給予較大的懲罰，收斂速度較快，能幫助模型更有效率地進行學習，因此常被用於分類問題，特別是One-Hot Encoding的分類問題。

例如：圖像分類

### **KL Divergence**

當不僅關心預測結果是否正確，還希望模型預測的分佈更貼近目標分佈時，或是模型輸出的是一機率分佈，而非單一答案的情況下，就會使用KL Divergence來進行評估。

例如：知識蒸餾

### **何時皆可用？**

當分類問題是以One-Hot Encoding的方式呈現時，運用Cross Entropy或KL Divergence來衡量，結果皆相同，因為 $p(x)$ 只有在正確的類別會=1，其餘皆=0，因此兩種方法皆可使用，不過因為Cross Entropy運算較簡單，不須額外再減掉真實世界的Entropy，故大部分仍用Cross Entropy來進行衡量。

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

P = np.array([1, 0, 0])
Q = np.array([0.7, 0.2, 0.1])

cross_entropy = -np.sum(P * np.log(Q))
kl_divergence = np.sum(np.where(P != 0, P * np.log(P / Q), 0)) # 以0替代無意義的0log0，避免影響結果

# 列印計算過程
print(f"H(P,Q) = - (1 * log({Q[0]}) + 0 * log({Q[1]}) + 0 * log({Q[2]}))")
print(f"          = - log({Q[0]})")
print(f"          = {cross_entropy:.4f}\n")

print(f"D_KL(P||Q) = 1 * log(1/{Q[0]}) + 0 * log(0/{Q[1]}) + 0 * log(0/{Q[2]})")
print(f"             = log(1) - log({Q[0]})")
print(f"             = - log({Q[0]})")
print(f"             = {kl_divergence:.4f}\n")

print(f"計算結果: Cross Entropy = {cross_entropy:.4f}, KL Divergence = {kl_divergence:.4f} ({'兩者相等' if np.isclose(cross_entropy, kl_divergence) else '兩者不相等'})\n")

H(P,Q) = - (1 * log(0.7) + 0 * log(0.2) + 0 * log(0.1))
          = - log(0.7)
          = 0.3567

D_KL(P||Q) = 1 * log(1/0.7) + 0 * log(0/0.2) + 0 * log(0/0.1)
             = log(1) - log(0.7)
             = - log(0.7)
             = 0.3567

計算結果: Cross Entropy = 0.3567, KL Divergence = 0.3567 (兩者相等)



  kl_divergence = np.sum(np.where(P != 0, P * np.log(P / Q), 0)) # 以0替代無意義的0log0，避免影響結果
  kl_divergence = np.sum(np.where(P != 0, P * np.log(P / Q), 0)) # 以0替代無意義的0log0，避免影響結果
