<a href="https://colab.research.google.com/github/cph316/generative_ai/blob/main/%E3%80%90HW3%E3%80%91%E7%A0%94%E7%A9%B6GAN%E8%83%8C%E5%BE%8C%E5%8E%9F%E7%90%86_(Cross_Entropy%E3%80%81KL_divergence).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **主題二**

1. 說明 Cross Entropy 與 KL Divergence

 Cross Entropy 和 KL Divergence 主要是用來衡量兩個機率分佈的差異。在 GAN中，這兩個概念很重要，因為生成器要學習讓它的分佈𝑄盡可能接近真實數據分佈𝑃，而判別器則在幫助區分。

2. 公式與計算

  (1) Cross Entropy

  $H(𝑃,𝑄)=−i\sum_{i}𝑃(𝑥_𝑖)log𝑄(𝑥_𝑖)$

  其中：

  $𝑃(𝑥_𝑖)$ 是真實分佈（通常是 one-hot 標籤）。

  $𝑄(𝑥_𝑖)$ 是模型預測的機率分佈。

  這代表「當我們使用𝑄來表達𝑃的時候，平均需要多少 bits 來表示這個系統的資訊？」

  (2) KL Divergence
  
  $D_KL(P∥Q)=\sum_{i}𝑃(𝑥_𝑖)logP(𝑥_𝑖)/​log𝑄(𝑥_𝑖)$

  這代表「當我們用𝑄來代替𝑃，會額外產生多少錯誤資訊？」

  (3) 兩者關係
  $H(𝑃,𝑄)=H(𝑃)+D_KL(𝑃∥𝑄)$

  -如果𝑄和𝑃完全相同，那麼 KL 散度為 0，交叉熵等於熵。
  -但如果𝑄與𝑃差異很大，KL 散度會變大，交叉熵也會變大。



3. 硬幣範例

 (1) 硬幣的真實分佈𝑃與預測分佈𝑄
 假設：

 - 真實硬幣：正面出現的機率為 80%，反面為 20% →
𝑃=[0.8,0.2]

 - 模型預測：模型認為正面是 60%，反面是 40% →
𝑄=[0.6,0.4]

 計算：

 - 交叉熵（Cross Entropy）：衡量模型預測的錯誤程度

 - KL 散度（KL Divergence）：衡量預測分佈與真實分佈的距離

 (2)Python 程式

In [1]:
import numpy as np
from scipy.special import rel_entr  # 計算 KL 散度

# 真實分佈 P (真實硬幣機率)
P = np.array([0.8, 0.2])

# 預測分佈 Q (模型認為的硬幣機率)
Q = np.array([0.6, 0.4])

# 計算交叉熵 (Cross Entropy)
cross_entropy = -np.sum(P * np.log(Q))
print(f"Cross Entropy: {cross_entropy:.4f}")

# 計算 KL 散度 (KL Divergence)
kl_div = np.sum(rel_entr(P, Q))  # rel_entr(a, b) = a * log(a / b)
print(f"KL Divergence: {kl_div:.4f}")


Cross Entropy: 0.5919
KL Divergence: 0.0915


 (3) 執行結果
 - 交叉熵（0.5919）：代表模型預測的機率分佈與真實標籤的誤差，如果𝑄越接近𝑃，交叉熵就會越小。

 - KL 散度（0.0915）：表示預測分佈與真實分佈的距離，數值越小代表模型學得越好。

**結論**

以上範例可以更直觀理解：

- 交叉熵 用於訓練模型，幫助它學習接近真實分佈。

- KL 散度 是衡量兩個機率分佈之間的距離，數值越大代表模型預測越不準確。

這也與 **GAN 的生成器訓練** 有關，因為生成器希望讓
𝑄盡可能接近𝑃，這樣判別器就無法分辨真假數據，從而達到更好的生成效果