# Loss Function

## Introduction

在機器學習和深度學習中，損失函數（或稱為成本函數）是一種衡量模型預測結果與實際數據之間差異的函數。它是訓練過程中優化的核心，其目的是通過調整模型參數來最小化這一函數，從而使模型的預測盡可能接近真實數據。



目標函數基本上都是「損失函數(loss function)」，而模型的好壞有絕大部分的因素來至損失函數的設計。損失函數基本上可以分成兩個面向(分類和回歸)，基本上都是希望最小化損失函數。常見的損失函數有Entropy、Cross Entropy、KL Divergence 、f-Divergence、MSE、MAE。

## Loss Function 有哪些？

### 回歸型 Loss function

回歸損失函數用於衡量連續型變數的預測誤差。

1. **均方誤差（Mean Squared Error, MSE）**：
   $$
   MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
   $$
   - 用於衡量預測值與實際值之間的平方差的平均值。

2. **均方根誤差（Root Mean Squared Error, RMSE）**：
   $$
   RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
   $$
   - 是MSE的平方根，更直觀地表示誤差的大小。

3. **平均絕對誤差（Mean Absolute Error, MAE）**：
   $$
   MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
   $$
   - 衡量預測值與實際值之間的絕對差的平均值，不易受異常值影響。

4. **Huber損失（Huber Loss）**：
   - 結合了MSE和MAE的優點，對於小誤差使用MSE，對於大誤差使用MAE，公式如下：

     Huber(y, \hat{y}) =
     \begin{cases}
     \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\
     \delta |y - \hat{y}| - \frac{1}{2}\delta^2 & \text{otherwise}
     \end{cases}


MSE（均方誤差）

優點：
- MSE對大誤差的懲罰比MAE更嚴重。如果您關注數據中的異常值，這點非常重要。
- MSE是一個可微分的函數，使其更容易與基於梯度的優化算法一起使用。

缺點：
- MSE對異常值更敏感。如果數據中有很多異常值，這會成為一個問題。
- 如果數據偏態，MSE可能會誤導。因為MSE給予較大誤差更多的權重，這可能會使結果偏斜。

MAE（平均絕對誤差）

優點：
- MAE對異常值的敏感度比MSE低。如果數據中有很多異常值，這點非常重要。
- MAE不受數據偏態的影響。

缺點：
- MAE對大誤差的懲罰不如MSE嚴重。如果您關注數據中的異常值，這會成為一個問題。
- MAE不是可微分的函數，這使得它與基於梯度的優化算法一起使用時更困難。

選擇誤差指標時還需考慮一些其他因素：

- 可解釋性：MAE通常比MSE更容易解釋，因為它表示了預測值和實際值之間的平均絕對差異。
- 魯棒性：MAE比MSE對異常值更具魯棒性。
- 計算效率：MSE在計算上比MAE更高效。

### 分類型 Loss function

當我們處理分類問題時，損失函數是用來衡量模型預測和實際標籤之間差異的關鍵工具。以下是一些常見的分類型損失函數的詳細介紹：

1. 二元交叉熵損失（Binary Cross-Entropy Loss）

**定義**：
二元交叉熵損失（也稱為對數損失或log損失）主要用於二分類問題。它衡量的是預測的概率分佈與真實標籤之間的差異。

$$
H(p, q) = - \left[ y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \right]
$$

其中：
- \( y \) 是真實標籤（0或1）。
- \( \hat{y} \) 是模型預測的概率。

**特點**：
- 當預測的概率接近真實標籤時，損失會很小。
- 當預測的概率與真實標籤相差很大時，損失會很大。
- 常用於二元分類問題，如垃圾郵件檢測、疾病診斷等。

2. 多元交叉熵損失（Categorical Cross-Entropy Loss）

**定義**：
多元交叉熵損失用於多分類問題，衡量多個類別之間的預測概率分佈與真實標籤之間的差異。

對於單個樣本，損失函數為：
$$
H(p, q) = - \sum_{i=1}^{C} y_i \log(\hat{y}_i)
$$

其中：
- \( C \) 是類別數。
- \( y_i \) 是真實標籤的one-hot編碼。
- \( \hat{y}_i \) 是模型對類別 \( i \) 的預測概率。

**特點**：
- 能夠處理多個類別的分類問題，如圖片分類（貓、狗、鳥等）。
- 預測的概率越接近真實標籤，損失越小。

3. 稀疏多元交叉熵損失（Sparse Categorical Cross-Entropy Loss）

**定義**：
稀疏多元交叉熵損失與多元交叉熵損失類似，但它不需要對真實標籤進行one-hot編碼。適用於類別數量很多但只有少量類別有標記的情況。

**特點**：
- 節省內存，適用於類別數量很大但標記稀疏的情況。
- 損失計算更簡單，適合大型數據集。

4. Hinge損失（Hinge Loss）

**定義**：
Hinge損失主要用於支持向量機（SVM），衡量模型預測與真實標籤之間的距離。

$$
H(y, \hat{y}) = \max(0, 1 - y \hat{y})
$$

其中：
- \( y \) 是真實標籤（+1或-1）。
- \( \hat{y} \) 是模型的預測值。

**特點**：
- 當預測值與真實標籤的乘積大於1時，損失為0。
- 當預測值與真實標籤的乘積小於1時，損失會增加。
- 用於SVM模型的訓練，確保預測值與真實標籤的距離足夠大。

5. Kullback-Leibler散度（KL Divergence）

**定義**：
KL散度衡量兩個概率分佈之間的差異。它在生成模型和概率模型中非常常用。

$$
D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)
$$

**特點**：
- KL散度非對稱，即 \( D_{KL}(P || Q) \neq D_{KL}(Q || P) \)。
- 在生成對抗網絡（GANs）和變分自編碼器（VAE）中廣泛使用，用於衡量生成樣本與真實樣本的差異。

6. Jensen-Shannon散度（Jensen-Shannon Divergence, JS Divergence）

**定義**：
JS散度是一種對稱的散度度量，用於衡量兩個概率分佈之間的差異。

$$
D_{JS}(P || Q) = \frac{1}{2} D_{KL}(P || M) + \frac{1}{2} D_{KL}(Q || M)
$$

其中 \( M = \frac{1}{2}(P + Q) \)。

**特點**：
- 對稱性，即 \( D_{JS}(P || Q) = D_{JS}(Q || P) \)。
- 更平滑、更穩定，常用於生成對抗網絡（GANs）中。



# References