Dưới đây là danh sách **toàn diện các hàm mất mát (loss functions)** phổ biến trong Machine Learning và Deep Learning, bao gồm:

* **Phân loại (Classification)**
* **Hồi quy (Regression)**
* **Tối ưu hóa biểu diễn (Representation Learning)**
* **Tự mã hóa (Autoencoders)**
* **Sinh mẫu (Generative Models)**
* **Học tăng cường (Reinforcement Learning)**
* **Computer Vision**: segmentation, detection...
* **Loss tùy biến khác (custom/advanced)**


## 📌 I. HÀM MẤT MÁT CHO HỒI QUY (REGRESSION LOSSES)

### 1. **Mean Squared Error (MSE)**

* **Công thức**:

  $$
  \mathcal{L}_{\text{MSE}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
  $$
* **Ưu điểm**:

  * Dễ tính toán, phổ biến.
  * Khuếch đại lỗi lớn → giúp mô hình học tốt với dữ liệu ít nhiễu.
* **Nhược điểm**:

  * Nhạy cảm với outliers.


### 2. **Mean Absolute Error (MAE)**

* **Công thức**:

  $$
  \mathcal{L}_{\text{MAE}} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
  $$
* **Ưu điểm**:

  * Ít nhạy cảm với outliers hơn MSE.
* **Nhược điểm**:

  * Không trơn (non-differentiable) tại điểm 0 → làm chậm tối ưu gradient.


### 3. **Huber Loss**

* **Công thức**:

  $$
  \mathcal{L}_\delta(y, \hat{y}) = 
  \begin{cases}
    \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\
    \delta(|y - \hat{y}| - \frac{1}{2}\delta) & \text{otherwise}
  \end{cases}
  $$
* **Ưu điểm**: Kết hợp điểm mạnh của MSE và MAE.
* **Nhược điểm**: Cần chọn hyperparameter $\delta$.


### 4. **Log-Cosh Loss**

* **Công thức**:

  $$
  \mathcal{L}_{\text{logcosh}} = \sum \log(\cosh(\hat{y} - y))
  $$
* **Ưu điểm**: Mượt mà như MSE, bền như MAE.
* **Nhược điểm**: Tốn chi phí tính toán hơn MAE/MSE.


## 📌 II. PHÂN LOẠI (CLASSIFICATION)

### 1. **Binary Cross-Entropy (Log Loss)**

* **Công thức**:

  $$
  \mathcal{L}_{\text{BCE}} = -\frac{1}{n} \sum_{i=1}^{n} \left[y_i \log(\hat{y}_i) + (1 - y_i)\log(1 - \hat{y}_i)\right]
  $$
* **Ưu điểm**: Phù hợp cho bài toán nhị phân, đầu ra sigmoid.
* **Nhược điểm**: Dễ bị underflow nếu không clip $\hat{y}$.


### 2. **Categorical Cross-Entropy**

* **Công thức**:

  $$
  \mathcal{L}_{\text{CCE}} = -\sum_{i=1}^{n} \sum_{k=1}^{K} y_{ik} \log(\hat{y}_{ik})
  $$
* **Ưu điểm**: Dùng cho multi-class (softmax output).
* **Nhược điểm**: Không dùng cho nhãn chưa one-hot.


### 3. **Sparse Categorical Cross-Entropy**

* Giống CCE, nhưng nhãn là index thay vì one-hot → nhẹ hơn.


### 4. **Kullback-Leibler Divergence (KL Divergence)**

* **Công thức**:

  $$
  D_{\text{KL}}(P \| Q) = \sum P(x) \log \frac{P(x)}{Q(x)}
  $$
* **Ưu điểm**: Dùng so sánh phân phối, áp dụng trong distillation, VAE.
* **Nhược điểm**: Không đối xứng, không phải metric.


## 📌 III. HỌC BIỂU DIỄN (REPRESENTATION LEARNING)

### 1. **Contrastive Loss**

* Dành cho học nhúng (Siamese networks).
* **Công thức**:

  $$
  \mathcal{L} = (1 - y) \cdot D^2 + y \cdot \max(0, m - D)^2
  $$

  với $D = \|f(x_1) - f(x_2)\|$


### 2. **Triplet Loss**

* So sánh anchor, positive, negative:

  $$
  \mathcal{L} = \max(0, \|f(a) - f(p)\|^2 - \|f(a) - f(n)\|^2 + \alpha)
  $$


### 3. **NT-Xent Loss (SimCLR)**

* Loss tương tự như softmax, dùng trong contrastive learning:

  $$
  \mathcal{L}_{i,j} = -\log \frac{\exp(\text{sim}(z_i, z_j)/\tau)}{\sum_{k=1}^{2N} \mathbb{1}_{[k \ne i]} \exp(\text{sim}(z_i, z_k)/\tau)}
  $$


## 📌 IV. TỰ MÃ HÓA (AUTOENCODER)

### 1. **Reconstruction Loss**

* Dùng MSE hoặc MAE giữa input và output:

  $$
  \mathcal{L}_{\text{rec}} = \|x - \hat{x}\|^2
  $$

### 2. **VAE Loss**

* Kết hợp MSE với KL Divergence:

  $$
  \mathcal{L}_{\text{VAE}} = \mathcal{L}_{\text{rec}} + D_{\text{KL}}(q(z|x) \| p(z))
  $$


## 📌 V. GENERATIVE MODELS

### 1. **GAN Loss (Binary Cross-Entropy)**

* Generator và discriminator đấu với nhau:

  * **Discriminator**:

    $$
    \mathcal{L}_D = -[\log D(x) + \log(1 - D(G(z)))]
    $$
  * **Generator**:

    $$
    \mathcal{L}_G = -\log D(G(z))
    $$


## 📌 VI. COMPUTER VISION CHUYÊN BIỆT

### 1. **IoU Loss / Dice Loss** (segmentation)

* **Dice Loss**:

  $$
  \mathcal{L}_{\text{Dice}} = 1 - \frac{2|X \cap Y|}{|X| + |Y|}
  $$
* **IoU Loss**:

  $$
  \mathcal{L}_{\text{IoU}} = 1 - \frac{|X \cap Y|}{|X \cup Y|}
  $$


### 2. **Focal Loss** (đối phó mất cân bằng lớp)

* **Công thức**:

  $$
  \mathcal{L}_{\text{focal}} = -\alpha (1 - \hat{y})^\gamma \log(\hat{y})
  $$


## 📌 VII. REINFORCEMENT LEARNING

### 1. **Policy Gradient Loss**:

$$
\mathcal{L} = -\log \pi_\theta(a_t|s_t) \cdot A_t
$$


### 2. **Value Function Loss** (critic):

$$
\mathcal{L} = \left(V(s) - R_t\right)^2
$$


### 3. **PPO Loss**:

$$
\mathcal{L}^{CLIP}(\theta) = \mathbb{E}_t \left[ \min(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) A_t ) \right]
$$


## 📌 VIII. CUSTOM LOSS (ADVANCED)

* **Perceptual Loss**: So sánh feature ở layer trung gian của CNN (VGG, ResNet).
* **Earth Mover’s Distance (EMD)**: So sánh phân phối.
* **Cosine Embedding Loss**: Dựa trên độ tương đồng cosine.
