# Các hàm kích hoạt phổ biến

### 1. **Sigmoid**

* **Công thức:**

  $$
  \sigma(x) = \frac{1}{1 + e^{-x}}
  $$
* **Giá trị đầu ra:** (0, 1)
* **🎯 Dùng để đưa đầu ra về xác suất (binary classification).**
* ✅ Ưu điểm:

  * Ánh xạ đầu vào thành xác suất.
* ❌ Nhược điểm:

  * Gradient nhỏ khi $x$ lớn hoặc nhỏ → Vanishing gradient.
  * Không zero-centered → khó tối ưu.
* 📌 **Dùng ở output layer của mô hình binary classification.**


### 2. **Tanh (Hyperbolic Tangent)**

* **Công thức:**

  $$
  \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} = 2\sigma(2x) - 1
  $$
* **Giá trị đầu ra:** (−1, 1)
* 🎯 **Giống Sigmoid nhưng zero-centered.**
* ✅ Ưu điểm:

  * Trung tâm ở 0 → tốt hơn sigmoid.
* ❌ Nhược điểm:

  * Vẫn bị vanishing gradient.
* 📌 **Dùng ở hidden layers trong các mạng cổ điển.**


### 3. **ReLU (Rectified Linear Unit)**

* **Công thức:**

  $$
  f(x) = \max(0, x)
  $$
* 🎯 **Đơn giản và hiệu quả, được dùng rộng rãi nhất.**
* ✅ Ưu điểm:

  * Tính toán nhanh, không saturate khi $x > 0$.
  * Tránh vanishing gradient khi x > 0.
* ❌ Nhược điểm:

  * “Dying ReLU” (neuron chết khi $x < 0$).
* 📌 **Sử dụng cho hidden layers trong CNN, DNN.**


### 4. **Leaky ReLU**

* **Công thức:**

  $$
  f(x) = \begin{cases} x & \text{if } x \ge 0 \\ \alpha x & \text{if } x < 0 \end{cases}
  $$

  với $\alpha \approx 0.01$
* 🎯 **Giải quyết vấn đề Dying ReLU.**
* ✅ Ưu điểm:

  * Gradient nhỏ vẫn tồn tại khi $x < 0$.
* ❌ Nhược điểm:

  * $\alpha$ cố định có thể không tối ưu.
* 📌 **Thường dùng khi ReLU gây ra quá nhiều neurons chết.**


### 5. **Parametric ReLU (PReLU)**

* **Công thức:** giống Leaky ReLU, nhưng $\alpha$ là học được.
* 🎯 **Giúp mô hình học độ dốc phù hợp vùng âm.**
* ✅ Tối ưu hơn Leaky ReLU.
* ❌ Dễ overfit nếu dữ liệu nhỏ.
* 📌 **Ứng dụng trong mô hình lớn: ResNet, VGG, GAN.**


### 6. **ELU (Exponential Linear Unit)**

* **Công thức:**

  $$
  f(x) = \begin{cases} x & \text{if } x \ge 0 \\ \alpha (e^x - 1) & \text{if } x < 0 \end{cases}
  $$
* 🎯 **Kết hợp lợi ích ReLU và smoothness.**
* ✅ Tránh dying ReLU và gradient nhỏ hơn sigmoid.
* ❌ Tính toán phức tạp hơn ReLU.
* 📌 **Đôi khi dùng thay ReLU để có gradient ổn định hơn.**


### 7. **Swish (Self-Gated Activation)**

* **Công thức:**

  $$
  f(x) = x \cdot \sigma(x)
  $$
* 🎯 **Tự điều chỉnh đầu ra, mượt mà hơn ReLU.**
* ✅ Smooth, tránh dying neuron, tốt hơn ReLU trong nhiều bài toán.
* ❌ Chậm hơn ReLU.
* 📌 **Được dùng trong EfficientNet, Transformer.**


### 8. **GELU (Gaussian Error Linear Unit)**

* **Công thức (xấp xỉ):**

  $$
  f(x) = 0.5x(1 + \tanh(\sqrt{2/\pi}(x + 0.044715x^3)))
  $$
* 🎯 **Mượt và tự nhiên hơn ReLU.**
* ✅ Tốt cho transformer (GPT, BERT).
* ❌ Tính toán nặng.
* 📌 **Dùng trong GPT-2, BERT.**


### 9. **Softmax**

* **Công thức:**

  $$
  \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}
  $$
* 🎯 **Biến vector thành xác suất phân phối (tổng = 1).**
* ✅ Phù hợp với classification multi-class.
* ❌ Không dùng ở hidden layers.
* 📌 **Dùng ở output layer của multi-class classifier.**


### 10. **Hard Sigmoid / Hard Tanh**

* **Công thức:** Xấp xỉ sigmoid và tanh bằng đoạn thẳng để giảm chi phí tính toán.
* 🎯 **Dùng trong thiết bị di động hoặc khi cần nhanh.**
* ✅ Tốc độ nhanh.
* ❌ Không smooth → khó học tốt trong vài bài toán.
* 📌 **Thường dùng trong embedded hoặc mobile networks.**


### 11. **Maxout**

* **Công thức:**

  $$
  f(x) = \max(w_1^Tx + b_1, w_2^Tx + b_2)
  $$
* 🎯 **Không cố định dạng hàm phi tuyến.**
* ✅ Linh hoạt, tránh dying ReLU.
* ❌ Tốn nhiều tham số.
* 📌 **Dùng trong mạng deep khi cần tính linh hoạt cao.**


### 12. **Mish**

* **Công thức:**

  $$
  f(x) = x \cdot \tanh(\ln(1 + e^x))
  $$
* 🎯 **Kết hợp ưu điểm ReLU, Swish, Tanh.**
* ✅ Smooth, zero-centered, không bị dying neuron.
* ❌ Tính toán nặng.
* 📌 **Dùng trong các bài toán thị giác máy tính hiện đại.**


### 13. **Thresholded ReLU**

* **Công thức:**

  $$
  f(x) = \begin{cases} x & \text{if } x > \theta \\ 0 & \text{otherwise} \end{cases}
  $$
* 🎯 Chỉ cho phép truyền gradient khi vượt ngưỡng.
* 📌 **Thường dùng trong sparse coding.**
