在第十二天的學習計劃中，我們將討論一些 **進階優化技術**，如 **權重衰減（Weight Decay）** 和 **學習率調整（Learning Rate Scheduling）**，這些技術有助於提升模型的性能並防止過擬合。這些技術已被廣泛應用於現代深度學習模型的訓練中。

---

### **1. 權重衰減（Weight Decay）**

#### **1.1 權重衰減的概念**

**權重衰減** 是一種 **正則化技術**，通過在損失函數中引入權重的懲罰項來防止模型過擬合。這種技術可以限制模型中的權重變得過大，從而提升模型的泛化能力。權重衰減通常是 L2 正則化的一種形式，其作用是在優化過程中同時最小化損失和權重的平方和。

#### **1.2 權重衰減的數學表達**

損失函數可以表示為：

$$
L_{\text{new}} = L_{\text{old}} + \lambda \sum_{i} w_i^2
$$

其中：
- $L_{\text{old}}$ 是原始損失函數（如交叉熵損失）。
- $w_i$ 是模型中的權重參數。
- $\lambda$ 是控制正則化強度的超參數，稱為 **正則化係數**。

#### **1.3 權重衰減的應用場景**

- **過擬合的防止**：當模型過於擬合訓練數據時，可以通過引入權重衰減來約束模型，避免它學到不必要的細節。
- **增強模型的穩定性**：權重衰減可以減少模型在訓練過程中權重的波動性，從而提高模型的穩定性。

---

### **2. 學習率調整（Learning Rate Scheduling）**

#### **2.1 學習率調整的概念**

**學習率調整** 是指在訓練過程中根據預定的策略動態調整學習率。使用固定學習率訓練模型可能會導致模型無法快速收斂或難以到達最優解，因此，動態調整學習率可以更有效地幫助模型在不同階段進行更優的更新。

#### **2.2 常見的學習率調整策略**

- **Step Decay（階梯衰減）**：每隔一定的 epoch，將學習率減少一個固定比例。
  - 公式：
    $$
    \eta_t = \eta_0 \cdot \text{factor}^{\left(\frac{t}{\text{decay\_steps}}\right)}
    $$

- **Exponential Decay（指數衰減）**：學習率隨著訓練次數的增加按指數方式衰減。
  - 公式：
    $$
    \eta_t = \eta_0 \cdot e^{-\lambda t}
    $$

- **Cosine Annealing（餘弦退火）**：學習率根據餘弦函數進行退火，這樣可以實現學習率在訓練過程中周期性波動。
  - 公式：
    $$
    \eta_t = \eta_{\min} + \frac{1}{2} (\eta_0 - \eta_{\min}) \left(1 + \cos\left(\frac{t}{T_{\max}} \pi\right)\right)
    $$

- **ReduceLROnPlateau**：當模型的性能（如驗證損失）在若干 epoch 內沒有改善時，減少學習率。

---

### **3. 總結**

- **權重衰減（Weight Decay）** 是一種有效的正則化技術，能夠防止模型過擬合，通過控制權重的大小來提高模型的泛化能力。
- **學習率調整（Learning Rate Scheduling）** 是通過動態改變學習率來加速模型收斂或防止收斂到局部最小值。常見的學習率調整方法包括階梯衰減、指數衰減和餘弦退火。
- 這些技術在 Keras 和 PyTorch 中都很容易實作，並且對模型性能有顯著的提升作用。
