**Softmax Regression**, hay còn gọi là **Multinomial Logistic Regression**, là **biến thể mở rộng của Logistic Regression** dùng cho **phân loại nhiều lớp (multiclass classification)**.


## 🧠 I. Tổng quan

Trong khi **Logistic Regression** xử lý **nhị phân (2 lớp)**, thì **Softmax Regression** xử lý được **n lớp (n > 2)**.


## 📊 II. Ý tưởng chính

Với Logistic Regression nhị phân:

$$
\hat{y} = \sigma(\mathbf{w}^\top \mathbf{x}) = \frac{1}{1 + e^{-\mathbf{w}^\top \mathbf{x}}}
$$

→ Output là 1 xác suất.

Với Softmax Regression:

* Ta tính **logit** cho mỗi lớp:

$$
z_k = \mathbf{w}_k^\top \mathbf{x} + b_k \quad \text{với } k = 1, 2, ..., K
$$

* Sau đó đưa qua **hàm softmax**:

$$
P(y = k \mid \mathbf{x}) = \frac{e^{z_k}}{\sum_{j=1}^{K} e^{z_j}}
$$

→ Kết quả là **một vector xác suất** với tổng = 1, đại diện cho xác suất thuộc từng lớp.


## 📉 III. Hàm mất mát: **Cross-Entropy Loss (multiclass)**

Giả sử ta dùng one-hot encoding cho nhãn thật $\mathbf{y}$, thì:

$$
\mathcal{L} = -\sum_{k=1}^{K} y_k \log(P(y = k \mid \mathbf{x}))
$$

Mô hình sẽ cố tối ưu để xác suất đúng (của nhãn thật) **gần 1 nhất có thể**.


## ⚙️ IV. Tối ưu hoá

Giống như logistic regression nhị phân:

* Dùng **Gradient Descent** hoặc **Stochastic Gradient Descent (SGD)**
* Có thể thêm **L2 regularization** để tránh overfitting


## 🛠️ V. Code ví dụ với `scikit-learn`

```python
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.metrics import classification_report

X, y = load_iris(return_X_y=True)

model = LogisticRegression(multi_class='multinomial', solver='lbfgs')  # dùng softmax
model.fit(X, y)

y_pred = model.predict(X)
print(classification_report(y, y_pred))
```


## 🧠 VI. Softmax vs Logistic Regression

| Tiêu chí      | Logistic Regression  | Softmax Regression       |
| ------------- | -------------------- | ------------------------ |
| Loại bài toán | Nhị phân             | Nhiều lớp                |
| Output        | 1 xác suất           | Vector xác suất          |
| Kích hoạt     | Sigmoid              | Softmax                  |
| Loss          | Binary Cross-Entropy | Multiclass Cross-Entropy |


## ✅ Ưu & Nhược điểm

| Ưu điểm                                             | Nhược điểm                                |
| --------------------------------------------------- | ----------------------------------------- |
| Dễ hiểu, diễn giải xác suất                         | Không xử lý tốt dữ liệu phi tuyến         |
| Dễ huấn luyện, phổ biến                             | Cần chuẩn hóa input để tối ưu tốt         |
| Là nền tảng cho softmax layers trong neural network | Không học tốt với feature tương quan mạnh |
