### 1. Giới thiệu

Trong bài trước, chúng ta đã tìm hiểu qua việc sử dụng Logistic Regression cho phân loại nhiều nhóm sử dụng One-vs-All (hay One-vs-Rest). Tuy nhiên, việc phân nhóm bằng One-vs-All (One-vs-Rest) không đem lại hiệu quả cao do các nhóm không có liên hệ với nhau.

<img src="images/softmax/onevsrest.png" style="width:60%;height:60%;">

<center> Logistic Regression sử dụng One-vs-Rest (Nguồn: machinelearningcoban.com) </center>

Xem chi tiết về One-vs-All (One-vs-Rest) và ví dụ về phân loại 10 nhóm trong bộ dữ liệu CIFAR [tại đây](https://nbviewer.jupyter.org/github/thanhhff/AIVN-Machine-Learning/blob/master/Week%204/4.%20Logistic%20Regression%20-%20One%20vs%20All%20.ipynb).

Chính vì vậy mà thay vì sử dụng hàm `Sigmoid` ta sử dụng hàm `Softmax` để chuẩn hoá các giá trị sao cho các giá trị label score $a_i$ tạo thành một phân phối xác suất (tổng các giá trị bằng 1). Và từ giá trị có score cao nhất đưa ra dự đoán thuộc về nhóm nào.

Hình dưới đây biểu diễn Softmax Regression dưới dạng Neural Network: 

<img src="images/softmax/softmax_nn.png" style="width:60%;height:60%;">
<center> Softmax Regression (Nguồn: machinelearningcoban.com) </center>


### 2. Mô hình Softmax Regression 

#### 2.1 Hàm Softmax

Công thức hàm Softmax:

<center> $a_i = \frac{exp(z_i)}{\sum_{j = 1}^{C}exp(z_i)}$ </center>

Trong đó:
- $0 \leq a_i \leq 1$
- $exp(z_i) = e^{z_i}$
- C: số lượng nhóm 
- $\sum_{i} a_i = 1$

In [1]:
# Xây dựng hàm Softmax
import numpy as np 

def softmax(Z):
    e_Z = np.exp(Z)
    A = e_Z / np.sum(e_Z)
    return A

Ví dụ về đầu vào và ra của hàm Softmax:
    
<img src="images/softmax/softmax.png" style="width:40%;height:40%;">
    

In [2]:
data = np.asarray([2.4, -0.5, 3.2, 1.9])
softmax(data)

array([0.25726154, 0.01415536, 0.57254609, 0.15603701])

Tuy nhiên do hạn chế của Softmax là dùng hàm mũ $e$ nên có thể gây ra hiện tượng tràn số nêu $z$ lớn.

In [3]:
# Ví dụ về hiện tượng tràn số: overflow encountered in exp
data = np.asarray([1112.4, -0.5, 3.2, 1.9])
softmax(data)

  """
  


array([nan,  0.,  0.,  0.])

Để khắc phục hiện tượng trên, người ta thường sử dụng phương pháp bớt đi một lượng hằng số như sau:
<br><br>
<center> $a_i = \frac{exp(z_i - c)}{\sum_{j = 1}^{C}exp(z_i - c)}$ </center>

Với $c$ là hằng số.


In [4]:
def softmax(Z):
    """
    Chú ý:
    - axis = 0: tính theo cột ; axis = 1 tính theo hàng 
    - keepdims = True giữ số chiều sau khi lấy max. 
    """
    e_Z = np.exp(Z - np.max(Z, axis = 0, keepdims = True))
    A = e_Z / np.sum(e_Z, axis = 0)
    
    return A

In [5]:
data = np.array([[1000, 2, 3, 6],
                 [2, 4, 5, 6],
                 [3, 8, 7, 6]])
softmax(data)

array([[1.        , 0.00242826, 0.01587624, 0.33333333],
       [0.        , 0.01794253, 0.11731043, 0.33333333],
       [0.        , 0.97962921, 0.86681333, 0.33333333]])

#### 2.2 Cost Function



### Tài liệu tham khảo 

[1] [Softmax Regression - Machine Learning Cơ Bản](https://machinelearningcoban.com/2017/02/17/softmax/)