# Softmax

softmax函式將任意n維的實值向量轉換為取值範圍在(0,1)之間的n維實值向量，並且總和為1。

例如：向量softmax([1.0, 2.0, 3.0]) ——> [0.09003057, 0.24472847, 0.66524096]

性質：

因為softmax是單調遞增函式，因此不改變原始資料的大小順序。
將原始輸入對映到(0,1)區間，並且總和為1，常用於表徵概率。
softmax(x) = softmax(x c), 這個性質用於保證數值的穩定性。

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [11]:
'''Compute the softmax of vector x.'''
import numpy as np
def softmax_(x):
    exp_x = np.exp(x)
    softmax_x = exp_x / np.sum(exp_x)
    return softmax_x 

In [12]:
softmax_([1, 2, 3])

array([0.09003057, 0.24472847, 0.66524096])

由於numpy中的浮點型數值範圍限制所導致的。

當輸入一個較大的數值時，sofmax函式將會超出限制，導致出錯。

In [13]:
softmax_([1000, 2000, 3000])

array([nan, nan, nan])

為了解決這一問題，這時我們就能用到sofmax的第三個性質，即：softmax(x) = softmax(x c)，

一般在實際運用中，通常設定c = – max(x)。

接下來，我們重新定義softmax函式：

In [6]:
'''Compute the softmax in a numerically stable way.'''
import numpy as np
def softmax(x):
    x = x - np.max(x)
    exp_x = np.exp(x)
    softmax_x = exp_x / np.sum(exp_x)
    return softmax_x

In [8]:
softmax([1000, 2000, 3000])

array([0., 0., 1.])

下面提供了基於向量以及矩陣的softmax實現

In [21]:
import numpy as np
def softmax(x):
    """
    Compute the softmax function for each row of the input x.
    Arguments:
    x -- A N dimensional vector or M x N dimensional numpy matrix.
    Return:
    x -- You are allowed to modify x in-place
    """
    orig_shape = x.shape
    if len(x.shape) > 1:
        # Matrix
        exp_minmax = lambda x: np.exp(x - np.max(x))
        denom = lambda x: 1.0 / np.sum(x)
        x = np.apply_along_axis(exp_minmax,1,x)
        denominator = np.apply_along_axis(denom,1,x) 
        if len(denominator.shape) == 1:
            denominator = denominator.reshape((denominator.shape[0],1))
            x = x * denominator
        else:
            # Vector
            x_max = np.max(x)
            x = x - x_max
            numerator = np.exp(x)
            denominator =  1.0 / np.sum(numerator)
            x = numerator.dot(denominator)
    assert x.shape == orig_shape
    return x

In [42]:
a = np.array([[1000, 2000, 3000],[1000, 2000, 3000]])
b = np.array([[1, 2, 3],[1, 2, 3]])
print(a.shape)
print(softmax(a))
print(softmax(b))

(2, 3)
[[0. 0. 1.]
 [0. 0. 1.]]
[[0.09003057 0.24472847 0.66524096]
 [0.09003057 0.24472847 0.66524096]]


以下試算

In [39]:
b = np.array([1000, 2000, 3000])
c = b - np.max(b) # array([-2000, -1000,     0])
exp_minmax_ = np.exp(c) # array([0., 0., 1.])
print(exp_minmax_)
denom_ = 1.0 / b # array([0.001, 0.0005, 0.00033333])
print(denom_)

[0. 0. 1.]
[0.001      0.0005     0.00033333]


In [35]:
x = np.array([[1000, 2000, 3000],[1000, 2000, 3000]])
exp_minmax = lambda x: np.exp(x - np.max(x))
denom = lambda x: 1.0 / np.sum(x)
x = np.apply_along_axis(exp_minmax,1,x)
print(x)
denominator = np.apply_along_axis(denom,1,x) 
print(denominator)

[[0. 0. 1.]
 [0. 0. 1.]]
[1. 1.]
