### Softmax 

For **multi-class** classification: $ p(y=c|x), c\in[0, 1, 2, ...]$, we use the softmax activation function at the output

$$o(a) = softmax(a) = [\cfrac{exp(a_1)}{\Sigma_cexp(a_c)} , \cfrac{exp(a_2)}{\Sigma_cexp(a_c)} , ... ,  \cfrac{exp(a_c)}{\Sigma_cexp(a_c)}]^T   $$



In [2]:
import numpy as np

In [4]:
def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=0)

scores = [3.0, 1.0, 0.2]
print(softmax(scores))

[ 0.8360188   0.11314284  0.05083836]


### Softmax overflow. 
 
对于x的值很大的时候，由于作指数计算$e^x$, 数据值会很大，容易发生溢出，所以在作softmax时，一个推荐的算法应该是尽可能减小x的值。比如:都减去一个max(x), say m 

$$ \cfrac{e^{x_i-m}}{\Sigma e^{x_i-m}} = \cfrac{e^{x_i}/e^m}{\Sigma e^{x_i}/e^m} = \cfrac{e^{x_i}}{\Sigma e^{x_i}} $$


当然我们不必一定要减去一个最大数，比如可以减去一个平均数，在某些场合也是合适的。

In [5]:
def softmax(x):
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum(axis=0) # 注意axis=0, 使得该方法可以扩展到2维

scores = [3.0, 1.0, 0.2]
softmax(scores)

array([ 0.8360188 ,  0.11314284,  0.05083836])

In [6]:
scores2D = np.array([[1, 2, 3, 6],
                     [2, 4, 5, 6],
                     [3, 8, 7, 6]])
softmax(scores2D)

array([[ 0.09003057,  0.00242826,  0.01587624,  0.33333333],
       [ 0.24472847,  0.01794253,  0.11731043,  0.33333333],
       [ 0.66524096,  0.97962921,  0.86681333,  0.33333333]])