## softmax：
Softmax函数是一个非线性转换函数，通常用在网络输出的最后一层，输出的是概率分布（比如在多分类问题中，Softmax输出的是每个类别对应的概率）


In [2]:
import numpy as np
data = np.array([0.1, 0.3, 0.6, 2.1 ,0.55])
a = np.exp(data)/np.sum(np.exp(data))
print(a)
print(sum(a))

[0.07795756 0.09521758 0.12853029 0.57603278 0.12226179]
0.9999999999999999


In [6]:
import torch
import torch.nn.functional as F
t_data = torch.from_numpy(data)
print(t_data)
print(t_data.shape)
print(t_data.type())
 
prob = F.softmax(t_data,dim=0) # dim = 0,在列上进行Softmax;dim=1,在行上进行Softmax
print(prob)
print(prob.shape)
print(prob.type())

tensor([0.1000, 0.3000, 0.6000, 2.1000, 0.5500], dtype=torch.float64)
torch.Size([5])
torch.DoubleTensor
tensor([0.0780, 0.0952, 0.1285, 0.5760, 0.1223], dtype=torch.float64)
torch.Size([5])
torch.DoubleTensor


## argmax
寻找参数最大值的索引，但是该过程不可导

In [3]:
a = np.array([[1, 5, 5, 2],
              [9, 6, 2, 8],
              [3, 7, 9, 1]])
print(np.argmax(a, axis=0)) #axis = 0 表示输出最大值索引值的"轴"

[1 2 2 1]


In [4]:
print(np.argmax(a, axis=1)) #axis = 1 

[1 0 2]


### soft-argmax
结合softmax函数 ，达到argmax的目的，同时使得过程可导。

In [7]:
np.sum(np.exp(data)/np.sum(np.exp(data)) * np.array([0,1,2,3,4]))    # E = p*index

2.5694236670240085

### 解读：
- 归一化后的向量 乘以 索引值向量
- array([0.07795756, 0.09521758, 0.12853029, 0.57603278, 0.12226179])
- array([ 0 , 1 , 2 ,3 ,4 ])
- 不难发现，越大的值，其索引值的权重也越大。
- 所以能产生我们想要的结果（寻找最大值的索引值）。

### 改进：
- 从上面看到位置计算不够准确（2.57 -> 3），一个原因就是最大值的概率不够大，或者说增大相对最大值而减弱其他值的影响就可以得到更加准确的位置坐标。


In [8]:
d = data*10       # beta=10
print(d)
np.sum(np.exp(d)/np.sum(np.exp(d)) *np.array([0,1,2,3,4]))


[ 1.   3.   6.  21.   5.5]


2.9999998429934758