### sigmoid 函数

sigmoid 函数：$S\left ( x \right )  = \frac{e^x}{e^x+1}$

sigmoid 函数导数：$S'\left ( x \right )  = S(x)\left ( 1-S(x) \right ) $

<img src="./assets/sigmoid.png" alt="sigmoid 函数" width=650 height=400/>

In [4]:
import torch
from torch.nn import functional as F

z = torch.linspace(-100, 100, 10)
print(z)

print(torch.sigmoid(z))
print(F.sigmoid(z))

tensor([-100.0000,  -77.7778,  -55.5556,  -33.3333,  -11.1111,   11.1111,
          33.3333,   55.5556,   77.7778,  100.0000])
tensor([0.0000e+00, 1.6655e-34, 7.4564e-25, 3.3382e-15, 1.4945e-05, 9.9999e-01,
        1.0000e+00, 1.0000e+00, 1.0000e+00, 1.0000e+00])
tensor([0.0000e+00, 1.6655e-34, 7.4564e-25, 3.3382e-15, 1.4945e-05, 9.9999e-01,
        1.0000e+00, 1.0000e+00, 1.0000e+00, 1.0000e+00])


### tanh 函数

$f(x) = tanh(x) = \frac{e^x-\frac{1}{e^x}  }{e^x+\frac{1}{e^x}} =2sigmoid(2x)-1$

f'(x) = tanh'(x) = 1-tanh^2(x)

<img src="./assets/tanh.png" alt="tanh 函数" width=650 height=400/>

In [5]:
import torch 
z = torch.linspace(-1, 1, 10)
print(z)

print(torch.tanh(z))

tensor([-1.0000, -0.7778, -0.5556, -0.3333, -0.1111,  0.1111,  0.3333,  0.5556,
         0.7778,  1.0000])
tensor([-0.7616, -0.6514, -0.5047, -0.3215, -0.1107,  0.1107,  0.3215,  0.5047,
         0.6514,  0.7616])


### ReLU 函数

<img src="./assets/ReLU.png" alt="relu 函数" width=1000 height=350/>

In [6]:
import torch
from torch import nn
from torch.nn import functional as F

z = torch.linspace(-1, 1, 10)
print(z)

print(torch.relu(z))
print(F.relu(z))

tensor([-1.0000, -0.7778, -0.5556, -0.3333, -0.1111,  0.1111,  0.3333,  0.5556,
         0.7778,  1.0000])
tensor([0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.1111, 0.3333, 0.5556, 0.7778,
        1.0000])
tensor([0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.1111, 0.3333, 0.5556, 0.7778,
        1.0000])


In [1]:
import torch
from torch import nn
from torch.nn import functional as F

x = torch.rand(1, 16, 7, 7)
# inplace=True 表示会直接更新 x（这样会减小内存消耗）
layer = nn.ReLU(inplace=True)
out = layer(x)
print(out.shape)

out = F.relu(x)
print(out.shape)

torch.Size([1, 16, 7, 7])
torch.Size([1, 16, 7, 7])


### softmax 函数

soft version of max</br>**softmax函数用于多分类过程中**，它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类

<img src="./assets/softmax.png" alt="relu 函数" width=1000 height=350/>

Softmax 激活函数可以将上一层的原始数据进行归一化，转化为一个  [0, 1] 之间的数值，这些数值可以被当做概率分布，用来作为多分类的目标预测值。</br>Softmax函数一般作为神经网络的最后一层，接受来自上一层网络的输入值，然后将其转化为概率。**之所以要选用e作为底数的指数函数来转换概率，是因为上一层的输出有正有负，采用指数函数可以将其第一步都变成大于0的值，然后再算概率分布**。</br>同时，softmax 还能加大数值最大和数值次大之间的差距

<img src="./assets/softmax_loss1.jpeg" alt="relu 函数" width=600 height=150/>

<img src="./assets/softmax_loss2.jpeg" alt="relu 函数" width=600 height=150/>

<img src="./assets/softmax_loss1_exp_x1.jpeg" alt="relu 函数" width=1300 height=150/>

<img src="./assets/softmax_loss1_exp_x2.jpeg" alt="relu 函数" width=880 height=150/>

In [11]:
import torch
from torch.nn import functional as F 

z = torch.rand(3, requires_grad=True)
print(z)

# 返回一个 probability 概率
p = F.softmax(z, dim=0)
print(p)

# RuntimeError: grad can be implicitly created only for scalar outputs
# 只有对标量输出它才会计算梯度，而求一个矩阵对另一矩阵的导数束手无策，解决方法是给backward加上参数grad_tensors，相当于z和一个大小相同的矩阵相乘后再求导
# grad_tensors的作用其实可以简单地理解成在求梯度时的权重，因为可能不同值的梯度对结果影响程度不同
p.backward(torch.ones_like(p)) # grad_tensors 需要与输入 tensor p 大小一致

p = F.softmax(z, dim=0)
# 计算梯度
# 第一个参数是 loss 函数，第二个参数是个要被函数求偏导的所有自变量组成的列表
print(torch.autograd.grad(p[1], [z], retain_graph=True))
print(torch.autograd.grad(p[2], [z]))




tensor([0.6229, 0.1372, 0.4505], requires_grad=True)
tensor([0.4070, 0.2504, 0.3426], grad_fn=<SoftmaxBackward0>)
None
(tensor([-0.1019,  0.1877, -0.0858]),)
(tensor([-0.1394, -0.0858,  0.2252]),)


  print(p[1].grad)
