# 14 loss functions

### typical loss

### mse
$loss = \sum [y-(wx+b)]^2$  
$loss = (norm(y-(wx+b)))^2$

### autograd.grad

In [1]:
import torch
import torch.nn.functional as F

In [2]:
x = torch.ones(1)
w = torch.full([1],2)
mse = F.mse_loss(x*w, torch.ones(1))
mse

tensor(1.)

In [3]:
#经过如下操作之后才可以对w自动求导
w.requires_grad_()    #说明w是需要更新的,或者可以使用w=torch.tensor([1.],requires_grad=True)
mse = F.mse_loss(x*w, torch.ones(1))     #重新更新计算图

In [4]:
#此时就可以对w进行自动求导了
torch.autograd.grad(mse,[w])

(tensor([2.]),)

### loss.backward

In [5]:
mse = F.mse_loss(x*w, torch.ones(1))
mse.backward()      #反向传播，计算所有的梯度，需要哪个调用哪个就行

In [6]:
w.grad

tensor([2.])

### gradient API

###### 两种方式：
* 1.torch.autograd.grad(loss,[w1,w2,...]  
* 2.loss.backward()

### softmax——activate function

$S(y_i)=\frac{e^{y_i}}{\sum_je^{y_i}}$  
$\frac{\partial p_i}{\partial a_j}=\begin{cases}p_j(1-p_j)\  ,&i=j\\-p_j\cdot{p_i}\  ,&i\ne j\end{cases}$

In [7]:
a = torch.rand(3)
a.requires_grad_()

tensor([0.2765, 0.0360, 0.6125], requires_grad=True)

In [8]:
p=F.softmax(a, dim=0)

In [9]:
p.backward                  #backward不能连续使用两次

<bound method Tensor.backward of tensor([0.3139, 0.2468, 0.4393], grad_fn=<SoftmaxBackward>)>

In [10]:
torch.autograd.grad(p[1],[a],retain_graph=True)  #损失函数只能是一个数值，所以这里使用的是p[1],retain_graph=True,保证计算图不消除，可以继续调用

(tensor([-0.0775,  0.1859, -0.1084]),)

In [11]:
torch.autograd.grad(p[2],[a])          #可以看出来i=j的时候导数是正的，其他是负的。

(tensor([-0.1379, -0.1084,  0.2463]),)