# 一、Tensor张量
在PyTorch中，使用张量对模型的输入输出以及参数进行编码。其优点是能够调用GPU等硬件的性能，加快计算速度。

In [1]:
import torch
import numpy as np

## （一）Tensor的初始化

In [2]:
data=[[1,2],[3,4]]
x_list=torch.tensor(data)#列表作为参数
x_list

tensor([[1, 2],
        [3, 4]])

In [3]:
arr=np.array(data)
x_arr=torch.tensor(arr)#array作为参数
x_arr

tensor([[1, 2],
        [3, 4]])

In [4]:
x_ones=torch.ones_like(x_list)#tensor作为参数，保留特性
x_rand=torch.rand_like(x_list,dtype=float)#tensor作为参数，不保留特性（overridden）

print(x_ones,'\n',x_rand)

tensor([[1, 1],
        [1, 1]]) 
 tensor([[0.9881, 0.9710],
        [0.4307, 0.5097]], dtype=torch.float64)


In [5]:
shape=(2,3,)
rand_tensor=torch.rand(shape)#随机生成给定形状的tensor
ones_tensor=torch.ones(shape)
zeros_tensor=torch.zeros(shape)
print(rand_tensor,'\n',ones_tensor,'\n',zeros_tensor)

tensor([[0.8154, 0.4208, 0.6867],
        [0.6234, 0.2411, 0.4388]]) 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 
 tensor([[0., 0., 0.],
        [0., 0., 0.]])


## （二）Tensor的属性
包括形状、数据类型和存储的硬件。

In [6]:
tensor=torch.rand(3,4)
tensor.shape,tensor.dtype,tensor.device

(torch.Size([3, 4]), torch.float32, device(type='cpu'))

## （三）Tensor的操作
张量拥有超过100个定义操作，包括调换顺序、索引、切片、拼接等。

In [7]:
t1=torch.cat([tensor,tensor],dim=1)#拼接
t2=torch.cat([tensor,tensor],dim=0)
t1,t2

(tensor([[0.8209, 0.9723, 0.5549, 0.4708, 0.8209, 0.9723, 0.5549, 0.4708],
         [0.0248, 0.5844, 0.4228, 0.2037, 0.0248, 0.5844, 0.4228, 0.2037],
         [0.2525, 0.7014, 0.6546, 0.7477, 0.2525, 0.7014, 0.6546, 0.7477]]),
 tensor([[0.8209, 0.9723, 0.5549, 0.4708],
         [0.0248, 0.5844, 0.4228, 0.2037],
         [0.2525, 0.7014, 0.6546, 0.7477],
         [0.8209, 0.9723, 0.5549, 0.4708],
         [0.0248, 0.5844, 0.4228, 0.2037],
         [0.2525, 0.7014, 0.6546, 0.7477]]))

In [8]:
tensor.mul(tensor),tensor*tensor,tensor#张量的对应元素相乘

(tensor([[6.7386e-01, 9.4545e-01, 3.0790e-01, 2.2168e-01],
         [6.1409e-04, 3.4154e-01, 1.7875e-01, 4.1504e-02],
         [6.3759e-02, 4.9199e-01, 4.2844e-01, 5.5903e-01]]),
 tensor([[6.7386e-01, 9.4545e-01, 3.0790e-01, 2.2168e-01],
         [6.1409e-04, 3.4154e-01, 1.7875e-01, 4.1504e-02],
         [6.3759e-02, 4.9199e-01, 4.2844e-01, 5.5903e-01]]),
 tensor([[0.8209, 0.9723, 0.5549, 0.4708],
         [0.0248, 0.5844, 0.4228, 0.2037],
         [0.2525, 0.7014, 0.6546, 0.7477]]))

In [9]:
tensor.matmul(tensor.T),tensor@tensor.T#矩阵乘法 matrix multiplication

(tensor([[2.1489, 0.9191, 1.6045],
         [0.9191, 0.5624, 0.8452],
         [1.6045, 0.8452, 1.5432]]),
 tensor([[2.1489, 0.9191, 1.6045],
         [0.9191, 0.5624, 0.8452],
         [1.6045, 0.8452, 1.5432]]))

操作函数后加入下划线"_"后，即表示修改原变量。具有“替换”功能的操作函数的使用会占用一些内存，故不鼓励使用。
## （四）Tensor与array之间的相互转换
运行在CPU上的tensor与array占有共同的内存空间，一方的改变会同时引起另一方改变。

In [10]:
array=tensor.numpy()#tensor变array
tensor1=torch.from_numpy(array)#array变tensor
tensor,array,tensor1

(tensor([[0.8209, 0.9723, 0.5549, 0.4708],
         [0.0248, 0.5844, 0.4228, 0.2037],
         [0.2525, 0.7014, 0.6546, 0.7477]]),
 array([[0.8208881 , 0.97234315, 0.55489105, 0.47082973],
        [0.02478093, 0.5844118 , 0.4227836 , 0.2037245 ],
        [0.25250524, 0.7014173 , 0.65455616, 0.7476852 ]], dtype=float32),
 tensor([[0.8209, 0.9723, 0.5549, 0.4708],
         [0.0248, 0.5844, 0.4228, 0.2037],
         [0.2525, 0.7014, 0.6546, 0.7477]]))

In [11]:
tensor.add_(1)#双方均发生改变
tensor,array,tensor1

(tensor([[1.8209, 1.9723, 1.5549, 1.4708],
         [1.0248, 1.5844, 1.4228, 1.2037],
         [1.2525, 1.7014, 1.6546, 1.7477]]),
 array([[1.820888 , 1.9723432, 1.5548911, 1.4708297],
        [1.024781 , 1.5844119, 1.4227836, 1.2037245],
        [1.2525053, 1.7014173, 1.6545562, 1.7476852]], dtype=float32),
 tensor([[1.8209, 1.9723, 1.5549, 1.4708],
         [1.0248, 1.5844, 1.4228, 1.2037],
         [1.2525, 1.7014, 1.6546, 1.7477]]))

# 二、Autograd 自动求导
torch.autograd是PyTorch的自动求导引擎。先以单一训练步骤为例。

In [12]:
import torch,torchvision
model=torchvision.models.resnet18(pretrained=True)
data=torch.rand(1,3,64,64)#一个三通道样本图片，大小为64*64
labels=torch.rand(1,1000)

## （一）Forward pass

In [13]:
prediction=model(data)

## （二）Backward pass

In [14]:
loss=(prediction-labels).sum()#计算损失值
loss.backward()#autograd计算梯度向量并储存在每个参数的.grad属性。

In [15]:
optim=torch.optim.SGD(model.parameters(),lr=1e-2,momentum=0.9)#加载某个最优器

In [16]:
optim.step()#梯度下降，更新权重

## （三）Autograd 微分机制

In [17]:
a=torch.tensor([2.,3.],requires_grad=True)
b=torch.tensor([4.,6.],requires_grad=True)
Q=3*a**3-b**2
Q

tensor([ 8., 45.], grad_fn=<SubBackward0>)

因为Q是个向量，所有需将其转变为标量后再调用backward方法。根据微分法则，求解得a的梯度向量应为(36,81)，b的梯度向量应为(-8,-12)，正好与Autograd的结果一致。

In [18]:
Q.sum().backward()
a.grad,b.grad

(tensor([36., 81.]), tensor([ -8., -12.]))

或者在backward函数中传入一张量$\overrightarrow{v}$，该张量的维度与Q一致，元素均为1。

In [19]:
a=torch.tensor([2.,3.],requires_grad=True)
b=torch.tensor([4.,6.],requires_grad=True)
Q=3*a**3-b**2

external_grad=torch.tensor([1.,1.])
Q.backward(gradient=external_grad)
a.grad,b.grad

(tensor([36., 81.]), tensor([ -8., -12.]))

总的来说，autograd自动求导引擎用以计算Vector-Jacobian $J^T\overrightarrow{v}$ ，其中$\overrightarrow{v}$是标量函数$l=g(\overrightarrow{y})$的梯度向量。根据链式法则，$J^T\overrightarrow{v}$即为$l$关于$\overrightarrow{x}$的梯度向量。
$$
J=
\begin{pmatrix}
\frac{\partial y_1}{\partial x_1}&\cdots&\frac{\partial y_1}{\partial x_n}\\
\vdots\\
\frac{\partial y_m}{\partial x_1}&\cdots&\frac{\partial y_m}{\partial x_n}
\end{pmatrix}
$$
$$
\overrightarrow{v}=
{\begin{pmatrix}
\frac{\partial l}{\partial y_1}&\cdots&\frac{\partial l}{\partial y_m}
\end{pmatrix}}^T
$$
上文中的$\overrightarrow{v}$即为这里的$\overrightarrow{v}$。
# 三、神经网络
PyTorch使用torch.nn包来构建神经网络。
## （一）定义神经网络
nn.Conv2d：3个数字分别表示卷积层接收的输入数据的个数、卷积层输出数据的个数（即卷积核的个数）、卷积核的维度，stride表示步长，padding默认为0，表示用0填充输入数据。

In [20]:
import torch
from torch.nn import *
import torch.nn.functional as F

class NeuralNetwork(Module):
    def __init__(self):
        super(NeuralNetwork,self).__init__()
        #假定输入数据为一张32×32的图片，采样层中每个神经元对上一层中对应特征映射的2×2邻域相连
        self.conv1=Conv2d(1,6,(5,5))#1代表单通道，输出数据为6@28×28，采样后为6@14×14
        self.conv2=Conv2d(6,16,5)#输出数据为16@10×10，采样后为16@5×5
        #映射操作：y=Wx+b
        self.f1=Linear(16*5*5,120)#输入数据维度为16×5×5，120个神经元
        self.f2=Linear(120,84)
        self.f3=Linear(84,10)#最终输出10维向量
    
    def forward(self,x):
        #最大采样层中每个神经元对上一层中对应特征映射的2×2邻域相连
        x=F.max_pool2d(F.relu(self.conv1(x)),(2,2))#如果池化层的大小是平方的形式，则可使用单个数字替代
        x=F.max_pool2d(F.relu(self.conv2(x)),2)
        #特征提取完毕，使用Flatten层“熨平”数据
        x=torch.flatten(x,start_dim=1)
        x=F.relu(self.f1(x))
        x=F.relu(self.f2(x))
        x=self.f3(x)
        return x

net=NeuralNetwork()
net

NeuralNetwork(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (f1): Linear(in_features=400, out_features=120, bias=True)
  (f2): Linear(in_features=120, out_features=84, bias=True)
  (f3): Linear(in_features=84, out_features=10, bias=True)
)

通过list(net.parameters())[i]查看第i层的权重

In [21]:
list(net.parameters())[0].size()

torch.Size([6, 1, 5, 5])

## （二）训练数据

In [22]:
x=torch.rand(1,1,32,32)#1张单通道的32×32的图片
pred=net(x)
pred

tensor([[-0.0054,  0.0010, -0.1185, -0.1068,  0.0640, -0.0451, -0.0852,  0.1205,
          0.0734, -0.0400]], grad_fn=<AddmmBackward0>)

## （三）损失函数

In [23]:
y=torch.rand(1,10)
y=y.view(1,-1)#view指调整张量的维度，但数据不变，-1表示自动
optim=MSELoss()
loss=optim(pred,y)
loss

tensor(0.5350, grad_fn=<MseLossBackward0>)

In [24]:
net.zero_grad()
print('before backward')
print(net.conv1.bias.grad)

loss.backward()
print('after backward')
print(net.conv1.bias.grad)

before backward
None
after backward
tensor([ 0.0134,  0.0006, -0.0057,  0.0095, -0.0160, -0.0031])


## （四）更新权重
最简易的权重更新方法是随机剃度下降：
$$w_i=w_i-\eta\Delta$$

In [25]:
lr=1e-3
for i in net.parameters():
    i.data.sub_(lr*i.grad.data)

In [26]:
a=0
if a==1:
    import torch.optim as optim
    optimizer=optim.SGD(net.parameters(),lr=lr)
    #放在训练循环中
    optimizer.zero_grad()
    loss=loss_fn(pred,y)
    loss.backward()
    optimizer.step()

'\nimport torch.optim as optim\noptimizer=optim.SGD(net.parameters(),lr=lr)\n#放在训练循环中\noptimizer.zero_grad()\nloss=loss_fn(pred,y)\nloss.backward()\noptimizer.step()\n'