# PyTorch简要教程
可以称作教程也可以称作笔记，现在这么多轮子为什么还要自己写？纸上学来终觉浅，绝知此事要躬行，自己亲手写一遍代码，并把自己的思路理一下还是极好的。
本教程根据官方以及收集的第三方教程为基础，在使用其他教程时，会附上链接。其学习内容具体安排如下

 - 01基本操作
 - 02多层感知机模型
 - 03卷积神经网络
 - 04手写字体识别
 - 05CIFAR10
 - 06自定义数据集
 - 07分布式训练
 - 08比赛技巧
 - 09ONNX转换
 - 10目标检测、实例分割初识
 - 11循环神经网络
 
 由于教程难度不是很大，当读者在遇到问题时，百度一下即可解决大部分问题，如果确实有不理解指出，可以提一下issue，本人看到会尽快回复。
 
 ## 联系方式
 QQ：1218776991
 
 Mail:qizhiguo.z@gmail.com

# Pytorch简介
PyTorch的概述
PyTorch的创始人说过他们创作的一个准则——他们想成为当务之急。这意味着我们可以立即执行计算。这正好符合Python的编程方法，不需要完成全部代码才能运行，可以轻松的运行部分代码并实时检查。对于我来说把它作为一个神经网络调试器是一件非常幸福的事。PyTorch是一个基于Python的库，用来提供一个具有灵活性的深度学习开发平台。PyTorch的工作流程非常接近Python的科学计算库——numpy。
现在你可能会问，为什么我们要用PyTorch来建立深度学习模型呢？我可以列出三件有助于回答的事情：

- 易于使用的API—它就像Python一样简单。
- Python的支持—如上所述，PyTorch可以顺利地与Python数据科学栈集成。它非常类似于numpy，甚至注意不到它们的差别。
- 动态计算图—取代了具有特定功能的预定义图形，PyTorch为我们提供了一个框架，以便可以在运行时构建计算图，甚至在运行时更改它们。在不知道创建神经网络需要多少内存的情况下这非常有价值。

PyTorch的其他一些优点还包括：多gpu支持，自定义数据加载器和简化的预处理器。自从2016年1月发布以来，许多研究人员将其作为一种“go-to”库，因为它可以轻松地构建新颖的甚至是极其复杂的图形。虽说如此，PyTorch仍有一段时间没有被大多数数据科学实践者采用，因为它是新的而且处于“正在建设”的状态。

参考：https://www.jianshu.com/p/d66319506dd7


In [None]:
import torch

## 1.创建张量
一般来说一个数被称为标量，比如1,23,45,在数学上有个概念被称为向量，其格式为a=[1,2,3,4,5],严格意义上的向量是指既有大小又有方向的量，在本教程中形如[1,2,3,4,5]的量称为一维向量，一维向量上下堆叠形成矩阵如
[
 [1, 2],
 [3, 4]
]
可以看到有两个变量堆叠而成其形状为2x2.显而易见将二维变量进行堆叠形成三维向量也成张量，

![image.png](attachment:image.png)

在pytorch中用Tensor来进行表示，他与numpy的数组操作十分相似，所以使得pytorch更加适合深度学习

In [3]:
import torch

In [4]:
x = torch.empty(5, 3)
print(x)

tensor([[9.6429e-39, 8.4490e-39, 9.6429e-39],
        [9.2755e-39, 1.0286e-38, 9.0919e-39],
        [8.9082e-39, 9.2755e-39, 8.4490e-39],
        [1.0194e-38, 9.0919e-39, 8.4490e-39],
        [1.0745e-38, 1.0102e-38, 9.6429e-39]])


In [6]:
x = torch.rand(5, 3)
print(x)

tensor([[0.8212, 0.5962, 0.6522],
        [0.1442, 0.9916, 0.1456],
        [0.2340, 0.2569, 0.6155],
        [0.2735, 0.8538, 0.7117],
        [0.8906, 0.0702, 0.7417]])


In [8]:
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [9]:
x = torch.ones(5, 3, dtype=torch.long)
print(x)

tensor([[1, 1, 1],
        [1, 1, 1],
        [1, 1, 1],
        [1, 1, 1],
        [1, 1, 1]])


In [13]:
x = [1, 2, 3, 4]
x = torch.Tensor(x)
print(x)

tensor([1., 2., 3., 4.])


In [14]:
#  产看形状和数据类型
print(x.shape, x.dtype)

torch.Size([4]) torch.float32


## 2.数学计算
  pytorch与numpy比较相近，所以有些运算与跟numpy相近。

In [18]:
x = torch.ones(5, 3)
y = torch.ones(5, 3)
print(x + y)

tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]])


In [20]:
x = torch.ones(5, 3)
y = torch.ones(5, 3)
print(torch.add(x, y))

tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]])


In [21]:
y.add_(x)
y

tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]])

In [23]:
# 索引
y[0,0]

tensor(2.)

In [27]:
# 使用view转换形状，在深度学习中这个操作十分常用
z = y.view(-1,15)
z.shape

torch.Size([1, 15])

In [29]:
# 使用item可以转换为numpy数值,必须是一个值类似[2]
z[0,0].item()

2.0

更多的计算可以参考官方网站：https://pytorch.org/docs/stable/tensors.html

## 3.Numpy与Tensor的相互转换

In [43]:
# 比较常用的是
# Tensor>Numpy Tensor.numpy()
# Numpy>Tensor torch.from_numpy(np.array(somenumber))
import numpy as np
tensor = torch.ones(5, 3)
numpy_ = tensor.numpy()
print(type(numpy_))

np_data = np.zeros((5, 3))
tensor_ = torch.from_numpy(np_data)
print(type(tensor_))

<class 'numpy.ndarray'>
<class 'torch.Tensor'>


## 4.to GPU device
   pytorch比较好的特点就是可以使用GPU进行计算，以加速深度学习的学习过程。在pytorch中需要注意的是在训练和加载模型的时候尤其注意格式的转换，保证在同一设备上进行计算。

In [45]:
if torch.cuda.is_available():
    device = torch.device("cuda")
    cuda_data = rotch.ones(x, device=device)
    x = x.to(device) # to("cuda")
    x = x.to("cpu")
print(123)

123


## 5.自动求导
Pytoch可以实现自动求导，求导的相关知识不在赘述。使用Tensor的属性.requires_grad设置为True将开始追踪其上的所有操作，使用链式法则进行求导，完成计算后可以使用.backward()来进行梯度计算，其梯度将积累到.gard属性中。如果不想被追踪可以使用.detac()进行分离，或者设置torch.no_grad()来进行模型推理。

In [68]:
x = torch.ones(3, 3,requires_grad=True)
y = x * x 
y = y.sum()
y.backward()
print(x.grad) 

y2 = x.sum()
# x.grad.data.zero_()
y2.backward()
print(x.grad) 

tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]])
tensor([[3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.]])


grad在反向传播过程中是累加梯度值的这意味着每一次计算都要累加前面计算的梯度，所以一般在反向传播之前需要把梯度清零。
参考:https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py