# pytorch概览
---
# 0 pytorch是什么？
- PyTorch是一个基于python的科学计算包，可以用来：
    - 作为NumPy的替代品，利用GPU的性能进行计算
    - 作为一个高灵活性、速度快的深度学习平台

- 主要特点
    - 计算图的按需和动态构建
    - Autograd：执行动态图的自动微分

In [9]:
import torch
import numpy as np
from torch.autograd import Variable

In [7]:
import torch
print(torch.__version__)   # 1.5.1
print(torch.version.cuda)  # 10.2
print(torch.backends.cudnn.version())  # 7605
# print(torch.cuda.get_device_name(0))  # 'Tesla P100-PCIE-16GB'

1.5.1
10.2
7605


In [10]:
np.random.seed(1)
torch.manual_seed(1)
torch.cuda.manual_seed_all(1)

torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

# 1 张量Tensor
- Tensor(张量）类似于NumPy的ndarray，可以在GPU上使用做加速计算。
## 1.1 如何创建Tensor
- 创建一个3row，5colum的未初始化的Tensor

In [3]:
x = torch.empty(3, 5)
print(x)

tensor([[7.3908e+22, 0.0000e+00, 0.0000e+00, 0.0000e+00, 8.1440e-18],
        [4.5757e-41, 1.4013e-45, 0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00]])


In [4]:
x.dtype  # 默认数据类型是 torch.float32

torch.float32

- 创建全零的Tensor

In [5]:
x = torch.zeros(3, 5)
x

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [6]:
x.dtype  # 默认数据类型是 torch.float32

torch.float32

- 根据数据(数组)创建Tensor

In [7]:
x = torch.tensor([3.2, 2])
x

tensor([3.2000, 2.0000])

In [8]:
x.dtype

torch.float32

- 随机创建Tensor

In [9]:
x = torch.randn(3,5)
x

tensor([[ 0.7609,  0.3690,  1.1963,  1.3500,  0.0441],
        [ 0.2808,  0.4202, -0.7554,  0.3059, -0.5312],
        [-0.3704,  0.8251,  1.6625, -0.6320, -0.1033]])

In [10]:
x.dtype     # 默认数据类型是 torch.float32

torch.float32

- 通过现有的Tensor来创建
    - 此方法会默认重用输入Tensor的一些属性，例如数据类型，除非自定义数据类型。
    - 返回的tensor默认具有相同的torch.dtype和torch.device

In [11]:
y = x.new_ones(3, 3, dtype=torch.float64)  
print(y)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


### 按照分布随机生成tensor的几个函数
- 均匀分布
    - 返回一个张量，包含了从区间$[0, 1)$的均匀分布中抽取的一组随机数。张量的形状由参数sizes定义。

In [12]:
t = torch.rand(3,5) 
t

tensor([[0.1569, 0.5394, 0.3747, 0.4201, 0.6413],
        [0.3890, 0.6906, 0.6317, 0.6150, 0.1962],
        [0.5365, 0.7423, 0.0058, 0.7668, 0.1507]])

In [13]:
t.dtype              # 默认是torch.float32

torch.float32

- 正态分布 
    - 返回一个张量，包含了从标准正态分布（均值为0，方差为1，即高斯白噪声）中抽取的一组随机数。张量的形状由参数sizes定义

In [14]:
torch.randn(3, 5)

tensor([[ 1.5420,  0.5279,  0.5985,  1.2687,  0.2003],
        [-1.4208, -1.3919,  0.9241, -0.1165, -0.4717],
        [ 1.8186,  0.8434, -0.8981,  0.6837,  0.2639]])

- 线性间距向量 
    - torch.linspace(start, end, steps=100, out=None)
    - 返回一个1维张量，包含在区间start和end上均匀间隔的step个点。
    - 输出张量的长度由steps决定。

In [15]:
torch.linspace(1, 100, steps=100, out=None)

tensor([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,  11.,  12.,
         13.,  14.,  15.,  16.,  17.,  18.,  19.,  20.,  21.,  22.,  23.,  24.,
         25.,  26.,  27.,  28.,  29.,  30.,  31.,  32.,  33.,  34.,  35.,  36.,
         37.,  38.,  39.,  40.,  41.,  42.,  43.,  44.,  45.,  46.,  47.,  48.,
         49.,  50.,  51.,  52.,  53.,  54.,  55.,  56.,  57.,  58.,  59.,  60.,
         61.,  62.,  63.,  64.,  65.,  66.,  67.,  68.,  69.,  70.,  71.,  72.,
         73.,  74.,  75.,  76.,  77.,  78.,  79.,  80.,  81.,  82.,  83.,  84.,
         85.,  86.,  87.,  88.,  89.,  90.,  91.,  92.,  93.,  94.,  95.,  96.,
         97.,  98.,  99., 100.])

- 离散正态分布
    - torch.normal(means, std, out=None) 

In [16]:
torch.normal(mean=torch.arange(1, 11, dtype=torch.float32), std=torch.arange(1, 0, -0.1))

tensor([-0.8130,  1.1160,  2.4065,  5.2351,  4.7939,  5.6939,  6.8178,  7.2192,
         9.3047, 10.0554])

- 指定随机范围

In [17]:
torch.randint(1,30000, (3,4))

tensor([[  286, 12761, 29099, 18354],
        [ 1489,  6095, 24740,   860],
        [21341,  8426, 27226, 17993]])

- 全零张量

In [18]:
torch.zeros(2, 3)    

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [19]:
torch.ones(2, 3)    # 全1张量

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [20]:
torch.is_tensor(x)    # 是否是tensor

True

In [21]:
torch.is_storage(x)   # 是否是storage

False

In [22]:
torch.arange(1,10)  # torch.int64

tensor([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
torch.arange(1, 0, -0.2)  #torch.float32

tensor([1.0000, 0.8000, 0.6000, 0.4000, 0.2000])

In [24]:
torch.eye(3, 4)

tensor([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.]])

### 一些常见的创建Tensor的函数
```
     函数	      功能
Tensor(*sizes)   基础构造函数
tensor(data,)    类似np.array的构造函数
ones(*sizes)	 全1Tensor
zeros(*sizes)	全0Tensor
eye(*sizes)      对角线为1，其他为0
arange(s,e,step)	从s到e，步长为step
linspace(s,e,steps)	从s到e，均匀切分成steps份
rand/randn(*sizes)	均匀/标准分布
normal(mean,std)/uniform(from,to)	正态分布/均匀分布
randperm(m)	随机排列
```

## 2 数据类型
### 2.1 常见类型

In [25]:
torch.float    # float32 
torch.float16  # float16
torch.float32  #
torch.float64

torch.int    # int32
torch.long   # int64
torch.int8   # int8
torch.int16
torch.int32
torch.int64

torch.int64

### 2.2 指定类型

In [26]:
torch.LongTensor([1,2,3])

tensor([1, 2, 3])

### 2.3 修改torch.tensor的默认数据类型

In [27]:
torch.set_default_dtype(torch.float64)

In [28]:
torch.tensor([1.0002345, 2.39087]).dtype  # torch.tensor默认是float32，注意设置default之后的改变

torch.float64

## 3 Tensor的操作
### 3.1 算术操作
- 在PyTorch中，同一种操作可能有很多种形式，下面用加法作为例子。

In [29]:
x = torch.rand(2,3)
x

tensor([[0.9010, 0.4523, 0.1685],
        [0.2976, 0.1736, 0.1108]])

In [30]:
y = torch.rand(2,3)
y

tensor([[0.6106, 0.3536, 0.4997],
        [0.2783, 0.3768, 0.7671]])

####  tensor的三种加法

In [32]:
# 加法一
x + y

tensor([[1.5115, 0.8059, 0.6682],
        [0.5759, 0.5504, 0.8778]])

In [33]:
# 加法二
torch.add(x, y)

tensor([[1.5115, 0.8059, 0.6682],
        [0.5759, 0.5504, 0.8778]])

In [34]:
# 指定输出
result = torch.empty(2, 3)
torch.add(x, y, out=result)
result

tensor([[1.5115, 0.8059, 0.6682],
        [0.5759, 0.5504, 0.8778]])

In [35]:
# 加法形式三、inplace
# adds x to y
# 注：PyTorch操作inplace版本都有后缀_, 例如x.copy_(y), x.t_()
y.add_(x)
print(y)

tensor([[1.5115, 0.8059, 0.6682],
        [0.5759, 0.5504, 0.8778]])


### 3.2 索引操作
- 使用类似NumPy的索引操作来访问Tensor的一部分，需要注意的是：索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。

In [36]:
x

tensor([[0.9010, 0.4523, 0.1685],
        [0.2976, 0.1736, 0.1108]])

In [37]:
y = x[0, :]
y

tensor([0.9010, 0.4523, 0.1685])

In [38]:
y += 1
y

tensor([1.9010, 1.4523, 1.1685])

In [39]:
x # 源tensor也被改了

tensor([[1.9010, 1.4523, 1.1685],
        [0.2976, 0.1736, 0.1108]])

```
除了常用的索引选择数据之外，PyTorch还提供了一些高级的选择函数:

函数     功能
index_select(input, dim, index)	 在指定维度dim上选取，比如选取某些行、某些列
masked_select(input, mask)	      例子如上，a[a>0]，使用ByteTensor进行选取
nonzero(input)	                  非0元素的下标
gather(input, dim, index)	       根据index，在dim维度上选取数据，输出的size与index一样
```

### 3.3 改变形状

In [40]:
y = x.view(6)
y

tensor([1.9010, 1.4523, 1.1685, 0.2976, 0.1736, 0.1108])

In [41]:
z = x.view(-1, 2)  # -1所指的维度可以根据其他维度的值推出来

In [42]:
z

tensor([[1.9010, 1.4523],
        [1.1685, 0.2976],
        [0.1736, 0.1108]])

In [43]:
print(x.size(), y.size(), z.size())

torch.Size([2, 3]) torch.Size([6]) torch.Size([3, 2])


```
注意view()返回的新Tensor与源Tensor虽然可能有不同的size，但是是共享data的，也即更改其中的一个，另外一个也会跟着改变。(顾名思义，view仅仅是改变了对这个张量的观察角度，内部数据并未改变)
```

In [44]:
x = torch.rand(3, 5)
x

tensor([[0.3521, 0.1454, 0.4461, 0.9450, 0.2845],
        [0.6853, 0.7741, 0.1735, 0.5825, 0.1018],
        [0.2739, 0.0777, 0.6905, 0.0523, 0.9119]])

In [45]:
x.view(5,3)

tensor([[0.3521, 0.1454, 0.4461],
        [0.9450, 0.2845, 0.6853],
        [0.7741, 0.1735, 0.5825],
        [0.1018, 0.2739, 0.0777],
        [0.6905, 0.0523, 0.9119]])

### 3.4 返回副本
- 如果我们想返回一个真正新的副本（即不共享data内存）该怎么办呢？
- Pytorch还提供了一个reshape()可以改变形状，但是此函数并不能保证返回的是其拷贝，所以不推荐使用。推荐先用clone创造一个副本然后再使用。
- 使用clone还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源Tensor。

In [46]:
x_cp = x.clone().view(15)
x -= 1
print(x)
print(x_cp)

tensor([[-0.6479, -0.8546, -0.5539, -0.0550, -0.7155],
        [-0.3147, -0.2259, -0.8265, -0.4175, -0.8982],
        [-0.7261, -0.9223, -0.3095, -0.9477, -0.0881]])
tensor([0.3521, 0.1454, 0.4461, 0.9450, 0.2845, 0.6853, 0.7741, 0.1735, 0.5825,
        0.1018, 0.2739, 0.0777, 0.6905, 0.0523, 0.9119])


### 标量Tensor转Python的number
- item()
- 另外一个常用的函数就是item(), 它可以将一个标量Tensor转换成一个Python number。

In [47]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([-0.6894])
-0.6894309432988802


## 3.4 线性代数
- PyTorch还支持一些线性函数，这里提一下，免得用起来的时候自己造轮子，具体用法参考官方文档
```
函数	功能
trace	对角线元素之和(矩阵的迹)
diag	对角线元素
triu/tril	矩阵的上三角/下三角，可指定偏移量
mm/bmm	矩阵乘法，batch的矩阵乘法
addmm/addbmm/addmv/addr/baddbmm..	矩阵运算
t	转置
dot/cross	内积/外积
inverse	求逆矩阵
svd	奇异值分解
```
- PyTorch中的Tensor支持超过一百种操作，包括转置、索引、切片、数学运算、线性代数、随机数等等，可参考[官方文档](https://pytorch.org/docs/stable/tensors.html)

### 3.4.1 tensor 的转置

In [48]:
x = torch.randn(3,4)
x

tensor([[-0.6135,  1.1471,  2.4119,  1.2011],
        [ 0.8568,  1.3415,  0.7568, -0.4992],
        [-0.6599,  0.8290,  0.4223,  0.4596]])

In [49]:
x.t()

tensor([[-0.6135,  0.8568, -0.6599],
        [ 1.1471,  1.3415,  0.8290],
        [ 2.4119,  0.7568,  0.4223],
        [ 1.2011, -0.4992,  0.4596]])

In [50]:
x.transpose(0,1)   # 多维，指定维度转置

tensor([[-0.6135,  0.8568, -0.6599],
        [ 1.1471,  1.3415,  0.8290],
        [ 2.4119,  0.7568,  0.4223],
        [ 1.2011, -0.4992,  0.4596]])

### 3.5 广播机制
- 前面我们看到如何对两个形状相同的Tensor做按元素运算。当对两个形状不同的Tensor按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个Tensor形状相同后再按元素运算。

In [51]:
x = torch.arange(1, 3).view(1, 2)
print(x)

tensor([[1, 2]])


In [52]:
y = torch.arange(1, 4).view(3, 1)
print(y)

tensor([[1],
        [2],
        [3]])


In [53]:
x + y

tensor([[2, 3],
        [3, 4],
        [4, 5]])

- 由于x和y分别是1行2列和3行1列的矩阵，如果要计算x + y，那么x中第一行的2个元素被广播（复制）到了第二行和第三行，而y中第一列的3个元素被广播（复制）到了第二列。如此，就可以对2个3行2列的矩阵按元素相加。

## 4 Tensor 与Numpy 转换
### 4.1 numpy --> tensor
- torch.from_numpy(np_array)

### 4.2 tensor --> numpy
- tensor_onj.numpy()

In [55]:
a = np.array([[1,2], [3,4]])

In [56]:
a

array([[1, 2],
       [3, 4]])

In [57]:
a_torch = torch.from_numpy(a)  # numpy to tensor

In [58]:
a_torch

tensor([[1, 2],
        [3, 4]])

In [59]:
a_np = a_torch.numpy()    # tensor to numpy

In [60]:
a_np

array([[1, 2],
       [3, 4]])

## 5 GPU 与CPU转换
---
- 首先通过 torch.cuda.is_available() 判断一下是否支持GPU，如果想把tensor a放到GPU上，只需 a.cuda()就能够将tensora放到GPU上了。
```python
if torch.cuda.is_available(): 
    a_cuda = a.cuda()
    print(a_cuda)
```

### 5.1 cpu --> gpu
- cpu_tensor_obj.cuda()
- cpu_tensor_obj.to(device)   # device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

In [61]:
if torch.cuda.is_available(): 
    a_cuda = a_torch.cuda()
    print(a_cuda)

tensor([[1, 2],
        [3, 4]], device='cuda:0')


In [62]:
a_cuda.cpu()      # cuda tensor  to cpu tensor

tensor([[1, 2],
        [3, 4]])

In [63]:
a_cuda.cpu().numpy()   #  cuda tensor  to cpu numpy

array([[1, 2],
       [3, 4]])

- cpu_tensor_obj.to(device)   # device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

In [64]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
device

device(type='cuda', index=0)

In [65]:
x = torch.rand(2,3)
x

tensor([[0.8286, 0.4980, 0.4281],
        [0.5963, 0.8413, 0.6709]])

In [66]:
x = x.to(device)
x

tensor([[0.8286, 0.4980, 0.4281],
        [0.5963, 0.8413, 0.6709]], device='cuda:0')

## 6 Variable(变量)
- torch.autograd.Variable中，要将一个tensor变成Variable也非常简单，比如想让一个tensor变成Variable，只需要Variable(a)就可以了。
- Variable 有三个比较重要的组成属性: item() , grad 和 grad_fn 通过 item() 可以取出 Variable 里面的 tensor 数值， grad_fn 表示的是得到这个Variable的操作，比如通过加减还是乘除来得到的，最后 grad 是这个Variable 的反向传播梯度.下面通过例子来具体说明一下:

In [67]:
x = Variable(torch.Tensor([1]), requires_grad=True)  # requires_grad=True，这个参数表示是否对这个变量求梯度，默认的是False，也就是不对这个变量求梯度
w = Variable(torch.Tensor([2]), requires_grad=True)
b = Variable(torch.Tensor([3]), requires_grad=True)

In [68]:
y = w*x + b   # y = 2x + 3   计算图

In [69]:
y.backward()   # 计算梯度

In [70]:
print(x.grad)

tensor([2.])


In [71]:
print(x.item())   # 得到变量的数值

1.0


In [72]:
print(w.grad)

tensor([1.])


In [73]:
print(b.grad)

tensor([1.])


In [74]:
print(x.grad_fn)

None


### 标量求导和变量求导

In [75]:
x = torch.randn(3)
print(x)

tensor([ 0.0250, -0.6253,  1.4701])


In [76]:
x = Variable(x, requires_grad=True)

In [77]:
y = 2*x + 1

In [78]:
y.backward(torch.tensor([1, 0.1, 0.5]))   # float64

In [79]:
print(x.grad)

tensor([2.0000, 0.2000, 1.0000])


## 7 Dataset
- 在处理任何机器学习问题之前都需要数据读取，并进行预处理。 PyTorch提供了很多工具使得数据的读取和预处理变得很容易。
- torch.utils.data.Dataset是代表这一数据的抽象类，你可以自己定义你的数据类继承和重写这个抽象类，非常简单，只需要定义__len__和__getitem__这两个函数:
```python
class myDataset(Dataset) :
    def __ini__(self, csv_file, txt_file, root_dir, other_file):
        self.csv_data = pd.read_csv(csv_file ) 
        with open(txt_file, 'r' ) as f:
            data_list = f.readlines()
        self.text_data = data_list
        self.root_dir = root_dir
        
    def __len__(self):
        return len(self.csv_data)
    
    def __getitem__(self):
        data = (self.csv_data[idx], self.txt_data[idx])
        return data
```
- 通过上面的方式，可以定义我们需要的数据类，可以通过迭代的方式来取得每一个数据，但是这样很难实现取batch， shuff1e 或者是多线程去读取数据，所以PyTorch中提供了一个简单的办法来做这个事情，通过torch.utils.data.DataLoader 来定义一个新的迭代器。如下:
```python
dataiter = DataLoader(myDataset, batch_size=32, shuffle=True, collate_fn=default_collate)
```
- 里面的参数都特别清楚，只有 collate_fn 是表示如何取样本的，我们可以定义自己的函数来准确地实现想要的功能，默认的函数在一般情况下都是可以使用的。
```python
dset = ImageFolder(root='root-path', transform=None, loader=default_loader)
```
- 其中的 root 需要是根目录，在这个目录下有几个文件夹，每个文件夹表示一个类 transform 和 target_transform 是图片增强，之后我们会详细讲; loader 是图片读取的办法，因为我们读取的是图片的名字， 然后通过 loader 将图片转换成我们需要的图片类型进入神经网络。

## 8 nn.Module
- PyTorch里面编写神经网络，所有的层结构和损失函数都来自于torch.nn，所有的模型构建都是从这个基类nn.Module 继承的。
```python
class net_name(nn.Module):
    def __init__(self, other_arguments):
        super(net_name, self).__init__()
        self.conv1 = nn.Conv2d()
        
    def forward(self, x):
        x = self.conv1(x)
        return x
```


## 9 模型的加载与保存
### 9.1 保存
- 模型的保存和加载在 PyTorch里面使用 torch.save来保存模型的结构和参数，有两种保存方式:
    (1)保存整个模型的结构信息和参数信息，保存的对象是模型model; 
    (2)保存模型的参数，保存的对象是模型的状态 model.state dict()。 
- 可以这样保存，torch.save()的第一个参数是保存对象，第二个参数是保存路径及名称:
```python
torch.save(model, './model.pth ' ) 
torch.save(model.state_dict(), './model_state.pth')
```
### 9.2 加载
- 对应的加载模型有两种方式:
    (1)加载完整的模型结构和参数信息，使用 load_model = torch.load('model.pth') ，在网络较大的时候加载的时间比较长，同时存储空间也比较大;
    (2)加载模型参数信息，需要先导人模型的结构，然后通过 model.load_state_dict(torch.load('model_state.pth')) 来导入。

##  10 补充
- Tensor对象的一些方法

In [80]:
x = torch.FloatTensor([
    [[[1,2], [2,3], [3,4]]],
    [[[1,2], [2,3], [3,4]]]
])

In [81]:
x.shape

torch.Size([2, 1, 3, 2])

In [82]:
x.view(x.shape[0], -1)   # 或者x.view(x.size(0), -1)  压平成一个二维，且第一个维度是x.size(0)。

tensor([[1., 2., 2., 3., 3., 4.],
        [1., 2., 2., 3., 3., 4.]], dtype=torch.float32)