# Pytorch的核心概念

Pytorch是一个基于Python的机器学习库。它广泛应用于计算机视觉，自然语言处理等深度学习领域。是目前和TensorFlow分庭抗礼的深度学习框架，**在学术圈颇受欢迎**

它主要提供了以下两种核心功能：

1.支持GPU加速的张量计算。

2.方便优化模型的自动微分机制。
Pytorch的主要优点：

1. 简洁易懂：Pytorch的API设计的相当简洁一致。基本上就是tensor, autograd, nn三级封装。

2. 便于调试：Pytorch采用动态图，可以像普通Python代码一样进行调试。不同于TensorFlow, Pytorch的报错说明通常很容易看懂。

3. 强大高效：Pytorch提供了非常丰富的模型组件，可以快速实现想法。并且运行速度很快。目前大部分深度学习相关的Paper都是用Pytorch实现的。

Pytorch底层最核心的概念是:
1. **张量**
2. **自动微分**
3. **动态计算图**


# 张量数据结构

Pytorch的基本数据结构是张量Tensor。张量即多维数组

Pytorch的张量和numpy中的array很类似
本节内容：
1. 张量的数据类型
2. 张量的维度
3. 张量的尺寸
4. 张量和numpy数组

## 张量的数据类型

张量的数据类型和numpy.array基本一一对应，但是不支持str类型
包括:
1. torch.float64(torch.double),
2. **torch.float32(torch.float)**
3. torch.float16,
4. torch.int64(torch.long),
5. torch.int32(torch.int),
6. torch.int16,
7. torch.int8,
8. torch.uint8,
9. torch.bool

**一般神经网络建模使用的都是torch.float32类型**

**自动判断数据类型**

In [2]:
import numpy as np
import torch
i = torch.tensor(1);
print(i, i.dtype)

x = torch.tensor(2.0)
print(x, x.dtype)

b = torch.tensor(True)
print(b, b.dtype)

tensor(1) torch.int64
tensor(2.) torch.float32
tensor(True) torch.bool


**指定数据类型**

In [3]:
i = torch.tensor(1, dtype= torch.int32)
print(i, i.dtype)

x = torch.tensor(2.0, dtype=torch.double)
print(x, x.dtype)

tensor(1, dtype=torch.int32) torch.int32
tensor(2., dtype=torch.float64) torch.float64


**使用特定类构造函数**

In [7]:
i = torch.IntTensor(1)
print(i, i.dtype)

# 等价于Torch.FloatTensor
x = torch.Tensor(np.array(2.0))
print(x, x.dtype)

#x_f = torch.FloatTensor(2.0)
# 注意上面的写法会报错，data must be a sequence
x_f = torch.FloatTensor(np.array(2.0))
print(x_f, x_f.dtype)

b = torch.BoolTensor(np.array([1,0,2,0]))
print(b,b.dtype)


tensor([712248608], dtype=torch.int32) torch.int32
tensor(2.) torch.float32
tensor(2.) torch.float32
tensor([ True, False,  True, False]) torch.bool


**不同类型进行转换**
有三种方法：
1. 调用float(), int()
2. 调用type(torch.int) 
3. 调用type_as(x)

In [15]:
i = torch.tensor(1)
print(i,i.dtype)

#int64abs --> float32
# 调用float()方法进行转换
x = i.float()
print(x, x.dtype)

# 调用type()函数进行转换
y = i.type(torch.float)
print(y,y.dtype)

#使用type_as转换成与指定张量类型相同的类型
z = i.type_as(x)
print(z,z.dtype)

tensor(1) torch.int64
tensor(1.) torch.float32
tensor(1.) torch.float32
tensor(1.) torch.float32


## 张量的维度

不同类型的数据可以用不同维度(dimension)的张量来表示：
1. 标量是0维张量
2. 向量是1维张量
3. 矩阵是2维张量

...

彩色图像有rgb三个通道，可以表示为3维张量

视频还有时间维，可以表示为4维张量

**可以简单地总结为：有几层中括号，就是多少维的张量**

In [18]:
# 标量
scalar = torch.tensor(True)
print("标量")
print(scalar, scalar.dim())

# 向量 
vector = torch.tensor([1.,2.,3.,4.,5.])
print("向量")
print(vector, vector.dim())

# 矩阵
matrix = torch.tensor([[1.,2.,3.,],[4.,5.,6.]])
print("矩阵")
print(matrix, matrix.dim())

标量
tensor(True) 0
向量
tensor([1., 2., 3., 4., 5.]) 1
矩阵
tensor([[1., 2., 3.],
        [4., 5., 6.]]) 2


## 张量的尺寸

1. 可以使用` shape`属性或者 `size()`方法查看张量在每一维的长度
2. 可以使用`view`方法改变张量的尺寸
3. 如果`view`方法改变尺寸失败，可以使用`reshape`方法

In [19]:
scalar = torch.tensor(True)
print(scalar.size())
print(scalar.shape)

torch.Size([])
torch.Size([])


In [20]:
vector = torch.tensor([1.,2.,3.,4.])
print(vector.size())
print(vector.shape)

torch.Size([4])
torch.Size([4])


In [21]:
matrix = torch.tensor([[1.,2.,3.],[4.,5.,6.]])
print(matrix.size())
print(matrix.shape)

torch.Size([2, 3])
torch.Size([2, 3])


**使用view改变张量尺寸**

In [36]:
vector = torch.arange(0,12)
# vector  = tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
print(vector.shape)

matrix34 = vector.view(3,4)
print(matrix34.shape)

# -1 表示该位置长度由程序自动计算
matrix43 = vector.view(4, -1)
print(matrix43.shape)

torch.Size([12])
torch.Size([3, 4])
torch.Size([4, 3])


In [41]:
# 有些操作会让张量存储结构扭曲，直接使用view会失败，可以用reshape方法
matrix26 = torch.arange(0,12).view(2,6)
print(matrix26.shape)

# 转置操作让张量存储结构不连续
# Tensor.is_contiguous(memory_format=torch.contiguous_format) → boolabs
#Returns True if self tensor is contiguous in memory in the order specified by memory format.
matrix62 = matrix26.t()
print(matrix62.is_contiguous())

# 直接使用view方法会失败，可以使用reshape方法
#matrix34 = matrix62.view(3,4) #error!
matrix34 = matrix62.reshape(3,4)
# 等价于matrix34 = matrix62.contiguous().view(3,4)
print(matrix34.shape)

torch.Size([2, 6])
False
torch.Size([3, 4])


## 张量和numpy数组

- numpy() : 从Tensor中得到numpy数组
- torch.from_numpy(): 从numpy中得到Tensor

注意：**这两种方法修改的对象是同一个内存地址，如果改变其中一个，另外一个的值也会发生改变**。如果不想共享数据内存，可以用使用clone()方法克隆张量

- item(): 从Tensor中得到对应的标量值，即Tensor --> scalar

- tolist() :从张量得到对应的Python数值列表，即scalar-->Tensor


In [42]:
import numpy as np
import torch

# numpy --Tensor
arr = np.zeros(3)
tensor = torch.from_numpy(arr)
print("在添加1之前：")
print(arr)
print(tensor)

print("在添加1之后:")
# 给numpy类型的arr对象加1，tensor也会随之改变
np.add(arr, 1, out=arr)
print(arr)
print(tensor)

在添加1之前：
[0. 0. 0.]
tensor([0., 0., 0.], dtype=torch.float64)
在添加1之后:
[1. 1. 1.]
tensor([1., 1., 1.], dtype=torch.float64)


In [49]:
# Tensor -->numpy
mytensor = torch.zeros(3)
arr = mytensor.numpy()
print("在添加1之前：")
print(mytensor)
print(arr)

print("在添加1之后：")
torch.add(mytensor,1, out=mytensor)
print(mytensor)
print(arr)
# 或者：加1操作可以使用add_()原地操作方法
print("使用add_()执行加1 操作:")
mytensor.add_(1)
print(mytensor)
print(arr)
# 注意使用add()不是改变原数组
print("使用add()方法执行加一操作：")
new_tensor = mytensor.add(1)
print("mytensor=",mytensor)
print("new_tensor=",new_tensor)
print("arr = ",arr)


在添加1之前：
tensor([0., 0., 0.])
[0. 0. 0.]
在添加1之后：
tensor([1., 1., 1.])
[1. 1. 1.]
使用add_()执行加1 操作:
tensor([2., 2., 2.])
[2. 2. 2.]
使用add()方法执行加一操作：
mytensor= tensor([2., 2., 2.])
new_tensor= tensor([3., 3., 3.])
arr =  [2. 2. 2.]


In [53]:
# 使用 clone()方法拷贝张量
mytensor = torch.zeros(3)
arr = mytensor.clone().numpy()
print("在执行加1操作之前：")
print(mytensor)
print(arr)

print("在执行加1操作之后：")
mytensor.add_(1)
print(mytensor)
print(arr)

在执行加1操作之前：
tensor([0., 0., 0.])
[0. 0. 0.]
在执行加1操作之后：
tensor([1., 1., 1.])
[0. 0. 0.]


In [62]:
scalar = torch.tensor(1.0)
s = scalar.item()
print(scalar)
print(s)
print(type(s))

mytensor = torch.rand(2,2)
t = mytensor.tolist()
print(mytensor)
print(t)
print(type(t))

tensor(1.)
1.0
<class 'float'>
tensor([[0.6307, 0.8646],
        [0.4512, 0.9578]])
[[0.6306673288345337, 0.8646149635314941], [0.45118987560272217, 0.957770049571991]]
<class 'list'>


# 自动微分机制

神经网络通常依赖`反向传播`**求梯度**来更新网络参数

Pytorch一般通过反向传播 backward 方法 实现这种求梯度计算,该方法求得的梯度将存在对应自变量张量的grad属性下

除此之外，也能够调用torch.autograd.grad 函数来实现求梯度计算。

这就是Pytorch的自动微分机制。

## 利用backward方法求导数

backward 方法通常在一个**标量**张量上调用，该方法求得的梯度将存在对应自变量张量的grad属性下

如果调用的张量非标量，则要传入一个和它同形状的gradient参数张量。

相当于用该gradient参数张量与调用张量作向量点乘，得到的标量结果再反向传播

一、**标量的反向传播**

In [1]:
import numpy as py
import torch

# f(x) = a*x^2 + b*x + c 

# requires_grad = True 表示需要被求导
x = torch.tensor(0.0, requires_grad = True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a*torch.pow(x,2) + b*x + c

y.backward()
# 求x的梯度
dy_dx = x.grad
print(dy_dx)

tensor(-2.)


**二、非标量的反向传播**

如果是二次使用反向传播机制，y.backward()， 则需要添加`retain_graph=True`参数，否则会报错

In [10]:
import numpy as np 
import torch

# f(x) = a*x^2 + b*x + c 
x = torch.tensor([[0.,0.],[1.,2.]], requires_grad = True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a*torch.pow(x,2) + b*x + c

# gradient_tensor = torch.tensor([[1.,1.],[1.,1.]])
# y.backward(gradient=gradient_tensor)
# 
#Q: 是否和传入的tensor有关系呢？
#A: 和传入的tensor有关系，如果是传入的tensor是全0， 则反向传播的结果全是零
# result = grad_tensor * (dy / dx)
# gradient_tensor_zero = torch.tensor([[0.,0.],[0.,0.]])
# y.backward(gradient=gradient_tensor_zero)
gradient_tensor_non_zero = torch.tensor([[2.,4.],[3.,5.]])
y.backward(gradient = gradient_tensor_non_zero)

x_grad = x.grad
print("x_grad_new = ", x_grad)


x_grad_new =  tensor([[-4., -8.],
        [ 0., 10.]])


**三、非标量的反向传播的另一个实现**

In [12]:
import numpy as np 
import torch

# f(x) = a*x^2 + b*x + c 
x = torch.tensor([[0.,0.],[1.,2.]], requires_grad = True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a*torch.pow(x,2) + b*x + c

gradient_tensor = torch.tensor([[1.,1.],[1.,1.]])
# z是标量，是求和得到的
z = torch.sum(y*gradient_tensor)

z.backward()
x_grad = x.grad
print(x_grad)

tensor([[-2., -2.],
        [ 0.,  2.]])


## 利用autograd.grad方法求导数

In [13]:
import numpy as np
import torch

# f(x) = a*x^2 + b*x + c 
x = torch.tensor(0.0, requires_grad = True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a*torch.pow(x,2) + b*x + c

# create_graph 设置为True将允许创建更高阶的导数,如求二阶导数
dy_dx = torch.autograd.grad(y,x, create_graph=True)[0]
print(dy_dx.data)

# 求二阶倒数
dy2_dx2 = torch.autograd.grad(dy_dx, x)[0]
print(dy2_dx2)

tensor(-2.)
tensor(2.)


In [17]:
import numpy as np 
import torch

x1 = torch.tensor(1.0, requires_grad = True)
x2 = torch.tensor(2.0, requires_grad = True)

y1 = x1*x2
y2 = x1+x2

# 允许同时对多个自动变量求导数
(dy1_dx1, dy1_dx2) = torch.autograd.grad(outputs=y1, inputs=[x1,x2], retain_graph=True)
print(dy1_dx1, dy1_dx2)
(dy2_dx1, dy2_dx2) = torch.autograd.grad(outputs=y2, inputs=[x1,x2], retain_graph=True)
print(dy2_dx1, dy2_dx2)

# 如果有多个因变量，相当于把多个因变量的梯度结果求和
(dy12_dx1, dy12_dx2) = torch.autograd.grad(outputs=[y1, y2],inputs=[x1, x2])
print(dy12_dx1, dy12_dx2)

tensor(2.) tensor(1.)
tensor(1.) tensor(1.)
tensor(3.) tensor(2.)


## 利用自动微分和优化器求最小值

In [19]:
import numpy as np 
import torch

# f(x) = a*x^2 + b*x + c 
x = torch.tensor(0.0, requires_grad = True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

# 优化器
optimizer = torch.optim.SGD(params=[x], lr = 0.01)

def f(x):
    result = a*torch.pow(x,2)+b*x+c
    return(result)

for i in range(500):
    # 梯度清零
    optimizer.zero_grad()
    y = f(x)
    # 反向传播求梯度
    y.backward()
    # 更新参数
    optimizer.step()
    
print("y = ", f(x).data)
print("x = ", x.data)

y =  tensor(0.)
x =  tensor(1.0000)


# 动态计算图

    本节Pytorch的动态计算图：
    
    1. 动态计算图简介
    2. 计算图中的Function
    3. 计算图和反向传播
    4. 叶子节点和非叶子节点
    5. 计算图在TensorBoard中的可视化

## 动态计算图简介

计算图是用来描述运算的有向无环图，计算图有两个主要元素：**结点（Node）和边（Edge）**

说法一：Pytorch的计算图由节点和边组成，节点表示张量或者Function，边表示张量和Function之间的依赖关系

说法二：
- 结点表示数据，如向量，矩阵，张量, function 
- 边表示运算，如加减乘除卷积等

我的想法：节点表示的是数据和函数，边表示的是依赖关系
Pytorch中的计算图是动态图。这里的动态主要有两重含义:

1. **计算图的正向传播是立即执行的**。无需等待完整的计算图创建完毕，每条语句都会在计算图中动态添加节点和边，并立即执行正向传播得到计算结果。
2. **计算图在反向传播后立即销毁**。下次调用需要重新构建计算图。如果在程序中使用了backward方法执行了反向传播，或者利用torch.autograd.grad方法计算了梯度，那么创建的计算图会被立即销毁，释放存储空间，下次调用需要重新创建

**一、计算图的正向传播是立即执行的**

In [22]:
import torch

w = torch.tensor([[3.0,1.0]],requires_grad = True)
b = torch.tensor([[3.0]], requires_grad = True)

# 生成一个10*2的矩阵 
X = torch.randn(10,2)
# 生成一个10*1的矩阵
Y = torch.randn(10,1)
# Y_hat定义后其正向传播被立即执行，与后面的loss创建语句无关

# @是Python 3.5之后加入的矩阵乘法运算符
Y_hat = X@w.t() + b 
# 均方差
loss = torch.mean(torch.pow(Y_hat-Y,2))

print(loss.data)
print(Y_hat.data)

tensor(33.6364)
tensor([[ 2.9136],
        [ 5.3460],
        [ 8.8638],
        [ 6.9459],
        [ 2.8933],
        [ 6.8978],
        [-4.3608],
        [ 7.4888],
        [ 0.7668],
        [ 5.7776]])


**二、计算图在反向传播后立即销毁**

In [23]:
import torch
import torch

w = torch.tensor([[3.0,1.0]],requires_grad = True)
b = torch.tensor([[3.0]], requires_grad = True)

# 生成一个10*2的矩阵 
X = torch.randn(10,2)
# 生成一个10*1的矩阵
Y = torch.randn(10,1)
# Y_hat定义后其正向传播被立即执行，与后面的loss创建语句无关

# @是Python 3.5之后加入的矩阵乘法运算符
Y_hat = X@w.t() + b 
# 均方差
loss = torch.mean(torch.pow(Y_hat-Y,2))

# 计算图在反向传播完成后立即被销毁，如果需要保留计算图，则需要设置retain_graph = True 的参数
# loss.backward(retain_graph=True)
loss.backward()

## 计算图中的Function 

计算图中的 张量我们已经比较熟悉了, 计算图中的另外一种节点是Function, 实际上就是 Pytorch中各种对张量操作的函数。

这些Function和我们Python中的函数有一个较大的区别，那就是它同时包括正向计算逻辑和反向传播的逻辑

**我们可以通过继承torch.autograd.Function来创建这种支持反向传播的Function**