#### PyTorch基础：张量

In [None]:
import torch
import numpy as np

torch.__version__

#### 张量（Tensor）
Tensor是PyTorch里面基础的运算单位，与Numpy的ndarray相同，都表示的是一个多维的矩阵。与ndarray的最大区别就是，PyTorch的Tensor可以在GPU上运行，而Numpy的ndarray只能在CPU上运行，在GPU上运行大大加快了运算速度。

下面我们生成一个简单的张量。

In [None]:
x = torch.rand(2, 3) # 生成一个2行3列的随机张量
x

In [None]:
print(x.shape)  # 输出张量的形状
print(x.size())  # 输出张量的形状，等价于x.shape

张量（tensor）是一个定义在一些张量空间和一些对偶空间的笛卡尔积上的多重线性映射，其坐标是n维空间内，有n个分量的一种量，其中每个分量都是坐标的函数。而在坐标变换时，这些分量也依照某些规则作线性变换。r称为该张量的秩或阶（与矩阵的秩和阶均无关系）。

In [None]:
y = torch.rand(2,3,4,5)  # 生成一个2x3x4x5的随机张量
print(y.size())  # 输出张量的形状
y

在同构的意义下，第零阶张量（r=0）为标量（Scalar），第一阶张量（r=1）为向量（Vector），第二阶张量（r=2）则为矩阵（Matrix），第三阶以上统称为多维张量。

In [1]:
scalar = torch.tensor(5)  # 标量
print(scalar)
scalar.size()

NameError: name 'torch' is not defined

 对于标量，我们可以直接用`.item()`从中取出其对应的python对象的数值。

In [2]:
scalar.item()  # 取出标量的数值

NameError: name 'scalar' is not defined

特别的：如果张量中只有一个元素的tensor也可以调用`tensor.item`方法。

In [3]:
tensor = torch.tensor([42])  # 只有一个元素的张量
print(tensor)
tensor.size()


NameError: name 'torch' is not defined

In [None]:
tensor.item()  # 取出张量中唯一元素的数值

#### 基本类型

Tensor的基本数据类型有五种：

- 32位浮点型：`torch.FloatTensor`（默认）
- 64位整型：`torch.LongTensor`
- 32位整型：`torch.IntTensor`
- 16位整型：`torch.ShortTensor`
- 64位浮点型：`torch.DoubleTensor`

除以上数字类型外，还有`byte`和 `chart`型

In [4]:
long = tensor.long()  # 转换为长整型张量
long

NameError: name 'tensor' is not defined

In [5]:
half = tensor.half()  # 转换为半精度浮点型张量
half

NameError: name 'tensor' is not defined

In [6]:
int_t = tensor.int()  # 转换为整型张量
int_t

NameError: name 'tensor' is not defined

In [7]:
flo = tensor.float()  # 转换为单精度浮点型张量
flo

NameError: name 'tensor' is not defined

In [8]:
short = tensor.short()  # 转换为短整型张量
short

NameError: name 'tensor' is not defined

In [9]:
ch = tensor.char()  # 转换为字符型张量
ch

NameError: name 'tensor' is not defined

In [10]:
bt = tensor.byte()  # 转换为字节型张量
bt

NameError: name 'tensor' is not defined

#### Numpy转换
使用numpy方法把Tensor转换为ndarray

In [11]:
a = torch.randn((3, 2))
numpy_a = a.numpy()  # 使用numpy方法把Tensor转换为ndarray
print(numpy_a)

NameError: name 'torch' is not defined

numpy转化为Tensor

In [12]:
torch_a = torch.from_numpy(numpy_a)  # 使用from_numpy方法把ndarray转换为Tensor
torch_a

NameError: name 'torch' is not defined

Tensor和Numpy对象共享内存，所以他们之间转换得很快，而且几乎不会消耗什么资源。但这也意味着，如果其中一个变了，另一个也会随之改变。

#### 设备间转换

一般情况下可以使用`.cuda`方法将`tensor`移动到`gpu`，这步操作需要cuda设备支持。

In [13]:
cpu_a = torch.rand(4, 3)  # 创建一个在CPU上的张量
cpu_a.type()

NameError: name 'torch' is not defined

In [14]:
gpu_a = cpu_a.cuda()  # 把张量移动到GPU上
gpu_a.type()

NameError: name 'cpu_a' is not defined

In [15]:
# 使用.cuda方法把张量从GPU移动回CPU
cpu_b = gpu_a.cpu()
cpu_b.type()

NameError: name 'gpu_a' is not defined

如果我们有多GPU的情况，可以使用to方法来确定使用哪个设备。

In [None]:
# 使用torch.cuda.is_available()来检查当前系统是否有可用的CUDA设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

gpu_b = cpu_b.to(device)  # 把张量移动到指定设备上
gpu_b.type()

#### 初始化


In [16]:
rnd = torch.rand(5, 3)  # 生成一个5x3的随机张量
rnd

NameError: name 'torch' is not defined

In [17]:
one = torch.ones(2, 2) # 生成一个2x2的全1张量
one

NameError: name 'torch' is not defined

In [18]:
zero = torch.zeros(2, 2)  # 生成一个2x2的全0张量
zero

NameError: name 'torch' is not defined

In [19]:
eye = torch.eye(2, 2) # 生成一个2x2的单位矩阵
eye

NameError: name 'torch' is not defined

#### 常用方法

PyTorch中对张量的操作api和NumPy非常相似，如果熟悉NumPy中的操作，那么他们二者基本是一致的。

In [20]:
x = torch.randn(3, 3)
print(x)

NameError: name 'torch' is not defined

In [21]:
max_value, max_idx = torch.max(x, dim = 1)  # 按行取最大值及其索引
print(max_value, max_idx)

NameError: name 'torch' is not defined

In [22]:
sum_x = troch.sum(x, dim = 0)  # 按列求和
print(sum_x)

NameError: name 'troch' is not defined

In [23]:
y = torch.randn(3, 3)
z = x + y  # 张量加法
print(z)

NameError: name 'torch' is not defined

In [None]:
x.add_(y)  # 张量加法，结果存储在x中
print(x)

### 使用PyTorch计算梯度数值

PyTorch的`Autograd`模块实现了深度学习的算法中的向传播求导数，在张量（Tensor类）上的所有操作，`Autograd`都能为他们自动提供微分，简化了手动计算导数的复杂过程。

要想通过Tensor类本身就支持了使用autograd功能，只需要设置`.requires_grad = True`

Variable类中的`grad`和`grad_fn`属性已经整合进入了Tensor类中。

#### Autograd
在张量创建时，通过设置`requires_grad`表示为`True`来告诉PyTorch需要对该张量进行自动求导，PyTorch会记录该张量的每一步操作历史并自动计算。

In [24]:
x = torch.rand(5, 5, requires_grad=True)
print(x)

NameError: name 'torch' is not defined

In [25]:
y = torch.rand(5, 5, requires_grad = True)
y

NameError: name 'torch' is not defined

PyTorch会自动追踪和记录对与张量的所有操作，当计算完成后调用`.backward()`方法自动计算梯度并且将计算结果保存到`grad`属性中。

In [None]:
z = torch.sum(x + y) # 计算x和y的和，并求和得到标量z
z

在张量进行操作之后，`grad_fn`已经被赋予了一个新的函数，这个函数引用了一个创建了这个Tensor类的Function对象。Tensor和Function互相连接生成了一个非循环图，它记录并且编码了完整的计算历史。每个张量都有一个`.grad_fn`属性，如果这个张量时用户手动创建的，那么这个张量的`grad_fn`是`None`。

#### 简单的自动求导

In [26]:
z.backward() # 对标量z进行反向传播，计算梯度
print(x.grad, y.grad)

NameError: name 'z' is not defined

如果Tensor类表示的是一个标量，则不需要为`backward()`指定任何参数，但是如果它有更多的元素，则需要指定一个`gradient`参数，它是形状匹配的张量。以上的`z.backward()`相当于是`z.backward(torch.tensor(1.))`的简写。这种参数常出现在图像分类中的单标签分类，输出一个标量代表图像的标签。

#### 复杂的自动求导

In [27]:
x = torch.rand(5, 5, requires_grad = True)
y = torch.rand(5, 5, requires_grad = True)
z = x ** 2 + y ** 3
z

NameError: name 'torch' is not defined

In [28]:
# 对张量z进行反向传播，传入与z形状相同的全1张量 
# 我们的返回值不是一个标量，所以需要输入一个大小相同的张量作为参数
z.backward(torch.ones_like(x))  
print(x.grad)



NameError: name 'z' is not defined

我们可以使用`with torch.no_grad()`上下文管理器临时禁制对已设置`requires_grad = True`的张量进行自动求导。这个方法在测试集计算准确率的时候会经常用到。

例如:

In [29]:
with torch.no_grad():
    print((x + y*2).required_grad)

NameError: name 'torch' is not defined

使用`.no_grad()`进行嵌套后，代码不会跟踪历史记录，也就是说保存的这部分记录会减少内存的使用量并且会加快少许的运算速度。

#### Autograd过程解析

为了说明PyTorch的自动求导原理，我们来尝试分析一下PyTorch的源代码，虽然PyTorch的Tensor和TensorBase都是使用CPP来实现的，但是可以使用一些Python的一些方法查看这些对象在Python的属性和状态。Python的`dir()`返回参数的属性，方法列表。`z`是一个Tensor变量。

In [30]:
dir(z)

NameError: name 'z' is not defined

返回很多，我们直接排除掉一些Python中特殊方法（以__开头和结束的）和私有方法（以_开头的），直接看几个比较主要的属性:`.is_leaf()`：记录是否是叶子节点。通过这个属性来确定这个变量的类型。

在官方文档中所说的“graph leaves”，“leaf variables”，都是指像`x`，`y`这样的手动创建的、而非运算得到的变量，这些变量称为创建变量。像`z`这样的，是通过计算后得到的结果称为结果变量。

一个变量是创建变量还是结果变量是通过`.is_leaf`来获取的。

In [None]:
print("x.is_leaf = " + str(x.is_leaf))
print("z.is_leaf = " + str(z.is_leaf))

`x`是手动创建的，没有通过计算，所以被认为是一个叶子节点，也就是一个创建变量。而`z`是通过`x`与`y`的一系列计算得到的，所以不是叶子节点，也就是变量结果。

为什么我们执行`z.backword()`方法会更新`x.grad()`和`y.grad`呢？

`.grad_fn`属性记录的就是这部分操作，虽然`.backward()`方法也是CPP实现的，但是可以通过Python来进行简单的探索。

`grad_fn`：记录并编码了完整的计算历史

In [1]:
z.grad_fn

NameError: name 'z' is not defined

`grad_fn`是一个`AddBackward0`类型的变量，`AddBackward0`这个类也是用CPP来写的，但是我们从名字里就能够大概知道，它是加法（ADD）的反向传播（Backward）。

`next_function`就是`grad_fn`的精华

In [3]:
dir(z.grad_fn)

NameError: name 'z' is not defined

In [4]:
z.graf_fn.next_functions

NameError: name 'z' is not defined

`next_function`是一个tuple of tuple of PowBackward0 and int.

**为什么是两个tuple？**

因为我们的操作是`z = x**2 + y**3`。刚才的`AddBackward0`是相加，而前面的操作是乘方`PowBackward0`。tuple第一个元素就是x相关的操作记录。

In [6]:
xg = z.grad_fn.next_functions[0][0]
dir(xg)

NameError: name 'z' is not defined

In [7]:
x_leaf = xg.next_functions[0][0]
type(x_leaf)

NameError: name 'xg' is not defined

在PyTorch的反向图计算中，`AccumulateGrad`类型代表的就是叶子节点类型，也就是计算图终止节点。`AccumulateGrad`类中有一个`.variable`属性指向叶子节点。

In [8]:
x_leaf.variable

NameError: name 'x_leaf' is not defined

这个`.variable`属性就是我们的生成的变量`x`

In [9]:
print("x_leaf.variable的id:" + str(id(x_leaf.variable)))
print("x的id:" + str(id(x)))

NameError: name 'x_leaf' is not defined

In [10]:
assert(id(x_leaf.variable)) == id(x)

NameError: name 'x_leaf' is not defined

这样整个规程就很清晰了：

1. 当我们执行`z.backward()`的时候。这个操作将调用z里边的`grad_fn`这个属性，执行求导操作。
2. 这个操作将遍历`grad_fn`的`next_functions`,然后分别取出里边的Function(AccumulatedGrad)，执行求导操作。这部分是一个递归的过程，直到最后类型为叶子节点。
3. 计算出结果以后，将结果保存到他们对应的`variable`这个变量所引用的对象（x和y）的`grad`这个属性里面。
4. 求导结束。所有的叶节点的`grad`变量都得到了相应的更新。

最终当我们执行完`c.backward()`之后，a和b里面的grad值就得到了更新。

#### 扩展Autograd

如果需要自定义autograd扩展新功能，就需要扩展Function类。因为Function使用autograd来计算结果和梯度，并对操作历史进行编码。在Function类中最重要的方法就是`forward()`和`backward()`，他们分别代表了前向传播和反向传播。

一个自定义的Function需要以下三种方法：

- `__init__(optional)`：如果这个操作需要额外的参数，则需要定义这个Function的构造函数，不需要的话可以忽略。
- `forward()`：执行前向传播的计算代码。
- `backward()`：反向传播时梯度计算的代码。参数的个数和`forward`返回值的个数一样，每个参数代表传回到此操作的梯度。

In [11]:
from torch.autograd.function import Function 

class MulConstant(Function):
    @staticmethod
    def forward(ctx, tensor, constant):
        ctx.constant = constant    # 保存常量以便在反向传播中使用
        return tensor * constant
    
    @staticmethod
    def backward(ctx, grad_output):
        return grad_output, None # 返回梯度和None，因为constant不是张量

ModuleNotFoundError: No module named 'torch'

In [12]:
a = troch.rand(3, 3, requires_grad = True)
b = MulConstant.apply(a, 5) 
print("a" + str(a))
print("b" + str(b))

NameError: name 'troch' is not defined

反向传播，返回值不是标量，所以`backward`方法需要参数

In [13]:
b.backward(torch.ones_like(a)) 

NameError: name 'b' is not defined

In [14]:
a.grad

NameError: name 'a' is not defined