# 预备知识 · 数据操作 & 自动求梯度

不得不开始好好学 pytorch ，那么开始，首先是 tensor 张量

那么在 tensor 之前先复习下 numpy


In [2]:
import numpy as np

# 创建一维数组
arr = np.array([1, 2, 3, 4, 5])
print("1D Array:", arr)

# 创建二维数组
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("2D Array:\n", arr_2d)

print("Array Shape:", arr_2d.shape)  # 形状
print("Number of dimensions:", arr_2d.ndim)  # 维度数
print("Array size:", arr_2d.size)  # 数组大小
print("Data type:", arr_2d.dtype)  # 数据类型


1D Array: [1 2 3 4 5]
2D Array:
 [[1 2 3]
 [4 5 6]]
Array Shape: (2, 3)
Number of dimensions: 2
Array size: 6
Data type: int32


### Q: C 里面有自己的数组，那 Python 有自己的数组吗，为什么一定要 numpy 来操作 np.array 数组，而不直接用 Python 的数组?相应的，为什么 tensor 要用 numpy 的数组，而不是直接用 Python 的数组?

A: 在Python中，确实有一个内置的数组模块叫做array，它可以创建存储单一数据类型的紧凑数组。然而，Python的array模块相比于NumPy提供的ndarray功能来说较为简单，主要用于基础的数组存储，没有NumPy那么强大的功能集合，特别是在进行科学计算时。


In [3]:
# 索引和切片

# 加法
print(arr + 1)

# 乘法
print(arr * 2)

# 平方
print(arr ** 2)

# 获取第二个元素
print(arr[1])

# 获取第一行的第三列元素
print(arr_2d[0, 2])

# 切片：获取前两个元素
print(arr[:2])


[2 3 4 5 6]
[ 2  4  6  8 10]
[ 1  4  9 16 25]
2
3
[1 2]


### Q: 为什么Tensor要使用NumPy数组，而非Python原生数组？

在深度学习中，数据操作通常需要处理大规模的数据集和执行复杂的数值计算，这些计算往往需要高效的数据结构支持：

计算优化：像TensorFlow和PyTorch这样的深度学习框架使用的Tensor对象在内部优化了数据存储和计算，使得在GPU或其他硬件加速器上运行时可以获得更高的性能。

自动求导：在深度学习中，自动求导是一个核心功能，它允许自动计算神经网络中参数的梯度。使用Python的原生数据类型如列表或数组来实现这种复杂的功能会非常困难和低效。

与硬件的集成：深度学习框架需要与底层硬件如GPU紧密集成，以利用其并行计算能力。NumPy和Tensor对象的设计允许它们更好地与这些硬件技术集成。


In [4]:
import torch

x = torch.empty(5, 3)

x 

tensor([[1.1072e+20, 1.8007e-42, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00]])

"tensor"这个单词一般可译作“张量”，张量可以看作是一个多维数组。标量可以看作是0维张量，向量可以看作1维张量，矩阵可以看作是二维张量。

上面即创建了一个 5x3 的未初始化 tensor


5 x 3 的随机tensor

In [5]:
x = torch.rand(5, 3)

x

tensor([[0.5443, 0.8283, 0.1795],
        [0.4487, 0.9190, 0.7166],
        [0.3953, 0.0502, 0.5057],
        [0.6909, 0.7040, 0.0336],
        [0.7739, 0.0754, 0.3328]])

### Q: 为什么 x = torch.empty(5, 3)  和  x = torch.rand(5, 3) 经最后print(x) 查看都是随机的

在PyTorch中，创建张量（tensors）时有几种不同的方式来初始化它们，其中torch.empty()和torch.rand()是两个常用的方法。这两个函数都会生成一个具有指定维度的张量，但它们的初始化内容和用途有所不同。

1. torch.empty(size):

    torch.empty()创建一个未初始化的张量。这意味着在张量的内存分配后，不会对张量中的数据进行初始化处理。因此，torch.empty()返回的张量将包含任何时刻内存空间中的数据（垃圾数据）。所以，你看到的数据看起来是随机的，但实际上它们是内存中之前留下的值。
   
    
    使用torch.empty()的主要理由是初始化速度非常快，如果你确保之后立即以某种方式填充它（例如，将其用作某些运算的输出缓存），那么使用它是安全的。

3. torch.rand(size):

    torch.rand()创建一个张量，并用[0, 1)范围内的均匀分布的随机数初始化这个张量。这意味着每个元素都是随机生成的，遵循均匀分布。
   

    这种方法通常用于初始化需要随机数的场景，如在训练神经网络时初始化权重。

5 x 4 的 long 型全 0 tensor

In [6]:
x = torch.zeros(5, 4, dtype=torch.long)

x

tensor([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]])

直接根据数据创建

In [7]:
x = torch.tensor([5.5, 3])

x

tensor([5.5000, 3.0000])

通过现有的 tensor 来创建，会默认重用输入 tensor 的一些属性，例如数据类型，除非自定义数据类型

In [8]:
x = x.new_ones(5, 3, dtype=torch.float64)  # 返回的tensor默认具有相同的torch.dtype和torch.device
print(x)


tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


x.new_ones() 方法是一个便利函数，用于基于现有张量x的属性（比如设备和维度）创建一个新的张量。新张量的所有元素都被设置为1。这里的5, 3指定了新张量的形状，即5行3列。


dtype=torch.float64 指定了新张量的数据类型为64位浮点数（即双精度浮点数）。如果你没有提供一个基张量x，你需要使用其他函数（如torch.ones）来创建类似的张量。

In [9]:
x = torch.randn_like(x, dtype=torch.float) # 指定新的数据类型
print(x) 


tensor([[-0.4324, -1.1562,  0.9556],
        [ 0.6745,  1.2508,  0.6208],
        [-0.9745, -0.2765,  0.0776],
        [-1.3281,  1.2978, -1.2698],
        [ 0.1111, -0.0748, -0.3512]])


torch.randn_like() 方法基于提供的张量x的形状和设备属性创建一个新的张量，但用标准正态分布（均值0，方差1的高斯分布）中的随机数填充它。

dtype=torch.float 修改了数据类型为32位浮点数（即单精度浮点数）。这意味着，尽管原始的x张量是双精度的，这个调用生成的新张量将具有不同的数据类型。

In [10]:
print(x.shape)
print(x.size())

torch.Size([5, 3])
torch.Size([5, 3])


下面是一些常见的常用创建指令参考

| 函数 | 功能 |
| --- | --- |
| `Tensor(*sizes)` | 直接构造指定大小的张量 |
| `tensor(data,)` | 类似于`np.array`的构造函数 |
| `ones(*sizes)` | 创建元素全为1的张量 |
| `zeros(*sizes)` | 创建元素全为0的张量 |
| `eye(*sizes)` | 创建单位矩阵（对角线为1，其余为0） |
| `arange(s,e,step)` | 从s到e，步长为step |
| `linspace(s,e,steps)` | 从s到e，均匀分布在steps步之内 |
| `rand/randn(*sizes)` | 创建随机值/正态分布随机值的张量 |
| `normal(mean,std)/uniform(from,to)` | 正态分布/均匀分布的随机值张量 |
| `randperm(m)` | 创建一个0到m-1的随机排列 |



In [12]:
x = torch.Tensor(2, 3)
print(x)

data = [[1, 2], [3, 4]]
x = torch.tensor(data)
print(x)

x = torch.ones(2, 3)
print(x)

x = torch.zeros(2, 3)
print(x)

x = torch.eye(3)
print(x)

x = torch.arange(0, 5, 1)
print(x)

x = torch.linspace(0, 1, steps=5)
print(x)

x = torch.rand(2, 3)
print(x)
y = torch.randn(2, 3)
print(y)

x = torch.normal(mean=0, std=1, size=(2, 3))
print(x)

x = torch.randperm(5)
print(x)



tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[1, 2],
        [3, 4]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])
tensor([0, 1, 2, 3, 4])
tensor([0.0000, 0.2500, 0.5000, 0.7500, 1.0000])
tensor([[0.5075, 0.0701, 0.6252],
        [0.5206, 0.4361, 0.6957]])
tensor([[-0.2170, -0.2150,  0.0507],
        [ 0.4861, -0.0401, -1.9163]])
tensor([[0.5300, 1.0972, 0.1566],
        [0.2618, 0.6175, 0.1638]])
tensor([2, 4, 3, 0, 1])


## 算术操作

这里由于前面到这里的张量维度不一样，我们先查看下我们的tensor维度

In [13]:
print(x.shape)
print(y.shape)


torch.Size([5])
torch.Size([2, 3])


显然这里不一样，因此我们需要修改 x 张量的形状为 5 x 3，并且不改变其中的数据相容

In [14]:
print(x)

tensor([2, 4, 3, 0, 1])


这里我们看到原始的张量只有5个元素，而我们需要15个元素来填充 5x3 的张量，因此我们通过 repeat 方法去填充里面原有的数据

In [15]:
x = x.repeat(3,1)

x 

tensor([[2, 4, 3, 0, 1],
        [2, 4, 3, 0, 1],
        [2, 4, 3, 0, 1]])

这里就可以用view方法进行修改了

In [16]:
x = x.view(5,3)

x

tensor([[2, 4, 3],
        [0, 1, 2],
        [4, 3, 0],
        [1, 2, 4],
        [3, 0, 1]])

现在来看看加法

In [17]:
y = torch.rand(5, 3)
print(x)
print(y)

x+y 

tensor([[2, 4, 3],
        [0, 1, 2],
        [4, 3, 0],
        [1, 2, 4],
        [3, 0, 1]])
tensor([[0.6661, 0.6715, 0.1718],
        [0.1125, 0.3767, 0.2535],
        [0.8960, 0.9071, 0.2110],
        [0.7836, 0.4043, 0.8065],
        [0.8150, 0.7206, 0.2466]])


tensor([[2.6661, 4.6715, 3.1718],
        [0.1125, 1.3767, 2.2535],
        [4.8960, 3.9071, 0.2110],
        [1.7836, 2.4043, 4.8065],
        [3.8150, 0.7206, 1.2466]])

当然，加法也具有方法

In [18]:
print(torch.add(x, y))


tensor([[2.6661, 4.6715, 3.1718],
        [0.1125, 1.3767, 2.2535],
        [4.8960, 3.9071, 0.2110],
        [1.7836, 2.4043, 4.8065],
        [3.8150, 0.7206, 1.2466]])


也可以指定输出

In [19]:
result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result)

tensor([[2.6661, 4.6715, 3.1718],
        [0.1125, 1.3767, 2.2535],
        [4.8960, 3.9071, 0.2110],
        [1.7836, 2.4043, 4.8065],
        [3.8150, 0.7206, 1.2466]])


当然，刚才那步扩充的全部填 0 或者 1 之类的也行

In [20]:
x = torch.tensor([0, 1, 2, 3, 4])

zeros = torch.zeros(10)

x = torch.cat((x, zeros), dim=0)

x 

tensor([0., 1., 2., 3., 4., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [21]:
x = x.view(5,3)

x 

tensor([[0., 1., 2.],
        [3., 4., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

### 索引

我们还可以使用类似NumPy的索引操作来访问Tensor的一部分，需要注意的是：索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。

当然了，假如不知道numpy的话，索引是访问张量或数组特定元素的方式，和python列表的索引类似

例如，x[0, :] 表示访问tensor x的第一行所有元素，0代表第一行， : 代表所有列

In [20]:
print(x)
print(y)
y = x[0, :]

y 

tensor([[0., 1., 2.],
        [3., 4., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([[0.8441, 0.9358, 0.0616],
        [0.8901, 0.6935, 0.3154],
        [0.0923, 0.4046, 0.5465],
        [0.3352, 0.4640, 0.5577],
        [0.3268, 0.1293, 0.9693]])


tensor([0., 1., 2.])

需要注意他们共享内存，**索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。**

In [22]:
print(y)
print(x)
y += 1 
print(y)

x

tensor([[0.6661, 0.6715, 0.1718],
        [0.1125, 0.3767, 0.2535],
        [0.8960, 0.9071, 0.2110],
        [0.7836, 0.4043, 0.8065],
        [0.8150, 0.7206, 0.2466]])
tensor([[0., 1., 2.],
        [3., 4., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([[1.6661, 1.6715, 1.1718],
        [1.1125, 1.3767, 1.2535],
        [1.8960, 1.9071, 1.2110],
        [1.7836, 1.4043, 1.8065],
        [1.8150, 1.7206, 1.2466]])


tensor([[0., 1., 2.],
        [3., 4., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

可以注意到这里的源tensor也被修改了，那么如何断开这种内存共享关系呢？创建副本就好了

In [22]:
print(y)
print(x)

y = x[0, :].clone()
y += 1
print(y)

x

tensor([1., 2., 3.])
tensor([[1., 2., 3.],
        [3., 4., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([2., 3., 4.])


tensor([[1., 2., 3.],
        [3., 4., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

顺便复习下，view()方法可以改变形状

In [23]:
y = x.view(15)
z = x.view(-1, 5)  # -1所指的维度可以根据其他维度的值推出来

print(x.size(), y.size(), z.size())

torch.Size([5, 3]) torch.Size([15]) torch.Size([3, 5])


**注意view()返回的新Tensor与源Tensor虽然可能有不同的size，但是是共享data的，也即更改其中的一个，另外一个也会跟着改变。(顾名思义，view仅仅是改变了对这个张量的观察角度，内部数据并未改变)**

In [24]:
x += 1
print(x)
print(y) # 也加了1


tensor([[1., 2., 3.],
        [4., 5., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
tensor([1., 2., 3., 4., 5., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])


所以如果我们想返回一个真正新的副本（即不共享data内存）该怎么办呢？Pytorch还提供了一个reshape()可以改变形状，但是此函数并不能保证返回的是其拷贝，所以不推荐使用。推荐先用clone创造一个副本然后再使用view

In [25]:
x_cp = x.clone().view(15)
x -= 1
print(x)
print(x_cp)

tensor([[0., 1., 2.],
        [3., 4., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
tensor([1., 2., 3., 4., 5., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])


使用clone还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源Tensor。

怎么理解呢，在深度学习中，计算图是一个有向图，它描述了数据（张量）如何通过操作（如加法、乘法等）相互关联，并最终产生输出。当你训练神经网络时，计算图用于反向传播过程，这个过程会计算并更新模型的权重。

当你使用 .clone() 创建一个张量的副本时，这个操作会被加入到计算图中。这意味着，如果你在副本上执行了某些操作，比如计算损失并调用 .backward() 进行反向传播，梯度不仅会流向副本张量，还会继续流向原始张量。这对于保持权重更新和梯度计算的连续性非常重要。

换句话说：

保持梯度流动：当你对副本进行操作并进行反向传播时，原始张量也会收到来自副本的梯度信息。

更新权重：如果原始张量是神经网络中的权重，这意味着它也会被更新。

如果你没有使用 .clone() 而是直接通过索引创建了一个视图，那么对视图的修改会影响原始张量，但是这种修改可能不会被认为是一个操作，不会加入到计算图中，也就不会在反向传播过程中更新原始张量的梯度。

对于初学者来说，你可以简单理解为：使用 .clone() 是为了确保你的计算和梯度更新都是可追踪和可控的。这在实现复杂的神经网络时至关重要，因为它确保了反向传播能够正确地更新所有相关的权重。

In [26]:
x = torch.randn(1)
print(x)

print(x.item())

tensor([-0.7478])
-0.7478055357933044


另外一个常用的函数就是item(), 它可以将一个标量Tensor转换成一个Python number：

## 线性代数

此外 PyTorch还支持一些线性函数，这里提一下，免得用起来的时候自己造轮子，具体用法参考官方文档。如下表所示：


| 函数 | 功能 |
| --- | --- |
| `trace` | 对角线元素之和（矩阵的迹） |
| `diag` | 对角线元素 |
| `triu/tril` | 矩阵的上三角/下三角，可指定偏移量 |
| `mm/bmm` | 矩阵乘法，batch的矩阵乘法 |
| `addmm/addbmm/addmv/addr/baddbmm..` | 矩阵运算 |
| `t` | 转置 |
| `dot/cross` | 点乘/叉乘 |
| `inverse` | 矩阵逆 |
| `svd` | 奇异值分解 |



然后这里尝试用线代的方法解这道题

<img src="./img/1-1.png">

1. 首先，问题中的二次型 \( f(x) \) 可以用矩阵 \( A \) 表示为：

   \[ A = \begin{pmatrix} 1 & a & a \\ a & 1 & a \\ a & a & 1 \end{pmatrix} \]

   其中 \( a \) 是未知数。

2. 通过计算 \( A \) 的特征值，确定 \( a = -\frac{1}{2} \)，这是使 \( A \) 成为正定矩阵的条件（即所有特征值都是正数）。

3. 接下来，我们将原始二次型 \( f(x) \) 通过线性变换 \( P \) 映射到新的二次型 \( g(y) \)，这里 \( P \) 的列是 \( A \)'s 特征向量，归一化后构成 \( P \)。

4. 然后，给出了 \( P \) 矩阵的具体形式：

   \[ P = \begin{pmatrix} 1/\sqrt{3} & 1/\sqrt{3} & 1/\sqrt{3} \\ 0 & 2/\sqrt{3} & -1/\sqrt{3} \\ 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 1 & 0 \\ 0 & 0 & 2 \\ 1 & -1 & 0 \end{pmatrix} \]

5. 最后，提供了 \( x \) 到 \( y \) 的映射关系，以及 \( P \) 的表达式，证明这个映射是原问题的解。


In [26]:
# 定义A矩阵
A = torch.tensor([[1, -0.5, -0.5], [-0.5, 1, -0.5], [-0.5, -0.5, 1]], dtype=torch.float32)

# 计算特征值和特征向量
L_complex, V_complex = torch.linalg.eig(A)

# 特征值实部
L = L_complex.real

# 特征向量实部
V = V_complex.real

# 定义变换矩阵P
P = torch.tensor([
    [1 / torch.sqrt(torch.tensor(3.0)), 1 / torch.sqrt(torch.tensor(3.0)), 1 / torch.sqrt(torch.tensor(3.0))],
    [0, 2 / torch.sqrt(torch.tensor(3.0)), -1 / torch.sqrt(torch.tensor(3.0))],
    [0, 0, 1]
], dtype=torch.float32)

# 计算P的逆矩阵
P_inv = torch.linalg.inv(P)

# 打印特征值和特征向量
print("特征值:", L)
print("特征向量:", V)
print("变换矩阵P:", P)
print("变换矩阵P的逆:", P_inv)

# 使用P验证变换后的y值
y = torch.tensor([1, 2, 3], dtype=torch.float32)
x = torch.mv(P, y)
print("变换后的x值:", x)


特征值: tensor([1.5000, 0.0000, 1.5000])
特征向量: tensor([[ 0.8165, -0.5774,  0.3431],
        [-0.4082, -0.5774, -0.8132],
        [-0.4082, -0.5774,  0.4701]])
变换矩阵P: tensor([[ 0.5774,  0.5774,  0.5774],
        [ 0.0000,  1.1547, -0.5774],
        [ 0.0000,  0.0000,  1.0000]])
变换矩阵P的逆: tensor([[ 1.7321, -0.8660, -1.5000],
        [ 0.0000,  0.8660,  0.5000],
        [ 0.0000,  0.0000,  1.0000]])
变换后的x值: tensor([3.4641, 0.5774, 3.0000])


答案是这个反正


.
<img src="./img/1-2.png">

### 广播机制

前面我们看到如何对两个形状相同的Tensor做按元素运算。当对两个形状不同的Tensor按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个Tensor形状相同后再按元素运算。例如：

In [28]:
x = torch.arange(1, 3).view(1, 2)
print(x)
y = torch.arange(1, 4).view(3, 1)
print(y)
print(x + y)


tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


由于x和y分别是1行2列和3行1列的矩阵，如果要计算x + y，那么x中第一行的2个元素被广播（复制）到了第二行和第三行，而y中第一列的3个元素被广播（复制）到了第二列。如此，就可以对2个3行2列的矩阵按元素相加。

### 运算的内存开销

前面说了，索引操作是不会开辟新内存的，而像y = x + y这样的运算是会新开内存的，然后将y指向新内存。为了演示这一点，我们可以使用Python自带的id函数：如果两个实例的ID一致，那么它们所对应的内存地址相同；反之则不同。

In [28]:
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
y = y + x
print(id(y) == id_before) # False 


False


如果想指定结果到原来的y的内存，我们可以使用前面介绍的索引来进行替换操作。在下面的例子中，我们把x + y的结果通过[:]写进y对应的内存中。

In [29]:
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
y[:] = y + x
print(id(y) == id_before) # True


True


我们还可以使用运算符全名函数中的out参数或者自加运算符+=(也即add_())达到上述效果，例如torch.add(x, y, out=y)和y += x(y.add_(x))。

In [30]:
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
torch.add(x, y, out=y) # y += x, y.add_(x)
print(id(y) == id_before) # True


True


注：虽然view返回的Tensor与源Tensor是共享data的，但是依然是一个新的Tensor（因为Tensor除了包含data外还有一些其他属性），二者id（内存地址）并不一致。



### Tensor和 NumPy 相互转换


我们很容易用numpy()和from_numpy()将Tensor和NumPy中的数组相互转换。但是需要注意的一点是： 这两个函数所产生的的Tensor和NumPy中的数组共享相同的内存（所以他们之间的转换很快），改变其中一个时另一个也会改变！！！

还有一个常用的将NumPy中的array转换成Tensor的方法就是torch.tensor(), 需要注意的是，此方法总是会进行数据拷贝（就会消耗更多的时间和空间），所以返回的Tensor和原来的数据不再共享内存。

In [31]:
a = torch.ones(5)
b = a.numpy()
print(a, b)

a += 1
print(a, b)
b += 1
print(a, b)


tensor([1., 1., 1., 1., 1.]) [1. 1. 1. 1. 1.]
tensor([2., 2., 2., 2., 2.]) [2. 2. 2. 2. 2.]
tensor([3., 3., 3., 3., 3.]) [3. 3. 3. 3. 3.]


上面是使用numpy()将Tensor转换成NumPy数组；


下面是 使用from_numpy()将NumPy数组转换成Tensor:

In [32]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
print(a, b)

a += 1
print(a, b)
b += 1
print(a, b)


[1. 1. 1. 1. 1.] tensor([1., 1., 1., 1., 1.], dtype=torch.float64)
[2. 2. 2. 2. 2.] tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
[3. 3. 3. 3. 3.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


所有在CPU上的Tensor（除了CharTensor）都支持与NumPy数组相互转换。

此外上面提到还有一个常用的方法就是直接用torch.tensor()将NumPy数组转换成Tensor，需要注意的是该方法总是会进行数据拷贝，返回的Tensor和原来的数据不再共享内存。

In [34]:
c = torch.tensor(a)
a += 1
print(a, c)


[4. 4. 4. 4. 4.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


### Tensor on GPU

用方法to()可以将Tensor在CPU和GPU（需要硬件支持）之间相互移动。

In [33]:
# 以下代码只有在PyTorch GPU版本上才会执行
if torch.cuda.is_available():
    device = torch.device("cuda")          # GPU
    y = torch.ones_like(x, device=device)  # 直接创建一个在GPU上的Tensor
    x = x.to(device)                       # 等价于 .to("cuda")
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # to()还可以同时更改数据类型


tensor([2, 3], device='cuda:0')
tensor([2., 3.], dtype=torch.float64)


## 自动求梯度

在深度学习中，我们经常需要对函数求梯度（gradient）。PyTorch提供的autograd包能够根据输入和前向传播过程自动构建计算图，并执行反向传播。本节将介绍如何使用autograd包来进行自动求梯度的有关操作。

如果将 Tensor 的属性 .requires_grad 设置为 true，它将开始追踪在其上的所有操作，这样可以用链式法则进行梯度传播

完成计算后，可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到.grad属性中。


注意在y.backward()时，如果y是标量，则不需要为backward()传入任何参数；否则，需要传入一个与y同形的Tensor

如果不想要被继续追踪，可以调用.detach()将其从追踪记录中分离出来，这样就可以防止将来的计算被追踪，这样梯度就传不过去了。此外，还可以用with torch.no_grad()将不想被追踪的操作代码块包裹起来，这种方法在评估模型的时候很常用，因为在评估模型时，我们并不需要计算可训练参数（requires_grad=True）的梯度。

Function是另外一个很重要的类。Tensor和Function互相结合就可以构建一个记录有整个计算过程的有向无环图（DAG）。每个Tensor都有一个.grad_fn属性，该属性即创建该Tensor的Function, 就是说该Tensor是不是通过某些运算得到的，若是，则grad_fn返回一个与这些运算相关的对象，否则是None。

In [34]:
x = torch.ones(2, 2, requires_grad=True)
print(x)
print(x.grad_fn)


tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
None


In [35]:
y = x + 2
print(y)

y.grad_fn

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


<AddBackward0 at 0x1d1d6830100>

注意x是直接创建的，所以它没有grad_fn, 而y是通过一个加法操作创建的，所以它有一个为<AddBackward>的grad_fn。

像x这种直接创建的称为叶子节点，叶子节点对应的grad_fn是None

In [38]:
print(x.is_leaf, y.is_leaf) # True False


True False


再试试别的操作

In [36]:
z = y * y * 3
out = z.mean()
print(z, out)


tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


通过.requires_grad_()来用in-place的方式改变requires_grad属性：

In [37]:
a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False
a = ((a * 3) / (a - 1))
print(a.requires_grad) # False
a.requires_grad_(True)
print(a.requires_grad) # True
b = (a * a).sum()
print(b.grad_fn)


False
True
<SumBackward0 object at 0x000001D1D7A69D60>


### 梯度

梯度是微积分中的一个概念，它表示函数在某一点上的导数，如果函数有多个变量，梯度就是各个变量偏导数构成的向量。在深度学习中，我们通常对网络的损失函数计算梯度。这个梯度告诉我们，如果稍微改变函数的输入（在这个场景中是网络的权重），函数的输出（即损失）会如何变化。

在神经网络中，我们通过梯度下降法来更新网络的权重，目的是最小化损失函数。梯度指向了损失最快增加的方向，因此，我们通过在梯度的反方向上小步移动权重，来尝试减少损失。

在代码中，x 是一个张量，带有 requires_grad=True 属性，这意味着PyTorch将追踪它上面所有操作的梯度。当你对 out 调用 backward() 方法时，PyTorch会自动计算 out 关于 x 的梯度，并把它存储在 x.grad 中。

因为out是一个标量，所以调用backward()时不需要指定求导变量：

In [38]:
out = z.mean()
out.backward(retain_graph=True)


梯度的计算公式基于链式法则，对于 out 这个标量，它的梯度被定义为对 x 的偏导数。在你的例子中，out 是 z 的均值，而 z 又是 y 的函数，y 是 x 加2再乘以3的结果。所以，最终的梯度是这些操作组合起来对 x 的偏导数。

In [39]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


可以 pip install torchviz 

然后根据这个教程配置环境变量，配置完后要重启pycharm和anaconda

https://zhuanlan.zhihu.com/p/74796069

然后查看计算图

In [57]:
from torchviz import make_dot

# 定义一个2x2的张量x，初始化为1，并且需要计算梯度
x = torch.ones(2, 2, requires_grad=True)

# 对x做一个简单的运算
y = x + 2

# 再对y进行运算得到z
z = y * y * 3

# 对z取平均得到out
out = z.mean()

# 使用make_dot从out生成计算图的可视化
dot = make_dot(out, params=dict(x=x))

dot.render('./img/1_Digraph', format='png')

# 展示计算图
dot.view()


'img\\1_Digraph.pdf'

这里可以看到

<img src="./img/1-3.png">


1. 最顶层的蓝色方框代表了张量 x。这是一个形状为 (2, 2) 的张量，它是进行计算和需要求梯度的原始数据。

2. AccumulateGrad 表示这是一个需要梯度累加的张量。在PyTorch中，如果张量的 requires_grad 属性设置为 True，那么它会在反向传播过程中累积梯度。

3. AddBackward0 是一个操作的反向传播函数，表明在前向传播中有一个加法操作 y = x + 2。这里 2 是加法操作的另一个操作数。

4. 两个 MulBackward0 表示了两次乘法操作的反向传播函数。在前向传播中，先执行了 z = y * y，然后是 z = z * 3。

5. MeanBackward0 是取均值操作的反向传播函数。在前向传播中，执行了 out = z.mean() 来计算 z 的均值。

6. 最底层的绿色方框代表了标量输出，也就是 out。因为 out 是一个标量（单个数值），所以没有显示具体形状。

整个计算图展示了从输入 x 到输出 out 的前向计算流程，以及从 out 到 x 的梯度反向传播流程。当调用 out.backward() 时，梯度会沿着这些箭头的方向流动，计算每个参与前向传播计算的张量相对于 out 的梯度。在这个过程中，x.grad 会得到更新，包含了 out 相对于 x 的偏导数。

对于初学者来说，理解这张计算图的关键是将其视为说明如何从输入 x 计算输出 out 的一系列步骤，以及如何计算影响输出变化的每个输入元素的梯度。

In [51]:
out.backward(retain_graph=True)

print(x)
print(y)
print(z)

x.grad

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>)


tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

具体的过程可以看

.
<img src="./img/1-4.png">

可以自己试试看手算一遍就懂了

In [55]:
import torch

# 创建一个2x2的张量，并设置requires_grad=True来追踪其计算历史
x = torch.tensor([[2.0, 3.0], [4.0, 5.0]], requires_grad=True)

# 执行一系列张量操作
y = x + 2
z = y * y * 3
out = z.mean()

# 打印出创建的张量
print(f"Tensor x:\n{x}")
print(f"Tensor y (x + 2):\n{y}")
print(f"Tensor z (3 * y^2):\n{z}")
print(f"Tensor out (mean of z):\n{out}")

# 使用自动求导计算梯度
out.backward()

# 打印梯度 d(out)/dx
print(f"Gradient d(out)/dx:\n{x.grad}")

# 可视化计算图
try:
    from torchviz import make_dot
    dot = make_dot(out, params=dict(x=x))
    # 保存计算图到文件
    dot.render('./img/1_compute_graph', format='png')
    print("计算图已保存。")
except ImportError:
    print("torchviz库没有安装，无法可视化计算图。")
except Exception as e:
    print(f"计算图可视化时发生错误：{e}")


Tensor x:
tensor([[2., 3.],
        [4., 5.]], requires_grad=True)
Tensor y (x + 2):
tensor([[4., 5.],
        [6., 7.]], grad_fn=<AddBackward0>)
Tensor z (3 * y^2):
tensor([[ 48.,  75.],
        [108., 147.]], grad_fn=<MulBackward0>)
Tensor out (mean of z):
94.5
Gradient d(out)/dx:
tensor([[ 6.0000,  7.5000],
        [ 9.0000, 10.5000]])
计算图已保存。


### 总结

目前来看已经会了一些 PyTorch 的基础知识，包括

1. 张量操作：如何创建张量、对张量进行基本运算，以及改变张量的形状。这些是深度学习中数据操作的基本。
2. 自动求导：PyTorch的自动求导机制，这是神经网络训练中计算梯度的关键。requires_grad标志，它可以让PyTorch追踪对张量的所有操作，并且在反向传播时自动计算梯度。
3. 计算图和反向传播：使用 .backward() 方法实现反向传播，其会计算并更新网络的权重。计算图实际上是由节点(张量)和边(操作)构成的
4. 梯度：它是在给定点上函数增长最快的方向。在多维空间中，梯度是由偏导数组成的向量。在神经网络中，梯度是用来指导权重更新以最小化损失函数的。
5. 计算图可视化：使用torchviz库来可视化计算图，这有助于理解张量操作和梯度流动的过程。

In [56]:
dot.view()

'img\\1_compute_graph.pdf'

Q: "了解了requires_grad标志，它可以让PyTorch追踪对张量的所有操作，并且在反向传播时自动计算梯度。" 这里我还是有点不太理解，请讲解说明

A: 在PyTorch中，张量（Tensors）是神经网络中数据的基本组成部分。当设置了 requires_grad=True，PyTorch会开始追踪在这个张量上进行的所有操作（operation）。这意味着PyTorch会记录下操作的历史，以便稍后在反向传播过程中计算梯度。

A: 这个特性是深度学习中的自动微分的核心，它允许神经网络通过梯度下降算法来优化参数。在反向传播过程中，PyTorch通过计算图回溯，自动计算并存储每个 requires_grad=True 的张量的梯度。

A: 下面是一个代码例子，其中 x 是我们希望优化的参数，我们计算它的一些函数的输出 out，然后通过调用 out.backward() 来计算梯度：

In [58]:
import torch

# 创建一个张量x，设置requires_grad=True以跟踪其计算历史
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)

# 定义一个张量上的操作，比如一个多项式函数
y = x**2 + 2*x + 1

# 现在我们对y进行求和操作，得到一个标量输出
out = y.sum()

# 打印输出值
print(f"Out: {out}")

# 现在我们执行反向传播，PyTorch会自动计算梯度
out.backward()

# 打印梯度 d(out)/dx
print(f"Gradient d(out)/dx: {x.grad}")


Out: 54.0
Gradient d(out)/dx: tensor([ 4.,  6.,  8., 10.])


在上面的例子中，out 是 y 的总和。因为 out 是一个标量，所以调用 out.backward() 时不需要为其传递任何参数。PyTorch会计算 out 相对于所有 requires_grad=True 的张量（在这个例子中是 x）的梯度。在执行 out.backward() 之后，x.grad 会包含 out 相对于 x 的梯度。

<img src="./img/1-5.png">

In [61]:
x.grad

# y.grad # 会报错

tensor([ 4.,  6.,  8., 10.])

In [62]:
print(x.is_leaf, y.is_leaf) # True False

True False


Q: 另外是不是只能对叶子tensor求梯度，我刚试了下 y就没有 y.grad

A: 梯度是默认累积到叶子张量上的，叶子张量是指那些直接从数据创建的张量，它们的 requires_grad 属性被设置为 True。这些张量通常用于模型参数。

A: 当你执行计算并通过 .backward() 调用进行反向传播时，只有叶子张量的 .grad 属性会被填充。中间张量（即那些作为操作结果创建的张量，例如 y）的梯度默认是不保留的，因为这些梯度在大多数情况下不需要，且会占用大量内存。

A: 如果你希望访问非叶子张量的梯度，你可以使用 hook 方法来保留它。这是通过注册一个钩子（hook）函数来实现的，它将在反向传播过程中被调用。下面是一个如何注册钩子以保存 y 的梯度的例子：

In [63]:
import torch

# 创建一个张量x
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)

# 计算y
y = x ** 2

# 为了获取非叶子张量的梯度，我们使用.register_hook
# 这里我们打印y的梯度
hook = y.register_hook(lambda grad: print(f"Gradient of y: {grad}"))

# 计算z
z = y * 2

# 对z求和得到out
out = z.sum()

# 执行反向传播
out.backward()

# 移除hook
hook.remove()

# 由于x是叶子节点，它的梯度被保存在x.grad中
print(f"Gradient of x: {x.grad}")

Gradient of y: tensor([2., 2., 2., 2.])
Gradient of x: tensor([ 4.,  8., 12., 16.])


在这个代码示例中，y 不是叶子张量，因为它是由 x 经过操作得来的。通过使用 .register_hook() 方法，我们能够打印出在反向传播过程中 y 的梯度。

注意：通常情况下，我们并不需要手动操作这些中间梯度，除非你正在进行更高级的操作，比如实现自定义的梯度更新算法。在大多数深度学习应用中，只有叶子节点的梯度会被用来更新模型参数。