### 张量（Tensor）
张量（Tensor）是pytorch中的基本单位，也是深度学习框架构成的重要组成。  
我们可以先把张量看做是⼀个容器，⾥⾯承载了需要运算的数据

In [2]:
import torch 
import numpy as np

In [3]:
# data = torch.tensor([[1, 2],[ 4, 5]])
data = torch.tensor([(1, 2),(4, 5)])
data

tensor([[1, 2],
        [4, 5]])

In [4]:
# np_array = np.array([(1, 2),(4, 5)])
np_array = np.array(data)
print(np_array)
print()
data2 = torch.tensor(np_array)
print(data2)

[[1 2]
 [4 5]]

tensor([[1, 2],
        [4, 5]])


In [5]:
# 通过已知张量维度创建新张量,新张量保留参数张量的属性（形状、数据类型）。
data3 = torch.ones_like(data2)
print(data3)

data3 = torch.zeros_like(data2)
print(data3)
print(data3.dtype)

data3 = torch.zeros_like(data2, dtype=torch.float)
print(data3.dtype)

tensor([[1, 1],
        [1, 1]])
tensor([[0, 0],
        [0, 0]])
torch.int64
torch.float32


shape 是张量维度的元组。在下⾯的函数中，它决定了输出张量的维度。

In [6]:
shape = (2,3)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

Random Tensor: 
 tensor([[0.7564, 0.5553, 0.8386],
        [0.1841, 0.8312, 0.0739]]) 

Ones Tensor: 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]])


In [7]:
# 基于现有tensor构建，但使⽤新值填充
m = torch.ones(5,3, dtype=torch.double)  # 生成5x3的浮点型全1矩阵
print(m)
print(m.size) # 获取tensor的⼤⼩
print()
n = torch.rand_like(m, dtype=torch.float)
print(n,n.dtype,n.size())

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
<built-in method size of Tensor object at 0x000001EFC4D4F1A0>

tensor([[0.1008, 0.4025, 0.4114],
        [0.5642, 0.2037, 0.1494],
        [0.4201, 0.2615, 0.0635],
        [0.6632, 0.3699, 0.1394],
        [0.5332, 0.3067, 0.8182]]) torch.float32 torch.Size([5, 3])


In [8]:
# 均匀分布
torch.rand(5,3)

tensor([[0.5585, 0.1228, 0.8188],
        [0.1822, 0.3175, 0.5424],
        [0.3630, 0.2778, 0.8189],
        [0.2753, 0.3020, 0.3211],
        [0.5505, 0.4595, 0.0981]])

In [9]:
# 标准正态分布  (normal distribution 正态分布)
torch.randn(5,3)

tensor([[ 1.3786, -0.4535, -0.5371],
        [ 0.1719,  0.1824,  1.2695],
        [ 0.8040, -0.2274,  1.7973],
        [ 1.7851,  0.2618,  0.4073],
        [-1.5485, -0.8264, -1.0368]])

In [10]:
# 离散正态分布
torch.normal(mean=.0,std=1.0,size=(5,3))

tensor([[ 0.9606, -0.7533, -1.0049],
        [ 1.1916, -2.6802, -0.5919],
        [ 0.8588, -0.9147, -0.5612],
        [-0.0407,  0.3067,  0.0169],
        [ 0.8102, -0.4456, -1.0362]])

In [11]:
# 线性间隔向量(返回⼀个1维张量，包含在区间start和end上均匀间隔的steps个点)
torch.linspace(start=1,end=10,steps=21)

tensor([ 1.0000,  1.4500,  1.9000,  2.3500,  2.8000,  3.2500,  3.7000,  4.1500,
         4.6000,  5.0500,  5.5000,  5.9500,  6.4000,  6.8500,  7.3000,  7.7500,
         8.2000,  8.6500,  9.1000,  9.5500, 10.0000])

张量的属性

In [12]:
tensor = torch.rand(3,4)
print(f"Shape of tensor: {tensor.shape}")
print(f"size of tensor: {tensor.size}")
print(f"size of tensor: {tensor.size()}")
print(f"Datatype of tensor: {tensor.dtype}")
print(f"Device tensor is stored on: {tensor.device}")

Shape of tensor: torch.Size([3, 4])
size of tensor: <built-in method size of Tensor object at 0x000001EFC4D4E4D0>
size of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32
Device tensor is stored on: cpu


In [13]:
# 是否支持GPU
print(torch.cuda.is_available())

if torch.cuda.is_available():
    device = torch.device("cuda")  # a CUDA device object
    tensor.to(device) # 通过tensor.to("cuda") 将tensor移到GPU上


False


张量的索引和切⽚

In [14]:
tensor = torch.ones(4, 4)
print('First row: ', tensor[0])
print('First column: ', tensor[:, 0])
print('Last column:', tensor[..., -1])
tensor[:,1] = 0  # 用 0 填充第二列
print(tensor)

First row:  tensor([1., 1., 1., 1.])
First column:  tensor([1., 1., 1., 1.])
Last column: tensor([1., 1., 1., 1.])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


张量的拼接

In [15]:
t1 = torch.cat([tensor, tensor, tensor], dim=1) 
# dim=1 指定了沿 第 1 维（列方向） 进行拼接。
print(t1)

tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])


In [16]:
t2 = torch.cat([tensor, tensor], dim=0) 
# dim=1 指定了沿 第 0 维（行方向） 进行拼接。
print(t2)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [17]:
# torch.stack  沿着一个新的维度对张量序列进行拼接操作

# 创建两个 2x3 的张量
tensor1 = torch.tensor([[1, 2, 3], [4, 5, 6]])
tensor2 = torch.tensor([[7, 8, 9], [10, 11, 12]])

# 沿着维度 0 进行堆叠
stacked_tensor_0 = torch.stack([tensor1, tensor2], dim=0)
print("沿着维度 0 堆叠后的形状:", stacked_tensor_0.shape)
print("沿着维度 0 堆叠后的结果:\n", stacked_tensor_0)

# 沿着维度 1 进行堆叠
stacked_tensor_1 = torch.stack([tensor1, tensor2], dim=1)
print("沿着维度 1 堆叠后的形状:", stacked_tensor_1.shape)
print("沿着维度 1 堆叠后的结果:\n", stacked_tensor_1)

# 沿着维度 2 进行堆叠
stacked_tensor_2 = torch.stack([tensor1, tensor2], dim=2)
print("沿着维度 2 堆叠后的形状:", stacked_tensor_2.shape)
print("沿着维度 2 堆叠后的结果:\n", stacked_tensor_2)

沿着维度 0 堆叠后的形状: torch.Size([2, 2, 3])
沿着维度 0 堆叠后的结果:
 tensor([[[ 1,  2,  3],
         [ 4,  5,  6]],

        [[ 7,  8,  9],
         [10, 11, 12]]])
沿着维度 1 堆叠后的形状: torch.Size([2, 2, 3])
沿着维度 1 堆叠后的结果:
 tensor([[[ 1,  2,  3],
         [ 7,  8,  9]],

        [[ 4,  5,  6],
         [10, 11, 12]]])
沿着维度 2 堆叠后的形状: torch.Size([2, 3, 2])
沿着维度 2 堆叠后的结果:
 tensor([[[ 1,  7],
         [ 2,  8],
         [ 3,  9]],

        [[ 4, 10],
         [ 5, 11],
         [ 6, 12]]])


张量的算数运算

In [21]:
tensor

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])

torch.matmul 执行的是矩阵乘法，遵循矩阵乘法的规则，要求两个张量的维度满足一定的条件（例如，第一个张量的列数要等于第二个张量的行数）  
torch.matmul(input, other, out=None)  
input：必需参数，第一个参与矩阵乘法的张量。  
other：必需参数，第二个参与矩阵乘法的张量。input 和 other 的形状需要满足矩阵乘法的规则或者可以通过广播机制使其满足规则。  
out：可选参数，用于指定输出的张量。如果提供了该参数，计算结果会存储在这个张量中。 

In [18]:
# 计算两个张量之间矩阵乘法的⼏种⽅式。 y1, y2, y3 最后的值是⼀样的 dot
y1 = tensor @ tensor.T
y2 = tensor.matmul(tensor.T)
y3 = torch.rand_like(tensor)
print(y1)
print(y2)
print(y3)

tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])
tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])
tensor([[0.6577, 0.3250, 0.3863, 0.5203],
        [0.4745, 0.1535, 0.2023, 0.0663],
        [0.4033, 0.0766, 0.7464, 0.3850],
        [0.0417, 0.5896, 0.9003, 0.9706]])


In [None]:
torch.matmul(tensor, tensor.T, out=y3) 
# out=y3 是一个可选参数，其作用是指定将矩阵乘法的结果存储到 y3 这个张量中

tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])

In [22]:
y3

tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])

torch.mul 是 PyTorch 中的一个函数，用于执行按元素相乘（也称为逐元素相乘或哈达玛积）的操作。  
torch.mul(input, other, out=None)  
input：这是必需的参数，表示第一个输入的张量。  
other：同样是必需的参数，代表第二个输入的张量或者一个标量值。如果 other 是张量，它需要和 input 能够进行广播操作；如果是标量，会将该标量与 input 中的每个元素相乘。  
out：可选参数，用于指定输出的张量。如果提供了该参数，计算结果会存储在这个张量中。  

In [26]:
# 计算张量逐元素相乘的⼏种⽅法。 z1, z2, z3 最后的值是⼀样的。
z1 = tensor * tensor
z2 = tensor.mul(tensor)
z3 = torch.ones_like(tensor)
print(z1, z1.shape)
print(z2, z2.shape)
print(z3*2, z3.shape)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) torch.Size([4, 4])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) torch.Size([4, 4])
tensor([[2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.]]) torch.Size([4, 4])


In [None]:
torch.mul(tensor, tensor, out=z3)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])

mul 乘法  multiplication    
matnul 矩阵乘法  matrix multiplication

In [25]:
tensor1 = torch.tensor([[1, 2], [3, 4]])
tensor2 = torch.tensor([[2, 2], [2, 2]])
mul_result = torch.mul(tensor1, tensor2)
matmul_result = torch.matmul(tensor1, tensor2)
print("torch.mul 结果:")
print(mul_result)
print("torch.matmul 结果:")
print(matmul_result)

torch.mul 结果:
tensor([[2, 4],
        [6, 8]])
torch.matmul 结果:
tensor([[ 6,  6],
        [14, 14]])


单元素张量  
有时候需要将结果还原成传统的python数据结构，比如list，tuple，dict等,或者说还原成numpy数组，这时候就需要用到单元素张量。   
为什么需要转换结果  
在深度学习模型训练和推理过程中，使用 PyTorch 的张量可以利用 GPU 加速计算，提高效率。然而，当我们完成计算后，可能需要将结果展示给用户、保存到文件或者与其他不支持张量数据结构的库进行交互，这时就需要将张量转换为 Python 原生数据结构或 NumPy 数组。

item() 方法的主要功能是将只包含一个元素的张量转换为 Python 的标量（如整数或浮点数）。  
使用场景  
损失值提取：在深度学习模型训练过程中，通常会计算损失值，这个损失值往往存储在一个单元素张量中。为了记录损失值、打印日志或者与其他 Python 代码交互，就需要使用 item() 方法将其转换为 Python 标量。  
评估指标计算：在模型评估时，某些评估指标（如准确率、召回率等）可能在计算过程中以单元素张量的形式存在，使用 item() 可以方便地将其转换为可用于后续分析的 Python 标量。

In [None]:
# 单元素张量转换为 Python 标量
import torch

# 创建一个单元素张量
single_element_tensor = torch.tensor([3.14])

# 将单元素张量转换为 Python 标量
python_scalar = single_element_tensor.item()
print("Python 标量:", python_scalar)
print("数据类型:", type(python_scalar))

Python 标量: 3.140000104904175
数据类型: <class 'float'>


numpy() 方法用于将 PyTorch 张量转换为 NumPy 数组。这样做可以利用 NumPy 丰富的科学计算功能对张量数据进行进一步处理，同时也方便与其他依赖于 NumPy 数组的库进行交互。  
使用场景  
数据可视化：许多数据可视化库（如 Matplotlib）更适合处理 NumPy 数组。当需要对 PyTorch 张量中的数据进行可视化时，可以先使用 numpy() 方法将其转换为 NumPy 数组，再进行绘图操作。  
与 NumPy 库交互：NumPy 提供了大量的数学函数和操作，在进行一些复杂的数值计算时，如果 PyTorch 没有直接对应的功能，可以将张量转换为 NumPy 数组，使用 NumPy 的函数进行计算。  
模型评估：在模型评估阶段，可能需要使用一些基于 NumPy 实现的评估指标计算函数。将模型输出的 PyTorch 张量转换为 NumPy 数组后，就可以方便地使用这些函数进行评估。

In [35]:
# 多元素张量转换为 Python 列表或 NumPy 数组
import torch
import numpy as np

# 创建一个多元素张量
multi_element_tensor = torch.tensor([[1, 2, 3, 4, 5],[1, 2, 3, 4, 5],[1, 2, 3, 4, 5]])


# 将多元素张量转换为 NumPy 数组
numpy_array = multi_element_tensor.numpy()
print("NumPy 数组:\n", numpy_array)
print("数据类型:", type(numpy_array))

NumPy 数组:
 [[1 2 3 4 5]
 [1 2 3 4 5]
 [1 2 3 4 5]]
数据类型: <class 'numpy.ndarray'>


tolist() 方法的主要功能是将 PyTorch 张量转换为嵌套的 Python 列表，转换后的列表元素的数据类型会根据原张量的数据类型进行相应转换。  
例如，若原张量是浮点型，转换后的列表元素为 Python 的浮点数；若原张量是整型，转换后的列表元素为 Python 的整数。  
使用场景  
数据序列化：当需要把张量数据保存为 JSON 等格式时，由于这些格式通常要求数据为 Python 的原生数据结构，此时可以使用 tolist() 方法将张量转换为列表，方便进行序列化操作。  
数据展示：在打印和展示张量数据时，Python 列表的格式更加直观，便于查看和调试。将张量转换为列表后，可以更清晰地看到数据的具体内容。  
与 Python 库交互：部分 Python 库可能只支持 Python 列表作为输入，使用 tolist() 方法可以使 PyTorch 张量数据能够与这些库进行交互。  

In [36]:

# 将多元素张量转换为 Python 列表
python_list = multi_element_tensor.tolist()
print("Python 列表:\n", python_list)
print("数据类型:", type(python_list))

Python 列表:
 [[1, 2, 3, 4, 5], [1, 2, 3, 4, 5], [1, 2, 3, 4, 5]]
数据类型: <class 'list'>


“in - place” 指的是原地操作  
直接在原数据对象上进行修改，而不额外创建新的对象来存储结果  
优点：节省内存，提高效率  
缺点：修改原数据对象，可能会影响其他引用该对象的地方，数据丢失的风险，代码可读性差

In [39]:
import torch

# 创建一个张量
x = torch.tensor([1, 2, 3])

# 原地加法操作
x.add_(2)
print("原地加法操作后的张量:", x)

原地加法操作后的张量: tensor([3, 4, 5])


# 计算图

In [None]:
import torch
from torchviz import make_dot
# 定义矩阵 A，向量 b 和常数 c
# randn 生成服从标准正态分布（均值为 0，标准差为 1 的正态分布）的随机张量的函数
A = torch.randn(5, 5,requires_grad=True) # requires_grad=True 表示要对A求导
b = torch.randn(5,requires_grad=True)
c = torch.randn(1,requires_grad=True)
x = torch.randn(5, requires_grad=True)
print(A)
print(b)
print(c)
print(x)

tensor([[-0.5032, -0.7186, -1.5596,  0.5872,  0.6048],
        [-0.9052,  1.6010, -1.1181, -0.7012, -0.5280],
        [ 2.7515, -1.1802, -0.2904, -0.6993, -0.3386],
        [ 1.3986, -1.6924, -2.2190,  0.5322, -1.2768],
        [ 0.1539,  0.5086,  0.4471, -0.7655, -0.7958]], requires_grad=True)
tensor([-0.1968,  1.7218, -0.3845, -0.4743,  0.2547], requires_grad=True)
tensor([0.1839], requires_grad=True)
tensor([-1.0170,  0.4813, -0.1746, -0.8022,  0.2716], requires_grad=True)


In [66]:

# 计算 x^T * A + b * x + c
result = torch.matmul(A, x.T) + torch.matmul(b, x) + c
# ⽣成计算图节点
dot = make_dot(result, params={'A': A, 'b': b, 'c': c, 'x': x})
# 绘制计算图
dot.render('expression', format='png', cleanup=True, view=False)

'expression.png'

### 计算图
在 PyTorch 中，计算图是一个非常核心的概念，它是实现自动求导机制的基础。  

定义
计算图是一种有向无环图（DAG），用于表示数学表达式的计算过程。在 PyTorch 里，每个节点代表一个操作（如加法、乘法等），每条边代表操作之间的数据流动，即一个操作的输出作为另一个操作的输入。通过计算图，PyTorch 可以清晰地记录张量之间的计算关系，从而实现自动求导。  

类型  
动态计算图：PyTorch 使用的是动态计算图。动态计算图意味着在程序运行时动态构建计算图。这使得代码更加灵活，开发者可以根据不同的条件、循环等来动态改变计算图的结构。例如，在一个神经网络中，可以根据输入数据的不同，选择不同的网络层进行计算，计算图会根据实际的计算流程动态生成。  

In [67]:
# 构建过程 ：当在 PyTorch 中对张量进行操作时，计算图会自动构建。
import torch
from torchviz import make_dot  # torchviz 一个用于可视化 PyTorch 计算图的工具库

# 创建两个需要进行梯度计算的张量
# requires_grad=True，表示需要对它们进行梯度计算。 即求导
x = torch.tensor([2.0], requires_grad=True) 
y = torch.tensor([3.0], requires_grad=True) 
print(x)
print(y)

tensor([2.], requires_grad=True)
tensor([3.], requires_grad=True)


In [68]:
# 进行计算操作
z = x + y  # 此时 PyTorch 会自动构建一个计算图节点来表示加法操作
w = z * 2  # 又会在计算图中添加一个乘法操作节点

print("z:", z)
print("w:", w)

z: tensor([5.], grad_fn=<AddBackward0>)
w: tensor([10.], grad_fn=<MulBackward0>)


#### 工作原理
##### 前向传播
在进行前向传播时，程序会按照计算图中节点的顺序依次执行操作，从输入张量开始，逐步计算出最终的输出张量。  
例如在上面的例子中，先计算 x + y 得到 z，再计算 z * 2 得到 w。
##### 反向传播（梯度更新）
当需要计算梯度时，会进行反向传播。反向传播从计算图的输出节点开始，根据链式法则，依次计算每个节点对应的梯度。  
例如，要计算 w 关于 x 和 y 的梯度，会从 w 节点开始，沿着计算图反向传播，利用链式法则计算出 w 对 z 的梯度，再进一步计算出 w 对 x 和 y 的梯度。可以使用 backward() 方法来触发反向传播：

In [69]:
# 进行反向传播
# 在调用 w.backward() 后，PyTorch 会自动计算 w 关于 x 和 y 的梯度，并将结果存储在 x.grad 和 y.grad 中。
w.backward()

# 查看梯度
print("x 的梯度:", x.grad)
print("y 的梯度:", y.grad)
# print("z 的梯度:", z.grad) 非叶子张量（non - leaf Tensor）
# 在 PyTorch 的自动求导机制里，反向传播（autograd.backward()）时默认只会为叶子张量（leaf Tensor）填充梯度信息，非叶子张量的 .grad 属性不会被自动填充。

x 的梯度: tensor([2.])
y 的梯度: tensor([2.])
