In [2]:
import torch
print("PyTorch 版本:", torch.__version__)
print("CUDA 是否可用:", torch.cuda.is_available())
print("可用的 CUDA 设备数量:", torch.cuda.device_count())

PyTorch 版本: 2.5.0+cu124
CUDA 是否可用: True
可用的 CUDA 设备数量: 1


### 1.Tensor基本概念
Tensor可以说是PyTorch里最重要的概念，PyTorch把对数据的存储和操作都封装在Tensor里。PyTorch里的模型训练的输入输出数据，模型的参数，都是用Tensor来表示的。Tensor在操作方面和NumPy的ndarray是非常类似的。不同的是Tensor还实现了像GPU计算加速，自动求导等PyTorch的核心功能。

In [3]:
import numpy as np

# 1D Tensor
t1 = torch.tensor([1, 2, 3])
print(t1)

# 2D Tensor
t2 = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(t2)

# 3D Tensor
t3 = torch.tensor([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(t3)

# 从 NumPy 创建 Tensor
arr = np.array([1, 2, 3])
t_np = torch.tensor(arr)
print(t_np)

tensor([1, 2, 3])
tensor([[1, 2, 3],
        [4, 5, 6]])
tensor([[[1, 2],
         [3, 4]],

        [[5, 6],
         [7, 8]]])
tensor([1, 2, 3])


在创建tensor时，PyTorch会根据你传入的数据，自动推断tensor的类型，当然，你也可以自己指定类型

In [4]:
t1 = torch.tensor((2,2),dtype=torch.float32)
print(t1)

tensor([2., 2.])


PyTorch里的数据类型，主要为：

整数型 torch.uint8、torch.int32、torch.int64。其中torch.int64为默认的整数类型。

浮点型 torch.float16、torch.bfloat16、 torch.float32、torch.float64，其中torch.float32为默认的浮点数据类型。

布尔型 torch.bool

在PyTorch里使用最广泛的就是浮点型tensor。其中torch.float32称为全精度，torch.float16/torch.bfloat16称为半精度。一般情况下模型的训练是在全精度下进行的。如果采用混合精度训练的话，会在某些计算过程中采用半精度计算。混合精度计算会节省显存占用以及提升训练速度。

PyTorch里没有字符串类型，因为Tensor主要关注于数值计算，并不需要支持字符串类型。

Bool类型在PyTorch里可以进行高效的索引选择，所以PyTorch支持Bool类型。比如Bool类型tensor进行索引操作示例如下：

In [5]:
x = torch.tensor([1, 2, 3, 4, 5])
mask = x > 2  # 生成一个布尔掩码
print(mask)   # tensor([False, False,  True,  True,  True])

# 用布尔掩码选出大于 2 的值
filtered_x = x[mask]
print(filtered_x)  # tensor([3, 4, 5])


# 用布尔掩码选出大于 2 的值,并赋值为0
x[mask]=0
print(x) # tensor([1, 2, 0, 0, 0])

tensor([False, False,  True,  True,  True])
tensor([3, 4, 5])
tensor([1, 2, 0, 0, 0])


在创建tensor时，你还可以指定tensor的设备。如果你不指定，默认是在CPU/内存上。如果你想创建一个GPU/显存上的tensor。可以通过把device关键字设定为“cuda”来指定。

In [6]:
t_gpu = torch.tensor([1,2,3],device="cuda")

In [10]:
shape = (2,3)
rand_tensor = torch.rand(shape) # 生成一个从[0,1]均匀抽样的tensor。
randn_tensor = torch.randn(shape) # 生成一个从标准正态分布抽样的tensor。
ones_tensor = torch.ones(shape) #生成一个值全为1的tensor。
zeros_tensor = torch.zeros(shape) # 生成一个值全为0的tensor。
twos_tensor = torch.full(shape, 2) #  生成一个值全为2的tensor。

print("rand_tensor:",rand_tensor)
print("randn_tensor:",randn_tensor)
print("ones_tensor:",ones_tensor)
print("zeros_tensor:",zeros_tensor)
print("twos_tensor:",twos_tensor)


rand_tensor: tensor([[0.3258, 0.9423, 0.8552],
        [0.2149, 0.4189, 0.7921]])
randn_tensor: tensor([[ 0.0417, -0.8296,  0.3751],
        [ 1.0237,  1.8611,  2.1555]])
ones_tensor: tensor([[1., 1., 1.],
        [1., 1., 1.]])
zeros_tensor: tensor([[0., 0., 0.],
        [0., 0., 0.]])
twos_tensor: tensor([[2, 2, 2],
        [2, 2, 2]])


### 2.Tensor的属性

In [14]:
tensor = torch.rand(3,4)

print(f"Shape of tensor: {tensor.shape}")
print(f"Datatype of tensor: {tensor.dtype}")
print(f"Device tensor is stored on: {tensor.device}")
print(f"requires_grad: \n {tensor.requires_grad}")

Shape of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32
Device tensor is stored on: cpu
requires_grad: 
 False


### 3.Tensor的操作

形状变换

在对Tensor进行操作的过程中，我们经常要对tensor进行形状的改变。这里我们介绍常用的一些操作。

x = torch.randn(4,4) #  生成一个形状为4x4的随机矩阵。

In [17]:
x = torch.randn(4,4) #  生成一个形状为4x4的随机矩阵。
x = x.reshape(2,8) # 通过reshape操作，可以将4x4的矩阵改变为2x8的矩阵。
print(x)

tensor([[ 0.1638, -0.9537,  1.6809, -2.0100, -1.5777, -0.9907, -0.1635,  0.9980],
        [-0.4567,  0.1301,  0.0367,  0.8249,  1.3055,  1.0466,  1.1066, -0.4691]])


上边通过reshape操作将4x4的矩阵改变为2x8的矩阵。你也可以将这个矩阵改为1x16的矩阵，只要元素个数一致就可以。

你可以通过permute函数来交换tensor的维度（转置），需要注意的是它的作用与reshape不同，reshape是按元素顺序重新组织维度，permute会改变元素的顺序。

In [18]:
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
print("shape:",x.shape)
x_reshape = x.reshape(3,2)
x_transpose = x.permute(1,0) #交换第0个和第1个维度。对于二维矩阵就是行列互换，进行转置。
print("reshape:",x_reshape)
print("permute:",x_transpose)

shape: torch.Size([2, 3])
reshape: tensor([[1, 2],
        [3, 4],
        [5, 6]])
permute: tensor([[1, 4],
        [2, 5],
        [3, 6]])


对于二维tensor，你可以调用tensor.t()方法进行转置操作。 有时，需要扩展tensor的维度，可以使用unsqueeze函数。

In [19]:
x = torch.tensor([[1,2,3],[4,5,6]])
#扩展第0维
x_0 = x.unsqueeze(0)
print(x_0.shape,x_0)
#扩展第1维
x_1 = x.unsqueeze(1)
print(x_1.shape,x_1)
#扩展第2维
x_2 = x.unsqueeze(2)
print(x_2.shape,x_2)

torch.Size([1, 2, 3]) tensor([[[1, 2, 3],
         [4, 5, 6]]])
torch.Size([2, 1, 3]) tensor([[[1, 2, 3]],

        [[4, 5, 6]]])
torch.Size([2, 3, 1]) tensor([[[1],
         [2],
         [3]],

        [[4],
         [5],
         [6]]])


你可以使用tensor的squeeze方法来缩减tensor的大小为1的维度。你可以指定需要缩减的维度索引，如果不指定，则会缩减所有大小为1的维度。

In [21]:
x = torch.ones((1,1,3))
print(x.shape, x)
y = x.squeeze(dim=0)
print(y.shape, y)
z = x.squeeze()
print(z.shape, z)

torch.Size([1, 1, 3]) tensor([[[1., 1., 1.]]])
torch.Size([1, 3]) tensor([[1., 1., 1.]])
torch.Size([3]) tensor([1., 1., 1.])


#### 3.1数学运算

In [22]:
a = torch.ones((2,3))
b = torch.ones((2,3))

print(a + b)  # 加法
print(a - b)  # 减法
print(a * b)  # 逐元素乘法
print(a / b)  # 逐元素除法
print(a @ b.t())  # 矩阵乘法

tensor([[2., 2., 2.],
        [2., 2., 2.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[3., 3.],
        [3., 3.]])


#### 3.2统计函数

一个tensor中包含多个元素，对这些元素可以进行统计操作。比如通过tensor.sum()求和，通过tensor.mean()求均值，通过tensor.std()求标准差，通过tensor.min()求最小值等。

以计算均值为例，对于一个3x2的tensor，我们可以整体求均值，也可以统计每一行的均值，或者每一列的均值。

Tensor指定统计的维度，意味着要“消灭”这个维度。比如指定dim=0意味着，统计结果要“消灭”行这个维度，各个列的值在不同行上进行统计。

如果你想让tensor对某一维度进行统计后，保持原来的维度不变，不会“消灭”统计的维度。你可以指定参数keepdim=True。t1.mean(dim=0,keepdim=True)结果的shape为(1,2)


In [25]:
import torch

t = torch.tensor([[1.0, 3.0], [1.0, 3.0], [1.0, 3.0]])

mean = t.mean()
print("mean:", mean)

mean = t.mean(dim=0)
print("mean on dim 0:", mean)

mean = t.mean(dim=0, keepdim=True)
print("keepdim:", mean)

mean: tensor(2.)
mean on dim 0: tensor([1., 3.])
keepdim: tensor([[1., 3.]])


#### 3.3索引和切片
和python里的序列数据类似，tensor也支持索引和切片操作。

In [26]:
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(x[0, 1])  # 访问第一行第二个元素
print(x[:, 1])  # 访问第二列
print(x[1, :])  # 访问第二行
print(x[:, :2])  # 访问前两列

tensor(2)
tensor([2, 5])
tensor([4, 5, 6])
tensor([[1, 2],
        [4, 5]])


#### 3.4 广播机制

原则上来说，tensor的所有的逐元素运算都要求两个tensor的形状必须完全一致。比如对于tensorA和tensorB进行逐元素计算，只有tensorA的形状与tensorB的形状完全一致。才能保证tensorA的每个元素都有与之对应的tensorB的元素来进行计算。

但在实际中，假如我们有一个tensor：t1。t1的shape为（3，2）。我们想给t1的每个元素都加上1。此时我们不必构造一个shape为（3,2），元素全为1的tensor再进行相加。我们可以直接写 t1 +1，PyTorch内部会虚拟扩展出一个形状为（3,2）的tensor，再和t1相加。这种机制，就是广播机制。需要注意的是，PyTorch 在进行广播计算时，并不会真的复制数据，而是通过调整张量的索引方式（Strided Memory Access）来实现逐元素计算。从而节省大量的存储，提高计算效率。示例代码如下：

In [28]:
t1 = torch.randn((3,2))
print(t1)
t2 = t1 + 1 # 广播机制
print(t2)

tensor([[ 0.8741, -0.4695],
        [ 0.8999,  0.5185],
        [-0.8849,  0.6084]])
tensor([[1.8741, 0.5305],
        [1.8999, 1.5185],
        [0.1151, 1.6084]])
