首先，先确保pytorch已经安装在我们的环境内，通过如下的命令导入torch，并获取pytorch的版本以及运行环境是cpu还是cuda

In [1]:
import torch
import numpy as np
torch.__version__

'2.3.1+cu121'

数据在深度学习里都被我们表示为了tensor张量，比如一张图片就是一个`三维`的tensor张量，比如`[3, 512, 512]`,每个维度的含义分别是`颜色通道数`，`图像高度`，`图像宽度`，可统一表示为`[color channels, height, weight]`。下面我们详细的研究一下pytorch中`标量`，`向量`，`矩阵`，`张量`的一些基本概念

In [2]:
# Scalar标量
scalar = torch.tensor(7)
scalar

tensor(7)

In [3]:
# 可以通过ndim属性查看一下scalar的维度
print(f"维度: {scalar.ndim}")
# 可以通过item方法查看一下scalasr中的元素项，该方法只有一个元素时才可以使用
print(f"元素项: {scalar.item()}")

维度: 0
元素项: 7


In [4]:
# Vector向量
vector = torch.tensor([7, 7])
vector

tensor([7, 7])

In [5]:
# 可以通过ndim属性查看一下vector的维度
print(f"维度: {vector.ndim}")
# 可以通过shape属性查看一下vector的形状
print(f"形状: {vector.shape}")

维度: 1
形状: torch.Size([2])


In [6]:
# Matrix矩阵
matrix = torch.tensor([[7, 8],
                       [9, 10]])
matrix

tensor([[ 7,  8],
        [ 9, 10]])

In [7]:
# 可以通过ndim属性查看一下matrix的维度
print(f"维度: {matrix.ndim}")
# 可以通过shape属性查看一下matrix的形状
print(f"形状: {matrix.shape}")

维度: 2
形状: torch.Size([2, 2])


In [8]:
# Tensor 张量
tensor = torch.tensor([[[1, 2, 3],
                        [4, 5, 6],
                        [7, 8, 9]]])
tensor

tensor([[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]])

In [9]:
# 可以通过ndim属性查看一下tensor的维度
print(f"维度: {tensor.ndim}")
# 可以通过shape属性查看一下tensor的形状
print(f"形状: {tensor.shape}")

维度: 3
形状: torch.Size([1, 3, 3])


了解了张量相关的基本概念之后，我们接下来学习`随机张量`，`元素全为0的张量`，`元素全为1的张量`三种常用的张量形式

In [10]:
# 创建一个(3, 64, 64)的随机张量
random_tensor = torch.rand(size=(3, 64, 64))
# 查看随机张量的形状，维度，数据类型
random_tensor.shape, random_tensor.ndim, random_tensor.dtype

(torch.Size([3, 64, 64]), 3, torch.float32)

In [11]:
# 创建一个和随机张量形状相同的，元素全为0的张量
zeros_tensor = torch.zeros(size=random_tensor.shape)
# 查看元素全为0的张量的形状，维度，数据类型
zeros_tensor.shape, zeros_tensor.ndim, random_tensor.dtype

(torch.Size([3, 64, 64]), 3, torch.float32)

In [12]:
# 创建一个和随机向量形状相同，元素全为1的张量
ones_tensor = torch.ones_like(random_tensor)
# 查看元素全为0的张量的形状，维度，数据类型
ones_tensor.shape, ones_tensor.ndim, random_tensor.dtype

(torch.Size([3, 64, 64]), 3, torch.float32)

有时候我们还需要元素大小线性变化的向量用于图像绘制，采样等目的，为此我们还要引入创建这种类型向量的方法

In [13]:
# 使用torch.range(start, end, step)创建一个元素大小线性变化的向量, 其中:
# start指的是range的开始值
# end指的是range的结束值
# step指的是两个元素之间的间隔
zero_to_ten = torch.arange(start=0, end=10, step=1)
zero_to_ten

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
# 查看创建的range的形状，维度，数据类型
zero_to_ten.shape, zero_to_ten.ndim, random_tensor.dtype

(torch.Size([10]), 1, torch.float32)

## 张量数据类型
PyTorch 中有许多不同的张量数据类型。有些是专门用于 CPU 的，有些则更适合 GPU。通常，如果您在任何地方看到torch.cuda，就说明该张量正用于 GPU（因为英伟达 GPU 使用一种名为 CUDA 的计算工具包）。最常见的类型（通常也是默认类型）是torch.float32或torch.float，它被称为 “32 位浮点数”。但也有 16 位浮点数（torch.float16或torch.half）和 64 位浮点数（torch.float64或torch.double）。更复杂的是，还有 8 位、16 位、32 位和 64 位的整数，此外还有更多其他类型！
> **注意:** 整数是像7这样的整数，而浮点数带有小数点，如7.0。存在这么多类型的原因与计算精度有关。精度是描述一个数字所使用的细节量。精度值（8、16、32）越高，表达一个数字所使用的细节和数据就越多。这在深度学习和数值计算中很重要，因为您要进行大量运算，计算时使用的细节越多，所需的计算资源就越多。因此，低精度数据类型通常计算速度更快，但会在准确率等评估指标上牺牲一些性能（计算更快但精度更低）。

In [15]:
# 默认的tensor数据类型是float32
float_32_tensor = torch.tensor([3.0, 6.0, 9.0],
                               dtype=None,
                               device=None,
                               requires_grad=False)

float_32_tensor.shape, float_32_tensor.dtype, float_32_tensor.device

(torch.Size([3]), torch.float32, device(type='cpu'))

ok，我们这里先简单的说明一下张量的数据类型，下面我们进入张量的运算。

In [16]:
# 形状相同的两个张量之间可以直接进行张量加法，减法，以及逐元素对于相乘
tensor_a = torch.tensor([[1, 2, 3],
                        [4, 5, 6]])
tensor_b = torch.tensor([[2, 4, 6],
                        [1, 3, 7]])
x = tensor_a + tensor_b
y = tensor_a - tensor_b
z = tensor_a * tensor_b
print(f"tensor_a + tensor_b = {x}")
print(f"tensor_a - tensor_b = {y}")
print(f"tensor_a * tensor_b = {z}")

tensor_a + tensor_b = tensor([[ 3,  6,  9],
        [ 5,  8, 13]])
tensor_a - tensor_b = tensor([[-1, -2, -3],
        [ 3,  2, -1]])
tensor_a * tensor_b = tensor([[ 2,  8, 18],
        [ 4, 15, 42]])


In [17]:
# tensor还可以与标量通过广播运算实现加法，减法，乘法
tensor_c = torch.tensor([[1, 2, 3],
                        [4, 5, 6]])
x = tensor_c + 10
y = tensor_c - 10
z = tensor_c * 10
print(f"tensor_c + tensor_b = {x}")
print(f"tensor_c - 10 = {y}")
print(f"tensor_c * 10 = {z}")

tensor_c + tensor_b = tensor([[11, 12, 13],
        [14, 15, 16]])
tensor_c - 10 = tensor([[-9, -8, -7],
        [-6, -5, -4]])
tensor_c * 10 = tensor([[10, 20, 30],
        [40, 50, 60]])


In [18]:
# 上述的加法操作可以直接使用add()方法，减法操作可以直接使用sub()方法，乘法操作可以直接使用mul()方法
x = torch.add(tensor_a, tensor_b)
y = torch.sub(tensor_c, 10)
z = torch.mul(tensor_a, tensor_b)
print(f"tensor_a + tensor_b = {x}")
print(f"tensor_c - 10 = {y}")
print(f"tensor_a * tensor_b = {z}")

tensor_a + tensor_b = tensor([[ 3,  6,  9],
        [ 5,  8, 13]])
tensor_c - 10 = tensor([[-9, -8, -7],
        [-6, -5, -4]])
tensor_a * tensor_b = tensor([[ 2,  8, 18],
        [ 4, 15, 42]])


In [19]:
# 同样的我们还可以实现点积运算，内积运算和矩阵乘法
vector_a = torch.tensor([1, 2, 3])
vector_b = torch.tensor([4, 5, 6])
x = vector_a @ vector_b
y = torch.matmul(vector_a, vector_b)
print(f"向量a与向量b的点积运算结果如下：{x}")
print(f"向量a与向量b的点积运算结果如下：{y}")
x = vector_a @ vector_a
y = torch.matmul(vector_a, vector_a)
print(f"向量a的内积运算结果如下：{x}")
print(f"向量a的内积运算结果如下：{y}")
matrix_a = torch.tensor([[1, 2, 3],
                         [4, 5, 6]])
matrix_b = torch.tensor([[1, 2],
                         [3, 4],
                         [5, 6]])
x = matrix_a @ matrix_b
y = torch.matmul(matrix_a, matrix_b)
print(f"矩阵a与矩阵b的乘积运算结果如下：{x}")
print(f"矩阵a与矩阵b的乘积运算结果如下：{y}")
x = matrix_a @ matrix_a.T
y = torch.matmul(matrix_a, matrix_a.T)
print(f"矩阵a与矩阵a的转置的乘积运算结果如下：{x}")
print(f"矩阵a与矩阵a的转置的乘积运算结果如下：{y}")
# 矩阵还可以使用mm()方法进行矩阵乘法
x = torch.mm(matrix_a, matrix_b)
y = torch.mm(matrix_a, matrix_a.T)
print(f"矩阵a与矩阵b的乘积运算结果如下：{x}")
print(f"矩阵a与矩阵a的转置的乘积运算结果如下：{y}")

向量a与向量b的点积运算结果如下：32
向量a与向量b的点积运算结果如下：32
向量a的内积运算结果如下：14
向量a的内积运算结果如下：14
矩阵a与矩阵b的乘积运算结果如下：tensor([[22, 28],
        [49, 64]])
矩阵a与矩阵b的乘积运算结果如下：tensor([[22, 28],
        [49, 64]])
矩阵a与矩阵a的转置的乘积运算结果如下：tensor([[14, 32],
        [32, 77]])
矩阵a与矩阵a的转置的乘积运算结果如下：tensor([[14, 32],
        [32, 77]])
矩阵a与矩阵b的乘积运算结果如下：tensor([[22, 28],
        [49, 64]])
矩阵a与矩阵a的转置的乘积运算结果如下：tensor([[14, 32],
        [32, 77]])


神经网络中充满了矩阵乘法和点积运算。
torch.nn.Linear()模块（我们稍后会实际操作它），也被称为前馈层或全连接层，它实现了输入x与权重矩阵A之间的矩阵乘法。
$$ y = xA^T+b $$
其中：
x是该层的输入（深度学习是由像torch.nn.Linear()这样的层以及其他层堆叠而成的）。

A是该层创建的权重矩阵，它最初是随机数，随着神经网络学习更好地表示数据中的模式而被调整（注意这里的 “T”，这是因为权重矩阵会被转置）。
> 注意：你可能也经常会看到用W或其他字母（如X）来表示权重矩阵。

b是偏置项，用于对权重和输入进行轻微偏移。

y是输出（对输入的一种处理，目的是发现其中的模式）。

In [20]:
# 为了可以使结果可复现，我们固定随机种子
torch.manual_seed(42)
# 创建一个线性层，本质上就是创建了一个矩阵A，会涉及到矩阵乘法
# 注意这里的in_feature需要和输入x的列匹配
linear = torch.nn.Linear(in_features=2,
                         out_features=6)
# 这里必须将x的类型设置为flaot32,或者元素写成float类型，不然x的默认类型会是int64
x = torch.tensor([[1, 2],
                  [3, 4],
                  [5, 6]], dtype=torch.float32)
output = linear(x)
print(f"x的形状为：{x.shape}")
print(f"输出为：{output}")
print(f"输出的形状为：{output.shape}")

x的形状为：torch.Size([3, 2])
输出为：tensor([[2.2368, 1.2292, 0.4714, 0.3864, 0.1309, 0.9838],
        [4.4919, 2.1970, 0.4469, 0.5285, 0.3401, 2.4777],
        [6.7469, 3.1648, 0.4224, 0.6705, 0.5493, 3.9716]],
       grad_fn=<AddmmBackward0>)
输出的形状为：torch.Size([3, 6])


ok，到现在为止基本的张量运算我们已经探讨完毕，接下来我们研究一下对于给定张量，如何求最大，最小，求平均，以及求和。

In [21]:
# 我们先来探究一下对于向量而言的最大，最小，平均以及求和
x = torch.arange(0, 100, 10)
x

tensor([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [22]:
print(f"Minimum: {x.min()}")
print(f"Maximum: {x.max()}")
print(f"最小元素对应索引：{x.argmin()}")
print(f"最大元素对应索引：{x.argmax()}")
# 注意求平均必须是float类型，此时的x是int64，必须进行类型转换
print(f"Mean: {x.type(torch.float32).mean()}")
print(f"Sum: {x.sum()}")

Minimum: 0
Maximum: 90
最小元素对应索引：0
最大元素对应索引：9
Mean: 45.0
Sum: 450


In [23]:
# 接下来我们再来看一看矩阵的最大，最小，平均以及求和
x = torch.tensor([[1, 5, 3, 8],
                  [4, 2, 6, 1],
                  [3, 1, 7, 0]])
x

tensor([[1, 5, 3, 8],
        [4, 2, 6, 1],
        [3, 1, 7, 0]])

In [24]:
# 此时的最大，最小，平均以及求和就要考虑是对行，还是对列，分别对应dim=0，dim=1
print(f"对行求最小：{x.min(dim=0).values}")
print(f"对列求最小：{x.min(dim=1).values}")
print(f"对行求最小索引列表：{x.min(dim=0).indices}")
print(f"对列求最小索引列表：{x.min(dim=1).indices}")
print(f"对行求最大：{x.max(dim=0).values}")
print(f"对列求最大：{x.max(dim=1).values}")
print(f"对行求最大索引列表：{x.max(dim=0).indices}")
print(f"对列求最大索引列表：{x.max(dim=1).indices}")
print(f"对行求平均：{x.type(torch.float32).mean(dim=0)}")
print(f"对列求平均：{x.type(torch.float32).mean(dim=1)}")
print(f"对行求和：{x.sum(dim=0)}")
print(f"对列求和：{x.sum(dim=1)}")
# 当然也可以求所有元素的最小，最大，所有元素的平均，求和，去掉dim限制即可，这里不再继续说明
# 对于张量而言的话，搞清楚维度顺序即可，下面也不继续阐述

对行求最小：tensor([1, 1, 3, 0])
对列求最小：tensor([1, 1, 0])
对行求最小索引列表：tensor([0, 2, 0, 2])
对列求最小索引列表：tensor([0, 3, 3])
对行求最大：tensor([4, 5, 7, 8])
对列求最大：tensor([8, 6, 7])
对行求最大索引列表：tensor([1, 0, 2, 0])
对列求最大索引列表：tensor([3, 2, 2])
对行求平均：tensor([2.6667, 2.6667, 5.3333, 3.0000])
对列求平均：tensor([4.2500, 3.2500, 2.7500])
对行求和：tensor([ 8,  8, 16,  9])
对列求和：tensor([17, 13, 11])


接下来我们详细的讨论一下tensor的数据类型转化

In [25]:
# 下面两种方式定义的张量数据类型是不一样的
tensor_a = torch.arange(10., 100., 10.)
tensor_b = torch.arange(10, 100, 10)
tensor_a.dtype, tensor_b.dtype

(torch.float32, torch.int64)

In [26]:
# 通过type()方法可以改变张量的数据类型
tensor_a_float16 = tensor_a.type(torch.float16)
tensor_b_int8 = tensor_b.type(torch.int8)
tensor_a_float16.dtype, tensor_b_int8.dtype

(torch.float16, torch.int8)

有时候我们需要在张量内部值不变的情况下对张量进行`重塑`，`堆叠`，`维度调整`，那么就会涉及到`Reshape`, `view`, `permute`, `stack`, `squeeze`, `unsqueeze`这些操作，下面我们依次看一下这些操作带来的效果

In [27]:
# Reshape(),view()两种方法都可以对张量形状进行重塑
tensor = torch.tensor([[1, 2, 3],
                       [4, 5, 6],
                       [7, 8, 9],
                       [8, 7, 6]])
print(f"原来的张量是：{tensor}，原来的形状是：{tensor.shape}")
tensor_a = tensor.reshape(2, 6)
print(f"使用reshape重塑后的张量是：{tensor_a}, 重塑后的形状是：{tensor_a.shape}")
tensor_b = tensor.view(2, 6)
print(f"使用view重塑后的张量是：{tensor_b}, 重塑后的形状是：{tensor_b.shape}")

原来的张量是：tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9],
        [8, 7, 6]])，原来的形状是：torch.Size([4, 3])
使用reshape重塑后的张量是：tensor([[1, 2, 3, 4, 5, 6],
        [7, 8, 9, 8, 7, 6]]), 重塑后的形状是：torch.Size([2, 6])
使用view重塑后的张量是：tensor([[1, 2, 3, 4, 5, 6],
        [7, 8, 9, 8, 7, 6]]), 重塑后的形状是：torch.Size([2, 6])


In [28]:
# 我们还可以使用stack对张量进行堆叠
tensor = torch.tensor([[1, 2, 3],
                       [4, 5, 6],
                       [7, 8, 9]])
tensor_stack_0 = torch.stack([tensor, tensor, tensor], dim=0)
tensor_stack_1 = torch.stack([tensor, tensor, tensor], dim=1)
tensor_stack_2 = torch.stack([tensor, tensor, tensor], dim=2)
print(f"沿着dim0堆叠：\n{tensor_stack_0}")
print(f"沿着dim1堆叠：\n{tensor_stack_1}")
print(f"沿着dim2堆叠：\n{tensor_stack_2}")

沿着dim0堆叠：
tensor([[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]])
沿着dim1堆叠：
tensor([[[1, 2, 3],
         [1, 2, 3],
         [1, 2, 3]],

        [[4, 5, 6],
         [4, 5, 6],
         [4, 5, 6]],

        [[7, 8, 9],
         [7, 8, 9],
         [7, 8, 9]]])
沿着dim2堆叠：
tensor([[[1, 1, 1],
         [2, 2, 2],
         [3, 3, 3]],

        [[4, 4, 4],
         [5, 5, 5],
         [6, 6, 6]],

        [[7, 7, 7],
         [8, 8, 8],
         [9, 9, 9]]])


In [29]:
# 我们还可以使用squeeze()方法压缩张量，只保留大于1的维度
tensor = torch.tensor([[[1, 2, 3],
                        [4, 5, 6],
                        [7, 8, 9]]])
tensor_squeeze = tensor.squeeze()
print(f"原来的张量如下：{tensor}，形状如下：{tensor.shape}")
print(f"压缩后的张量如下：{tensor_squeeze}，形状如下：{tensor_squeeze.shape}")

原来的张量如下：tensor([[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]])，形状如下：torch.Size([1, 3, 3])
压缩后的张量如下：tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])，形状如下：torch.Size([3, 3])


In [30]:
# 与squeeze()方法相反，我们还可以使用unsqueeze()方法在特定索引处添加一个值为1的维度
tensor = torch.tensor([[1, 2, 3],
                       [4, 5, 6],
                       [7, 8, 9]])
tensor_unsqueeze = tensor.unsqueeze(dim=0)
print(f"原来的张量如下：{tensor}，形状如下：{tensor.shape}")
print(f"在dim=0的位置添加值为1的维度后如下：{tensor_unsqueeze}，形状如下：{tensor_unsqueeze.shape}")

原来的张量如下：tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])，形状如下：torch.Size([3, 3])
在dim=0的位置添加值为1的维度后如下：tensor([[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]])，形状如下：torch.Size([1, 3, 3])


In [31]:
# 我们可以使用permute调整维度顺序
tensor = torch.arange(1, 10, 1).reshape(1, 1, 3, 3)
tensor_permute = tensor.permute(0, 2, 3, 1)
tensor_permute.shape

torch.Size([1, 3, 3, 1])

我们接下来再研究一下索引，切片这些概念

In [32]:
tensor = torch.arange(0, 12, 1).reshape(1, 3, 2, 2)
print(f"张量如下：\n{tensor}")
print(f"第一层：\n{tensor[0]}")
print(f"第二层：\n{tensor[0][0]}")
print(f"第三层：\n{tensor[0][0][0]}")
print(f"第四层：\n{tensor[0][0][0][0]}")

张量如下：
tensor([[[[ 0,  1],
          [ 2,  3]],

         [[ 4,  5],
          [ 6,  7]],

         [[ 8,  9],
          [10, 11]]]])
第一层：
tensor([[[ 0,  1],
         [ 2,  3]],

        [[ 4,  5],
         [ 6,  7]],

        [[ 8,  9],
         [10, 11]]])
第二层：
tensor([[0, 1],
        [2, 3]])
第三层：
tensor([0, 1])
第四层：
0


In [33]:
# 对于切片我们从向量开始，一步步增加难度
vector = torch.arange(1, 10, 1)
print(f"保留向量前两个元素以外的所有元素：{vector[2:]}")
print(f"只保留向量前两个元素：{vector[:2]}")
print(f"保留向量全部元素：{vector[:]}")
print(f"获取向量中中间隔1个元素的所有元素：{vector[::2]}")

保留向量前两个元素以外的所有元素：tensor([3, 4, 5, 6, 7, 8, 9])
只保留向量前两个元素：tensor([1, 2])
保留向量全部元素：tensor([1, 2, 3, 4, 5, 6, 7, 8, 9])
获取向量中中间隔1个元素的所有元素：tensor([1, 3, 5, 7, 9])


In [34]:
matrix = torch.arange(0, 12, 1).reshape(3, 4)
print(f"保留矩阵第一行以外的所有行，每行内，列按照中间各一个元素取：\n{matrix[1:, ::2]}")

保留矩阵第一行以外的所有行，每行内，列按照中间各一个元素取：
tensor([[ 4,  6],
        [ 8, 10]])


紧接着我们来看一下tensor与numpy的相互转化

In [35]:
# tensor与numpy的相互转化主要涉及两个方法，一个用于tensor -> numpy，一个用于numpy -> tensor
# numpy -> tensor
numpy = np.arange(0, 12, 1).reshape(3, 4)
tensor = torch.from_numpy(numpy)
numpy.dtype, tensor.dtype

(dtype('int64'), torch.int64)

In [36]:
# tensor -> numpy
tensor = torch.arange(0, 12, 1).reshape(3, 4)
numpy = torch.Tensor.numpy(tensor)
numpy.dtype, tensor.dtype

(dtype('int64'), torch.int64)

> **注意：** 默认情况下，NumPy数组创建时的数据类型为`float64`，如果将其转换为PyTorch张量，它会保持相同的数据类型（如上所述）。
>
> 然而，许多PyTorch计算默认使用`float32`。
>
> 因此，如果你想将NumPy数组（float64）转换为PyTorch张量（float64）再转换为PyTorch张量（float32），可以使用`tensor = torch.from_numpy(array).type(torch.float32)`。

In [37]:
# 也可以通过这种方法将tensor -> numpy，需要注意的是，转换前后的类型会保持一直，除非使用type方法再次进行转换
tensor = torch.ones(7)
numpy_tensor = tensor.numpy()
tensor.dtype, numpy_tensor.dtype

(torch.float32, dtype('float32'))

为了能够使得我们的实验是完全可以复现的，只要是涉及到随机化，我们都需要固定我们的随机种子

In [38]:
random_tensor_A = torch.rand(3, 4)
random_tensor_B = torch.rand(3, 4)
print(f"Tensor A:\n{random_tensor_A}\n")
print(f"Tensor B:\n{random_tensor_B}\n")
print("两个张量相等吗?")
random_tensor_A == random_tensor_B

Tensor A:
tensor([[0.2666, 0.6274, 0.2696, 0.4414],
        [0.2969, 0.8317, 0.1053, 0.2695],
        [0.3588, 0.1994, 0.5472, 0.0062]])

Tensor B:
tensor([[0.9516, 0.0753, 0.8860, 0.5832],
        [0.3376, 0.8090, 0.5779, 0.9040],
        [0.5547, 0.3423, 0.6343, 0.3644]])

两个张量相等吗?


tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])

In [39]:
# 设置随机种子
RANDOM_SEED = 42
torch.manual_seed(seed=RANDOM_SEED)
random_tensor_A = torch.rand(3, 4)
random_tensor_B = torch.rand(3, 4)
print(f"Tensor A:\n{random_tensor_A}\n")
print(f"Tensor B:\n{random_tensor_B}\n")
print("两个张量相等吗?")
random_tensor_A == random_tensor_B

Tensor A:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

Tensor B:
tensor([[0.8694, 0.5677, 0.7411, 0.4294],
        [0.8854, 0.5739, 0.2666, 0.6274],
        [0.2696, 0.4414, 0.2969, 0.8317]])

两个张量相等吗?


tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])

In [40]:
# 设置随机种子
RANDOM_SEED = 42
torch.manual_seed(seed=RANDOM_SEED)
random_tensor_A = torch.rand(3, 4)
torch.manual_seed(seed=RANDOM_SEED)
random_tensor_B = torch.rand(3, 4)
print(f"Tensor A:\n{random_tensor_A}\n")
print(f"Tensor B:\n{random_tensor_B}\n")
print("两个张量相等吗?")
random_tensor_A == random_tensor_B

Tensor A:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

Tensor B:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

两个张量相等吗?


tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

最后我们看一下与gpu相关的内容

In [41]:
# 查看一下我们的显卡相关信息
!nvidia-smi

Sat Oct 18 09:41:28 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA A10                     Off |   00000000:00:07.0 Off |                  Off |
|  0%   27C    P8             19W /  150W |       0MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [42]:
# 检查GPU是否可用
torch.cuda.is_available()

True

In [43]:
# 设置我们的设备
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cuda'

In [44]:
# 查看我们的GPU数量
torch.cuda.device_count()

1

### 将张量（和模型）放到GPU上

你可以通过对张量（以及后面会讲到的模型）调用[`to(device)`](https://pytorch.org/docs/stable/generated/torch.Tensor.to.html)方法，将它们放到特定的设备上。其中，`device`是你希望张量（或模型）转移到的目标设备。

为什么要这么做？

GPU提供的数值计算速度远比CPU快，而且如果GPU不可用，由于我们的**设备无关代码**（见上文），程序会在CPU上运行。

> **注意：** 使用`to(device)`将张量放到GPU上（例如`some_tensor.to(device)`）会返回该张量的一个副本，也就是说，同一个张量会同时存在于CPU和GPU上。要覆盖原张量，需要重新赋值：
>
> `some_tensor = some_tensor.to(device)`

让我们尝试创建一个张量并将其放到GPU上（如果GPU可用的话）。

In [45]:
# 创建一个张量（默认是在cpu上的）
tensor = torch.tensor([1, 2, 3])

# 查看张量以及张量所在的设备
print(tensor, tensor.device)

# 将张量移动到GPU上
tensor_on_gpu = tensor.to(device)
tensor_on_gpu

tensor([1, 2, 3]) cpu


tensor([1, 2, 3], device='cuda:0')

In [50]:
# 当张量被移动到GPU上的时候，我们无法直接将其转化为numpy，需要先移动到cpu上才可以转化为numpy
tensor_back_on_cpu = tensor_on_gpu.cpu().numpy()
tensor_back_on_cpu

array([1, 2, 3])