Transformers 库建立在 Pytorch 框架之上（Tensorflow 的版本功能并不完善），
虽然官方宣称使用 Transformers 库并不需要掌握 Pytorch 知识，但是实际上我们还是需要通过 Pytorch 的 
DataLoader 类来加载数据、使用 Pytorch 的优化器对模型参数进行调整等等。

In [None]:
# 张量 (Tensor) 是深度学习的基础，例如常见的 0 维张量称为标量 (scalar)、1 维张量称为向量 (vector)、2 维张量称为矩阵 (matrix)。Pytorch 本质上就是一个基于张量的数学计算工具包，它提供了多种方式来创建张量：


In [None]:
import torch
torch.empty(2, 3) # empty tensor (uninitialized), shape (2,3)


tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [None]:
torch.rand(2, 3) # random tensor, each value taken from [0,1)

tensor([[0.4458, 0.4619, 0.9140],
        [0.9060, 0.0209, 0.2170]])

In [None]:
torch.randn(2, 3) # random tensor, each value taken from standard normal distribution

tensor([[ 1.3138,  0.4502, -1.1314],
        [-0.7296,  1.2862,  0.3257]])

In [None]:
torch.zeros(2, 3, dtype=torch.long) # long integer zero tensor

tensor([[0, 0, 0],
        [0, 0, 0]])

In [None]:
torch.zeros(2, 3, dtype=torch.double) # double float zero tensor
# tensor([[0., 0., 0.],
#         [0., 0., 0.]], dtype=torch.float64)

tensor([[0., 0., 0.],
        [0., 0., 0.]], dtype=torch.float64)

In [None]:
torch.arange(10)
tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
array = [[1.0, 3.8, 2.1], [8.6, 4.0, 2.4]]
torch.tensor(array)


tensor([[1.0000, 3.8000, 2.1000],
        [8.6000, 4.0000, 2.4000]])

In [None]:
import numpy as np
array = np.array([[1.0, 3.8, 2.1], [8.6, 4.0, 2.4]])
torch.from_numpy(array)

tensor([[1.0000, 3.8000, 2.1000],
        [8.6000, 4.0000, 2.4000]], dtype=torch.float64)

     PyTorch with CUDA Support conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

In [None]:
# this code asures that pytotch can access the GPU
# shift the conda env pytorh_GPU_cuda to the front
import torch
#print(torch.cuda.is_available())
print(torch.version.cuda)

None


In [2]:
import torch, platform
print("PyTorch", torch.__version__) # 2.80+CPU is CPU , 2.5.2cu is CUDA
print("CUDA available", torch.cuda.is_available())
print("CUDA version", torch.version.cuda)
print("GPU", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "None")

PyTorch 2.5.1+cu121
CUDA available True
CUDA version 12.1
GPU NVIDIA GeForce RTX 3060 Laptop GPU


In [None]:
import torch, platform, subprocess, sys
print("PyTorch build:", torch.__version__)          #PyTorch now sees the CUDA 12.1 wheel (+cu121)
print("Python:", sys.version.split()[0], platform.architecture()[0])
try:
    print("CUDA runtime (nvcc):", subprocess.check_output(["nvcc","--version"], text=True).split("\n")[3])
except FileNotFoundError:
    print("CUDA runtime (nvcc): not found  ← this is OK, wheels bundle their own")

PyTorch build: 2.5.1+cu121
Python: 3.12.4 64bit
CUDA runtime (nvcc): Cuda compilation tools, release 12.6, V12.6.85


In [3]:
# 上面这些方式创建的张量会存储在内存中并使用 CPU 进行计算，如果想要调用 GPU 计算，需要直接在 GPU 中创建张量或者将张量送入到 GPU 中：

torch.rand(2, 3).cuda()


tensor([[0.1834, 0.3073, 0.6088],
        [0.1564, 0.9793, 0.0010]], device='cuda:0')

In [None]:
import torch
print("CUDA available:", torch.cuda.is_available())
print("Device count:", torch.cuda.device_count())
print("Current device:", torch.cuda.current_device())
print("Device name:", torch.cuda.get_device_name(0))

x = torch.rand(1).cuda()
print("Random tensor on GPU:", x)

CUDA available: True
Device count: 1
Current device: 0
Device name: NVIDIA GeForce RTX 3060 Laptop GPU
Random tensor on GPU: tensor([0.2047], device='cuda:0')


In [5]:

torch.rand(2, 3, device="cuda")


tensor([[0.2266, 0.7317, 0.8444],
        [0.3671, 0.2194, 0.2224]], device='cuda:0')

In [6]:

torch.rand(2, 3).to("cuda")

tensor([[0.6558, 0.5874, 0.1886],
        [0.9655, 0.4984, 0.4969]], device='cuda:0')

In [7]:
# 进行 view 操作的张量必须是连续的 (contiguous)，可以调用 is_conuous 来判断张量是否连续；如果非连续，需要先通过 contiguous 函数将其变为连续的。也可以直接调用 Pytorch 新提供的 reshape 函数，它与 view 功能几乎一致，并且能够自动处理非连续张量。

# 转置 transpose 交换张量中的两个维度，参数为相应的维度：

x = torch.tensor([[1, 2, 3], [4, 5, 6]])
x


tensor([[1, 2, 3],
        [4, 5, 6]])

In [None]:

x.transpose(0, 1)


In [9]:
# 交换维度 permute 与 transpose 函数每次只能交换两个维度不同，permute 可以直接设置新的维度排列方式：

x = torch.tensor([[[1, 2, 3], [4, 5, 6]]])
print(x, x.shape)


tensor([[[1, 2, 3],
         [4, 5, 6]]]) torch.Size([1, 2, 3])


In [10]:

x = x.permute(2, 0, 1)
print(x, x.shape)


tensor([[[1, 4]],

        [[2, 5]],

        [[3, 6]]]) torch.Size([3, 1, 2])


In [None]:

# 广播机制
# 前面我们都是假设参与运算的两个张量形状相同。在有些情况下，即使两个张量形状不同，也可以通过广播机制 (broadcasting mechanism) 对其中一个或者同时对两个张量的元素进行复制，使得它们形状相同，然后再执行按元素计算。

# 例如，我们生成两个形状不同的张量：

x = torch.arange(1, 4).view(3, 1) # shape (3,1) 
y = torch.arange(4, 6).view(1, 2) # shape (1,2)

In [13]:
 print(x + y)

tensor([[5, 6],
        [6, 7],
        [7, 8]])


In [14]:
x = torch.arange(12).view(3, 4)
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [15]:
 x[1, 3] # element at row 1, column 3

tensor(7)

In [16]:
 x[1:3] 

tensor([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [17]:
x[:, 2]

tensor([ 2,  6, 10])

In [18]:
x[:, 2:4]

tensor([[ 2,  3],
        [ 6,  7],
        [10, 11]])