# Chapter 00 Pytorch 基础

前言：目前我也不是初学者了，对于深度学习相关的知识已经建立了相应的了解，但是说实话是没有形成知识框架的，因此还是需要再看的。

其次我最开始的项目是基于Tensorflow的，我对他的感觉是模块性好，但定制性不够。通过它来作为新手学习的话并不是非常有利于知识的了解。而pytorch我觉得更加的直观，开放。

pytorch的相关内容我已经了解过了，但是时间间隔一个月，又放下了，所以这里重新在看一下。

### 资料来源
Learn PyTorch for Deep Learning: Zero to Mastery book. [link](https://www.learnpytorch.io)，从0开始的pytorch学习。

作者认为这是第二好的学习pytorch的地方，（第一好的是pytorhc的文档）。粗看起来确实不错，接下来的内容是根据相关的内容添加自己的理解写成的。英语不错的话还是推荐看[原内容](https://www.learnpytorch.io)，作者提供的非常丰富的形式来进行展示（colab，Youtube）。

### pytorch简介

pytorch是一个开源的机器学习和深度学习的框架，它可以基于python来处理数据和构建机器学习的算法。pytorch非常优秀，包括微软，Tesla和OpenAI等多个大的团队都是给予pytorch来进行他们的研究。

它的发展也非常迅速，在2022年已发表文献的代码类型中占比59%，已经是研究者最爱使用的代码。pytorch对于GPU加速的支持非常的好，所以你可以专注于你的数据和算法。

### pytorch的安装和导入

在pytorch的官网上，可以根据自己的系统类型等需求安装合适的torch版本，我这里是在linux系统中，通过conda安装的pytorch2.0版本，CUDA是11.8。命令如下`conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia`

2.0版本是近期发布的（2023.3），增加了torch.compile，更快更强。

In [1]:
import torch
torch.__version__

'2.0.0'

## 张量（Tensor）
Tensor可以理解为多维数组，如标量可以看作0维张量，向量可以看作1维张量，矩阵可以看作2维张量。Tensor是构成机器学习的最基本的模块。

比如对于有个255x255的RGB图像，将其表示为张量，它的表示形式是[3,255,255],分别指代的是图像通道，长和宽。

接下来我们通过pytorch来分别构建标量，向量，矩阵和张量。

In [2]:
#Scalar
scalar = torch.tensor(5)
scalar,scalar.ndim,scalar.item()

(tensor(5), 0, 5)

我们构建了一个为5的标量，通过ndim属性（attribute）查看了它的维度是0维，通过item（）方法（method）查看了包含的元素。

In [3]:
#vector
vector = torch.tensor([5,5,5])
vector,vector.ndim,vector.shape

(tensor([5, 5, 5]), 1, torch.Size([3]))

在我们构建完成向量之后，可以通过ndim发现它的维度是1维的，通过shape参数可以发现其中包含多少个参数

In [4]:
## matrix
matrix = torch.tensor([[1,2],[3,4]])
matrix,matrix.ndim,matrix.shape
#这里结果是2维的，shape展示出是2维，每个维度又两个

(tensor([[1, 2],
         [3, 4]]),
 2,
 torch.Size([2, 2]))

In [5]:
# tensor
Tensor = torch.tensor([[[1,2],[3,4]]])
Tensor,Tensor.ndim,Tensor.shape

(tensor([[[1, 2],
          [3, 4]]]),
 3,
 torch.Size([1, 2, 2]))

通过上面的例子，就可以对Tensor有一定的理解。而在实际的应用中，我们在极少的情况下才需要手动构建张量。

相反的是，在深度学习中我们需要经常随机构建足够大的张量，然后在后续的训练中不断更新和优化这个张量，使模型达到更好的效果，详细的内容后面会涉及。

In [6]:
## random tensor
random_tensor = torch.rand(size = (3,4))
random_tensor,random_tensor.shape

(tensor([[0.8368, 0.3126, 0.4129, 0.6687],
         [0.3175, 0.1760, 0.7171, 0.5520],
         [0.7791, 0.1630, 0.0240, 0.7963]]),
 torch.Size([3, 4]))

我们可以通过`torch.rand`来构建随机向量，其中size参数用来制定张量的形状。

除了随机向量外，我们有时需要构建全为0或1的张量，torch也提供了特定的函数来构建,于随机张量的构建逻辑是相同的。

In [7]:
# zero&one
zeros = torch.zeros(size = (3,4))
ones = torch.ones(size = (3,4))
zeros,ones

(tensor([[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]),
 tensor([[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]))

我们还可以通过特定范围和步长来构建一个张量，需要使用`torch.arange`函数可以实现，需要制定开始（start），结束（end）和步长（step）

In [8]:
range_tensor = torch.arange(start=10,end = 100,step = 10)
range_tensor

tensor([10, 20, 30, 40, 50, 60, 70, 80, 90])

还有一种情况是我们需要根据已有向量来构建形状一样的新的向量，这里可以使用`torch.zeros_like(input)`和`torch.ones_like(input)`来构建，input是已有的向量

In [9]:
torch.zeros_like(range_tensor)

tensor([0, 0, 0, 0, 0, 0, 0, 0, 0])

pytorch中tensor具有非常多的[数据类型](https://pytorch.org/docs/stable/tensors.html#data-types)，不同的数据类型对后续模型的计算有着很大的影响，比较重要的一个是数据越精确，计算量就越大。在构建tensor的时候还有几个参数可以考虑，dtype为数据类型，device为存储位置，raquires_grad跟后面进行梯度下降时相关，默认的dtype是 float32。我们可查看之前构建的随机张量相关默认信息：

In [10]:
random_tensor.dtype,random_tensor.device,random_tensor.requires_grad

(torch.float32, device(type='cpu'), False)

综合上面的内容，我们在得到一个tensor时，可以通过shape,dtype,device,ndim等属性查看这个张量的相关信息，让我们可以对输入的数据有一个基本的理解。

## 操作张量（tensor operations）

### 张量计算

我们已经了解了如何去构建张量，而在深度学习中，对张量的操作才是最为重要的。不同模型的架构本质上是使用不同的计算方式（策略）来去对张量进行处理。常见的计算方式是：加，减，乘，除和矩阵乘法。

In [11]:
## 基本的计算方式，+，-，*
tensor = torch.tensor([1,2,3])
#1. 不使用内置函数
tensor1 = tensor + 10
tensor2 = tensor * 10
#2. 使用内置函数
tensor3 = torch.add(tensor,10) # 等价于tensor.add(10)
tensor4 = torch.mul(tensor,10) # 等价于tensor.mal(10)

tensor1,tensor2,tensor3,tensor4

(tensor([11, 12, 13]),
 tensor([10, 20, 30]),
 tensor([11, 12, 13]),
 tensor([10, 20, 30]))


从上面的计算中还有两个点，1.如果不重新赋值的话，原值并不会修改。2.计算过程中使用了广播机制（broadcast）

In [12]:
# 元素相乘和矩阵相乘
# 这里的矩阵相乘是涉及到线性代数中的知识
tensor5 = tensor.mul(tensor)
tensor6 = tensor.matmul(tensor)
tensor5,tensor6

(tensor([1, 4, 9]), tensor(14))

在进行矩阵乘法的时候，最容易出错的点是两个矩阵的形状不能相符合，两个矩阵要满足 x * m,m * y的形状，获得的是x * y的矩阵。tensor中提供个转置的函数，`tensor.T`和`torch.transpose`，可用来应对这种情况。

In [13]:
tensor_A = torch.tensor([[1, 2],
                         [3, 4],
                         [5, 6]], dtype=torch.float32)

tensor_B = torch.tensor([[7, 10],
                         [8, 11], 
                         [9, 12]], dtype=torch.float32)
print(tensor_B.T)
output = torch.matmul(tensor_A, tensor_B.T)
print(output) 
tensor_A.shape,tensor_B.shape,tensor_B.T.shape,output.shape

tensor([[ 7.,  8.,  9.],
        [10., 11., 12.]])
tensor([[ 27.,  30.,  33.],
        [ 61.,  68.,  75.],
        [ 95., 106., 117.]])


(torch.Size([3, 2]),
 torch.Size([3, 2]),
 torch.Size([2, 3]),
 torch.Size([3, 3]))

矩阵相乘的相关知识可以去看一点线性代数的内容，它的可视化计算可以看这个[网站](http://matrixmultiplication.xyz/)。可以使用`torch.mm`来当作矩阵计算的简写。

这里的内容可能会又写超前，可以先提前看一下：

神经网络中计划全部都是点乘和矩阵运算，在pytorch中`troch.nn.Linear()`定义了最简单的神经网络-前馈神经网络或者叫全链接神经网络，它将输入的张量`x`乘以权重`A`的转置并且加上偏执项`b`得到到输出，模型的训练则是不断的更新权重`A`，是模型能够更好的表示数据的特征，偏执项（bias）的目的是为了更好的拟合数据。

数学公式为：$y=x\ast A^{T}+b$

In [14]:
# 设定随机数种子，目的是为了复现代码，因为神经网络在初始化权重的时候是随机初始化的
torch.manual_seed(42)
# This uses matrix multiplication
linear = torch.nn.Linear(in_features=2, # 
                         out_features=6) # in_features和out_features是制定权重矩阵的形状 2*6
x = tensor_A
output = linear(x)
print(f"Input shape: {x.shape}\n")
print(f"Output:\n{output}\n\nOutput shape: {output.shape}")

Input shape: torch.Size([3, 2])

Output:
tensor([[2.2368, 1.2292, 0.4714, 0.3864, 0.1309, 0.9838],
        [4.4919, 2.1970, 0.4469, 0.5285, 0.3401, 2.4777],
        [6.7469, 3.1648, 0.4224, 0.6705, 0.5493, 3.9716]],
       grad_fn=<AddmmBackward0>)

Output shape: torch.Size([3, 6])


### 张量特征

pytorch提供了一系列的函数用来计算最大值，最小值，平均值，和等特征，而且可以去查找相应最大值或者最小值的位置

In [15]:
tensor = torch.rand(size = (3,4))
tensor,tensor.max(),tensor.min(),tensor.sum(),tensor.mean(),tensor.argmax(),tensor.argmin()

(tensor([[0.2666, 0.6274, 0.2696, 0.4414],
         [0.2969, 0.8317, 0.1053, 0.2695],
         [0.3588, 0.1994, 0.5472, 0.0062]]),
 tensor(0.8317),
 tensor(0.0062),
 tensor(4.2200),
 tensor(0.3517),
 tensor(5),
 tensor(11))

In [16]:
#也可以去改变tensor的数据类型，不过说实话这个需要使用到的场景很少
tensor.dtype,tensor.type(torch.float64).dtype

(torch.float32, torch.float64)

### 张量的形状操作
我们已经了解到了神经网络中几乎全是矩阵乘法，但是矩阵乘法对于两个张量的形状要求非常的严格，所以pytorch提供了一系列的函数来去修改张量的形状，以便于我们能够正确的进行矩阵运算。可供使用的函数有`torch.reshape()`,`torch.Tensor.view()`,`torch.stack()`,`torch.squeeze()`,`torch.unsqueeze()`,`torch.permute()`:

In [17]:
x = torch.arange(1., 8.)
x_reshaped = x.reshape(1, 7)
print("x: {}, x.reshape: {}".format(x,x_reshaped))
x[0] =10
print("x: {}, x.reshape: {}".format(x,x_reshaped))
x_reshaped[:,0] = 1
print("x: {}, x.reshape: {}".format(x,x_reshaped))

x: tensor([1., 2., 3., 4., 5., 6., 7.]), x.reshape: tensor([[1., 2., 3., 4., 5., 6., 7.]])
x: tensor([10.,  2.,  3.,  4.,  5.,  6.,  7.]), x.reshape: tensor([[10.,  2.,  3.,  4.,  5.,  6.,  7.]])
x: tensor([1., 2., 3., 4., 5., 6., 7.]), x.reshape: tensor([[1., 2., 3., 4., 5., 6., 7.]])


从上面的输出可以看出，reshape只会改变size，reshpe之后的赋值向量是于之前向量有连接关系的（使用相同的内存）。需要通过tensor.clone()来为其构建新的内存，如下：

In [18]:
a = torch.arange(1.0,6.0)
b = a
c = a.clone()
a[1] = 10
a,b,c
#从结果可以看出.colne()之后则不会进行同步变化

(tensor([ 1., 10.,  3.,  4.,  5.]),
 tensor([ 1., 10.,  3.,  4.,  5.]),
 tensor([1., 2., 3., 4., 5.]))

`torch.Tensor.view()`这个我目前还是不能理解其特性，总觉得他跟reshape是相互重叠的。

通过`torch.stack()`函数可以对张量安装某个维度进行进行堆叠,其中dim(范围是[-2,1]))指定的是维度,常用的是dim=0就足够了,dim=1相当于转置。

In [19]:
print(torch.stack([x,x],dim=0))
print(torch.stack([x,x],dim=1))

tensor([[1., 2., 3., 4., 5., 6., 7.],
        [1., 2., 3., 4., 5., 6., 7.]])
tensor([[1., 1.],
        [2., 2.],
        [3., 3.],
        [4., 4.],
        [5., 5.],
        [6., 6.],
        [7., 7.]])


In [20]:
#squeeze和unsqueeze两个函数是分别对向量进行降维和升维，感觉并不特殊，reshape可以完成这两个任务。
x,x.unsqueeze(dim=0),x.unsqueeze(dim=0).squeeze(),x.reshape([1,7]),x.reshape([1,7]).reshape(7) #原始，升维，降维，通过reshape升维，通过reshape降维

(tensor([1., 2., 3., 4., 5., 6., 7.]),
 tensor([[1., 2., 3., 4., 5., 6., 7.]]),
 tensor([1., 2., 3., 4., 5., 6., 7.]),
 tensor([[1., 2., 3., 4., 5., 6., 7.]]),
 tensor([1., 2., 3., 4., 5., 6., 7.]))

permute是比较特殊的函数，它可以用来改变不同维度的位置，例子如下：

In [21]:
x_original = torch.rand(size=(224, 224, 3))
x_permuted = x_original.permute(2, 0, 1) # shifts axis 0->1, 1->2, 2->0

print(f"Previous shape: {x_original.shape}")
print(f"New shape: {x_permuted.shape}")

Previous shape: torch.Size([224, 224, 3])
New shape: torch.Size([3, 224, 224])


### 张量的索引
获得Tensor特定位置的数据的行为是经常用到的。张量的索引跟numpy的方式非常的类似，这里展示两种方式（多个中括号和一个中括号）：

In [22]:
x = torch.arange(1, 10).reshape(1, 3, 3)
x,x[0],x[0][0],x[0][0][0] #第一种方式类似于R中的概念，通过`[]`的方式来解开中括号。

(tensor([[[1, 2, 3],
          [4, 5, 6],
          [7, 8, 9]]]),
 tensor([[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]),
 tensor([1, 2, 3]),
 tensor(1))

In [23]:
x[:,0,:],x[:,:,0],x[:,0,0] #第二种方式不太好理解，但是更加的灵活，可以进行竖排的取。

(tensor([[1, 2, 3]]), tensor([[1, 4, 7]]), tensor([1]))

### numpy与pytorch tensor

最开始的机器学习好像是基于numpy的，因此现有的深度学习框架中会有numpy与tensor的转换，numpy中的多维数组与tensor性质是相似的。

pytorch有两个函数可以用来之间的互相转化：`torch.from_numpy(ndarray)`：ndarray to tensor;`torch.Tensor.numpy()`:tensor to ndarray。

还有一个要关注的点是numpy中使用的是float64位，pytorch是float32位，因此可能需要一些数据类型的转换。

## 其他

这里还有一些其他需要注意的要点：

### 复现（Reproducibility）
为什么需要设置随机数呢？因为我们想要复现每次的结果，有利于别人也有益于自己（比较不同超参数的影响）。pytorch通过了相应的函数来设置随机数种子：`torch.manual_seed()`。seed可以是任意的数字，该函数可以保证两次运行过程中生成的结果是一样的，但是要在一次运行中生成相同的随机数，需要重新在设置一次，如下：

`torch.manual_seed()`也很强大，它会为所有的设备设置随机数，包括cpu和gpu。

In [24]:
# # Set the random seed
RANDOM_SEED=42 # try changing this to different values and see what happens to the numbers below
torch.manual_seed(seed=RANDOM_SEED) 
random_tensor_C = torch.rand(3, 4)

# Have to reset the seed every time a new rand() is called 
# Without this, tensor_D would be different to tensor_C 
torch.random.manual_seed(seed=RANDOM_SEED) # try commenting this line out and seeing what happens，注释掉之后结果就不再想通了。
random_tensor_D = torch.rand(3, 4)

print(f"Tensor C:\n{random_tensor_C}\n")
print(f"Tensor D:\n{random_tensor_D}\n")
print(f"Does Tensor C equal Tensor D? (anywhere)")
random_tensor_C == random_tensor_D

Tensor C:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

Tensor D:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

Does Tensor C equal Tensor D? (anywhere)


tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

### 运行设备
深度学习模型中包含大量的矩阵运算，而GPU即显卡的矩阵运算能力要远强于CPU，通过GPU可以显著的提升运算的速度。GPU的详细资料就不再这里涉及了，日常使用中Nvidia的GPU是最常见的，我们可以通过`!nvidia-smi`命令来查看显卡的详细信息。

In [25]:
!nvidia-smi

Mon Apr 17 15:47:15 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:B1:00.0 Off |                  N/A |
| 38%   35C    P2   105W / 350W |    810MiB / 24576MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [26]:
torch.cuda.is_available(),torch.cuda.device_count() #查看显卡是否可用与有多少个显卡可用

(True, 1)

In [27]:
device = "cuda" if torch.cuda.is_available() else "cpu" #这个命令将是后续最常用的命令，用来设置运行设备，有显卡的话则会在显卡上运行
device

'cuda'

In [28]:
#我么可以讲tensor和model放在GPU上进行运行
tensor,tensor.to(device)

(tensor([[0.2666, 0.6274, 0.2696, 0.4414],
         [0.2969, 0.8317, 0.1053, 0.2695],
         [0.3588, 0.1994, 0.5472, 0.0062]]),
 tensor([[0.2666, 0.6274, 0.2696, 0.4414],
         [0.2969, 0.8317, 0.1053, 0.2695],
         [0.3588, 0.1994, 0.5472, 0.0062]], device='cuda:0'))