# menu
- PyTorch介绍
- 理解Tensors
- 计算图自动微分
- 多层神经网络
- 典型训练模式
- 保存和加载模型
- 如何使用GPU(英伟达和苹果GPU)加速训练

AI相关概念说明
![AI概念](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image003.png) 
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image005.png)
大模型在工作和任务上的用途

### 一.PyTorch的发展历史
PyTorch是一个由Facebook人工智能研究院（FAIR）开发的深度学习框架，自2017年1月首次发布。基于Torch结合python的方式进行改造，以打造一个更加易用的机器学习框架。
- 2017年1月：PyTorch 0.1.0发布，这是PyTorch的第一个版本，包括了张量计算和基础的神经网络层 。2017年8月：PyTorch 0.2.0发布，引入了更多张量计算功能，如广播机制和高效的张量操作，同时添加了新的数据加载和预处理工具 。
- 2018年1月：PyTorch 1.0.0发布，标志着框架进入新阶段，引入了动态计算图、高效的内存管理、多GPU支持和更强大的可视化工具，同时支持Python 3.5及以上版本 。
- 2018年9月：PyTorch 1.2.0发布，增加了新的张量操作和改进的模型训练过程，引入了高效的序列建模工具，如LSTM和GRU，并加强了分布式训练的支持 。
- 2019年3月：PyTorch 1.4.0引入了混合精度训练和动态神经网络模块，允许使用低精度数据加速训练并减少内存使用 。
- 2019年9月：PyTorch 1.6.0添加了新的张量运算和自动混合精度训练，提高了训练速度并减少了内存使用，同时改进了模型序列化和分布式训练性能 。
- 2020年3月：PyTorch 1.8.0引入了更强大的数据加载和处理工具，包括DataLoader的并行加载和分布式数据加载，添加了新的激活函数和层 。
- 2021年9月：PyTorch 2.0.0发布，引入了对更高效训练、推理和调试的支持，优化了可扩展性和可维护性，提供了对自动微分和调试工具的改进，并支持更多硬件平台和操作系统。

### PyTorch在学术界的使用情况
![](image1.png)

### PyTorch三大核心组件
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image001.png)

### 安装PyTorch
https://pytorch.org/get-started/locally/ 安装建议参考网址

pip3 install torch torchvision torchaudio 其中torchvision torchaudio属于可选
![](image2.png)

In [2]:
#pip install torch

In [3]:
#pip install torch==2.0.1

检查torch的版本

In [4]:
import torch
torch.__version__

'2.1.2'

如果有cuda，可以检查安装的pytorch是否支持cuda

In [5]:
torch.cuda.is_available()

False

如果是m系列的macbook，可以用下面的方式来检查pytorch是否支持apple silicon chip的GPU

In [6]:
torch.backends.mps.is_available()

True

目前最新版的pytorch已经实验性支持AMD的GPU，不过只能在linux上使用

如果没有GPU，也没有关系，这次学习主要是学习大模型的基础，并不会强依赖GPU，但后面训练和调优如果有GPU加持，效率会提升很多。如果想体验GPU的话，可以通过科学上网使用google的colab

#### 二.张量tensor

##### tensor(张量)是现代深度学习中最重要一个概念，TensorFlow直接使用tensor来开头命名的。

##### 大学线性代数里都学过标量(scalar),向量(vector)，矩阵(matric),其中标量是0维，向量是1维，矩阵是2维，使用秩(rank)来标识维度

##### tensor是把所有维度的数据统一了起来，同时能够更好的支持计算，在深度学习中最重要的是支持自动微分和支持GPU

##### 在编程上可以把tensor看作一个对象，除了存储多维数据外，里面封装了大量的方法。
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image011.png)

In [7]:
# 可以使用torch.tensor来创建tensor类
tensor0d = torch.tensor(1)
tensor1d = torch.tensor([1,2,3])
tensor2d = torch.tensor([[1,2],[3,4]])
tensor3d = torch.tensor([[[1,2],[3,4]],[[5,6],[7,8]]])

In [8]:
# tensor data types
print(tensor1d.dtype)

torch.int64


In [9]:
# float类型的tensor
floatvec = torch.tensor([1.0,2.0,3.0])
print(floatvec.dtype)

torch.float32


###### pytorch默认使用32位的float，原因是节省内存和计算量，同时GPU架构对32为做了特殊优化，能够加快训练和推理速度

In [10]:
# 不同精度可以通过.to 方法进行转换
floatvec1 = tensor1d.to(torch.float32)
print(floatvec1.dtype)

torch.float32


更多关于tensor数据类型的介绍，建议参考pytorch的官网：https://pytorch.org/docs/stable/tensors.html

下面介绍对tensor的常用操作方法

In [11]:
#1 torch.tensor()创建新的tensor
tensor2d = torch.tensor([[1,2,3],[4,5,6]])
print(tensor2d)

tensor([[1, 2, 3],
        [4, 5, 6]])


In [12]:
# .shape属性获取tensor的维度或者秩（shape）
print(tensor2d.shape)

torch.Size([2, 3])


In [13]:
# tensor2d 是一个2行，3列的矩阵，如果想把它转换成3行2列的矩阵，可以使用reshpae()
print(tensor2d.reshape(3,2))
print(tensor2d)

tensor([[1, 2],
        [3, 4],
        [5, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])


In [14]:
# 比reshape更常用的方法是.view()方法，reshape()方法是torch原有的
# view()是NumPy的方式，也是目前深度学习框架最为常用的方式
print(tensor2d.view(3,2))
print(tensor2d)

tensor([[1, 2],
        [3, 4],
        [5, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])


In [15]:
# .T 转置矩阵,行列内容互换
print(tensor2d.T)
print(tensor2d)

tensor([[1, 4],
        [2, 5],
        [3, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])


In [16]:
# .matmul()方法张量相乘
print(tensor2d.matmul(tensor2d.T))

tensor([[14, 32],
        [32, 77]])


In [17]:
# 也可以使用@操作符进行张量相乘
print(tensor2d @ tensor2d.T)

tensor([[14, 32],
        [32, 77]])


#### computation graph(计算图)
![](https://media.geeksforgeeks.org/wp-content/uploads/20200527151747/e19.png)

计算图：单向无环图

逻辑回归模型
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image013.png)

In [18]:
import torch.nn.functional as F

y = torch.tensor([1.0])
x1 = torch.tensor([1.1])
w1 = torch.tensor([2.2])
b = torch.tensor([0.0])
z = x1 * w1 + b
a = torch.sigmoid(z)

loss = F.binary_cross_entropy(a, y)
print(loss)

tensor(0.0852)


#### 自动微分
求极值的方法：

![](https://img2020.cnblogs.com/blog/1522661/202012/1522661-20201217225019636-508712522.png)

沿着导数反方向可以得到极小值，

链式法则

反向传播算法(backpropagation)

![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image015.png)

In [19]:
# 计算梯度通过autograd
import torch.nn.functional as F
from torch.autograd import grad

y = torch.tensor([1.0])
x1 = torch.tensor([1.1])
w1 = torch.tensor([2.2],requires_grad=True)
b = torch.tensor([0.0],requires_grad=True)

z = x1 * w1 + b
a = torch.sigmoid(z)

loss = F.binary_cross_entropy(a, y)

grad_L_w1 = grad(loss,w1,retain_graph=True)
grad_L_b = grad(loss,b, retain_graph=True)

In [20]:
print(grad_L_w1)
print(grad_L_b)

(tensor([-0.0898]),)
(tensor([-0.0817]),)


In [21]:
# 上面是手工计算梯度，pytorch提供了更方便的方法，自动计算梯度，并把梯度存储在张量的grad属性上
loss.backward()
print(w1.grad)
print(b.grad)

tensor([-0.0898])
tensor([-0.0817])


###### 如果你忘记了微积分相关领域的知识，对于以上所讲内容不是很理解，也不用担心，你只需记住pytorch提供了.backward方法来自动计算梯度，一个方法帮你搞定最难的地方，这就是pytorch框架厉害之处

#### 多层深层网络实现
pytorch作为深度学习框架，可以很方便的实现深度神经网络

这里咱们通过pytorch实现一个简单的深度神经网络例子

![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image017.png)

In [22]:
# 两层隐藏层的多层神经网络
class NeuralNetwork(torch.nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super().__init__()

        self.layers = torch.nn.Sequential(
            # 第一隐藏层
            torch.nn.Linear(num_inputs, 30),
            torch.nn.ReLU(),

            # 第二隐藏层
            torch.nn.Linear(30,20),
            torch.nn.ReLU(),

            # 输出层
            torch.nn.Linear(20,num_outputs),
        )
    def forward(self, x):
        logits = self.layers(x)
        return logits
    

In [23]:
# 实例化一个模型
model = NeuralNetwork(50,3)

In [24]:
print(model)

NeuralNetwork(
  (layers): Sequential(
    (0): Linear(in_features=50, out_features=30, bias=True)
    (1): ReLU()
    (2): Linear(in_features=30, out_features=20, bias=True)
    (3): ReLU()
    (4): Linear(in_features=20, out_features=3, bias=True)
  )
)


Sequential方法比较方便的将各个神经网络层进行有序组装起来

In [25]:
# 查明所有的参数数量
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print("Total number of trainable model parameters:",num_params)

Total number of trainable model parameters: 2213


In [27]:
print(model.layers[0].weight)
print(model.layers[0].weight.shape)

Parameter containing:
tensor([[ 0.0147,  0.0572, -0.0849,  ...,  0.0521,  0.0184,  0.1013],
        [-0.1367,  0.1105, -0.0770,  ..., -0.1016, -0.0464, -0.0430],
        [ 0.0800,  0.1356, -0.0068,  ..., -0.1081,  0.0067, -0.1106],
        ...,
        [ 0.0709,  0.0484, -0.0557,  ..., -0.0657, -0.0079, -0.0219],
        [ 0.1202,  0.0278,  0.0224,  ...,  0.0912,  0.0269, -0.1011],
        [-0.1393, -0.0993,  0.1321,  ..., -0.1304,  0.1297,  0.0178]],
       requires_grad=True)
torch.Size([30, 50])
