## 2.1 安装运行环境
python: 3.10.14  
pytorch: 2.4.1  
cuda: 12.4  

In [20]:
import torch 

print("查看pytorch版本：", torch.__version__)
print("查看CUDA是否可用：", torch.cuda.is_available())
print("查看可用的CUDA数量：", torch.cuda.device_count())
print("查看CUDA的版本号：", torch.version.cuda)

查看pytorch版本： 2.4.1+cu124
查看CUDA是否可用： True
查看可用的CUDA数量： 1
查看CUDA的版本号： 12.4


## 2.2 数据操作
张量（Tensor）是PyTorch中的基本数据结构，可以看作是多维数组，本节将介绍如何对数据进行操作

### 2.2.1 创建tensor
创建一个行向量

In [37]:
import torch

x = torch.Tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
x

tensor([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

打印张量的形状

In [34]:
x.shape

torch.Size([12])

打印元素的类型

In [35]:
x.dtype

torch.float32

改变张量的形状  
* view()方法：Returns a new tensor with the same data as the self tensor but of a different shape.


In [23]:
X = x.view(3, 4)
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

由于元素个数已知，所以view()方法可以根据设置的维度或者维度元素个数来进行reshape。

In [24]:
X = x.view(-1, 4)
print(X)
X = x.view(3, -1)
print(X)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])


创建一个各元素为0，形状为(2,3,4)的张量

In [25]:
torch.zeros([2,3,4])

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

类似的，我们可以创建各元素为1的张量

In [26]:
torch.ones([2,3,4])

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

我们可以通过Python的列表（list）指定需要创建的tensor中的每一个值

In [38]:
Y = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]],dtype=torch.float32)
Y

tensor([[2., 1., 4., 3.],
        [1., 2., 3., 4.],
        [4., 3., 2., 1.]])

有时候我们需要随机生成tensor，我们创建一个形状为（3, 4）的tensor，它的每个元素都随机采样于均值为0，标准差为1的正态分布。

In [28]:
torch.normal(0, 1, size=(3, 4))

tensor([[ 0.4486,  0.2415,  0.3687,  0.8434],
        [ 0.7572,  0.2308, -1.1342,  1.1984],
        [ 0.3563,  1.1691, -0.8106, -1.1897]])

### 2.2.2 运算

对之前创建的两个形状为（3，4）的tensor做按元素加法

In [29]:
X + Y

tensor([[ 2.,  2.,  6.,  6.],
        [ 5.,  7.,  9., 11.],
        [12., 12., 12., 12.]])

按元素乘法

In [30]:
X * Y

tensor([[ 0.,  1.,  8.,  9.],
        [ 4., 10., 18., 28.],
        [32., 27., 20., 11.]])

按元素除法

In [31]:
X / Y

tensor([[ 0.0000,  1.0000,  0.5000,  1.0000],
        [ 4.0000,  2.5000,  2.0000,  1.7500],
        [ 2.0000,  3.0000,  5.0000, 11.0000]])

按元素做指数运算

In [32]:
Y.exp()

tensor([[ 7.3891,  2.7183, 54.5981, 20.0855],
        [ 2.7183,  7.3891, 20.0855, 54.5981],
        [54.5981, 20.0855,  7.3891,  2.7183]])

矩阵乘法  
* 由于 X 是 3 行 4 列的矩阵，Y 转置为 4 行 3 列的矩阵，相乘得 3 行 3 列矩阵

In [39]:
torch.matmul(X, Y.T)

tensor([[ 18.,  20.,  10.],
        [ 58.,  60.,  50.],
        [ 98., 100.,  90.]])

在PyTorch中，连接（concatenation）操作是指将多个张量（tensors）沿着指定的维度连接起来。这通常用于将具有相同数据类型和相同维度的张量（除了连接的维度）合并成一个更大的张量。

In [42]:
torch.cat((X, Y), dim=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [ 2.,  1.,  4.,  3.],
        [ 1.,  2.,  3.,  4.],
        [ 4.,  3.,  2.,  1.]])

In [43]:
torch.cat((X, Y), dim=1)

tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
        [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
        [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])

使用条件判别式可以得到元素为True或False的新tensor

In [44]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

求和

In [45]:
X.sum()

tensor(66.)

PyTorch中，item() 方法用于将一个只包含单个元素的张量（tensor）转换为一个Python标量（scalar）。

In [49]:
X.norm()

tensor(22.4944)

In [48]:
X.norm().item()

22.494443893432617

### 2.2.3 广播机制
当对两个形状不同的tensor按元素运算时，可能会触发广播（broadcasting）。广播规则：
* 维度对齐：从右到左（从最后一个维度开始），比较两个张量的维度大小。
* 维度匹配：如果两个张量在某个维度上的大小相同，或者其中一个张量在该维度上的大小为1，则认为它们在该维度上是匹配的。
* 维度扩展：如果一个张量在某个维度上的大小为1，而另一个张量在该维度上的大小大于1，则会自动将大小为1的维度扩展到与另一个张量相同的大小。

In [52]:
A = torch.Tensor([[0],[1],[2]])
B = torch.tensor([[0, 1]])
print(A)
print(B)

tensor([[0.],
        [1.],
        [2.]])
tensor([[0, 1]])


张量 A、B 进行按元素运算时，A 复制为两列，B 复制为三行，然后按元素相加

In [53]:
A + B

tensor([[0., 1.],
        [1., 2.],
        [2., 3.]])

### 2.2.4 索引
tensor的索引从 0 开始逐一递增

我们可以对tensor进行切片操作，指定了tensor的行索引截取范围[1:3]，依据左闭右开，截取了张量 X 的1、2行

In [54]:
X[1:3]

tensor([[ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

指定访问单个元素的位置

In [56]:
X[1, 2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

截取部分元素进行赋值

In [57]:
X[1:2,:] = 12
X

tensor([[ 0.,  1.,  2.,  3.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

### 2.2.5 运算的内存开销

在前面的例子，对每个操作都会新开内存来存储运算结果，使用python自带的id函数进行检验：

In [58]:
before = id(Y)
Y = Y + X
id(Y) == before

False

指定结果到特定内存

In [64]:
Z = torch.zeros(Y.shape)
before = id(Z)
Z[:] = X + Y
id(Z) == before

True

但是计算时还是开辟了新的内存，我们可以使用原地操作，原地操作通常在函数名后加上一个下划线（_）来表示。

In [66]:
before = id(Y)
Y = Y.add_(X)
id(Y) == before

True

也可以使用 +=、-= 等操作符

In [67]:
before = id(Y)
Y += X
id(Y) == before

True

### 2.2.6 tensor与Numpy相互变换

In [68]:
import numpy as np
P = np.ones((2,3))
T = torch.Tensor(P)
T

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [69]:
T.numpy()

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)

## 2.3 自动求梯度
在PyTorch中，自动求梯度是一个核心特性，它允许你自动计算张量操作的梯度。这对于实现反向传播算法和训练神经网络至关重要。PyTorch使用一个名为自动微分（autograd）的系统来跟踪张量上的操作，并在需要时计算梯度。

### 2.3.1 简单例子
对函数 y = 2*x^T·x 求关于列向量 x 的梯度，结果应为 4x


In [74]:
# 创建一个需要梯度的张量
x = torch.tensor([[0],[1],[2],[3]], dtype=torch.float32, requires_grad=True)
print(x)
# 执行操作
y = 2 * torch.matmul(x.T, x)
# 计算关于x的y的梯度
y.backward()
# 访问梯度
print(x.grad)  # 输出: tensor(4.)

tensor([[0.],
        [1.],
        [2.],
        [3.]], requires_grad=True)
tensor([[ 0.],
        [ 4.],
        [ 8.],
        [12.]])


### 2.3.2 训练模式和预测模式
在PyTorch中，模型有两种基本模式：训练模式和预测（评估）模式。这两种模式对于模型的行为有重要影响，特别是在使用某些类型的层（如Dropout和BatchNorm）时。

在训练模式下，模型会应用所有训练时特有的操作，例如：
* Dropout：随机丢弃一些神经元，以防止过拟合。
* Batch Normalization：对每个批次的数据进行标准化，并学习批次统计量的移动平均值。

在预测模式下，模型会禁用训练时特有的操作，以确保模型评估或推理时的一致性和性能。例如：
* Dropout：在预测模式下，dropout层不会丢弃任何神经元。
* Batch Normalization：使用移动平均值和移动方差，而不是当前批次的统计量。

In [77]:
import torch
import torch.nn as nn

# 定义一个简单的模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(10, 5)
        self.dropout = nn.Dropout(p=0.5)
        self.fc2 = nn.Linear(5, 2)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.fc2(x)
        return x

# 初始化模型
model = SimpleModel()

# 切换到训练模式
model.train()
print("Training mode:", model.training)

# 切换到预测模式
model.eval()
print("Evaluation mode:", model.training)

Training mode: True
Evaluation mode: False


### 2.3.3 对Python控制流求梯度

In [84]:
def f(a):
    b = a*2
    while b.norm().item() < 1000: 
        b = b * 2
    if b.sum().item() > 0: 
        c = b
    else:
        c = 100 * b
    return c
a = torch.rand(1,requires_grad=True)
c = f(a)
c.backward()

print(a)
print(c)
print(a.grad)
print(a.grad == c / a)

tensor([0.1636], requires_grad=True)
tensor([1339.9673], grad_fn=<MulBackward0>)
tensor([8192.])
tensor([True])


## 2.4 查阅文档