### 第一章 Introduction

PyTorch 是一个开源的机器学习库，专注于提供灵活、高效的深度学习框架。它由 Facebook 的 AI 研究团队于2016年发布，目前由 PyTorch 开发者社区维护和发展。PyTorch 提供了强大的张量操作和自动求导功能，使得构建和训练深度神经网络变得非常简单和高效。

以下是 PyTorch 的一些主要特点：

* 动态计算图：PyTorch 使用动态计算图，这意味着计算图是在运行时被定义和构建的，而不是在编译时静态生成。这样的设计使得 PyTorch 更加灵活，允许用户使用常规的 Python 控制流、条件语句和循环，从而更自然地定义复杂的神经网络结构。

* 张量操作：PyTorch 提供了丰富的张量操作，类似于 NumPy 数组操作。张量是 PyTorch 中的核心数据结构，它类似于多维数组，可以在 CPU 或 GPU 上进行并行计算，用于存储和转换数据。

* 自动求导：PyTorch 支持自动求导功能，这是深度学习中的关键特性。通过将 requires_grad=True 标志设置为张量，PyTorch 将自动跟踪对该张量的所有操作，并计算梯度，以便进行反向传播和优化。这样，用户可以轻松地构建复杂的神经网络，并利用自动求导进行训练。

* 神经网络模块：PyTorch 提供了 torch.nn 模块，其中包含许多预定义的层、损失函数和优化器，使得构建神经网络模型更加方便。

* 分布式训练：PyTorch 支持分布式训练，允许在多个 GPU 和多台计算机上进行模型训练，加快训练速度。

* 社区支持：PyTorch 拥有庞大的开发者社区，提供了大量的教程、示例代码和技术支持，使得用户可以轻松入门并解决问题。

* 深度学习生态系统：PyTorch 生态系统还包括了许多扩展库和工具，如 TorchVision（用于计算机视觉）、TorchText（用于自然语言处理）、TorchAudio（用于音频处理）等，这些库提供了丰富的预训练模型和数据处理工具，帮助用户更便捷地进行各类深度学习任务。

由于其灵活性、易用性和强大的功能，PyTorch 已成为深度学习领域的热门框架之一，被广泛应用于学术界和工业界的深度学习研究和实践中。无论是入门者还是专业人士，PyTorch 都提供了很好的学习和实践平台。


### 第二章 张量数据类型

In [1]:
import torch

a = torch.rand(1, 2, 3)
b = torch.rand(2, 3, 4)
print("张量a显示如下：", a)
print()
print("张量b显示如下:", b)

张量a显示如下： tensor([[[0.0551, 0.3858, 0.2619],
         [0.3986, 0.6810, 0.8291]]])

张量b显示如下: tensor([[[0.7428, 0.2638, 0.9347, 0.8102],
         [0.6775, 0.0930, 0.0678, 0.4490],
         [0.7051, 0.4559, 0.8163, 0.6793]],

        [[0.8439, 0.8096, 0.9214, 0.5219],
         [0.4334, 0.3147, 0.6836, 0.9394],
         [0.9021, 0.8364, 0.1733, 0.9357]]])


In [2]:
a.shape

torch.Size([1, 2, 3])

Size在Pytorch中通常是表达张量的形状

#### 一、创建张量

In [4]:
import torch

# 从Python列表创建张量
tensor1 = torch.tensor([1, 2, 3, 4])
print(tensor1)
print()
# 输出：tensor([1, 2, 3, 4])

# 从NumPy数组创建张量
import numpy as np
numpy_array = np.array([5, 6, 7, 8])
tensor2 = torch.tensor(numpy_array)
print(tensor2)
print()
# 输出：tensor([5, 6, 7, 8])

# 创建全零张量和全一张量
tensor_zeros = torch.zeros(2, 3)
tensor_ones = torch.ones(3, 2)
print(tensor_zeros)
print()
# 输出：tensor([[0., 0., 0.],
#               [0., 0., 0.]])
print(tensor_ones)
# 输出：tensor([[1., 1.],
#               [1., 1.],
#               [1., 1.]])


tensor([1, 2, 3, 4])

tensor([5, 6, 7, 8], dtype=torch.int32)

tensor([[0., 0., 0.],
        [0., 0., 0.]])

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])


#### 二、未初始化的张量

未初始化的张量是在创建时没有被赋予明确初始值的张量。在创建这样的张量时，它的值将取决于内存中的内容，这些值是不确定的，并且可能包含任意数据。

未初始化的张量在 PyTorch 中有一定的用途，但需要特别小心使用，因为它们的值是不可预测的。一般情况下，我们应该尽量避免使用未初始化的张量，以确保模型的稳定性和可重复性。

以下是一些使用未初始化张量的情况：

1. 性能优化：在某些情况下，为了提高性能，可以创建未初始化的张量，并在后续计算中立即用具体的值填充它们。这可以节省初始化的时间开销，尤其在大规模深度学习模型中。

In [2]:
import torch

# 创建未初始化的大小为 3x3 的张量
tensor_uninitialized = torch.empty(3, 3)
torch.FloatTensor(3,3)
torch.IntTensor(3,3)

# 用具体值填充张量
tensor_uninitialized.fill_(1.0)


tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

虽然未初始化的张量在某些情况下可能带来性能优势，但使用时需要格外小心。因为其值是不确定的，可能导致计算结果出现意外的错误。在大多数情况下，我们还是建议使用经过适当初始化的张量，以确保模型的稳定性和可靠性。在神经网络训练和权重初始化等场景下，使用预定义的初始化方法能更好地保证模型的收敛和性能。

#### 三、初始化张量

In [3]:
a = torch.rand(3, 3)
'''
随机生成[0, 1]的3*3的矩阵
'''

'\n随机生成[0, 1]的3*3的矩阵\n'

In [4]:
b = torch.randint(1, 10, [3, 3])      #第1、2个参数分别定义最小值、最大值；第三个参数则传入张量的形状

In [5]:
torch.randint_like(b, 2, 10)

tensor([[8, 6, 8],
        [4, 5, 8],
        [9, 8, 7]])

In [6]:
torch.full([2,3],7)

tensor([[7, 7, 7],
        [7, 7, 7]])

In [7]:
torch.linspace(0, 10, steps = 4)

tensor([ 0.0000,  3.3333,  6.6667, 10.0000])

In [8]:
torch.eye(3, 3)

tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])

In [13]:
torch.randperm(2)
# 随机生成整数序列长度

tensor([1, 0])

#### 四、张量的切片

In [16]:
a = torch.rand(4, 3, 12, 23)
print(a)

tensor([[[[6.1020e-01, 7.0324e-01, 7.9653e-01,  ..., 6.5924e-01,
           6.1466e-01, 6.2970e-01],
          [1.8842e-01, 1.4363e-01, 6.0790e-01,  ..., 7.7858e-01,
           6.2771e-01, 8.0575e-01],
          [9.9348e-01, 5.2393e-01, 8.3399e-01,  ..., 7.7849e-02,
           6.9803e-01, 5.6223e-01],
          ...,
          [1.9943e-02, 1.3519e-01, 4.2311e-02,  ..., 9.0990e-01,
           5.4406e-01, 3.9170e-01],
          [1.2294e-02, 7.8378e-01, 9.7433e-01,  ..., 3.2907e-01,
           6.6525e-02, 4.0554e-01],
          [3.8135e-01, 4.6726e-01, 5.1262e-01,  ..., 8.0011e-01,
           6.8014e-01, 5.9046e-01]],

         [[8.4884e-01, 4.6425e-01, 8.2425e-01,  ..., 6.3643e-01,
           4.3310e-01, 9.4725e-01],
          [9.3304e-01, 7.2707e-01, 4.8812e-02,  ..., 4.9347e-01,
           7.7316e-01, 9.1889e-01],
          [3.5354e-01, 4.4210e-01, 2.0949e-01,  ..., 4.6873e-01,
           4.8570e-01, 3.9403e-01],
          ...,
          [9.9303e-01, 1.9076e-01, 8.0788e-01,  ..., 6.7892

In [17]:
a[0].shape

torch.Size([3, 12, 23])

In [18]:
a[0, 0].shape

torch.Size([12, 23])

In [23]:
b = torch.randint(1, 10, [3, 4])
print(b)

tensor([[5, 2, 9, 2],
        [8, 3, 9, 6],
        [1, 8, 7, 3]])


In [24]:
b[0][0]

tensor(5)

In [26]:
b[2][2]

tensor(7)

In [27]:
b[::2, ::3]

tensor([[5, 2],
        [1, 3]])

In [28]:
b[...]

tensor([[5, 2, 9, 2],
        [8, 3, 9, 6],
        [1, 8, 7, 3]])

In [39]:
b[0]

tensor([5, 2, 9, 2])

#### 五、维度变换

* View/reshape
* Squeeze/unsqueeze
* Transpose/t/permute
* Expand/repeat

##### 1、Viev/ reshape函数

In [40]:
a = torch.rand(4, 1, 28, 28)
a.shape

torch.Size([4, 1, 28, 28])

In [43]:
a.view(4, 28*28).shape

torch.Size([4, 784])

In [44]:
a.reshape(4, 28*28).shape

torch.Size([4, 784])

> 维度变换一定要有物理意义，不然不要改变，否则会污染数据

##### 2、unsqueeze函数（插入维度）

In [45]:
a.shape

torch.Size([4, 1, 28, 28])

In [46]:
a.unsqueeze(0).shape      # 在第一个维度前插入一个维度

torch.Size([1, 4, 1, 28, 28])

In [47]:
a.unsqueeze(1).shape      # 在第二个维度前面插入一个维度。正数参数是在前面插入

torch.Size([4, 1, 1, 28, 28])

In [48]:
a.unsqueeze(-1).shape       # 在最后一个维度。负数参数是在后面插入

torch.Size([4, 1, 28, 28, 1])

##### 3、squeeze函数（挤压维度）


In [49]:
c = torch.rand(1, 32, 1, 1)

In [50]:
c.shape

torch.Size([1, 32, 1, 1])

In [51]:
c.squeeze().shape

torch.Size([32])

In [53]:
c.squeeze(1).shape

torch.Size([1, 32, 1, 1])

In [54]:
c.squeeze(-1).shape

torch.Size([1, 32, 1])

##### 4、Expand/Repeat    (扩展维度)

expand函数和repeat函数在扩展张量维度方面有一些区别。

1. 维度扩展方式不同：
- expand函数通过复制原始张量的数据来扩展维度，不会占用额外的内存。它只是通过改变张量的大小和步长来表示扩展后的张量。
- repeat函数通过重复原始张量的数据来扩展维度，会占用额外的内存。它会创建一个新的张量，其中包含原始张量的副本。

2. 对于不可扩展的维度的处理方式不同：
- expand函数可以扩展任意维度，但是对于不可扩展的维度（即维度大小为1），它只是通过改变步长来表示扩展后的张量，而不会复制数据。
- repeat函数可以扩展任意维度，包括不可扩展的维度。它会复制原始张量的数据来填充扩展后的维度。

综上所述，expand函数适用于在不占用额外内存的情况下扩展张量的维度，而repeat函数适用于需要复制数据来扩展维度的情况。

In [55]:
c.shape

torch.Size([1, 32, 1, 1])

In [57]:
print(c.expand(4, 32, 4, 4))

tensor([[[[0.0119, 0.0119, 0.0119, 0.0119],
          [0.0119, 0.0119, 0.0119, 0.0119],
          [0.0119, 0.0119, 0.0119, 0.0119],
          [0.0119, 0.0119, 0.0119, 0.0119]],

         [[0.6662, 0.6662, 0.6662, 0.6662],
          [0.6662, 0.6662, 0.6662, 0.6662],
          [0.6662, 0.6662, 0.6662, 0.6662],
          [0.6662, 0.6662, 0.6662, 0.6662]],

         [[0.7776, 0.7776, 0.7776, 0.7776],
          [0.7776, 0.7776, 0.7776, 0.7776],
          [0.7776, 0.7776, 0.7776, 0.7776],
          [0.7776, 0.7776, 0.7776, 0.7776]],

         ...,

         [[0.5809, 0.5809, 0.5809, 0.5809],
          [0.5809, 0.5809, 0.5809, 0.5809],
          [0.5809, 0.5809, 0.5809, 0.5809],
          [0.5809, 0.5809, 0.5809, 0.5809]],

         [[0.6938, 0.6938, 0.6938, 0.6938],
          [0.6938, 0.6938, 0.6938, 0.6938],
          [0.6938, 0.6938, 0.6938, 0.6938],
          [0.6938, 0.6938, 0.6938, 0.6938]],

         [[0.9385, 0.9385, 0.9385, 0.9385],
          [0.9385, 0.9385, 0.9385, 0.9385],
       

##### 5、矩阵的转置


In [59]:
a.t()

RuntimeError: t() expects a tensor with <= 2 dimensions, but self is 4D

矩阵的转置只能适用于二维数组

##### 6、Permute函数     (维度所在位置进行变化)

In [60]:
a.permute(0, 2, 3, 1).shape

torch.Size([4, 28, 28, 1])

#### 六、Broadcast（维度扩展）

在 PyTorch 中，Broadcasting 是一种功能强大的机制，它允许在进行元素级操作时，自动地对形状不同的张量进行广播（Broadcasting）使其具有相容的形状，从而完成操作。

当进行元素级操作时，如果两个张量的形状不完全相同，PyTorch 会尝试自动进行 Broadcasting，以使它们具有相容的形状。这样，你可以对形状不同的张量进行逐元素的操作，而无需手动调整它们的形状。

Broadcasting 遵循一组规则，以决定如何自动调整张量的形状。以下是 Broadcasting 规则的概述：

* 当两个张量的维度相同时，它们的形状必须完全相同，才能进行元素级操作。

* 当两个张量的维度不同时，从尾部（末尾）开始逐一比较维度：

如果两个维度相等，或者其中一个维度为 1，那么这两个维度是相容的。
如果两个维度不相等，并且没有一个维度是 1，那么这两个张量的形状不兼容，无法进行 Broadcasting。
当两个张量的形状不兼容时，PyTorch 将会抛出一个错误。

下面是一个简单的示例来说明 Broadcasting 的用法：

In [61]:
import torch

# 创建一个形状为 (3, 1) 的张量
a = torch.tensor([[1], [2], [3]])

# 创建一个形状为 (3, 2) 的张量
b = torch.tensor([[4, 5], [6, 7], [8, 9]])

# 使用 Broadcasting，将 a 和 b 相加
result = a + b

print(result)
# 输出结果:
# tensor([[ 5,  6],
#         [ 8,  9],
#         [11, 12]])


tensor([[ 5,  6],
        [ 8,  9],
        [11, 12]])


#### 七、合并与分割

##### 合并

In [9]:
import torch
a = torch.rand(5, 32, 8)
b = torch.rand(5, 32, 8)

torch.cat([a, b], dim= 0).shape


torch.Size([10, 32, 8])

Size of tensors must match except in dimension of which to be cat

In [10]:
torch.cat([a, b], dim= 0).shape

torch.Size([10, 32, 8])

In [11]:
torch.stack([a, b], dim=2).shape

torch.Size([5, 32, 2, 8])

对于Stack来说，来个合并的张量必须保持一致。而且在合并后会产生一个新的维度

##### 分割

Split： by len

In [12]:
[aa, bb, cc, dd, ee] = a.split(1, dim= 0)

In [13]:
aa.shape

torch.Size([1, 32, 8])

Chunk: by num

In [16]:
aa = a.chunk(5, dim= 0)


#### 八、数学运算

In [17]:
a = torch.rand(3, 4)
b = torch.rand(4)
torch.add(a, b)         # 张量的加法运算

tensor([[1.2575, 0.8721, 0.4041, 1.2362],
        [1.5017, 1.1262, 1.1620, 0.9128],
        [1.5665, 1.0487, 0.7362, 0.5525]])

In [18]:
torch.sub(a, b)         # 张量的减法运算

tensor([[-0.4052,  0.2345, -0.2630,  0.1699],
        [-0.1610,  0.4886,  0.4949, -0.1534],
        [-0.0963,  0.4112,  0.0692, -0.5137]])

In [19]:
torch.mul(a, b)         # 张量的乘法运算

tensor([[0.3543, 0.1764, 0.0235, 0.3748],
        [0.5573, 0.2574, 0.2763, 0.2024],
        [0.6112, 0.2327, 0.1343, 0.0103]])

In [20]:
torch.div(a, b)         # 张量的除法运算

tensor([[0.5126, 1.7358, 0.2116, 1.3187],
        [0.8063, 2.5327, 2.4840, 0.7123],
        [0.8842, 2.2898, 1.2074, 0.0363]])

In [23]:
a = torch.ones(3, 3)
a

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [24]:
b = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b

tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])

In [32]:
a = torch.ones(3, 3)
b = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=torch.float)
torch.matmul(a, b)

tensor([[12., 15., 18.],
        [12., 15., 18.],
        [12., 15., 18.]])

In [33]:
pow(b, 2)           # 次方运算

tensor([[ 1.,  4.,  9.],
        [16., 25., 36.],
        [49., 64., 81.]])

In [34]:
torch.exp(a)

tensor([[2.7183, 2.7183, 2.7183],
        [2.7183, 2.7183, 2.7183],
        [2.7183, 2.7183, 2.7183]])

In [37]:
torch.log(a)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

#### 九、属性统计

In [44]:
a = torch.full([8], 1, dtype=torch.float)
b = a.view(2, 4)
c = a.view(2, 2, 2)
a.norm(1), b.norm(1), c.norm(1)                 # 求范数，1范数

(tensor(8.), tensor(8.), tensor(8.))

In [47]:
print(a.max())          # 求最大值
print(a.min())          # 求最小值
print(a.mean())         # 求平均值

tensor(1.)
tensor(1.)
tensor(1.)
