## 第零节
我们先学习一些 Pytorch 的基本知识，方便后面进行运算。

这些知识包括：

1.**张量**（Tensor）：PyTorch 的核心数据结构，支持多维数组，并可以在 CPU 或 GPU 上进行加速计算。

2.**自动求导**（Autograd）：PyTorch 提供了自动求导功能，可以轻松计算模型的梯度，便于进行反向传播和优化。

3.**神经网络**（nn.Module）：PyTorch 提供了简单且强大的 API 来构建神经网络模型，可以方便地进行前向传播和模型定义。

4.**优化器**（Optimizers）：使用优化器（如 Adam、SGD 等）来更新模型的参数，使得损失最小化。

5.**设备**（Device）：可以将模型和张量移动到 GPU 上以加速计算。

### 1. 张量
张量（Tensor）是 PyTorch 中的核心数据结构，用于存储和操作多维数组。它可以在 CPU 和 GPU 上同时运算，兼容性很强。

张量有三个重要的属性：**维度**（dimension）、**形状**(shape)和**数据类型**(Dtype)

1.维度：张量的维度是指多维数组索引需要的参数量。例如一维张量就是一维数组、二维张量是矩阵，三维张量是一些矩阵的数组等。

2.形状：张量在每一个维度上的大小决定了这个张量的形状，例如一个 3 * 2 的矩阵，作为一个二维张量，它的形状我们称作(3,2)

3.数据类型：张量中存储的数据类型以及大小，Pytorch 中有整数型（如torch.int8、torch.int32）、
  浮点型（如torch.float32、torch.float64）和布尔型（torch.bool）

下面我们来看张量的创建：

In [None]:
import torch

In [None]:
# 1. 创建全 0 张量，使用 torch.zeros(<Shape>) 方法
all_zero = torch.zeros(3,2)
print(all_zero)

In [None]:
# 2. 创建全 1 张量，使用 torch.ones(<Shape>) 方法
all_one = torch.ones(2,3)
print(all_one)

In [None]:
# 3. 从数组，元组创建张量，使用 torch.tensor(<List> or <Tuple>)方法
by_list = torch.tensor([[1, 2], [3, 4]])
print("用数组创建的张量是:\n{}".format(by_list))

by_tuple = torch.tensor(((2,2),(3,4)))
print("用元组创建的张量是:\n{}".format(by_tuple))

In [None]:
# 4. 从 Numpy 数组来创建张量，使用 torch.from_numpy(<Numpy.Array>) 方法
import numpy as np
x = np.array([[[1,2,3],[2,2,3]],[[4,5,6],[7,8,9]]])
by_numpy = torch.from_numpy(x)
print(by_numpy)

# 注意：这种方法创建的 numpy 数组 x 和 by_numpy 是共享内存的，也就是更改一个的值，另外一个的也会更改。
by_numpy[0] = 100
print(x)

In [None]:
# 5*(不常用). 创建一个指定形状不指定内容的张量，使用 torch.Tensor(<Shape>) 方法
unknown = torch.Tensor(5,6)
print(unknown)

In [None]:
# 6. 创建标准正态分布的随机数的张量，使用 torch.randn(<Shape>) 方法
normal = torch.randn(5,6)
print(normal)

# 还可以设定种子的值，使用 torch.random.manual_seed(<Integer>) 方法
torch.random.manual_seed(123456)
one2six_normal = torch.randn(3,4)
print("使用种子为123456的矩阵为：\n{}".format(one2six_normal))

In [None]:
# 7. 创建 0-1 均匀分布随机数的张量，使用 torch.rand(<Shape>) 方法
torch.random.seed() # 清空种子
uniform = torch.rand((3,4))
print(uniform)

In [None]:
# 8. 创建从 a-b 的随机整数的均匀分布张量，使用 torch.randint(<Min>,<Max>,<Shape>)
one_to_ten_rand = torch.randint(1,10,(2,3))
print(one_to_ten_rand)

In [None]:
'''
9. 指定创建时的数据类型，可以使用 torch.IntTensor(), torch.FloatTensor(), torch.DoubleTensor().
创建类型分别为：torch.int32, torch.float32 和 torch.float64 的张量。
但是更推荐用：torch.tensor(<Data>, dtype = <Type>) 来创建
'''
tensor_float_64 = torch.tensor([[1,2],[1,2]],dtype = torch.float64)
print(tensor_float_64)


In [None]:
''' 
10. 创建从 a-b 但不包含b的，间隔为 1 的线性1维张量，使用 torch.arange(a,b)
创建从 a-b 但不包含b的，间隔为 c 的线性1维张量，使用 torch.arange(a,b,c)
'''
one_to_ten_one = torch.arange(1,10)
print("1到10（不含10）的1维张量，使用torch.arange(1,10)，结果为:\n {}".format(one_to_ten_one))
one_to_ten_three = torch.arange(1,10,3)
print("1到10（不含10），间隔为3的1维张量，使用torch.arange(1,10,3)，结果为:\n {}".format(one_to_ten_three))

In [None]:
# 11. 创建将 a-b（包含b）平均分成 c 份的 1 维张量，用 torch.linspace(a,b,c) 方法
zero_to_one_five = torch.linspace(0,1,5)
print(zero_to_one_five)

In [None]:
# 12. 创建一个和输入张量一样大小的全 1 或全 0 张量，使用 torch.ones_like(<Tensor>) , torch.zeros_like(<Tensor>)
tensor1 = torch.tensor([[1,2,3],[4,5,6]])
like_ones = torch.ones_like(tensor1)
like_zeros = torch.zeros_like(tensor1)

print("第一个张量是：\n{},\n和它一样大的全 1 张量是：\n {},\n和它一样大的全 0 张量是：\n {}".format(tensor1, like_ones, like_zeros))

# 此外，使用 torch.full(<Size>, <Number>) 和 torch.full_like(<Tensor>) 还可以生成填充为数字 <Number> 的张量。
all_five = torch.full((2,3),5)
like_full = torch.full_like(tensor1,5)

print("\n全是 5 的张量是：\n{},\n和第一个张量大小一样，全是 5 的张量是：\n{}".format(all_five,like_full))

In [None]:
# 13.指定在哪个设备上创建（CPU 或 GPU），使用 torch.device(<str:Device>)
dev = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
d = torch.randn(2,3,device=dev)
print(d)

下面我们来看张量在 Pytorch 中的基本计算

In [None]:
# 1. 张量加法，使用运算符加号（+）: z = x + y
x = torch.tensor([[1,2],[3,4]])
y = torch.tensor([[-1,0],[2,-1]])
print("x = \n{},\ny = \n{},\nx+y = {}".format(x,y,x+y))

In [None]:
# 2. 相同形状的张量对应元素乘积，使用乘号（*）: z = x * y
print(x * y)

In [None]:
# 3. 符合条件的张量进行矩阵乘法，使用 torch.matmul(x,y) 或 直接 x @ y
x1 = torch.tensor([[1,2,3,4],[5,6,7,8]])
y1 = torch.tensor([[1,2,3],[4,5,6],[7,8,9],[0,1,2]])
print(x1 @ y1)

In [None]:
# 4. 张量 x 的转置，使用 x.t() 或者 x.transpose() 方法
x = torch.tensor([[1,2,3],[4,5,6],[7,8,9]])
print("张量 x = \n{},\n张量 x 的转置 = \n{}".format(x, x.t()))

In [None]:
# 5.返回张量 x 的形状，使用 x.shape 属性
print(x.shape)

In [None]:
# 6. 张量可以进行数据类型转换，使用的是 x.type(<DataType>)
x = torch.tensor([[0,0],[1,1]])
x.type(torch.float64)

# 输出张量的类型，使用的是 x.dtype 属性
print(x.dtype)

In [None]:
 # 7. 张量可以转化为 numpy 数组，使用的是 x.numpy() 方法
print(x.numpy())

# 但是它们会共享内存，即改变其中一个，另外一个也会改变
x = x + torch.tensor([[-1,-1],[2,2]])
print("将 x 更改后，x = \n{},\n而 x 的 numpy 数组是：\n{}".format(x, x.numpy()))

# 使用 x.numpy().copy() 方法，复制一份 x 中的内容即可解决此现象：
x_copy = x.numpy().copy()
x = x + torch.tensor([[-1,-1],[2,2]])
print("将 x 更改后，x = \n{},\n而 x 的 numpy 数组的 copy 是：\n{}".format(x, x_copy))

In [None]:
# 8. 当张量中（无论维度）只有一个元素时，可以使用 x.item() 提取出这个元素
x1 = torch.tensor(1)
x2 = torch.tensor([1])
x3 = x1 = torch.tensor([[[[1]]]])

print(x1.item())
print(x2.item())
print(x3.item())

In [None]:
# 9. 张量的拼接，使用 torch.cat([<Tensor1>, <Tensor2>]) 的方法将两个张量按照给定的方式拼接在一起
torch.manual_seed(0)
x1 = torch.randint(1,10,[2,3,4])
x2 = torch.randint(1,10,[2,3,4])

print(x1.shape)
print(x2.shape)

# 按第 0 个维度拼接
x3 = torch.cat([x1, x2], dim = 0)
print("按第 0 个维度拼接的结果是：{}".format(x3.shape))

# 按第 1 个维度拼接
x4 = torch.cat([x1, x2], dim = 1)
print("按第 1 个维度拼接的结果是：{}".format(x4.shape))

# 按第 2 个维度拼接
x5 = torch.cat([x1, x2], dim = 2)
print("按第 2 个维度拼接的结果是：{}".format(x5.shape))

In [None]:
# 10. 当我们想要将两个张量叠加成一个张量时，使用的是 torch.stack() 方法
torch.manual_seed(0)
x1 = torch.randint(1,10,[2,3])
x2 = torch.randint(1,10,[2,3])

# 按照第 0 个维度叠加时，是从第一个矩阵取完所有的列，然后作为第一个元素
x3 = torch.stack([x1,x2],dim = 0)
print("按第 0 个维度叠加的结果是：{}".format(x3.shape))
print(x3)

# 按照第 1 个维度叠加时，是从每一个矩阵取完所有的第一行，然后作为第一个元素
x4 = torch.stack([x1,x2],dim = 1)
print("按第 1 个维度叠加的结果是：{}".format(x4.shape))
print(x4)

# 按照第 2 个维度叠加时，是从每一个矩阵取完所有的第一列，然后作为第一个元素
x5 = torch.stack([x1,x2],dim = 2)
print("按第 2 个维度叠加的结果是：{}".format(x5.shape))
print(x5)

下面我们将介绍张量的索引操作，以2维张量为例：

In [None]:
# 1. 行索引. 使用 x[<index>] 获得指定的某行元素
data = torch.randint(0, 10, [4,5])
print(data)
print(data[0])

In [None]:
# 2. 列索引，使用 x[:,<index>] 获得指定的某列元素
print(data)
print(data[:,0])

In [None]:
# 3. 某个位置的元素，使用 x[<index1>][<index2>]或 x[<index1>,<index2>]获得指定位置的元素
print(data)
print(data[0][0])

In [None]:
# 4.获得 a 到 b 行，c 到 d 列的元素，使用 x[a:b+1, c:d+1] 来实现，如果是到最后一行（列），只写 <index>: 即可
print(data)
print(data[1:3, 2:4])

In [None]:
# 5. 不连续地取某些行，列的交叉值，使用列表查询： x[<List1>, <List2>]. 注意列表的长度要统一。
print(data)
print(data[[0,2,3],[0,1,4]])

In [None]:
# 6.取某些行，某些列的全体，使用 x[[<list1>],<list2>] 或 x[<list1>,[<list2>]]
print(data)
print(data[[[0],[2],[3]],[0,1,4]])
print(data[[0,2,3],[[0],[1],[4]]])

In [None]:
# 7. 对某些条件进行索引使用布尔索引
print(data)

# 希望获得该张量中所有大于 3 的元素，使用张量 > 3 得到一个布尔张量
print(data > 3)

# 输出其中大于 3 的，输出为一个 1 维张量
print(data[data > 3])

# 如果希望返回所有第三列元素大于 4 的行，类似地方法：
print(data[:, 2] > 4)
print(data[data[:,2] > 4])

# 返回所有第 2 行大于 3 的列
print(data[2] > 3)
print(data[:, data[2] > 3])

In [None]:
# 8. 多维数组的索引，与上面类似
torch.manual_seed(0)
x = torch.randint(0, 10, [2,3,4])
print(x)
print(x[0, 1, 1])

下面我们将学习和张量形状相关的操作

In [None]:
# 1. 改变张量的形状，使用 x.reshape(<Shape>) 方法. 注意元素个数要相同
x = torch.tensor([[1,2,3],[4,5,6]])
print(x.shape, x.shape[0], x.shape[1])
print(x.size(), x.size(0), x.size(1))

y = x.reshape((1,6))
print(y)

# 使用 -1 省略第二个形状变量
print(x.reshape(6,-1))

In [None]:
# 2. 张量的维度交换，可以用 x.transpose() 和 x.permute()
torch.manual_seed(0)
x = torch.randint(0,10,[2,3,4])
print(x.shape)
# transcope 可以交换两个维度
print(torch.transpose(x, 0, 1).shape)
# permute 可以交换多个维度
print(torch.permute(x, [1, 2, 0]))


In [None]:
# 3.此外，改变张量的形状也可以用 x.view() 和 x.contigous(). 但是只能用整块内存存储的数据. 例如使用过 transcope 和 permute 的张量就不能用
torch.manual_seed(0)
data = torch.randint(0,10,[4,5])
new_data = data.view(2,-1)
print(new_data)
data = torch.transpose(data,0,1)
print(data.is_contiguous())
new_data = data.contiguous().view(2,-1)
print(new_data.is_contiguous())

In [None]:
# 4. 如果我们想要删除 Shape 中维度为 1 的维度，可以使用 x.squeeze() 方法
torch.manual_seed(0)
data = torch.randint(0,10,[4,5,1,1,1])
print(data.shape)

# 可以一个一个手动去除
new_data = data.squeeze(2)
print(new_data.shape)
# 或者不加参数，默认全部去除
new_data = data.squeeze()
print(new_data.shape)
# 反之可以使用 x.unsqueeze() 手动增加一个在指定位置的 1 维的维度
large_data = new_data.unsqueeze(1)
print(large_data.shape)

## 2. Pytorch 的计算函数

这一节我们来学习 Pytorch 中的一些计算函数

In [None]:
# 1. 计算均值，使用 x.mean() 方法
torch.manual_seed(0)
data = torch.randint(0,10,[4,5],dtype=torch.float64)
# 对所有数据进行一个均值
print(data)
print(data.mean())

# 在指定维度计算均值
print(data.mean(dim=0))
print(data.mean(dim=1))

In [None]:
# 2. 求和，使用 x.sum() 方法
print(data)
print(data.sum())
print(data.sum(dim=0))
print(data.sum(dim=1))

In [None]:
# 3. 所有元素都次方，使用 x.pow(n)
print(data)
print(data.pow(2))

In [None]:
# 4.平方根，使用 x.sqrt()
print(data)
print(data.sqrt())

In [None]:
# 5.取 e 的指数，使用 x.exp() 方法
print(data)
print(data.exp())

In [None]:
# 6. 取一个自然对数，使用 x.log()，以 m 为底使用 x.log(m)
print(data)
print(data.log())

下面我们来学习 Pytorch 中的自动微分模块

Pytorch 的自动微分使用的是反向传播的算法，即 x.backward()

下面是具体的计算步骤

In [None]:
# 1. 对于单标量的梯度的计算

# 如果想要计算梯度，必须加上 requires_grad = True 参数，并尽量定义成 torch.float64 类型及提高精度
x = torch.tensor(10, requires_grad=True, dtype=torch.float64)

# 对 x 中间的计算
f = x ** 2 + 20
# 开始求导
f.backward()
# 访问梯度可以使用 x.grad 属性
print(x.grad)


In [None]:
# 2. 对向量进行梯度计算
x = torch.tensor([10,20,30,40],requires_grad = True, dtype=torch.float64)

y1 = x ** 2 + 20

# 开始自动求导
# y1.backward()

'''
结果报错，因为微分函数 x.backward() 只能输入标量
--------------------------------------------------------
RuntimeError: grad can be implicitly created only for scalar outputs
--------------------------------------------------------
'''

# 我们可以用 y1 的一些值来标量化，如均值和求和
y2 = y1.mean() # 此时 y2 是 y1 中的数字除以了 4 
y2.backward()

# 输出 x.grad
print(x.grad)

In [None]:
# 3. 多元函数的梯度的计算
x1 = torch.tensor(10, requires_grad=True, dtype=torch.float64)
x2 = torch.tensor(10, requires_grad=True, dtype=torch.float64)
x3 = torch.tensor(10, requires_grad=True, dtype=torch.float64)

y = x1 ** 2 + x2 ** 2 + x3 ** 2

y.backward()
print(x1.grad)
print(x2.grad)
print(x3.grad)

In [None]:
# 4. 多元向量值函数的计算
x1 = torch.tensor([10, 20], requires_grad=True, dtype=torch.float64)
x2 = torch.tensor([30, 20], requires_grad=True, dtype=torch.float64)
x3 = torch.tensor([40, 20], requires_grad=True, dtype=torch.float64)

y1 = x1 ** 2 + x2 ** 2 + x3 ** 2
y2 = y1.sum()
y2.backward()

print(x1.grad)
print(x2.grad)
print(x3.grad)



In [None]:
# 5. 下面我们学习如何不进行梯度计算
x = torch.tensor(10, requires_grad=True, dtype=torch.float64)
print(x.requires_grad)

# 1 为了不进行梯度计算，可以使用 with torch.no_grad(): 环境
with torch.no_grad():
    y = x ** 2
    print(y.requires_grad)

# 2 或者使用一个函数，声明上 @torch.no_grad() 函数内部进行计算：
@torch.no_grad()
def my_func(x):
    return x ** 2

# 3 直接设定所有代码不进行梯度计算，使用 torch.set_grad_enabled(False)
torch.set_grad_enabled(False)

In [None]:
# 2.累计梯度和梯度清零
# 梯度的计算是累积在自变量的 grad 中的
x = torch.tensor([10,20,30,40], requires_grad=True, dtype=torch.float64)

for _ in range(3):
    f1 = x ** 2 + 20
    f2 = f1.sum()
    f2.backward()
    print(x.grad)
    

当我们重复对 x 进行梯度计算时，会将历史的梯度值累加到 x 的 x.grad 属性中

In [None]:
# 不累加历史梯度的方法，使用梯度清零方法 x.grad.data.zero_()
# 注意使用条件句，否则 x.grad 可能是 None 报错
if x.grad is not None:
    x.grad.data.zero_()
print(x.grad)

下面我们举一个例子

In [None]:
# 我们来求解 当 x（参数） 为什么值时， y = x ** 2 时最小
# 先随机初始化一个值
x = torch.tensor(10, requires_grad=True, dtype=torch.float64)

for _ in range(2000):
    # 先计算
    y = x ** 2
    
    # 梯度清零
    if x.grad is not None:
        x.grad.data.zero_()
    
    # 自动微分
    y.backward()
    
    # 更新参数
    x.data = x.data - 0.01 * x.grad
    
    # 打印一下 x 的值
print('%.10f' % x.data)
    

我们来看一些需要注意的事项

In [None]:
# 当张量设置的 requires_grad=True 时，如果将该张量转化为 Numpy 数组时会报错
x = torch.tensor([10,20,30], requires_grad=True,dtype=torch.float64)
y = x.numpy()
'''
-------------------------------------------------------
RuntimeError: Can't call numpy() on Tensor that requires grad. Use tensor.detach().numpy() instead.
-------------------------------------------------------
'''


In [None]:
# 因此我们要使用 x.detach() 创建一个没有梯度计算的张量
x = torch.tensor([10,20,30], requires_grad=True,dtype=torch.float64)
x1 = x.detach()
y = x1.numpy()

# 该新的张量与旧张量共享数据
print(id(x.data), id(x1.data))
x1[0] = 0
print('当x1[0]=0时，x = \n{},\nx1 = \n{}'.format(x,x1))

# 注意对 x 进行改变时会对梯度进行计算，而 x1 的改变不会影响梯度的计算