# 数据操作部分

In [2]:
import torch

张量就是数值组成的向量，可以有多个维度。arange(number)用来限定数值，不包括右端

In [3]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

通过shape访问张量的形状、张量中元素的个数；
numel 是 number of element，元素的数量，为标量

In [4]:
x.shape

torch.Size([12])

In [5]:
x.numel()

12

要改变张量的形状，而不改变元素和元素个数，用 `reshape()` 函数

In [6]:
x = x.reshape(3, 4)
x, x.shape

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]),
 torch.Size([3, 4]))

构造全0、全1的特殊张量

In [15]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [16]:
torch.ones((2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

通过提供包含数值的python列表来为所需张量中每个元素赋值

In [18]:
torch.tensor([[1, 2, 3], [1, 3, 4], [4, 2, 1]])

tensor([[1, 2, 3],
        [1, 3, 4],
        [4, 2, 1]])

张量可以进行运算，按照对应元素进行；运算函数也是按照张量中单个元素进行的

In [20]:
x = torch.tensor([1.0, 2, 4])
y = torch.tensor([2, 4, 8])
x + y, x - y, x * y, x / y, x**y, torch.exp(x)

(tensor([ 3.,  6., 12.]),
 tensor([-1., -2., -4.]),
 tensor([ 2.,  8., 32.]),
 tensor([0.5000, 0.5000, 0.5000]),
 tensor([1.0000e+00, 1.6000e+01, 6.5536e+04]),
 tensor([ 2.7183,  7.3891, 54.5981]))

连接多个张量，dim等于几就意味着要扩充对应的维度

In [21]:
x = torch.arange(12, dtype=torch.float32).reshape((3, 4))
y = torch.tensor([[1.0, 2, 4, 8], [2, 3, 4, 5], [4, 3, 2, 1]])
torch.cat((x, y), dim=0), torch.cat((x, y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 1.,  2.,  4.,  8.],
         [ 2.,  3.,  4.,  5.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  1.,  2.,  4.,  8.],
         [ 4.,  5.,  6.,  7.,  2.,  3.,  4.,  5.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

通过逻辑运算符操作张量，得到一个二元张量

In [22]:
x == y

tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])

对张量中所有元素进行求和会得到一个只有一个元素的张量

In [23]:
x.sum()

tensor(66.)

如果两个张量维度相同、形状不同，可以通过 **广播机制（broadcasting mechanism）** 进行相加，通过复制来补充缺少的部分

In [25]:
x = torch.arange(3).reshape((3, 1))
y = torch.arange(2)
x, y, x+y

(tensor([[0],
         [1],
         [2]]),
 tensor([0, 1]),
 tensor([[0, 1],
         [1, 2],
         [2, 3]]))

元素访问，x[-1,:]访问第一个维度下最后一个元素，x[1:3,:]访问第一个维度下第一个和第二个元素，不包括第三个

In [27]:
x = torch.arange(12, dtype=torch.float32).reshape((3, 4))
x,x[-1],x[1:3]

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

In [None]:
可以制定元素的索引来修改元素

In [28]:
x[2, 3] = 12.0
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 12.]])

为多个元素赋相同值，可以索引所有元素，然后赋值

In [29]:
x[1:3,:] = 12
x

tensor([[ 0.,  1.,  2.,  3.],
        [12., 12., 12., 12.],
        [12., 12., 12., 12.]])

In [None]:
运行一部分操作时可能出现为新结果分配新对象

In [31]:
y = torch.arange(12, dtype=torch.float32).reshape((3, 4))
before = id(x)
x = x + y
id(x) == before

False

执行原地操作（ `+=` 对于可变对象而言，不创建新的对象）

In [32]:
before = id(x)
x += y
id(x) == before

True

In [33]:
before = id(x)
x[:] = x + y
id(x) == before

True

转换为 NumPy 类型

In [34]:
a = x.numpy()
b = torch.tensor(a)
type(a), type(b)

(numpy.ndarray, torch.Tensor)

将大小为 1 的张量转换为 Python 标量

In [36]:
a = torch.tensor([3.5])
a, type(a), a.item(), type(a.item()), float(a), type(float(a)), int(a), type(int(a))

(tensor([3.5000]), torch.Tensor, 3.5, float, 3.5, float, 3, int)

# 数据预处理部分

创建一个人工数据集，并存储在csv（逗号分割值）文件下

In [38]:
import os
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

从创建的csv文件中读取数据

In [39]:
import pandas as pd
data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


处理缺失数据，最常用的方法是**插值和删除**

In [49]:
# .iloc 是Pandas中用于基于位置的索引的方法，意思是“integer location”。
# 它使用基于整数的索引（从0开始）来选择行和列。其语法是 data.iloc[行选择, 列选择]。
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs.iloc[:, 0] = inputs.iloc[:, 0].fillna(inputs.iloc[:, 0].mean()) # 用均值填充缺失值
inputs

Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


In [50]:
# pd.get_dummies 是Pandas库中用于执行独热编码（One-Hot Encoding） 的函数
# dummy_na 设置为 True 时，它不仅为每个类别创建新列，还会为缺失值（NaN）单独创建一个新的指示列
inputs = pd.get_dummies(inputs, dummy_na=True, dtype=int)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


In [51]:
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

# 数学操作部分

矩阵的转置

In [28]:
x = torch.arange(20).reshape((4, 5))
x, x.T

(tensor([[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]]),
 tensor([[ 0,  5, 10, 15],
         [ 1,  6, 11, 16],
         [ 2,  7, 12, 17],
         [ 3,  8, 13, 18],
         [ 4,  9, 14, 19]]))

两个矩阵的按元素乘法称为Hadamard积（Hadamard product）

In [10]:
A = torch.arange(20, dtype=torch.float32).reshape((4, 5))
B = A.clone() # 这里的 clone 是深拷贝
A, B, A*B

(tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor([[  0.,   1.,   4.,   9.,  16.],
         [ 25.,  36.,  49.,  64.,  81.],
         [100., 121., 144., 169., 196.],
         [225., 256., 289., 324., 361.]]))

指定求和汇总张量的轴

In [26]:
A = torch.arange(20*2, dtype=torch.float32).reshape((2, 4, 5))
A, A.sum()

(tensor([[[ 0.,  1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.,  9.],
          [10., 11., 12., 13., 14.],
          [15., 16., 17., 18., 19.]],
 
         [[20., 21., 22., 23., 24.],
          [25., 26., 27., 28., 29.],
          [30., 31., 32., 33., 34.],
          [35., 36., 37., 38., 39.]]]),
 tensor(780.))

In [14]:
A_axis_0 = A.sum(axis=0)
A_axis_0, A_axis_0.shape

(tensor([[20., 22., 24., 26., 28.],
         [30., 32., 34., 36., 38.],
         [40., 42., 44., 46., 48.],
         [50., 52., 54., 56., 58.]]),
 torch.Size([4, 5]))

In [15]:
A_axis_1 = A.sum(axis=1)
A_axis_1, A_axis_1.shape

(tensor([[ 30.,  34.,  38.,  42.,  46.],
         [110., 114., 118., 122., 126.]]),
 torch.Size([2, 5]))

In [16]:
A_axis_2 = A.sum(axis=2)
A_axis_2, A_axis_2.shape

(tensor([[ 10.,  35.,  60.,  85.],
         [110., 135., 160., 185.]]),
 torch.Size([2, 4]))

求和与求均值

In [17]:
A.mean(), A.sum() / A.numel()

(tensor(19.5000), tensor(19.5000))

In [19]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([[10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.],
         [20., 21., 22., 23., 24.],
         [25., 26., 27., 28., 29.]]),
 tensor([[10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.],
         [20., 21., 22., 23., 24.],
         [25., 26., 27., 28., 29.]]))

### 计算总和、均值时保持维数不变

In [21]:
sum_A = A.sum(axis=0, keepdims=True)
sum_A, sum_A.shape

(tensor([[[20., 22., 24., 26., 28.],
          [30., 32., 34., 36., 38.],
          [40., 42., 44., 46., 48.],
          [50., 52., 54., 56., 58.]]]),
 torch.Size([1, 4, 5]))

通过广播机制将 A 除以 sum_A

In [22]:
A / sum_A

tensor([[[0.0000, 0.0455, 0.0833, 0.1154, 0.1429],
         [0.1667, 0.1875, 0.2059, 0.2222, 0.2368],
         [0.2500, 0.2619, 0.2727, 0.2826, 0.2917],
         [0.3000, 0.3077, 0.3148, 0.3214, 0.3276]],

        [[1.0000, 0.9545, 0.9167, 0.8846, 0.8571],
         [0.8333, 0.8125, 0.7941, 0.7778, 0.7632],
         [0.7500, 0.7381, 0.7273, 0.7174, 0.7083],
         [0.7000, 0.6923, 0.6852, 0.6786, 0.6724]]])

In [27]:
A.cumsum(axis=0)

tensor([[[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]],

        [[20., 22., 24., 26., 28.],
         [30., 32., 34., 36., 38.],
         [40., 42., 44., 46., 48.],
         [50., 52., 54., 56., 58.]]])

In [23]:
A = torch.arange(20).reshape((4, 5))
A

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])

累加求和，A.cumsum(axis=0) 计算数组 A 沿 axis=0 方向（从上到下，按行） 的累积和。结果是一个与 A 形状相同的数组，其中每个元素都是其上方所有同行元素（包括它自己）的原始值之和。

In [24]:
A.cumsum(axis=0)

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  7,  9, 11, 13],
        [15, 18, 21, 24, 27],
        [30, 34, 38, 42, 46]])

点积：相同位置元素相乘后求和

In [32]:
x = torch.ones(4, dtype=torch.float32)
y = torch.arange(4, dtype=torch.float32)
x,y, torch.dot(x, y)

(tensor([1., 1., 1., 1.]), tensor([0., 1., 2., 3.]), tensor(6.))

也可以先按元素乘，再求和

In [33]:
torch.sum(x * y)

tensor(6.)

矩阵$A_{m * n}$，`n`维行向量`x`，矩阵向量积`Ax`是一个长度为`m`的列向量

In [36]:
A = torch.arange(20).reshape((4, 5))
x = torch.arange(5)
A.shape, x.shape, torch.mv(A, x) # mv 就是 matrix-vector product

(torch.Size([4, 5]), torch.Size([5]), tensor([ 30,  80, 130, 180]))

矩阵-矩阵乘法，matrix-matrix multiplication

In [37]:
B = torch.arange(15).reshape((5, 3))
A.shape, B.shape, torch.mm(A, B)

(torch.Size([4, 5]),
 torch.Size([5, 3]),
 tensor([[ 90, 100, 110],
         [240, 275, 310],
         [390, 450, 510],
         [540, 625, 710]]))

### 范数

$L_{2}$范数，类似于欧几里得距离

In [38]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

$L_{1}$范数，为向量元素的绝对值之和

In [39]:
torch.abs(u).sum()

tensor(7.)

矩阵的Frobenius范数（Frobenius norm）是矩阵元素平方和的平方根

In [40]:
torch.norm(torch.ones((4, 9)))

tensor(6.)

### 微积分

- x为列向量，y为标量，则y关于x的导数是一个行向量
- y为列向量，x为标量，则y关于x的导数是一个列向量
- y为列向量，x为列量，则y关于x的导数是一个矩阵
- 分子布局

![](./assets/向量求导.png)

### 自动求导

对函数$y=2x^Tx$关于列向量x求导

In [11]:
import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

存储梯度

In [12]:
x.requires_grad_(True) # 等价于x=torch.arange(4.0,requires_grad=True)
x.grad

In [13]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

通过调用反向传播函数来自动计算`y`关于`x`每个分量的梯度

In [14]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [15]:
x.grad == 4 * x

tensor([True, True, True, True])

现在计算x的另一个函数

In [17]:
# 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。 
这里，我们的目的不是计算微分矩阵，而是单独计算批量中每个样本的偏导数之和。

In [19]:
# 对非标量调用backward需要传入一个gradient参数，该参数指定微分函数关于self的梯度。
# 本例只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
y.sum().backward() # 等价于y.backward(torch.ones(len(x)))
x.grad

tensor([0., 2., 4., 6.])

注意，当调用 y.backward(gradient_vector) 时，PyTorch计算的是：gradient_vector 与 y 的雅可比矩阵的乘积，再对 x 求导。

有时，我们希望将某些计算移动到记录的计算图之外。 例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。 想象一下，我们想计算z关于x的梯度，但由于某种原因，希望将y视为一个常数， 并且只考虑到x在y被计算后发挥的作用。

这里可以分离y来返回一个新变量u，该变量与y具有相同的值， 但丢弃计算图中如何计算y的任何信息。 换句话说，梯度不会向后流经u到x。 因此，下面的反向传播函数计算z=u*x关于x的偏导数，同时将u作为常数处理， 而不是z=x\*x\*x关于x的偏导数。

In [25]:
x.grad.zero_()
y = x * x
u = y.detach()
z = u * x

z.sum().backward()
x.grad == u

tensor([True, True, True, True])

关于`detach()`函数，其作用是：从当前计算图中分离出一个张量，返回一个新的张量，这个新张量与原始张量共享数据存储，但不再具有梯度计算的历史记录（requires_grad=False），并且与之前的计算图完全断开连接。

In [26]:
x.grad.zero_()
y.sum().backward()
x.grad == 2 * x

tensor([True, True, True, True])

#### Python控制流的梯度计算

构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度

In [29]:
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

In [31]:
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
a.grad == d / a

tensor(True)