In [2]:
import torch

# 导入torch。请注意，虽然它被称为PyTorch，但是代码中使用torch而不是pytorch

#### 向量与张量

In [3]:
# 定义向量

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)

# 我们可以使用 arange 创建一个行向量 x。
# 起始值，终止值，间隔


In [5]:
# 定义张量

# 自定义张量：
x = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
# 重新确定分布：
X = x.reshape(3, 4)
# 特殊张量：
#  0张量：
torch.zeros((2, 3, 4))
#  1张量：
torch.ones((2, 3, 4))
#  均值为0、标准差为1的标准高斯分布：
torch.randn(3, 4)

tensor([[ 0.2652,  1.4569,  0.7147, -1.4108],
        [-1.0620, -0.5246, -1.2759,  1.0452],
        [-0.8792,  0.1207,  1.7305,  0.4837]])

In [6]:
# 张量的运算符 + - * /

x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y  # **运算符是求幂运算

# “按元素”方式可以应用更多的计算，包括像求幂这样的一元运算符。

# 幂运算
torch.exp(x)


tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

In [7]:
# 张量的拼接

# 下面的例子分别演示了当我们沿行（轴-0，形状的第一个元素）和
# 按列（轴-1，形状的第二个元素）连结两个矩阵时，会发生什么情况

X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [8]:
# 矩阵的逻辑运算

X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [9]:
# 广播机制：

# 形状不同的两个张量在计算是会通过广播机制来执行元素操作
# 这种机制的工作方式如下：缺行的复制行，缺列的复制列
# 1. 通过适当复制元素来扩展一个或两个数组，以便在转换之后，两个张量具有相同的形状；
# 2. 对生成的数组执行按元素操作。

a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

# 由于a和b分别是3*1和1*2的矩阵，如果让它们相加，它们的形状不匹配。 
# 我们将两个矩阵广播为一个更大的矩阵，
# 如下所示：矩阵a将复制列， 矩阵b将复制行，然后再按元素相加。
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [10]:
# 索引和切片

X[-1], X[1:3]

# 写入值
X[1, 2] = 9
X[0:2, :] = 12

In [12]:
# 原地更新矩阵

# 1. X[:] = X + Y：通过先指定变量，然后再逐步更新变量
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

# 2. X += Y：
before = id(X)
X += Y
id(X) == before

id(Z): 140466059033872
id(Z): 140466059033872


True

In [None]:
# 张量与其他python对象的互换

A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

### 矩阵运算

In [16]:
# 矩阵运算的根本目的就是要学会如何对矩阵进行求导
import torch

x = torch.tensor(3.0)
y = torch.tensor(2.0)

# 两个矩阵的按元素乘法称为Hadamard积（Hadamard product）
x + y, x * y, x / y, x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

In [17]:
# 矩阵

A = torch.arange(20).reshape(5, 4)
A.T # 转置

# 对称矩阵
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [25]:
# 张量：多维矩阵

X = torch.arange(24).reshape(2, 3, 4)
X

A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [26]:
# 对于矩阵的运算

# 降维求和

x = torch.arange(4, dtype=torch.float32)
x, x.sum() # 得到一个值
A.mean(), A.sum() / A.numel() # 平均值


# 以矩阵为例，为了通过求和所有行的元素来降维（轴0），可以在调用函数时指定axis=0。 
# 由于输入矩阵沿0轴降维以生成输出向量，因此输入轴0的维数在输出形状中消失。
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

# 指定axis=1将通过汇总所有列的元素降维（轴1）。因此，输入轴1的维数在输出形状中消失。
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape


(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [27]:
# 不降维求和：有时在调用函数来计算总和或均值时保持轴数不变会很有用
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

In [28]:
# 点积 torch.dot(x, y): x的转置乘以y
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [29]:
# 矩阵乘法


B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

In [31]:
# 矩阵范数

# 在深度学习中，我们经常试图解决优化问题，就是目标如： 
#   最大化分配给观测数据的概率; 
#   最小化预测和真实观测之间的距离。 
# 这用向量表示物品（如单词、产品或新闻文章），以便最小化相似项目之间的距离，最大化不同项目之间的距离。 
# 目标是深度学习算法最重要的组成部分（除了数据），通常被表达为范数。

# 矩阵L2范数：就是指矩阵的大小,例如勾股定理3,4,5
u = torch.tensor([3.0, -4.0])
torch.norm(u) 

# 矩阵L1范数：就是指矩阵的大小,例如所有元素的绝对值之和
torch.abs(u).sum()

tensor(7.)

#### 数值求导

In [32]:
# pytorch可以将函数的求导过程内置设置起来，
# 因此比tensorflow更方便，但计算更慢

# 作为一个演示例子，假设我们想对函数y=2xTx关于列向量x求导。 即y=2x^2
# 首先，我们创建变量x并为其分配一个初始值。
import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

In [40]:
x.requires_grad_(True)  # 等价于x=torch.arange(4.0,requires_grad=True)
x.grad  # 默认值是None
x.grad.zero_() # 

tensor([0., 0., 0., 0.])

In [41]:
y = 2 * torch.dot(x, x) 
y,x.grad

(tensor(28., grad_fn=<MulBackward0>), tensor([0., 0., 0., 0.]))

In [36]:
y.backward() # 通过调用反向传播函数来自动计算y关于x每个分量的梯度。计算之后x.grad会有值
x.grad

tensor([ 0.,  4.,  8., 12.])

In [37]:
x.grad == 4 * x

tensor([True, True, True, True])

#### 案例：线性回归的实现

In [None]:
# 线性回归的目标：z=(<x,w> - y)^2 最小
%matplotlib inline
import random
import torch
from d2l import torch as d2l

In [2]:
# 生成数据集

def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape((-1, 1))

true_w = torch.tensor([2, -3.4])
true_b = 4.2
# features中的每一行都包含一个二维数据样本， labels中的每一行都包含一维标签值（一个标量）。
features, labels = synthetic_data(true_w, true_b, 1000)

d2l.set_figsize()
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1);

In [4]:
# 读取数据集

# 用一个生成器来产生小批量的batch
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    # 这些样本是随机读取的，没有特定的顺序
    random.shuffle(indices)
    for i in range(0, num_examples, batch_size):
        batch_indices = torch.tensor(
            indices[i: min(i + batch_size, num_examples)])
        yield features[batch_indices], labels[batch_indices]

In [5]:
batch_size = 10

for X, y in data_iter(batch_size, features, labels):
    print(X, '\n', y)
    break

tensor([[ 0.3173,  0.3445],
        [-0.9868, -0.6768],
        [ 1.1896,  0.1074],
        [ 1.1149,  0.1091],
        [-0.1064,  0.5318],
        [-0.7300,  0.2134],
        [ 1.3229,  0.4415],
        [ 0.7976,  0.1946],
        [-0.2344,  0.5943],
        [-0.4167, -0.3192]]) 
 tensor([[3.6729],
        [4.5376],
        [6.2029],
        [6.0712],
        [2.1710],
        [2.0027],
        [5.3418],
        [5.1398],
        [1.7047],
        [4.4415]])


In [7]:
# 初始化模型参数

w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# 定义模型
def linreg(X, w, b):  #@save
    """线性回归模型"""
    return torch.matmul(X, w) + b

# 定义损失函数
def squared_loss(y_hat, y):  #@save
    """均方损失"""
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2

In [8]:
# 定义优化算法：小批量随机梯度下降

def sgd(params, lr, batch_size):  #@save
    """小批量随机梯度下降"""
    with torch.no_grad():
        for param in params: # 一个向量（w1,w2）和一个标量 b
            # 进行梯度下降：
            #   基于参数的梯度param.grad，有pytorch根据定义的loss函数隐式求解的
            #   根据学习效率和batch_size更新参数
            param -= lr * param.grad / batch_size 
            param.grad.zero_()

In [11]:
# 训练
lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # X和y的小批量损失 会逐步更新并生成新的loss函数
        # 因为l形状是(batch_size,1)，而不是一个标量。l中的所有元素被加到一起，
        # 并以此计算关于[w,b]的梯度
        l.sum().backward()
        sgd([w, b], lr, batch_size)  # 使用参数的梯度更新参数
    with torch.no_grad(): # 使用 torch.no_grad() 包裹的代码块，其中的操作将不会计算梯度
        train_l = loss(net(features, w, b), labels) 
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

epoch 1, loss 0.000049
epoch 2, loss 0.000049
epoch 3, loss 0.000049


In [12]:
print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')

w的估计误差: tensor([8.3923e-05, 3.7956e-04], grad_fn=<SubBackward0>)
b的估计误差: tensor([-0.0003], grad_fn=<RsubBackward1>)
