假设有4个特征，1000条数据，自己把完整过程跑一遍
1. y = $w^T$x+b, $w=[w_1, w_2, w_3, w_4]$, $b$, 加入正态分布随机噪声，生成1000条数据
2. 编写小批量抽样迭代器
3. 编写假设函数，也即线性回归函数的原型
4. 编写代价函数，平方损失函数
5. 编写优化函数，梯度下降算法
6. 初始化batch_size, epochs, lr, 随机初始化w, b, 进行训练

In [5]:
import torch
import random

# 1. 生成1000条3维的模拟数据
w_true = torch.tensor([1.2, 0.9, 2, 2.6])
b_true = 1.8

def linearDataGenerator(w, b, n):
    X = torch.normal(0, 1, (n, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape(-1, 1)

n = 1000
X, y = linearDataGenerator(w_true, b_true, n)
X.shape, y.shape, X[0, :], y[0, :], torch.sum(X[0, :]*w_true)+1.8

(torch.Size([1000, 4]),
 torch.Size([1000, 1]),
 tensor([ 1.0819,  1.2127,  0.5733, -0.1907]),
 tensor([4.8329]),
 tensor(4.8405))

In [7]:
# 2. 接下来需要一个迭代器，它接受X, y返回一个batch包含训练样本和标签
def batch_iter(X, y, batch_size):
    n = X.shape[0]
    indices = list(range(n))
    random.shuffle(indices)
    for i in range(0, n, batch_size):
        bie = torch.tensor(indices[i: min(i+batch_size, n)])
        yield X[bie, :], y[bie, :]

# 测试一下迭代器
g = batch_iter(X, y, 5)
next(g)

(tensor([[-0.4365,  2.0285,  0.0843, -1.9745],
         [ 0.7600,  0.6829,  0.2133, -0.5305],
         [-0.9729,  1.4921,  1.2595,  2.0410],
         [ 2.2248, -0.5150, -2.0671,  0.1570],
         [-0.7623, -1.3450, -0.1716, -1.0110]]),
 tensor([[-1.8674],
         [ 2.3755],
         [ 9.8184],
         [ 0.2783],
         [-3.2847]]))

In [8]:
# 接下来三大函数
def linreg(X, w, b):
    return torch.matmul(X, w)+b
def lrcost(y_hat, y):
    return (1/2)*(y-y_hat)**2
def sgd(params, lr, batch_size):
    with torch.no_grad():
        for param in params:
            param -= lr*param.grad/batch_size
            param.grad.zero_()

In [18]:
# 然后初始化参数开始训练
d = 4
n = 1000
w = torch.normal(0, 1, (4, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
epochs = 5
lr = 0.03
batch_size = 12

for epoch in range(epochs):
    for batchX, batchy in batch_iter(X, y, batch_size):
        bl = lrcost(batchy, linreg(batchX, w, b))
        bl.sum().backward()
        sgd([w, b], lr, batch_size)
    with torch.no_grad():
        tl = lrcost(y, linreg(X, w, b))
        print(f"In epoch {epoch+1}, train loss is {float(tl.mean()):.6f}")
w, b

In epoch 1, train loss is 0.056273
In epoch 2, train loss is 0.000312
In epoch 3, train loss is 0.000050
In epoch 4, train loss is 0.000049
In epoch 5, train loss is 0.000049


(tensor([[1.1998],
         [0.9001],
         [1.9997],
         [2.6002]], requires_grad=True),
 tensor([1.7999], requires_grad=True))

## 使用高级的API进行训练
也即有些事情可以调用库函数，这样使得工作更加简洁

In [47]:
# 第一步生成数据还得靠自己，假设得到了用于训练的X[n, d]和y[n, 1]
# 第二步构造迭代器就有api了
from torch.utils import data

def getBatch(X, y, batch_size, is_train):
    # TensorDataset相当于打包, 传入值均为tensor, 第一维度必须相等
    dataset = data.TensorDataset(X, y)
    # DataLoader载入数据，完成迭代器的构造, is_train=True表示训练时是需要打乱的
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

batch_iter = iter(getBatch(X, y, 5, True))
next(batch_iter)

[tensor([[-1.6472,  0.1517,  0.1393,  0.6966],
         [ 1.1862,  0.7840, -0.2184,  1.4221],
         [ 0.8217,  1.9041, -2.1371,  1.8043],
         [-0.2713,  0.0870,  0.9319,  1.1358],
         [-0.2665,  0.9629,  0.9499, -0.6686]]),
 tensor([[2.0581],
         [7.1650],
         [4.9126],
         [6.3774],
         [2.5151]])]

**使用标准深度学习模型**
对于标准深度学习模型，我们可以使用框架的预定义好的层。这使我们只需关注使用哪些层来构造模型，而不必关注层的实现细节。 我们首先定义一个模型变量net，它是一个Sequential类的实例。 Sequential类将多个层串联在一起。 当给定输入数据时，Sequential实例将数据传入到第一层， 然后将第一层的输出作为第二层的输入，以此类推。
线性回归模型可以抽象为单层网络架构， 这一单层被称为$全连接层（fully-connected-layer）$， 因为它的每一个输入都通过矩阵-向量乘法得到它的每个输出。

**在PyTorch中，全连接层在Linear类中定义**。 值得注意的是，我们将两个参数传递到nn.Linear中。 第一个指定输入特征形状，第二个指定输出特征形状，输出特征形状为单个标量，因此为1。

In [48]:
from torch import nn
d = 4 # 输入特征数
o = 1 # 输出值维度，由于是连续值标量，故为1
net = nn.Sequential(nn.Linear(d, o))
net, type(net)

(Sequential(
   (0): Linear(in_features=4, out_features=1, bias=True)
 ),
 torch.nn.modules.container.Sequential)

正如我们在构造nn.Linear时指定输入和输出尺寸一样， 现在我们能直接访问参数以设定它们的初始值。 我们通过net[0]选择网络中的第一个图层， 然后使用weight.data和bias.data方法访问参数。 我们还可以使用替换方法normal_和fill_来重写参数值。

In [44]:
net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0)
net[0].weight.data, net[0].bias.data, X.shape, y.shape

(tensor([[ 0.0014, -0.0052,  0.0045, -0.0215]]),
 tensor([0.]),
 torch.Size([1000, 4]),
 torch.Size([1000, 1]))

In [49]:
# 以上实际是假设函数的构造（神经网络的搭建）过程
loss = nn.MSELoss() # 损失函数
optim = torch.optim.SGD(params=net.parameters(), lr=0.03) # 优化函数
batch_iter = getBatch(X, y, 5, True)
# 以下开始训练
epoch_num = 3
for epoch in range(epoch_num):
    for dX, dy in batch_iter:
        l = loss(net(dX), dy)
        optim.zero_grad()
        l.backward()
        optim.step()
    print(f"epoch {epoch+1}: {float(loss(net(X), y)):.6f}")

epoch 1: 0.000105
epoch 2: 0.000099
epoch 3: 0.000099


In [50]:
net[0].weight.data, net[0].bias.data

(tensor([[1.1996, 0.9010, 1.9988, 2.6000]]), tensor([1.8000]))

In [53]:
help(optim)

Help on SGD in module torch.optim.sgd object:

class SGD(torch.optim.optimizer.Optimizer)
 |  SGD(params, lr=<required parameter>, momentum=0, dampening=0, weight_decay=0, nesterov=False, *, maximize=False, foreach: Union[bool, NoneType] = None)
 |  
 |  Implements stochastic gradient descent (optionally with momentum).
 |  
 |  .. math::
 |     \begin{aligned}
 |          &\rule{110mm}{0.4pt}                                                                 \\
 |          &\textbf{input}      : \gamma \text{ (lr)}, \: \theta_0 \text{ (params)}, \: f(\theta)
 |              \text{ (objective)}, \: \lambda \text{ (weight decay)},                          \\
 |          &\hspace{13mm} \:\mu \text{ (momentum)}, \:\tau \text{ (dampening)},
 |          \:\textit{ nesterov,}\:\textit{ maximize}                                     \\[-1.ex]
 |          &\rule{110mm}{0.4pt}                                                                 \\
 |          &\textbf{for} \: t=1 \: \textbf{to} \: \ldot