# 线性回归

## 原理

建模时采用线性代数表示法会比较方便。当我们的输入 包含 $d$ 个特征时，我们将预测结果 $\hat{y}$ （通常使用“尖角"符号表示 $y$ 的估计值）表示为：
$$
\hat{y}=w_1 x_1+\ldots+w_d x_d+b
$$
将所有特征放到向量 $\mathbf{x} \in \mathbb{R}^d$ 中, 并将所有权重放到向量 $\mathbf{w} \in \mathbb{R}^d$ 中, 我们可以用点积形式来简洁地表达模 型:
$$
\hat{y}=\mathbf{w}^{\top} \mathbf{x}+b
$$
向量 $\mathbf{x}$ 对应于单个数据样本的特征。用符号表示的矩阵 $\mathbf{X} \in \mathbb{R}^{n \times d}$ 可以很方便地引用我们整个 数据集的 $n$ 个样本。其中, $\mathbf{X}$ 的每一行是一个样本, 每一列是一种特征。
对于特征集合 $\mathbf{X}$, 预测值 $\hat{\mathbf{y}} \in \mathbb{R}^n$ 可以通过矩阵-向量乘法表示为:
$$
\hat{\mathbf{y}}=\mathbf{X} \mathbf{w}+b
$$

## 损失函数

损失函数 (loss function）能够量化目标的实际值与预测値之间的差距。

通常我们会选择非负数作为损失, 且数值越小表示 损失越小, 完美预测时的损失为 0 。 

回归问题中最常用的损失函数是平方误差函数。当样本 $i$ 的预测值为 $\hat{y}^{(i)}$ , 其相应的真实标签为 $y^{(i)}$ 时, 平方误差可以定义为以下公式:
$$
l^{(i)}(\mathbf{w}, b)=\frac{1}{2}\left(\hat{y}^{(i)}-y^{(i)}\right)^2 .
$$

由于平方误差函数中的二次方项, 估计值 $\hat{y}^{(i)}$ 和观测值 $y^{(i)}$ 之间较大的差异将导致更大的损失。为了度量模型 在整个数据集上的质量, 我们需计算在训练集 $n$ 个样本上的损失均值（也等价于求和）。
$$
L(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^n l^{(i)}(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right)^2 .
$$
在训练模型时, 我们希望寻找一组参数 $\left(\mathbf{w}^*, b^*\right)$, 这组参数能最小化在所有训练样本上的总损失。如下 式:
$$
\mathbf{w}^*, b^*=\underset{\mathbf{w}, b}{\operatorname{argmin}} L(\mathbf{w}, b) .
$$

## 解析解

$$\mathbf{w}^*=\left(\mathbf{X}^{\top} \mathbf{X}\right)^{-1} \mathbf{X}^{\top} \mathbf{y}$$

## 随机梯度下降

我们用下面的数学公式来表示这一更新过程（ $\partial$ 表示偏导数）：
$$
(\mathbf{w}, b) \leftarrow(\mathbf{w}, b)-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w}, b)} l^{(i)}(\mathbf{w}, b)
$$

(1) 初始化模型参数的值, 如随机初始化; 

(2) 从数据集中随机抽取小批 量样本且在负梯度的方向上更新参数, 并不断迭代这一步骤。

$$
\begin{aligned}
& \mathbf{w} \leftarrow \mathbf{w}-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{\mathbf{w}} l^{(i)}(\mathbf{w}, b)=\mathbf{w}-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right), \\
& b \leftarrow b-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_b l^{(i)}(\mathbf{w}, b)=b-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right) .
\end{aligned}
$$

## 正态分布与平方损失

正态分布 (normal distribution) ，也称为高斯分布 (Gaussian distribution）, 最早由德国数学家高斯 (Gauss) 应用于天文学研究。简单的说, 若随机变量 $x$ 具有均值 $\mu$ 和方差 $\sigma^2($ 标准差 $\sigma)$  其 正 态 分 布 概 率 密 度 函 数 如 下: 
$$
p(x)=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{1}{2 \sigma^2}(x-\mu)^2\right) \text {. }
$$

# 线性回归的从零开始实现

In [1]:
import random
import torch

In [2]:
def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape((-1, 1))

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)

In [3]:
print('features:', features[0],'\nlabel:', labels[0])

features: tensor([ 0.4210, -0.0838]) 
label: tensor([5.3413])


## 读取数据集

In [4]:
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    # 这些样本是随机读取的，没有特定的顺序
    random.shuffle(indices)
    for i in range(0, num_examples, batch_size):
        batch_indices = torch.tensor(
            indices[i: min(i + batch_size, num_examples)])
        yield features[batch_indices], labels[batch_indices]
        
batch_size = 10

for X, y in data_iter(batch_size, features, labels):
    print(X, '\n', y)
    break

tensor([[-0.7963, -1.3122],
        [-0.3924, -1.3052],
        [-2.3347, -2.7803],
        [ 0.3914,  0.6717],
        [-0.8716, -0.8575],
        [ 0.2685, -1.3634],
        [-2.0699,  0.6321],
        [ 0.3147,  2.7199],
        [-3.4801,  0.2269],
        [ 0.5900,  0.3157]]) 
 tensor([[ 7.0594],
        [ 7.8615],
        [ 8.9873],
        [ 2.6964],
        [ 5.3815],
        [ 9.3693],
        [-2.1011],
        [-4.4139],
        [-3.5128],
        [ 4.3123]])


## 初始化模型参数

In [6]:
w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

## 定义模型

In [7]:
def linreg(X, w, b): 
    """线性回归模型"""
    return torch.matmul(X, w) + b

## 定义损失函数

In [8]:
def squared_loss(y_hat, y): 
    """均方损失"""
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2

## 定义优化算法 

In [9]:
def sgd(params, lr, batch_size):  
    """小批量随机梯度下降"""
    with torch.no_grad():
        for param in params:
            param -= lr * param.grad / batch_size
            param.grad.zero_()

## 训练

In [10]:
lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # X和y的小批量损失
        # 因为l形状是(batch_size,1)，而不是一个标量。l中的所有元素被加到一起，
        # 并以此计算关于[w,b]的梯度
        l.sum().backward()
        sgd([w, b], lr, batch_size)  # 使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

epoch 1, loss 0.035104
epoch 2, loss 0.000128
epoch 3, loss 0.000050


In [11]:
print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')

w的估计误差: tensor([ 5.8424e-04, -3.6955e-05], grad_fn=<SubBackward0>)
b的估计误差: tensor([0.0005], grad_fn=<RsubBackward1>)


# 线性回归的简洁实现

##  生成数据集

In [9]:
import numpy as np
import torch
from torch.utils import data
def synthetic_data(w, b, num_examples):
    """生成y=Xw+b+噪声

    Defined in :numref:`sec_linear_scratch`"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, torch.reshape(y, (-1, 1))

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 10)

In [10]:
def load_array(data_arrays, batch_size, is_train=True):  #@save
    """构造一个PyTorch数据迭代器"""
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

batch_size = 10
data_iter = load_array((features, labels), batch_size)

## 定义模型

In [11]:
from torch import nn
import torch
net = nn.Sequential(nn.Linear(2, 1))

## 初始化模型参数

In [12]:
net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0)

tensor([0.])

## 定义损失函数

In [13]:
loss = nn.MSELoss()

## 定义优化算法

In [14]:
trainer = torch.optim.SGD(net.parameters(), lr=0.03)

## 训练

In [15]:
num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X) ,y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')

epoch 1, loss 23.247873
epoch 2, loss 20.348331
epoch 3, loss 17.878389


In [16]:
w = net[0].weight.data
print('w的估计误差：', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差：', true_b - b)

w的估计误差： tensor([ 1.3603, -3.2202])
b的估计误差： tensor([3.5735])


# softmax回归

## 分类问题

## 网络架构

$$\begin{aligned} & o_1=x_1 w_{11}+x_2 w_{12}+x_3 w_{13}+x_4 w_{14}+b_1 \\ & o_2=x_1 w_{21}+x_2 w_{22}+x_3 w_{23}+x_4 w_{24}+b_2 \\ & o_3=x_1 w_{31}+x_2 w_{32}+x_3 w_{33}+x_4 w_{34}+b_3\end{aligned}$$


![](https://zh-v2.d2l.ai/_images/softmaxreg.svg)

## softmax运算

$$
\hat{\mathbf{y}}=\operatorname{softmax}(\mathbf{o}) \quad \text { 其中 } \quad \hat{y}_j=\frac{\exp \left(o_j\right)}{\sum_k \exp \left(o_k\right)}
$$



$$
\underset{j}{\operatorname{argmax}} \hat{y}_j=\underset{j}{\operatorname{argmax}} o_j .
$$

#  图像分类数据集

In [1]:
import torch


In [1]:
# import torchvision

In [None]:

from torch.utils import data
from torchvision import transforms
from matplotlib import pyplot as plt
from matplotlib_inline import backend_inline


In [None]:

def use_svg_display():
    """使用svg格式在Jupyter中显示绘图

    Defined in :numref:`sec_calculus`"""
    backend_inline.set_matplotlib_formats('svg')