## 3.1 线性回归
回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域，回归经常用来表示输入和输出之间的关系。  
在机器学习领域中的大多数任务通常都与预测(prediction)有关。当我们想预测一个数值时，就会涉及到回归问题。常见的例子包括：预测价格(房屋、股票等)、预测住院时间(针对住院病人等)、预测需求(零销售等)。但不是所有的预测都是回归问题。在后面我们会介绍分类问题。分类问题的目标是预测数据属于一组类别中的哪一个

### 3.1.1 线性回归的基本元素
线性回归(linear regression)可以追溯19世纪初，它在回归的各种标准工具中最简单且最流行。线性回归基于几个简单的假设：首先，假设自变量$x$和因变量$y$之间的关系是线性，即$y$可以表示为$x$中元素的加权和，这里通常允许包含观测值的一些噪声；其次，我们假设任何噪声都比较正常，如噪声遵循正态分布。

为了解释线性回归，我们举一个实际的例子：我们希望根据房屋的面积(平方英尺)和房龄(年)来估算房屋价格(美元)。为了开发一个能预测房价的模型，我们需要收集一个真实的数据集。这个数据集包括了房屋的销售价格、面积和房龄。在机器学习的术语中，该数据称为训练数据集(training data set)或训练集(training set)。每行数据(比如一次房屋交易相对应的数据)称为样本(sample)，也可以称为数据点(data point)或数据样本(data instance)。我们把试图预测的目标(比如预测房屋价格)称为标签(label)或目标(target)。预测所依据的自变量(面积和房龄)称为特征(feature)或协变量(covariate)。

通常，我们使用$n$来表示数据集中的样本数。对索引为$i$的样本，其输入表示为$x^{(i)}= [x_1^{(i)}, x_2^{(i)}]^T$，其对应的标签是$y^{(i)}$

**线性模型**

线性假设是指目标(房屋价格)可以表示为特征(面积和房龄)的加权和，如下面的式子：
$$
price = w_{area} \cdot area + w_{age} \cdot age + b
$$
其中，$w_{area}$和$w_{age}$称为权重(weight)，权重决定了每个特征对我们预测值的影响。$b$称为偏置(bias)、偏移量(offset)或截距(intercept)。偏置是指当所有特征都取值为0时，预测值应该为多少。即使现实中不会有任何房子的面积是0或房龄是0年，我们仍然需要偏置项。如果没有偏置项，我们模型的表达能力将受到限制。严格来说，上面的公式是输入特征的一个仿射变换(affine transformation)。仿射变换的特点是通过加权和对特征进行线性变换(linear transformation)，并通过偏置项来进行平移(translation)。

给定一个数据集，我们的目标是寻找模型的权重$w$和偏置$b$，使得根据模型做出的预测大体符合数据里的真实价格。输出的预测值由输入特征通过线性模型的仿射变换决定，仿射变换由所选权重和偏置确定。

而在机器学习领域，我们常用的是高维数据，建模时采用线性代数表示法会比较方便。当我们的输入包含$d$个特征时，我们将预测结果$\hat y$(通常使用“尖角”符号表示$y$估计值)表示为：

$$
\hat y = w_1 x_1 + ... + w_d x_d + b
$$

将所有特征放到向量$x \in \mathbb R^d$中，并将所有权重放到向量$w \in \mathbb R^d$中，我们可以用点积形式来简洁地表达模型：

$$
\hat y = w^T x + b
$$

向量$x$对应于单个数据样本的特征。用符号表示的矩阵$X \in \mathbb R^{n \times d}$可以很方便地引用我们整个数据集的$n$个样本。其中，$X$的每一行是一个样本，每一列是一种特征。
对于特征集合$X$，预测值$\hat y \in \mathbb R^n$可以通过矩阵-向量乘法表示为：
$$
\hat y = Xw + b
$$

这个过程中的求和将使用广播机制，给定训练数据特征$X$和对应的已知标签$y$，线性回归的目标是找到一组权重向量$w$和偏置$b$：当给定从$X$的同分布中取样的新样本特征时，这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。