## 房价预测

### 一个简化模型
- ### 假设1：影响房价的关键因素是卧室个数，卫生间个数和居住面积，记为$x_1, x_2, x_3$
- ### 假设2：成交价是关键因素的加权和
$$
y = w_1x_1 + w_2x_2 + w_3x_3 + b
$$

其中$b$是偏差，权重和偏差的实际值在后面决定

## 线性模型
- ### 给定$n$维输入 $\pmb x = [x_1,x_2,...,x_n]^\top$
- ### 线性模型有一个$n$维权重和一个标量偏差
$$
\pmb w = [w_1,w_2,...,w_n]^\top, b
$$
- ### 输出是输入的加权和
$$
\pmb y = w_1x_1 + w_2x_2 + ... + w_nx_n + b
$$
- ### 向量版本: $y = \langle \pmb w, \pmb x \rangle + b$

## 线性模型可以看做单层神经网络

```mermaid
graph BT
x1((x1))-->O1((o1))
x2((x2))-->O1((o1))
x3((x3))-->O1((o1))
xd((xd))-->O1((o1))

```

其中$o_1$表示输出层，$x_1,x_2,...,x_d$是输入层

## 衡量预估质量
- ### 比较真实值和预估值，例如房屋的售价和估价
- ### 假设$y$是真实值，$\hat{y}$ 是估计值，我们可以比较
$$
\ell (y, \hat{y}) = \frac{1}{2}(y - \hat{y})^2
$$

**这个叫平方损失**


## 训练数据
- ### 收集一些数据点来决定参数（权重和偏差），例如过去6个月卖的房子
- ### 这被称之为训练数据
- ### 通常越多越好
- ### 假设我们有$n$个样本，记
$$
\pmb X = [\pmb x_1, \pmb x_2,..., \pmb x_n]^\top \quad \pmb y = [y_1,y_2,...,y_n]^\top
$$

## 参数学习
- ### 训练损失
$$
\ell (\pmb X, \pmb y, \pmb w, b) = \frac{1}{2n} \sum_{i=1}^n(y_i - \langle \pmb x_i, \pmb w \rangle - b)^2 = \frac{1}{2n} \begin{Vmatrix} y - \pmb X \pmb w - b \end{Vmatrix} ^2
$$

其中， 
$\frac{1}{2}$来自于损失函数$\frac{1}{2}(y-\hat{y})^2$, $\frac{1}{n}$表示求平均

- ### 最小化损失来学习参数
$$
\pmb w^{\ast}, \pmb b^{\ast} = arg \mathop{\min}_{\pmb w, b} \ell(\pmb X, \pmb y, \pmb w, b)
$$

我们的目标是找到一个$\pmb w, b$使得我们的损失函数最小。

## 显示解
线性模型有显示解

- ### 将偏差加入权重 $\pmb X \gets [\pmb X, 1] \quad \pmb w \gets \left[ \begin{matrix} \pmb w \\ b \end{matrix} \right]$
$$
\ell (\pmb X, \pmb y, \pmb w) = \frac{1}{2n} \begin{Vmatrix} \pmb y - \pmb X \pmb w \end{Vmatrix} ^2 \\
\frac{\partial }{\partial \pmb w} \ell(\pmb X, \pmb y, \pmb w) = \frac{1}{n}(\pmb y - \pmb X \pmb w)^\top \pmb X
$$

其中，将一列全$1$的特征，加入到矩阵$\pmb X$中，便能将$b$加入到参数$\pmb w$中


- ### 损失是凸函数，所以最优解满足（一定存在梯度为0的点)
$$
\frac{\partial}{\partial \pmb w} \ell(\pmb X, \pmb y, \pmb w) = 0 \\
\Leftrightarrow \frac{1}{n}(\pmb y - \pmb X \pmb w)^\top \pmb X = 0 \\
\Leftrightarrow \pmb w ^{\ast} = (\pmb X^\top \pmb X)^{-1} \pmb X^\top \pmb y
$$

## 总结
- ### 线性回归是对$n$维输入的加权，外加偏差
- ### 使用平方损失来衡量预测值和真实值的差异
- ### 线性回归有显示解
- ### 线性回归可以看做是单层神经网络