本章目标：
- 使用第一章的构建块构建`线性回归模型`
- 证明在第一章所做的导数的推理可以训练`线性回归模型`
- 将上述模型扩展（依旧使用我们的构建块）到一层神经网络

在接下来的第三章时，我们依旧使用相同的构建块去构建深度学习模型。

在深入主题之前，先概述一下机器学习的子集： `监督学习`，接下来将重点关注如何使用神经网络去解决这类问题。

## 监督学习概述

从高层次来说，机器学习指的是通过构建一种算法，用来揭示（或学习）数据之间的关系。这种关系可以是分类，回归，聚类等。监督学习可以被描述为机器学习的一个子集，专门用于查找已测量的数据特征之间的关系。

在本章节会使用监督学习去解决现实世界中的房价预测问题：寻找房屋特征与房屋价值之间的关系。我们用数值去表现房屋的各个特征，也就是 `ndarray`。

在这个 `ndarray` 中，每一行的长度就是数据的特征数。通常情况下，一个属性（characteristic）会有多个特征（features），但在本章中，我们将一个属性映射为一个特征。在实践中，我们通过选择一个我们想要从其他特征中预测的特征，我们将此特征称为我们的目标（target）。选择哪个特征作为目标是完全任意的，取决于要解决的问题。

下图显示了监督学习描述的层次结构，从在数据中查找关系的最高级别描述，到通过训练模型来量化这些关系的最低级别，以揭示特征和目标之间的数值表示。

![Overview](./images/02_supervised_learning_overview.png)

本章的内容主要集中在图片的下半部分，也就是模型。

## 监督学习模型

我们的目标是找到一个以 `ndarray` 作为输入，以 `ndarray` 作为输出的函数，这个输出的 `ndarray` 尽可能的接近目标。

用 `n` 行的矩阵 `X` 表示输入，每一行都表示样本的 `k` 个特征。每一行（一个样本）使用向量表示：$x_i = \begin{bmatrix} x_{i1} & x_{i2} & \cdots & x_{ik} \end{bmatrix}$ 。把所有的样本数据放在一起，我们得到一个 `n x k` 的矩阵 `X`，以下表示的是一个 `n = 3` 的矩阵：

$$
X_batch =
\begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1k} \\
x_{21} & x_{22} & \cdots & x_{2k} \\
x_{31} & x_{32} & \cdots & x_{3k} \\
\end{bmatrix}
$$

对于输入的矩阵 `X`，我们有一个 `n` 行的向量 `y`，表示我们的目标：
$$
\begin{bmatrix}
y_1 \\
y_2 \\
y_3 \\
\end{bmatrix}
$$


我们的目标是找到一个函数 $f$，使得 $f(X) \approx y$。首先我们从最简单的模型：线性回归开始。

## 线性回归


线性回归通常表示为：

$$
y_i = \beta_0 + \beta_1 \times x_{1} + \beta_2 \times x_{2} + \cdots + \beta_k \times x_{k} + \epsilon
$$


上述公式不够直观，接下来用图示进行解释。


## Diagram

![Linear Regression](./images/02_linear_regression.png)


也就是有一组观察数据 $x_i = \begin{bmatrix} x_1 & x_2 & x_3 & \cdots & x_k \end{bmatrix} $ 和另外一组称之为 $W$ 的参数：

$$
W = \begin{bmatrix} w_1 \\ w_2 \\ w_3 \\ \vdots \\ w_k \end{bmatrix}
$$

那么预测值就为：

$$
p_i = x_i \times W = w_1 \times x_{i1} + w_2 \times x_{i2} + \cdots + w_k \times x_{ik}
$$

如果我们有多组观察数据，也就是上述的 $X_{batch}$ 那么预测值就是矩阵相乘：

$$
p_{batch} = X_{batch} \times W = 
\begin{bmatrix} 
x_{11} & x_{12} & \cdots & x_{1k} \\ 
x_{21} & x_{22} & \cdots & x_{2k} \\ 
\vdots & \vdots & \ddots & \vdots \\ 
x_{n1} & x_{n2} & \cdots & x_{nk} 
\end{bmatrix} \times 
\begin{bmatrix} w_1 \\ w_2 \\ w_3 \\ \vdots \\ w_k 
\end{bmatrix} = 
\begin{bmatrix}
x_{11} \times w_1 + x_{12} \times w_2 + \cdots + x_{1k} \times w_k \\
x_{21} \times w_1 + x_{22} \times w_2 + \cdots + x_{2k} \times w_k \\
\vdots \\
x_{n1} \times w_1 + x_{n2} \times w_2 + \cdots + x_{nk} \times w_k \\
\end{bmatrix}
$$

### "训练"模型

什么是"训练"模型？直白地说，模型将数据作为输入，以某种方式将它们与参数相结合，并产生预测值。例如上述的线性回归模型，我们将数据 `X` 与参数 `W` 相乘，得到预测值 `p`：
$$
p_{batch} = 
\begin{bmatrix}
p_1 \\
p_2 \\
p_3
\end{bmatrix}
$$

为了"训练"模型，我们还需要额外的信息，也就是如何衡量预测值的好坏。我们将这个信息称为 `loss function`，用来衡量预测值(`p`)与目标值（`y`）之间的差异。在线性回归中，我们使用 `mean squared error` 作为 `loss function`：

$$
MSE(p_{batch},y_{batch}) = MSE \left(
\begin{bmatrix}
p_1 \\
p_2 \\
p_3
\end{bmatrix},
\begin{bmatrix}
y_1 \\
y_2 \\
y_3
\end{bmatrix}
\right) = 
\frac{(y_1 - p_1)^2 + (y_2 - p_2)^2 + (y_3 - p_3)^2}{3} 
$$

得到的值我们称之为 $L$。一旦我们有了这个值，我们就可以使用我们在第 1 章中看到的所有技术来计算这个数字相对于 $W$ 的每个元素的 `梯度`。然后，我们可以使用这些导数在导致 $L$ 减小的方向上更新 $W$ 的每个元素。重复上述步骤直到我们能接受的 $L$ 为止。这个过程我们称之为 `训练` 模型。


### Diagram


没有偏置的情况：

![Linear Regression](./images/02_linear_regression_forward.png)



$L$ 值可以通过以下公式计算：

$$
L = \Lambda(\nu(X, W), Y)
$$


有偏置的情况：

![Linear Regression](./images/02_linear_regression_forward_bias.png)


计算公式：

$$
p_{batch} = x_i dot W + b = 
\begin{bmatrix}
x_{11} \times w_1 + x_{12} \times w_2 + \cdots + x_{1k} \times w_k + b \\
x_{21} \times w_1 + x_{22} \times w_2 + \cdots + x_{2k} \times w_k + b \\
x_{31} \times w_1 + x_{32} \times w_2 + \cdots + x_{3k} \times w_k + b \\
\end{bmatrix} = 
\begin{bmatrix}
p_1 \\
p_2 \\
p_3
\end{bmatrix}
$$

### Code

In [1]:
import numpy as np
from numpy import ndarray

from typing import Callable, Dict, Tuple, List

np.set_printoptions(precision=4)

In [1]:
def forward_linear_regression(X_batch: ndarray,
                              y_batch: ndarray,
                              weights: Dict[str, ndarray]
                              ) -> Tuple[float, Dict[str, ndarray]]:
    '''
    Forward pass for the step-by-step linear regression.
    '''
    # assert batch sizes of X and y are equal
    assert X_batch.shape[0] == y_batch.shape[0]

    # assert that matrix multiplication can work
    assert X_batch.shape[1] == weights['W'].shape[0]

    # assert that B is simply a 1x1 ndarray
    assert weights['B'].shape[0] == weights['B'].shape[1] == 1

    # compute the operations on the forward pass
    N = np.dot(X_batch, weights['W'])

    P = N + weights['B']

    loss = np.mean(np.power(y_batch - P, 2))

    # save the information computed on the forward pass
    forward_info: Dict[str, ndarray] = {}
    forward_info['X'] = X_batch
    forward_info['N'] = N
    forward_info['P'] = P
    forward_info['y'] = y_batch

    return loss, forward_info

## 模型训练

## 模型评估

## 从零开始的神经网络

## 训练与评估我们的第一个神经网络