#  线性回归（监督式机器学习）

监督式机器学习

*   **标签**：对事物的（真实）判断，譬如基本线性回归中的因变量 $ y $
*   **特征**：从事物上获取的信息，譬如基本线性回归中的自变量 $ \{ x_1, x_2, \cdots, x_n \} $
*   **样本**：一份数据，必然包含特征，可能包含标签
    *   **有标签样本**，用于**训练**模型 $ (x, y) $
    *   **无标签样本**，可用模型对其作出**推断** $ (x, ?) $
*   **模型**：将样本的特征映射到样本的（预测）标签 $ y' $


*   **回归模型**可推断连续值
*   **分类模型**可推断离散值

### 线性回归模型

$$ \begin{aligned}
y' &= b + \vec{w} \cdot \vec{x} \\
   &= b + w_1x_1 + w_2x_2 + \cdots + w_nx_n
\end{aligned} $$

*   $ y' $：预测标签
*   $ \vec{w} $: 权重向量（weight vector）
*   $ \vec{x} $：特征向量
*   $ b $：偏差，也有记作 $ w_0 $ 的

### 单样本的平方误差（$L_2$）

$$
L_2 = (y - y')^2
$$

*   $ L_2 $：平方误差
*   $ y $：观测标签（observation）
*   $ y' $：预测标签（prediction）

### 数据集的平方损失（$L_2Loss$）

$$
L_2Loss = \sum_{(x,y)\in{}D}(y - prediction(x))^2
$$

*   $ L_2Loss $：平方损失
*   $ D $：训练集
*   $ prediction $：模型

### 数据集的均方损失（MSE）

$$
MSE = \frac{L_2Loss}{\|D\|}
$$

*   $ MSE $：均方损失
*   $ L_2Loss $：平方损失
*   $ \|D\| $：训练集的样本数

### 经验风险最小化：降低损失（Reducing Loss）

*   梯度（向量）下降法
*   随机梯度下降法
*   小批量梯度下降法（10~1000个）
*   凸形、蛋架
*   参数空间
*   超参数
*   梯度（误差函数的导数），用于确定参数往哪边偏
*   参数初始值，变化方向，学习速率（大了可能错过局部最小值，小了计算量太大）
*   外来经验：学习速率太大以至于误差越来越大，这时将学习速率减慢一个数量级

In [1]:
import tensorflow as tf

print('tensorFlow version: ', tf.__version__)

tensorFlow version:  2.1.0


## 示例：`hello, world`

In [2]:
tensor = tf.constant('hello, world')
tensor.numpy()

b'hello, world'

## 示例：常量

In [3]:
x = tf.constant(3)
y = tf.constant(4)
x + y

<tf.Tensor: shape=(), dtype=int32, numpy=7>

## 练习：骰子

创建一个 10x3 张量，其中两列（`die1` 和 `die2`）记录两次六面骰子掷出的值，第三列记录它们的和（`dice_sum`）．

In [4]:
die1 = tf.Variable(tf.random.uniform([10, 1], minval=1, maxval=7, dtype=tf.int32))
die2 = tf.Variable(tf.random.uniform([10, 1], minval=1, maxval=7, dtype=tf.int32))
dice_sum = die1 + die2

tf.concat(values=[die1, die2, dice_sum], axis=1)

<tf.Tensor: shape=(10, 3), dtype=int32, numpy=
array([[1, 4, 5],
       [3, 5, 8],
       [5, 3, 8],
       [3, 1, 4],
       [4, 1, 5],
       [3, 1, 4],
       [2, 2, 4],
       [5, 4, 9],
       [2, 2, 4],
       [5, 2, 7]])>