# 1 线性回归
学习目标：
1. 解释损失函数及其工作原理。
2. 定义并描述梯度下降如何找到最佳模型参数。
3. 描述如何调整超参数以有效训练线性模型。
## 1.1 Linear Regression
$$y = wx + b$$
 $w$ : weight(权重);
 $b$ : bias
还有多个变量的，像：
$$y = w_1x_1 +w_2x_2 +w_3x_3 + b$$


## 1.2 Loss
### 1.2.1 Loss的度量（不关心正负）
### 1.2.2 Type of loss
| loss type | Def | Equation |
| --------- | --- | -------- |
|L1 loss    |模拟值和真实值的绝对值之和|$\Sigma\|actual_value - predicted_value\|$|
|MAE        |L1 loss的平均值|$\frac{1}{N}\Sigma\|actual_value - predicted_value\|$|
|L2 loss    |模拟值和真实值的平方之和|$\Sigma(actual_value - predicted_value)^2$|
|MSE        |L2 loss的平均值|$\frac{1}{N}\Sigma(actual_value - predicted_value)^2$|

### 1.2.3 MAE和MSE的区别
主要体现在异常值对于整体计算的影响，相同的MSE和MAE下，MSE模拟的线性函数更接近异常值

## 1.3 梯度下降
梯度下降是一种降低loss的数学方法。通过以下的迭代过程以找到最符合真实值的w和b。
一开始会将weight和bias设置在0附近的随机值。

1. 使用当前权重和偏差计算损失
2. 确定可以降低loss移动权重和偏差的方向
3. 在此方向上增加较小的一个值
4. 重复第一步直到不能继续减小loss

### 1.3.1 具体的例子

在具体层面上，我们可以使用一个小数据集来完成梯度下降步骤，其中包含七个汽车重量（以磅为单位）及其每加仑行驶英里数的示例：
|Pound(1000) (p)feature	    |Miles per gallon (m)label|
|---------------------------|------------------------ |
|3.5	                    |18                       |
|3.69	                    |15                       |
|3.44	                    |18                       |
|3.43	                    |16                       |
|4.34	                    |15                       |
|4.42	                    |14                       |
|2.37	                    |24                       |

1. 开始的时候，将weight和bias设置成0:
    $$weight=0$$
    $$bias=0$$
    $$m=0+0p$$
2. 计算 MSE Loss:
    $$MSE Loss = \frac{1}{N}\Sigma(m-m_0)^2 = 303.71$$
3. 计算该参数下的Loss的斜率:
    $$k_w=\frac{\sigma}{\sigma{w}}MSE loss=-199.7$$
    $$k_b=\frac{\sigma}{\sigma{b}}MSE loss=-34.3$$
4. 向负斜率方向移动少量以获得下一个权重和偏差。现在，我们将“少量”任意定义为 0.01:
    $$w_1=w_0-0.01*k_w$$
    $$b_1=b_0-0.01*k_b$$
使用新的权重和偏差来计算损失并重复。完成六次迭代的过程，我们将得到以下权重、偏差和损失:

|Iteration	|Weight	|Bias	|Loss (MSE)|
|-----------|-------|-------|----------|
|1	        |0	    |0	    |303.71|
|2	        |1.2	|0.34	|170.67|
|3	        |2.75	|0.59	|67.3|
|4	        |3.17	|0.72	|50.63|
|5	        |3.47	|0.82	|42.1|
|6	        |3.68	|0.9	|37.74|

### 1.3.2 模型收敛和损失曲线
### 1.3.3 收敛和凸函数

## 1.4 超参数
超参数Hyperparameters是控制训练不同方面的变量。常见的有三种:
1. learning rate 学习率
2. batch size 批大小
3. epochs :整个训练数据集被遍历一次的过程
### 1.4.1 超参数和参数之间的区别
1. 参数:如w、b的值是可以训练出来的
2. 超参数:是人为设置的
### 1.4.2 learning rate
学习率可以影响模型熟练的速度。如果学习率较低，则需要花费多次迭代才能收敛。若太高则无法收敛而是来回跳动。因此要选择不高也不低的学习率。
### 1.4.3 batch size
在深度学习中，我们通常不会一次性使用所有的训练数据来更新模型权重，而是将数据分成若干个批次，每个批次包含一定数量的样本。这样，模型可以在每个批次上进行权重更新，从而逐步优化其性能。Batch Size的大小通常设置为2的n次幂，如64、128、256等，这主要是为了充分利用计算机的内存和计算资源。
在更新权重和偏差之前无需查看数据集中的每个示例即可平均获得正确梯度的两种常见技术是**随机梯度下降**和**小批量随机梯度下降**：
1. 随机梯度下降:stochastic gradient descent(**SGD**)
    每次使用随机的一个数据点训练。
    但会产生噪声。请注意，使用随机梯度下降可能会在整个损失曲线上产生噪声，而不仅仅是在收敛附近。
2. 小批量随机梯度下降:mini-batch stochastic gradient descent(**mini-batch SGD**)
    就是不使用整个训练集，也不只使用一个数据点。
### 1.4.4 epochs
就是把每一个数据点都迭代过一遍，即使batch size不是整个训练集。具体如下
|Batch type	|When weights and bias updates occur|
|-----------|-----------------------------------|
|Full batch	|After the model looks at all the examples in the dataset. For instance, if a dataset contains 1,000 examples and the model trains for 20 epochs, the model updates the weights and bias 20 times, once per epoch.|
|Stochastic gradient descent	|After the model looks at a single example from the dataset. For instance, if a dataset contains 1,000 examples and trains for 20 epochs, the model updates the weights and bias 20,000 times.|
|Mini-batch stochastic gradient descent	|After the model looks at the examples in each batch. For instance, if a dataset contains 1,000 examples, and the batch size is 100, and the model trains for 20 epochs, the model updates the weights and bias 200 times.|