# 简单线性回归 Simple Linear Regression

在Data Science的世界中，线性回归是一切的基础。因为简单，易理解的特点而得到了广泛的应用。往往作为Data Science教材的第一个模型出现。

其实，我们在初中高中都已经在接触这个概念了。



## 1.什么是回归分析(Regression Analysis)

在统计学模型中，**回归分析**通常用于估算不同数据之间的关系。比如说，气温和用电量之间的关系、受教育水平和工资之间的关系、股票市场交易量和经济指数之间的关系。借助这样的关系，我们可以通过预测未来，然后进行一些相应的规划和决策。

譬如说，如果我们知道了夏天温度和用电量之间的关系，并且气象部门预测了未来一周的天气，那么政府就可以预估未来一周的用电量。对于电力短缺的地区，政府可以提前调度资源或者向群众发出停电预警。

以上就是回归分析(Regression Analysis)的概念和应用案例。

通常，我们将回归分析(Regression Analysis)简称为**回归（Regression）**。

## 2.相关术语

在上面回归分析的例子中，我们通过温度来预测用电量。在这种情况下，温度称为**预测值（predictor）**，用电量称作**结果（outcome）**。这两个概念存在于所有的模型中，通常：

> **预测值（Predictor）** 也被称作独立变量（independent variable）。在程序和数学公式中通常用**X**表示。
>
> **结果（outcome）**也被称为因变量（dependent variable）。在程序和数学公式中通常用**Y**表示。

在以上的进行线性分析的过程中，我们的数据用表格呈现如下：

![DataFrame](img/tutorial-img/image-20190717005950298.png)

每一行代表着一条观测数据。这里的观测对象是**武汉的一天**，观测的是**武汉一天的最高温度**和**武汉一天的用电量**。我们将每一行的数据称作一条**观测数据（observation）**。数据表有多少行，就有多少个观测数据（observation）。

表格的第一列数据是**索引（Index）**，第二列数据记录每日最高温度，这是**预测值（predictor）**；第三列数据记录每日耗电量，这是**结果（outcome）**。通常，我们将预测值（predictor）和结果（outcome）都称作观测数据（observation）的**特征值（feature）**。

表格的行数通常用**字母m**表示，列数通常用**字母n**表示。一个**m*n**的数据表格表示有**m条观测数据（observation）**和**n个特征值（feature）**。

为了阅读方便，对于以上概念，这个教程我们统一使用英文表达。



## 3.从二元一次方程组到Simple Linear Regression

初中时，我们通过两个点的坐标求解二元一次方程。例如：已知直线 $y=ax+b$ 经过点$(1,1)$和$(3, 2)$，求解a, b的值。

解法是将坐标值带入方程，得到一个二元一次方程组，并对其进行求解：

$$
\begin{cases}
a + b - 1 = 0\\
3a + b - 2 = 0
\end{cases} => \begin{cases}
a = \frac{1}{2} \\
b = \frac{1}{2}
\end{cases}
$$

于是，得到x和y之间的关系可以用这个直线方程表示：

$$y = \frac{1}{2}x + \frac{1}{2}$$

坐标图如下：

![Simple Linear Regression 1](img/tutorial-img/image-20190717004501638.png)

以上二元一次方程组的求解可以看作一个简单的线性回归问题，估算出x和y之间的线性关系，得到公式：$y = \frac{1}{2}x + \frac{1}{2}$

## 4.什么是模型？

**模型（Model）**是一个广泛的概念，不同问题中定义不同。在本教程中，**模型（Model）**表示包含x到y的映射关系的数学公式，可以被表达为$y = f(x)$。

在本章最开始的Regression例子中，我们将output（用电量）和predictor（温度）之间的关系用数学公式表达出来，这个公式就称为**模型（model）**。如果我们认为output（用电量）和predictor（温度）之间的关系是线性的，就会假设它们满足直线方程：$y = \beta_0 + \beta_1x$。这个直线方程就是我们要求解的**模型（Model）**，求解过程也称作**训练模型**。

要求解模型，本质上，我们要计算的是模型的系数$\beta_0, \beta_1$。

## 5.什么是线性关系（Linear Relationship）？

简单的线性回归（Simple Linear Regression）来说，其前提假设predictor和outcome之间具有近似的线性关系。那么，什么是线性关系呢？

> 简单来说，如果x和y能够表达为$y = \beta_0 + \beta_1x$，那么它们就具备线性关系。
>
> 沿着直线，observation在y轴的变化$\Delta{y}$总是在x轴的变化$\Delta{x}$的$\beta_1$倍：
>
> $\Delta{y} = y'-y = \beta_1(x' - x) = \beta_1\Delta{x}$

![Simple Linear Regression 2](img/tutorial-img/image-20190719153020613.png)

需要注明的是，线性关系不仅仅指存在于两个变量之间，它也可以存在于三个或者更多变量之间。比如：$y = \beta_0 + \beta_1x_1 + \beta_2x_2$，这条直线可以在三维空间中表达。

但实际情况是，我们在真实世界的数据不会完美的落在一个直线上，即使两个数据存在线性关系，它们或多或少离完美的直线都还有一些偏差。图像表示如下：

![Simple Linear Regression 3](img/tutorial-img/image-20190719153206189.png)

以上直线表达的是predictor和outcome之间近似的线性关系：$y \approx \beta_0 + \beta_1x$

之所以会有这些误差，是因为除了predictor现实中还有很多**其他因素**影响outcome的值。这些**其他因素**是我们模型没有体现出来的，所以最终的值会出现偏离的情况。假设我们可以得到所有影响outome的**其他因素**（$x_2,x_3,x_4, ...$），并且它们与outcome是线性关系，我们可以将公式写作：

$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + \beta_4x_4 + ...$

但实际上，我们无法获得所有的其他因素。为了数学表达方便，我们通常将其他因素打包起来： $\varepsilon =  \beta_2x_2 + \beta_3x_3 + \beta_4x_4 + …$，然后带入公式得到：$y = \beta_0 + \beta_1x + \varepsilon$。



## 6.什么是简单线性回归（Simple Linear Regression）？

找寻数据（predictor和outcome）之间的线性关系的方法，统称为**线性回归（Linear Regression）**。

如果只有一个predictor，就称作**简单线性回归（Simple Linear Regression）**，模型是：$y = \beta_0 + \beta_1x + \varepsilon$

如果有多个predictor，就称作**多元线性回归（Multiple Linear Regression）**，譬如说，有3个predictor的线性模型是：$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + \varepsilon$。这部分我们会在下一章介绍。

对于简单线性回归（Simple Linear Regression）来说，目的就是评估：$\beta_0, \beta_1, \varepsilon$。其中，

- $\beta_0, \beta_1$称为模型的系数
- $\varepsilon$称为模型的误差，其平均值为0，符合正态分布
- $y=\beta_0 + \beta_1x_1$称为**回归线（Regression Line）**



## 7.如何找到回归线（Regression Line）

当predictor和outcome不在一条直线的时候，我们可以画出无数条直线来表达近似的线性关系。那么，怎么找出最准确的一条直线呢？

![Simple Linear Regression 4](img/tutorial-img/image-20190719154141407.png)

此处我们引入一个公式，**误差的平方和（Sum of Squared Residuals）**，简称**SSR**。其公式是：

$$
SS_{residuals} = \sum^{n}_{i=1}(\hat{y}_i - y_i)^2
$$

使得**SSR**最小的那条直线，就是我们要找的**回归线（Regression Line）**。

上面公式乍一看有点复杂，其实概念很简单：**使得预测值和实际值尽可能接近**。以及了解或者对数学不感冒的同学可以跳过下面的公式介绍，只需要知道：当**SSR**公式算出的值达到最小，对应的$\beta_0, \beta_1$代表的直线就是我们要找的**回归线（Regression Line）**。

## 8.总结

本章是我们学习Data Science的起点，在这一章中我们介绍了：

- Regression的概念
- 相关术语
- 什么是线性关系（Linear Relationship）
- 如何找到回归线（Regression Line）

其中，也许有很多陌生概念。如果你觉得没有完全掌握，这是很正常的。这些概念会在之后的课程中重复出现，你会越来越熟悉。

在下一部分，我们会做一个好玩的事情，用Python来对一个二手车数据实现简单线性回归，研究二手车每年贬值多少。通过下一章的学习，你会对本章的内容有更深的理解。