In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from scipy.stats import t,f
import statsmodels.formula.api as smf
import statsmodels.api as sm
from scipy.stats import norm

# 实践中的统计
<center>联盟数据系统</center>

在飞速发展的客户关系管理行业中，联盟数据系统（ADS）可为顾客提供交易代理、信贷服务和营销服务等一系列服务  
作为营销服务的手段之一，ADS设计了直接向顾客邮寄宣传品的促销活动。公司的分析发展部门运用回归分析方法，建立能度量并预测顾客对促销活动反应的模型  
一些回归模型预测了顾客收到促销宣传品后购买商品的概率，另一些回归模型则预测了这些顾客购买商品所花费的金额  
在某一项特定的促销活动中，零售连锁店的目标是吸引新顾客  
为了预测此项促销活动的效果，ADS的分析师从顾客信息数据库中选取了一个样本，向样本顾客对此项活动反馈的数据收集起来并加以处理 5  
样本数据不但包括顾客由于促销活动而购买商品的金额，而且还包括各种各样的、有助于预测销售额的顾客特定变量  
顾客特定变量是指：顾客在过去39个月里从相关商店中赊购商品的总金额，该变量对预测顾客购买商品的金额将会起到很大的作用  
ADS的分析师建立了购买商品的金额将会起到很大作用。ADS的分析师建立了购买商品总金额与过去从相关商店中赊购商品金额之间关系的估计的回归方程   
$$\hat{Y}=26.7+0.00205x$$
式中，$\hat{Y}$代表购买商品的总金额;x代表过去从相关商店中赊购商品的金额 5  
利用这一方程，我们能够预测出：一位在过去39个月里从相关商店中赊购了10000美元的顾客，对于直接向他们邮寄宣传品的反应将是消费47.20美元  
为了提高前述方程的预测能力，ADS的分析师建立的最终模型还包含一些其他变量。在下一章里，我们将学习如何把这些额外的变量整合到多元回归模型中  
管理决策，经常取决于对两个或多个变量之间关系的分析。例如，一位市场销售经理考虑了广告费用和销售收入之间的关系后，才可能尝试去预测一个给定水平的广告费用，能带来多少销售收入  
但是，如果能取得数据，我们就能利用统计方法来建立一个表示变量之间相互关系的方程，我们将这一统计方法称为回归分析  
在回归术语中，我们把被预测的变量称为**应变量**，把用来预测应变量指的一个或多个变量称为**自变量**。在统计符号上，y代表应变量,x代表自变量 5  
在本章中，我们仅仅讨论最简单类型的回归分析，它只包括一个自变量和一个应变量，二者之间的关系可以用一条直线近似表示。这种回归分析被称为**简单线性回归** 5  
# 14.1 简单线性回归模型  
管理人员确信，这些连锁店的季度销售收入（用y表示）与学生人数（用x表示）是正相关的  
## 14.1.1 回归模型和回归方程
在Armand比萨连锁店的例子中，总体是由所有的Armand比萨连锁店组成的。对于总体中的每一个连锁店，都有一个x值（学生人数）和一个对应的y值（季度销售收入）  
描述y如何依赖x和误差项的方程称为**回归模型**。下面是用于简单线性回归的回归模型  
式中,$\beta_0$和$\beta_1$称为模型的参数;$\varepsilon$是一个随机变量，称为模型的误差项。误差项说明了包含在y里面但不能被x和y之间的线性关系解释的变异性  
<hr />

**简单线性回归模型**（14-1） 5  
$$y=\beta_0+\beta_1x+\varepsilon$$
<hr />

Armand比萨饼连锁店总体还可以视为由若干个子总体组成的集合，每个子总体都对应一个不同的x值  
例如，一个子总体是由8000名学生的校园附近的所有armand比萨饼连锁店组成的。另一个子总体是由有9000名学生的校园附近的所有Armand比萨饼连锁店组成的  
每一个子总体都对应一个y值分布。y值的每一个分布都有它自己的平均值或期望值。描述y的期望值E(y)如何依赖于x的方程被称为**回归方程**。对于简单线性回归情形，回归方程如下   
<hr />

**简单线性回归方程**(14-2) 5  
$$E(y)=\beta_0+\beta_1x$$
<hr />

简单线性回归方程的图形是一条直线;$\beta_0$是回归直线的y轴截距，$\beta_1$是斜率，对于一个给定的x值，E(y)是y的平均值或期望值  
对于简单线性回归方程，它所代表的各种可能的回归线的实例如图14-1所示  
![14-1](../syn_pic/statistics_for_business_economics/14-1.png)
<center>图14-1 在简单线性回归中的各种可能的回归线</center>

## 14.1.2 估计的回归方程  
如果总体参数$\beta_0$和$\beta_1$的值是已知的，那么对于一个给定的x值，我们能利用式（14-2）计算y的平均值 5  
遗憾的是，在实际中参数$\beta_0$和$\beta_1$的值常常是未知的，我们必须利用样本数据去估计它们  
我们计算样本统计量$b_0$和$b_1$作为总体参数$\beta_0$和$\beta_1$的估计量。用样本统计量$b_0$和$b_1$替代回归方程中的未知参数$\beta_0$和$\beta_1$，我们得到了**估计的回归方程**  
对于简单线性回归情形，估计的回归方程如下  
<hr />

**估计的简单线性回归方程**（14-3）
$$\hat{y}=b_0+b_1x$$
<hr />

5  
估计的简单线性回归方程的图形，称为估计的回归线;$b_0$是y轴截距，$b_1$是斜率。在下一节，我们将说明如何利用最小二乘法计算估计的回归方程中的$b_0$和$b_1$的值  
通常，对于x的一个给定值，$\hat{y}$是y的平均值E(y)的一个点估计。后面我们将会证明，对于x的一个给定值，y的最优估计仍然由$\hat{y}$给出  
对于x的一个给定值,$\hat{y}$即是y的平均值E(y)的一个点估计值，也是y的一个个别值的点估计值，所以我们简单地把$\hat{y}$称为y的估计值  
对于简单线性估计回归情形，图14-2给出了一个估计步骤的概要  
![14-2](../syn_pic/statistics_for_business_economics/14-2.png)
<center>图14-2 简单线性回归的估计步骤 5</center>

## 注释
1. 我们不能把回归分析看做是在变量之间建立一个因果关系的过程。回归分析只能表明，变量是如何或者是以怎样的程度彼此联系在一起的  
    变量之间有关因果关系和相互影响的任何结论，必须建立在人们在应用时对大量信息判断的基础上  
2. 对于简单线性回归情形，回归方程是$E(y)x=\beta_0+\beta_1x$  
    在更高级的回归分析教科书中，通常把回归方程写成$E(y|x)=\beta_0+\beta_1x$，这种写法强调了对x的一个给定值，回归方程给出的是y的平均值 5  
    
# 14.2 最小二乘法  
**最小二乘法** 是利用样本数据建立估计的回归方程的一种方法。为了说明最小二乘法，假定由位于大学校园附近的10家Armand比萨饼连锁店组成一个样本，并对这个样本采集有关数据  
对于样本中的第i个观测值或第i家连锁店，$x_i$表示学生人数（单位：1000人）,$y_i$表示季度销售收入(单位：1000美元)  
样本中10家Armand比萨饼连锁店的$x_i$和$y_i$的数值如表14-1所示  
<center>表14-1 10加Armand比萨连锁店的学生人数和季度销售收入数据</center>


In [None]:
'''
python	pandas	Input/Output	read_csv() usecols
python	pandas	Input/Output	read_csv() index_col
'''
Armand=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch14/Armand\'s.csv',index_col=0,usecols=[0,1,2])
Armand

图14-3是表14-1中数据的散点图。横轴表示学生人数，纵轴表示季度销售收入。根据横轴上自变量x的值和纵轴上应变量y的值，就可以做出回归分析的**散点图** 5  

In [None]:
'''
python	pandas	dataframe	d.plot.scatter() c
python	matplotlib	Pyplot function overview	ylim()
python	matplotlib	Pyplot function overview	xlim()
python	matplotlib	Pyplot function overview	ylabel()
python	matplotlib	Pyplot function overview	xlabel()
python	matplotlib	Pyplot function overview	xticks()
python	matplotlib	Pyplot function overview	yticks()
'''
Armand.plot.scatter(x='Population',y='Sales',c='black')
plt.ylim(0,240)
plt.xlim(0,30)
plt.ylabel('Quarterly sales (1000$)')
plt.xlabel('population(1000p)')
plt.xticks(np.arange(0,30,2))
plt.yticks(np.arange(0,240,20))
plt.show()

散点图使我们能从图形上观察数据，并且能对变量间可能存在的关系得出初步的结论  
从图14-3我们能得出一些什么样的初步结论呢？实际上，在x和y之间存在一个正向的线性关系，因此我们选择用简单线性回归模型来表示季度销售收入与学生人数之间的关系  
对于第i家连锁店，估计的简单线性回归方程是(14-4)  
$$\hat{y}_i=b_0+b_1x_i$$  
5  
式中，$\hat{y}_i$代表第i家连锁店季度销售收入的估计值（1000美元）;$b_0$代表估计的回归直线的y轴截距;$b_1$代表估计的回归直线的斜率；$x_i$代表第i家连锁店的学生人数（1000人）  
用$y_i$表示第i家连锁店季度销售收入的观测（实际）值，式(14-4)中$\hat{y}_i$表示第i家连锁店季度销售收入的估计值，样本中的每一家连锁店都将有一个季度销售收入的观测值$y_i$和一个季度销售收入的估计值$\hat{y}_i$  
为了使估计的回归直线能对样本数据有一个好的拟合，我们希望季度销售收入的观测值与估计值之间的差要小  
最小二乘法是利用样本数据，通过使应变量的观测值$y_i$与应变量的估计值$\hat{y}_i$之间的离差平方和达到最小的方法求得$b_0$和$b_1$的值  
最小二乘法准则由式(14-5)给出 5  
<hr />

**最小二乘法准则**（14-5）  
$$min\Sigma(y_i-\hat{y}_i)^2$$
式中，$y_i$代表对于第i次观测，应变量的观测值;$\hat{y}_i$代表对于第i次观测，应变量的估计值  
<hr />

微分学可以证明，使式(14-5)达到最小的$b_0$和$b_1$的值能利用式(14-6)和式(14-7)求得  
<hr />

**估计的回归方程的斜率和y轴截距**（14-6） 5  
$$b_1=\frac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{\Sigma(x_i-\bar{x})^2}$$
(14-7)  
$$b_0=\bar{y}-b_1\bar{x}$$
式中，$x_i$代表对于第i次观测，自变量的观测值;$y_i$代表对于第i次观测，应变量的观测值;$\bar{x}$代表自变量的样本平均值;$\bar{y}$代表应变量的样本平均值;n代表总观测次数  
<hr />

在Armand比萨饼连锁店的例子中，应用最小二乘法估计回归方程的一些必要的计算在表14-2中列出  
由于样本是由10家Armand比萨饼连锁店组成，所以我们有观测次数n=10  
<center>表14-2 Armand比萨饼连锁店的最小二乘法估计的回归方程的计算 5</center>


In [None]:
Population_bar=Armand.mean()[0]
Sales_bar=Armand.mean()[1]
Armand['PopulationDiff']=Armand['Population'].sub(Population_bar)
Armand['SalesDiff']=Armand['Sales'].sub(Sales_bar)
Armand['斜率公式分子行']=Armand['PopulationDiff'].mul(Armand['SalesDiff'])
Armand['斜率公式分母行']=Armand['PopulationDiff'].pow(2)
Armand

In [None]:
ArmandB1=Armand.sum()[-2]/Armand.sum()[-1]
ArmandB1

In [None]:
ArmandB0=Sales_bar-ArmandB1*Population_bar
ArmandB0

于是，估计的回归方程是$\hat{y}=60+5x$  
这一方程在散点图上的图形，如图14-4所示 5  

In [None]:
'''
python	pandas	series	pd.Series()
python	pandas	series	s.apply()
'''
armand_line=pd.Series(np.arange(0,30,2))
Armand.plot.scatter(x='Population',y='Sales',c='black')
plt.ylim(0,240)
plt.xlim(0,30)
plt.ylabel('Quarterly sales (1000$)')
plt.xlabel('population(1000p)')
plt.xticks(armand_line)
plt.yticks(np.arange(0,240,20))
plt.plot(armand_line,armand_line.apply(lambda x:5*x+60))
plt.show()

如果我们相信，应用最小二乘法得到的估计的回归方程能充分地描述两个变量x和y之间的关系，那么对于一个已知的x值，利用估计的回归方程去预测y值将被认为是合理的  
在下一节，我们将讨论利用估计的回归方程进行估计和预测合理性的评价方法  
## 注释   
最小二乘法通过使应变量的观测值$y_i$与应变量的估计值$\hat{y}_i$之间的离差平法和达到最小的方法，得到了估计的回归方程  
最小二乘准则就是选择能与样本数据有最佳拟合方程的准则。在实践中，最小二乘法是应用最广泛的方法 5  
# 14.3 判定系数
对Armand比萨饼连锁店的例子，我们求出了估计的回归方程是$\hat{y}=60+5x$，并用这个方程作为学生人数x和季度销售收入y之间线性关系的一个近似  
在这一节，我们将说明，**判定系数**为估计的回归方程提供了一个拟合优度的度量  
对于样本中的第i次观测值，应变量的观测值$y_i$和应变量的估计值$\hat{y}_i$之间的离差称为**第i个残差**  
于是，对于第i次观测值，它的残差是$y_i-\hat{y}_i$。这些残差或误差的平方和是一个用最小二乘法来极小化的量。这个量也称为误差平方和，记作SSE  
在应用估计的回归方程去估计样本中应变量的值时将产生一个误差，SSE的数值就是对这一误差的度量 5  
<hr />

**误差平方和**（14-8）  
$$SSE=\Sigma(y_i-\hat{y}_i)^2$$
<hr />

对于Armand比萨饼连锁店的例子，我们在表14-3给出了计算误差平方和所需要的计算过程  
<center>表14-3 Armand比萨饼连锁店SSE的计算</center>


In [None]:
'''
5  
'''
Armand_lv1=Armand.loc[:,['Population','Sales']]
Armand_lv1['predicted']=Armand_lv1['Population'].apply(lambda x:60+5*x)
Armand_lv1['error']=Armand_lv1['Sales'].sub(Armand_lv1['predicted'])
Armand_lv1['errorSquare']=Armand_lv1['error'].pow(2)
Armand_lv1

In [None]:
Armand_sse=Armand_lv1['errorSquare'].sum()
Armand_sse

于是，对Armand比萨饼连锁店的例子，SSE=1530度量了用估计的回归方程$\hat{y}=60+5x$预测季度销售收入所产生的误差  
现在假定在不知道学生人数的情况下，要求我们给出季度销售收入的一个估计值。在没有任何相关变量信息的情况下，对任意一个给定的连锁店，我们可以利用样本平均值作为这家连锁店季度销售收入的一个估计值  
利用样本平均值估计样本中每一家连锁店的季度销售收入将产生离差，这些离差的平方和我们列在表14-4的最后一列。这些离差对应的平方和称为总的平方和，记作SST  
<hr />

**总的平方和**（14-9） 5  
$$SST=\Sigma(y_i-\bar{y})^2$$  
<hr />

在表14-4中，最后一列底部的和就是Armand比萨连锁店例子的总平方和，它是SST=15730  
<center>表14-4 Armand比萨饼连锁店SST的计算</center>


In [None]:
Armand_lv2=Armand.loc[:,['Population','Sales']]
Armand_lv2['Deviation']=Armand_lv2['Sales'].sub(Armand_lv2['Sales'].mean())
Armand_lv2['DeviationSquare']=Armand_lv2['Deviation'].pow(2)
Armand_sst=Armand_lv2['DeviationSquare'].sum()
Armand_sst

在图14-5中，我们给出了估计的回归线$\hat{y}=60+5x$和对应于$\hat{y}=130$的直线的图形 5    
<center>图14-5 Armand比萨饼连锁店的估计的回归线与直线$y=\bar{y}$的离差</center>

In [None]:
armand_line=pd.Series(np.arange(0,30,2))
Armand.plot.scatter(x='Population',y='Sales',c='black')
plt.ylim(0,240)
plt.xlim(0,30)
plt.ylabel('Quarterly sales (1000$)')
plt.xlabel('population(1000p)')
plt.xticks(armand_line)
plt.yticks(np.arange(0,240,20))
plt.plot(armand_line,armand_line.apply(lambda x:5*x+60))
plt.plot(armand_line,[130]*len(armand_line))
plt.show()

从图上我们注意到，样本点集聚在估计的回归线周围比集聚在直线$\bar{y}=130$周围更紧密  
我们可以把SST看作观测值在直线$\bar{y}=130$周围集聚程度的度量，而把SSE看作观测值在回归线$\hat{y}=60+5x$周围集聚程度的度量  
为了度量在估计的回归线上的$\hat{y}$值与直线$\bar{y}$的偏离有多大，我们需要计算另一个平方和。这个平方和称为回归平方和，记作SSR 5  
<hr />

**回归平方和**（14-10）  
$$SSR=\Sigma(\hat{y}_i-\bar{y})^2$$
<hr />

从上述讨论中，我们应该预期到SST,SSR和SSE三者之间是有联系的。事实上，这三个平方和之间的关系给出了统计学中最重要的一个结果  
式（14-11）表明，总的平方和能被分解成两部分，回归平方和与误差平方和。一次，如果已知这三个平方和中的任意两个，都能很容易地计算出第三个平方和    
<hr />

**SST，SSR和SSE之间的关系**（14-11）  
$$SST=SSR+SSE$$  
5  
式中，SST代表总的平方和;SSR代表回归平方和;SSE代表误差平方和  
<hr />


In [None]:
Armand_ssr=Armand_sst-Armand_sse
print('我们得到回归平方和是{:.0f}'.format(Armand_ssr))

现在让我们看一下，如何利用这三个平方和SST,SSR和SSE为估计的回归方程给出一个拟合优度的度量  
如果应变量的每一个值$y_i$都刚好落在估计的回归线上，那么估计的回归方程将给出一个完全的拟合。在这种情况下，对于每一个观测值，$y_i-\hat{y}_i$将等于零，从而导致SSE=0   
因为SST=SSR+SSE，我们看到对于一个完全拟合，SSR必须等于SST，并且比值SSR/SST必须等于1。比较差的拟合将导致SSE的值比较大 5  
因此，当SSR=0，从而SSE=SST，这时候SSE的值最大（即最差的拟合）  
比值SSR/SST将在0和1之间取值，我们利用这个比值对估计的回归方程的拟合优度做出评估。这个比值称为判定系数，记作$r^2$  
<hr />

**判定系数**（14-12）  
$$r^2=\frac{SSR}{SST}$$
<hr />

对于Armand比萨饼连锁店的例子，判定系数的值是 5  

In [None]:
Armand_rS=Armand_ssr/Armand_sst
print('判定系数的值是{:.4f}'.format(Armand_rS))

如果我们用一个百分数表示判定系数，我们能把$r^2$理解为总平方和中能被估计的回归方程解释的百分比  
对于Armand比萨饼连锁店的例子，在用估计的回归方程去预测季度销售收入时，我们能断定，总平方和中的90.27%能被估计的回归方程$\hat{y}=60+5x$所解释  
换句话说，季度销售收入变异性的90.27%能被学生人数和销售收入之间的线性关系所解释。对于估计的回归方程我们应该对得到这样好的一个拟合效果而感到满意  
## 相关系数  
在第3章中，作为两变量x和y之间线性关系强度的描述性度量，我们介绍了**相关系数**的概念 5  
在3.5节中，我们曾经给出过计算样本相关系数的公式。如果我们已经完成了回归分析，并计算出了判定系数$r^2$，那么我们就能用下面的公式计算样本相关系数  
<hr />

**样本相关系数**（14-13）  
$$r_{xy}=(b_1的符号)\sqrt{判定系数}=(b_1的符号)\sqrt{r^2}$$
式中，$b_1$代表估计的回归方程$\hat{y}=b_0+b_1x$的斜率
<hr />

如果估计的回归方程的斜率为正$(b_1>0)$，那么样本相关系数的符号为正;如果估计的回归方程的斜率为负$(b_1<0)$，那么样本相关系数的符号为负 5  
对于Armand比萨饼连锁店的例子，对应于估计的回归方程$\hat{y}=60+5x$，判定系数的数值是0.9027。因为估计的回归方程斜率是正的，所以由式(14-13)，我们得到的样本相关系数是  

In [None]:
print('我们得到的样本相关系数是{:+.4f}'.format(np.sqrt(Armand_rS)))

由于样本相关系数$r_{xy}=+0.9501$，所以我们可以得出结论:x和y之间存在强的正向线性关系  
在两变量之间存在一个线性关系的情况下，判定系数和样本相关系数都给出了它们之间线性关系强度的度量  
虽然，样本相关系数的适用方位被限制在两变量之间存在线性关系的情况，但判定系数对非线性关系以及有两个或两个以上自变量的相关关系都适用 5  
## 注释 
1. 在利用最小二乘法求出估计的回归方程和计算判定系数时，我们并没有对模型的误差项$\varepsilon$做出任何的概率假定，也没有对x和y之间关系的显著性进行统计检验  
    $r^2$的数值比较大，只不过意味着最小二乘回归直线比较好地拟合了样本数据，也就是说，观测值比较紧密地围绕在最小二乘回归直线周围  
    但是仅仅利用$r^2$，我们不能得出x和y之间的关系在统计上是否显著的结论  
2. 在实际问题中，例如在社会科学问题中遇到的典型数据，尽管$r^2$的数值低于0.25，通常也被人为是令人满意的。而在自然科学和生命科学问题中遇到的数据，经常会出现$r^2$的数值大于或等于0.60  
    在商务应用中,$r^2$的数值将依据每一个应用独特性质有着非常大的变化 5  
    
# 14.4 模型的假定
在进行回归分析时，我们首先要对描述应变量和自变量之间关系的模型做出一些假定。对于简单线性回归情况，假定回归模型是  
$$y=\beta_0+\beta_1x+\varepsilon$$
然后利用最小二乘法，分布求出模型参数$\beta_0$和$\beta_1$的估计值$b_0$和$b_1$。得到估计的回归方程是  
$$\hat{y}=b_0+b_1x$$
我们已经知道，判定系数$r^2$的值是估计的回归方程拟合优度的度量。然而，尽管$r^2$有一个较大的值，但是在假定模型的合理性做出进一步的分析完成之前，我们还不能应用这个估计的回归方程 5  
确定假定的模型是否合理的一个重要步骤，是要对变量之间关系的显著性进行检验。回归分析中的显著性检验是以对误差项$\varepsilon$的下列假定为依据进行的  
<hr />

**关于回归模型$y=\beta_0+\beta_1x+\varepsilon$误差项$\varepsilon$的假定**  
1. 误差项$\varepsilon$是一个平均值或期望值为零的随机变量，即$E(\varepsilon)=0$  
    这就意味着：因为$\beta_0$和$\beta_1$都是常数，所以有$E(\beta_0)=\beta_0$和$E(\beta_1)=\beta_1$;于是对于一个给定的x值，y的期望值是（14-14） 
    $$E(y)=\beta_0+\beta_1x$$
    5  
    正如我们在前面已经指出的那样，称式（14-14）为回归方程  
2. 对所有的x值，$\varepsilon$的方差都是相同的。我们用$\sigma^2$表示$\varepsilon$的方差  
    这就意味着：y关于回归直线的方差等于$\sigma^2$，也就是说对所有的x值，y的方差都是相等的  
3. $\varepsilon$的值是相互独立的  
    这就意味着：对于一个特定的x值，它所对应的$\varepsilon$值与任何其他的x值所对应的$\varepsilon$值不相关 5  
    于是，对于一个特定的x值，它所对应的y值与任何其他的x值所对应的y值也不相关  
4. 误差项$\varepsilon$是一个正态分布的随机变量  
    这就意味着：因为y是$\varepsilon$的一个线性函数，所以y也是一个正态分布的随机变量  
<hr />

图14-6是对模型假定及其含义的一个说明。值得注意的是，从这个图形解释中可以看出，$E(y)$的值是根据被考虑的具体的x值的变化而变化  
![14-6](../syn_pic/statistics_for_business_economics/14-6.png)
<center>图14-6 回归模型的假定 5</center>

注：对于每一个x值，y的分布都有相同的形状  

然而，不论x的值怎样变化，$\varepsilon$和y的概率分布都是正态分布，并且具有相同的方差。在任一特定点上，误差项$\varepsilon$的具体数值依赖于y的实际值是大于还是小于$E(y)$   
现在，我们必须记住，我们还曾经对变量x和y之间关系的形式做过一个假定或假设，即我们假定，两变量x和y之间关系的主要部分是一条表示为$\beta_0+\beta_1x$的直线  
我们还不能忽略这样一个事实，一些其他形式的模型，例如$y=\beta_0+\beta_1x^2+\varepsilon$，或许可能是描述两变量x和y之间相关关系的一个更好的模型 5  
# 14.5 显著性检验
在一个简单线性回归方程里，y的平均值或期望值是x的一个线性函数：$E(y)=\beta_0+\beta_1x$  
如果$\beta_1$的值是零，$E(y)=\beta_0+0x=\beta_0$。在这种情况下，y的平均值或期望值不依赖于x的值，因此我们的结论是，在两变量x和y之间不存在线性关系  
换一种说法，如果$\beta_1$的值不等于零，我们的结论是，在两变量x和y之间存在线性关系  
于是，为了检验量变量之间是否存在显著的回归关系，我们必须进行一个假设检验，判定$\beta_1$的值是否等于零  
通常使用的检验方法有两种，这两种方法都需要知道回归模型误差项$\varepsilon$的方差$\sigma^2$的估计值 5  
## 14.5.1 $\sigma^2$的估计
从回归模型和它的假定中，我们可以得出结论：$\varepsilon$的方差$\sigma^2$也是应变量y的值关于回归直线的方差  
回想一下，我们曾经将y的值关于估计的回归直线的离差称为残差。所以，残差平方和SSE是实际观测值关于估计的回归直线变异性的度量  
我们用SSE除以它自己的自由度，得到均方误差。均方误差给出了$\sigma^2$的一个估计量  
因为$\hat{y}_i=b_0+b_1x_i$，所以SSE可以写成  
$$SSE=\Sigma(y_i-\hat{y}_i)^2=\Sigma(y_i-b_0-b_1x_i)^2$$
5  
每一个平方和都有一个与之相联系的数，这个数叫做自由度。统计学家已经证明，为了计算SSE，必须估计两个参数($\beta_0$和$\beta_1$)，所以SSE的自由度是n-2  
于是，用SSE除以n-2，就能计算出均方误差。MSE是$\sigma^2$的一个无偏估计量。因为MSE的值给出了$\sigma^2$的一个估计，我们用记号$s^2$表示  
<hr />

**均方误差（$\sigma^2$的估计量）**（14-15）  
$$s^2=MSE=\frac{SSE}{n-2}$$
<hr />

在14.3节Armand比萨饼连锁店的例子中，我们已经得到SSE=1530，于是$\sigma^2$的一个无偏估计量是 5  

In [None]:
Armand_mse=Armand_sse/(10-2)
print('sigma^2的一个无偏估计量是{:.2f}'.format(Armand_mse))

为了估计$\sigma$，我们计算$s^2$的平方根，所得到的结果s称为**估计的标准误差**  
<hr />

**估计的标准误差**(14-16)  
$$s=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}$$
<hr />

在下面的讨论中，我们利用估计的标准误差，对两变量x和y之间的关系进行显著性检验 5  

In [None]:
Armand_s=np.sqrt(Armand_mse)
print('对于Armand比萨饼连锁店的例子，s={:.3f}'.format(Armand_s))

## 14.5.2 t检验
对于简单线性回归模型$y=\beta_0+\beta_1x+\varepsilon$，如果x和y之间存在一个线性关系，我们必须有$\beta_1\ne0$  
t检验的目的是我们能否断定$\beta_1\ne0$。我们将利用样本数据去检验下面的关于参数$\beta_1$的假设  
$$H_0:\beta_1=0$$
$$H_a:\beta_1\ne0$$
$\beta_1$的最小二乘法估计量$b_1$的抽样分布性质给出了假设检验的基础 5  
实际上，最小二乘估计量$b_0$和$b_1$是样本统计量，它们有着自己的抽样分布。$b_1$抽样分布的性质如下  
<hr />

**$b_1$的抽样分布**  
期望值  
$$E(b_1)=\beta_1$$ 
标准差 （14-17）  
$$\sigma_{b_1}=\frac{\sigma}{\sqrt{\Sigma(x_i-\bar{x})^2}}$$
分布形式  正态分布  
<hr />

注意，$b_1$的期望值等于$\beta_1$，所以$b_1$是$\beta_1$的无偏估计量 5  
因为$\sigma$的值未知，为了求出$\sigma_{b_1}$的一个估计$s_{b_1}$，我们用$\sigma$的估计s代入式（14-17）,于是我们得到下面$\sigma_{b_1}$的估计  
<hr />

**$b_1$的估计的标准差** （14-18）  
$$s_{b_1}=\frac{s}{\sqrt{\Sigma(x_i-\bar{x})^2}}$$
<hr />


In [None]:
Armand_sb1=Armand_s/np.sqrt(Armand.sum()[-1])
print('对于Armand比萨饼连锁店的例子，我们得到b1的估计的标准差为{:.4f}'.format(Armand_sb1))

对于两个变量之间是否存在一个显著性关系的t检验的依据是，检验统计量$\frac{b_1-\beta_1}{s_{b_1}}$ 统计量 5  
是一个服从自由度为n-2的t分布。如果原假设成立，则$\beta_1=0$，并且$t=b_1/s_{b_1}$  
现在让我们在$\alpha=0.01$的显著性水平下，对Armand比萨饼连锁店的例子进行显著性检验  

In [None]:
Armand_t=ArmandB1/Armand_sb1
print('检验的统计量为{:.2f}'.format(Armand_t))

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	t() t.sf()
'''
Armand_p=t.sf(Armand_t,10-2)*2
print('由于p-值={:.4f}<alpha=0.01，故我们拒绝原假设'.format(Armand_p))

因为p-值小与$\alpha=0.01$，所以我们拒绝$H_0$，并且得到结论：$\beta_1$显著不等于零。这一结果足以使我们断定，学生人数和季度销售收入之间存在一个显著的关系 5  
对于简单线性回归情形，总结显著性t检验的步骤如下  
<hr />

**简单线性回归显著性的t检验**  
$$H_0:\beta_1=0$$
$$H_a:\beta_1\ne0$$
检验的统计量（14-19）  
$$t=\frac{b_1}{s_{b_1}}$$
拒绝法则  
<center>p-值法：如果p-值$\le\alpha$，则拒绝$H_0$ 5</center>

<center>临界值法：如果$t\le-t_{\alpha/2}$或者$t\ge t_{\alpha/2}$，则拒绝$H_0$</center>

式中，$t_{\alpha/2}$是自由度为n-2时，使t分布的上侧面积为$\alpha/2$的t值
<hr />

## 14.5.3 $\beta_1$的置信区间  
$\beta_1$的置信区间的公式是：  
$$b_1\pm t_{\alpha/2}s_{b_1}$$
式中，$b_1$是$\beta_1$的点估计量，$t_{\alpha/2}s_{b_1}$是边际误差。与这个置信区间相联系的置信系数是$1-\alpha$，$t_{\alpha/2}$是自由度为n-2时，使t分布的上侧面积为$\alpha/2$的t值 5  

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	t() t.isf()
'''
Armand_zxxs=0.01
Armand_t2=t.isf(Armand_zxxs,10-2)
Armand_bjwc=Armand_t2*Armand_sb1
print('beta_1的{:.0%}的置信水平是{:.0f}±{:.2f}'.format(1-Armand_zxxs,ArmandB1,Armand_bjwc))

在对$\beta_1$的显著性进行t检验时，作为可供选择的一种方法，对于Armand比萨饼连锁店的数据，在$\alpha=0.01$的显著性水平下，我们可以使用99%的置信区间得到假设检验的结论  
因为$\beta_1$的假设值是0，而0没有包括在置信区间里，所以我们可以拒绝$H_0$，并且可以断定，在学生人数和季度销售收入之间存在一个在统计上显著的关系  
在一般情况下，我们可以利用置信区间对$\beta_1$的任何双侧假设进行检验  
## 14.5.4 F检验  
建立在F概率分布基础上的F检验，也可以用来对回归方程进行显著性检验 5  
在仅有一个自变量的情况时，F检验将得出与t检验同样的结论，即如果t检验表明$\beta_1\ne0$，因此变量之间存在一个显著的关系，那么，F检验也将表明变量之间存在一个显著的关系  
但是，如果回归方程有两个或两个以上自变量的情况时，F检验仅仅能用于检验回归方程总体的显著关系  
为了确定变量间的回归关系在统计上是否显著，我们所使用的F检验的基本原理是基于建立$\sigma^2$的两个独立的估计量  
我们已经解释了，MSE是$\sigma^2$的一个估计量。如果原假设$H_0:\beta_1=0$成立，那么用回归平方和SSR除以它的自由度就给出了$\sigma^2$的另一个独立的估计量  
这个估计量称为来自于回归的均方，简称均方回归，用MSR表示。在一般情况下 5  
$$MSR=\frac{SSR}{回归自由度}$$
对在本书中我们所研究的模型，回归自由度总是等于模型中自变量的个数。于是（14-20）  
$$MSR=\frac{SSR}{自变量的个数}$$  
由于在本章中，我们考虑的回归模型仅含有一个自变量，所以我们有MSR=SSR/1=SSR  

In [None]:
'''
5
'''
Armand_msr=Armand_ssr
Armand_msr

如果原假设成立，则MSR和MSE是$\sigma^2$的两个独立的估计量，并且MSR/MSE的抽样分布是服从分子的自由度为1，分母的自由度为n-2的F分布  
所以当$\beta_1=0$时，MSR/MSE的值应接近于1  
但是，如果原假设不成立，MSR将高估$\sigma^2$，并MSR/MSE的值变得无穷大；于是，较大的MSR/MSE的值将导致拒绝$H_0$，并我们可以断定，两变量x和y之间的关系在统计上是显著的  

In [None]:
Armand_F=Armand_msr/Armand_mse
print('检验的统计量是{:.2f}'.format(Armand_F))

In [None]:
'''
5 
python	scipy	Statistical functions (scipy.stats)	f() f.sf()
'''
Armand_fp=f.sf(Armand_F,1,10-2)
print('由于p-值={:.4f}<alpha=0.01，所以我们拒绝原假设'.format(Armand_fp))

对于简单线性回归情形，概况显著性F检验的步骤如下  
<hr />

**简单线性回归显著性的F检验**  
$$H_0:\beta_1=0$$
$$H_a:\beta_1\ne0$$
检验的统计量（14-21）  
$$F=\frac{MSR}{MSE}$$
拒绝法则  
<center>p-值法：如果p-值$\le\alpha$，则拒绝$H_0$</center>

<center>临界值法：如果$F\ge F_{\alpha}$，则拒绝$H_0$</center>

5  
式中，$F_{\alpha}$是分子自由度为1，分母自由度为n-2时，使F分布的上侧面积为$\alpha$的F值  
<hr />

在第13章中，我们已经详细讨论了ANOVA问题，并且指出了如何使用一个ANOVA表简练地概况方差分析的运算过程。一个类似的ANOVA表能用来概况回归显著性的F检验的计算结果  
表14-5是简单线性回归ANOVA表的一般形式。表14-6是对Armand比萨饼连锁店例子进行F检验计算过程的ANOVA表  
<center>表14-5 简单线性回归ANOVA表的一般形式</center>

|方差来源|平方和|自由度|均方|F|p-值 5|
|--|--|--|--|--|--|
|回归|SSR|1|$$MSR=\frac{SSR}{1}$$|$$F=\frac{MSR}{MSE}$$||
|误差|SSE|n-2|$$MSE=\frac{SSE}{n-2}$$|||
|总和|SST|n-1||||

<center>表14-6 Armand比萨饼连锁店例子的ANOVA表</center>

![tb14-6 5](../syn_pic/statistics_for_business_economics/tb14-6.png)

## 14.5.5 关于显著性检验解释的几点注意
拒绝原假设$H_0:\beta_1=0$并且做出变量x和y之间存在显著性关系的结论，并不意味着我们能做出变量x和y之间存在因果关系的结论  
在Armand比萨饼连锁店例子中，我们能做出在学生人数x和季度销售收入y之间存在显著关系的结论，而且，估计的回归方程$\hat{y}=60+5x$给出了这一显著关系的最小二乘估计结果  
但是我们不能断定学生人数x的变化引起了季度销售收入y的变化，因为我们只不过识别了一个统计上显著的关系。这样一个因果关系结论的合理性，一方面要从理论上给予证实，另一方面还要依靠分析人员出色的判断能力  
另外，由于我们只不过是拒绝了$H_0:\beta_1=0$和证实了变量x和y之间存在统计显著性关系，但这并不能让我们做出变量x和y之间存在线性关系的结论  
图14-7说明了这种情形。显著性检验要求我们否定原假设$H_0:\beta_1=0$，并且做出了x和y之间存在显著关系的结论，但是图14-7表明，在x和y之间的关系实际上不是线性关系 5  
![14-7](../syn_pic/statistics_for_business_economics/14-7.png)
<center>图14-7 非线性关系的线性近似的例子</center>

假设变量x和y之间存在一个显著的关系，利用估计的回归方程，对于x的样本观测值范围以内的x值进行预测，我们应该是完全有把握的  
除非有理由相信，超出这个范围模型仍是适宜的，在一般清洗下，在自变量x的取值范围以外进行预测应十分小心谨慎  
## 注释  
1. 由于我们在14.4节中对误差项做出了一些假定，才使我们在本节中进行统计显著性检验成为可能。$b_1$抽样分布的性质以及随后的t检验和F检验都是从这些假设直接得出的  
2. 不能把统计显著性与实际显著性混淆。当样本容量非常大时，对于小的$b_1$的值我们也能得到在统计上是显著的结果。在这种情形下，要做出在实际中存在一个显著性关系的结论，必须特别小心 5  
3. 变量x和y之间存在一个线性关系的显著性检验，也可以利用样本相关系数$r_{xy}$来完成。用$\rho_{xy}$表示总体相关系数，提出的假设如下  
$$H_0:\rho_{xy}=0$$
$$H_a:\rho_{xy}\ne0$$
如果$H_0$被拒绝，那么就能做出变量x和y之间存在一个显著性关系的结论。有关这一检验的详细阐述在附录14B中给出 5   

# 14.6 应用估计的回归方程进行估计和预测
简单线性回归模型是我们对x和y之间关系所做的一个假定。如果在变量x和y之间存在一个显著的关系，并且判定系数表明估计的回归方程对样本数据的拟合是一个好的拟合，那么我们就能利用估计的回归方程进行估计和预测  
## 14.6.1 点估计  
在Armand比萨饼连锁店的例子中，估计的回归方程$\hat{y}=60+5x$给出了学生人数x和季度销售收入y之间关系的一个估计  
我们能利用估计的回归方程，对于x的一个特定值，求出y的平均值的一个点估计；或者对于x的一个给定值，预测y的一个个别值  
后来我们发现，对于y的一个个别值的点估计与y的平均值的点估计是相同的 5  
## 14.6.2 区间估计  
点估计不能提供有关估计量精度的任何信息。因此我们必须像在第8、10、11章那样，建立区间估计   
第一种类型的区间估计，是一个**置信区间**，它是对于x的一个给定值，y的平均值的一个区间估计。第二种类型的区间估计，是一个**预测区间**，它是对于x的一个给定值，y的一个个别值的区间估计 5  
## 14.6.3 y的平均值的置信区间
对x的一个给定值，估计的回归方程给出了y的平均值的一个点估计。在建立置信区间时，我们将使用下列符号  
$x_p$——自变量x的一个特定值或给定值  
$y_p$——自变量x的给定值$x_p$对应的应变量y的值  
$E(y_p)$——对应于自变量给定值$x_p$的应变量y的平均值或期望值  
$\hat{y}_p=b_0+b_1x_p$——当$x=x_p$时，$E(y_p)$的点估计 5  
利用这些符号，对所有位于有10000名学生的校园附近的Armand比萨饼连锁店，我们估计它们的平均季度销售收入。我们有$x_p=10,E(y_p)$的点估计值是$\hat{y}_p=60+5\times10=110$  
一般说来，我们不能期望估计值$\hat{y}_p$恰好等于$E(y_p)$。如果我们想要做出$\hat{y}_p$是如何接近真实的平均值$E(y_p)$的推断，我们必须估计$\hat{y}_p$的方差  
对于给定的$x_p$,我们用$s^2_{\hat{y}_p}$表示估计的$\hat{y}_p$的方差，它的计算公式是（14-22）  
$$s^2_{\hat{y}_p}=s^2\left[\frac{1}{n}+\frac{(x_p-\bar{x})^2}{\Sigma(x_i-\bar{x})^2}\right]$$
$\hat{y}_p$的估计的标准差由式（14-22）的平方根给出（14-23） 5  
$$s_{\hat{y}_p}=s\sqrt{\frac{1}{n}+\frac{(x_p-\bar{x})^2}{\Sigma(x_i-\bar{x})^2}}$$

In [None]:
Armand_pop=Armand['Population']
pop_mean=Armand_pop.mean()
pop_mean

In [None]:
Armand_s_yp=Armand_s*np.sqrt(1/10+np.power(10-pop_mean,2)/Armand_pop.sub(pop_mean).pow(2).sum())
Armand_s_yp

置信区间的一般表达式如下  
<hr />

**$E(y_p)$的置信区间**（14-24） 5  
$$\hat{y}_p\pm t_{\alpha/2}s_{\hat{y}_p}$$
式中，$1-\alpha$是置信系数,$t_{\alpha/2}$是自由度为n-2时，使t分布的上侧面积为$\alpha/2$的t值  
<hr />

对于所有位于有10000名学生的校园附近的Armand比萨饼连锁店，我们利用式(14-24)，建立一个置信水平为95%的平均季度销售收入$E(y_p)$的置信区间估计  

In [None]:
Armand_t95=t.isf((1-0.95)/2,10-2)
Armand_t95

In [None]:
'''
5
'''
Armand_bjwc_syp=Armand_t95*Armand_s_yp
print('置信水平为95%的置信区间估计是110±{:.3f}'.format(Armand_bjwc_syp))

注意，当$x_p=\bar{x}$时，有$x_p-\bar{x}=0$,于是由式(14-23)给出的$\hat{y}_p$的标准差的估计量最小  
在这种情形下，$\hat{y}_p$的估计的标准差为  
$$s_{\hat{y}_p}=s\sqrt{\frac{1}{n}}$$
这就是说，每当我们取$x_p=\bar{x}$时，就能得到y的平均值最佳或是最惊奇的估计量。事实上，$x_p$偏离$\bar{x}$越远，差$x_p-\bar{x}$就变得越大  
结果是$x_p$偏离$\bar{x}$越远，y的平均值的置信区间就变得越宽。这种情形如图14-8所示 5  
![14-8](../syn_pic/statistics_for_business_economics/14-8.png)
<center>图14-8 学生人数x的值给定时平均销售收入y的置信区间</center>

## 14.6.4 y的一个个别值的预测区间
假设，我们不对位于有10000名学生的校园附近的所有Armand比萨饼连锁店估计平均季度销售收入，我们只希望估计位于有10000名学生的Talbot大学附近的一家个别的Armand比萨饼连锁店的季度销售收入  
为了建立预测区间，首先，我们必须确定，当$x=x_p$时，y的一个个别值的点估计$\hat{y}_p$的方差。这个方差由以下两部分组成  
1. y的个别值关于平均值$E(y_p)$的返场，它的估计量由$s^2$给出  
2. 利用$\hat{y}_p$估计$E(y_p)$的方差，它的估计量由$s^2_{\hat{y}_p}$给出 5  

我们用$s^2_{ind}$表示y的一个个别值$y_p$的估计的方差，它的计算公式是  
$$s^2_{ind}=s^2+s^2_{\hat{y}_p}=s^2\left[1+\frac{1}{n}+\frac{(x_p-\bar{x})^2}{\Sigma(x_i-\bar{x})^2}\right]$$
因此，y的一个个别值$y_p$的标准差的估计为  
$$s_{ind}=s\sqrt{1+\frac{1}{n}+\frac{(x_p-\bar{x})^2}{\Sigma(x_i-\bar{x})^2}}$$
在Armand比萨饼连锁店的例子中，对于位于有10000名学生的校园附近的一家特定的连锁店，与季度销售收入预测值相对应的估计的标准差为 5  

In [None]:
Armand_s_ind=Armand_s*np.sqrt(1+1/10+np.power(10-pop_mean,2)/Armand_pop.sub(pop_mean).pow(2).sum())
Armand_s_ind

预测区间的一般表达式如下  
<hr />

**$y_p$的预测区间**(14-27)  
$$\hat{y}_p\pm t_{\alpha/2}s_{ind}$$
式中，$1-\alpha$是置信系数，$t_{\alpha/2}$是自由度为n-2时，使t分布的上侧面积为$\alpha/2$的t值 5  
<hr />

对于位于Talbot大学校园附近的这家Armand比萨饼连锁店，我们能建立一个置信水平为95%的季度销售收入的预测区间  

In [None]:
Armand_bjwc_sind=Armand_t95*Armand_s_ind
print('于是置信水平为95%的预测区间估计是100±{:.3f}'.format(Armand_bjwc_sind))

注意，位于Talbot大学校园附近的这家Armand比萨饼连锁店的预测区间，与位于有10000名学生的校园附近的所有Armand比萨饼连锁店的平均季度销售收入的置信区间相比，要宽一些  
二者的区别说明了这样一个事实，我们能够比估计y的一个个别值更精确地估计y的平均值 
当自变量的值$x_p=\bar{x}$时，置信区间估计和预测区间估计都是最精确的。置信区间和较宽的预测区间的一般形状如图14-9所示 5  
![14-9](../syn_pic/statistics_for_business_economics/14-9.png)
<center>图14-9 学生人数x的值给定时销售收入y的置信区间和预测区间 5</center>

# 14.7 计算机解法
如果没有计算机的帮助，完成回归分析的计算可能要花费相当多的时间  
对于Armand比萨饼连锁店的例子，利用Minitab，我们得到了如图14-10所示的计算机打印输出  

In [None]:
'''
python	statsmodels	ANOVA	smf.ols()
python	statsmodels	ANOVA	Models.fit()
python	statsmodels	Linear Regression	RegressionResults() summary()
'''
mod=smf.ols("Sales~Population",Armand).fit()
mod.summary()

In [None]:
'''
python	statsmodels	ANOVA	anova_lm()
'''
sm.stats.anova_lm(mod)

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults() params 5
python	statsmodels	Linear Regression	RegressionResults() mse_resid

'''
def ols_conf_int(xp,x,mod,alpha):
    '''
    统计常用代码 简单线性回归 应用估计的回归方程进行估计和预测 区间估计
    xp：需要预测的值
    x：样本自变量
    mod：训练完的模型
    alpha：置信水平
    '''
    b0=mod.params[0]
    b1=mod.params[1]
    xm=x.mean() # 5
    n=x.count()
    xn=np.power(xp-xm,2)
    xd=x.sub(xm).pow(2).sum() # 5
    s=np.sqrt(mod.mse_resid)
    sy=s*np.sqrt(1/n+xn/xd)
    ta=t.isf((1-alpha)/2,n-2) # 5
    y_predict=b1*xp+b0
    me=sy*ta
    sind=s*np.sqrt(1+1/n+xn/xd) # 5
    mei=sind*ta
    print('{:.0%}C.I.=({:.2f},{:.2f})'.format(alpha,y_predict-me,y_predict+me))
    print('{:.0%}C.I.=({:.2f},{:.2f})'.format(alpha,y_predict-mei,y_predict+mei)) # 5
    
ols_conf_int(10,Armand['Population'],mod,0.95)

# 14.8 残差分析：证实模型假定
正如我们前面提到的，第i次观测的残差是应变量的观测值$(y_i)$与它的估计值$(\hat{y_i})$之差  
<hr />

第i次观测的残差（14-28）  
$$y_i-\hat{y}_i$$
式中，$y_i$代表应变量的观测值;$\hat{y}_i$代表应变量的估计值  
<hr />

换言之，第i次观测的残差是利用估计的回归方程去预测应变量的值$y_i$而引起的误差 5  
对Armand比萨饼连锁店的例子，残差的计算列示在表14-7中  

In [None]:
Armand_lv1

在14.4节中，我们对模型误差项$\varepsilon$做了四项假定  
如果关于误差项$\varepsilon$的假定显得不那么可靠，那么有关回归关系的显著性假设检验和区间估计的结果可能会站不住脚  
残差提供了有关误差项$\varepsilon$的最重要的信息，因此，残差分析是确定误差项$\varepsilon$的假定是否成立的重要步骤 5  
在本节，我们将讨论以下几种残差图  
1. 关于自变量x的值的残差图
2. 关于应变量的预测值$\hat{y}$的残差图
3. 标准化残差图
4. 正态概率图 5  

## 14.8.1 关于x的残差图  
关于自变量x的**残差图**的做法是，用水平轴表示自变量的值，用纵轴表示对应的残差值。每个残差都用图上的一个点来表示  
对于Armand比萨饼连锁店的例子，根据表14-7中的数据，可以做出关于x的残差图。图14-11是得到的残差图  

In [None]:
'''
python	matplotlib	lines	linestyle
python	matplotlib	lines	color
python	numpy	Array creation routines	np.array()

'''
Armand_lv1.plot.scatter('Population','error')
plt.xlim(0,30)
plt.plot(np.array([0,30]),np.array([0,0]),color='k',linestyle='--')
plt.show()

在对这个残差图的结果进行解释之前，让我们首先考虑在任意一个残差图中可能观测到的某些一般的图形模式  
在图14-12中给出了三个例子 5  
![14-12](../syn_pic/statistics_for_business_economics/14-12.png)
<center>图14-12 三种回归研究的残差图</center>

如果假定对所有的x值，$\varepsilon$的方差都是相同的，并且假定描述变量x和y之间关系的回归模型是恰当的，那么残差图给出的一个总体印象是，所有的散点都应落在一条水平待中间，如图14-12a所示  
但是，如果对所有的x值，$\varepsilon$的方差是不相同的，例如对于较大的x值，关于回归线的变异性也较大，如图14-12b所看到的那样  
在这种情形下，就违背了$\varepsilon$有一个相同的常数方差的假定  
另一种可能的残差图如图14-12c所示 5  
在这种情形下，我们的结论是，假定的回归模型不能恰当的描述变量之间的关系。这时我们应考虑曲线回归模型或者多元回归模型  
现在让我们回到图14-11所示的Armand比萨饼连锁店的残差图。这些残差看来好像与图14-12a中的水平型的图形很相似  
这时，我们有信心做出结论，Armand比萨饼连锁店的简单线性回归模型是合理的  
在对残差图进行有效的解释时，经验和好的判断能力永远是关键因素。一个残差图与在图14-12中所看到的三种类型之一恰好完全一致的情形很少见  
然后，在弄清楚合理的残差图形模式与显示模型的假定应该受到质疑的残差图形模式之间的差别时，经常从事回归研究和经常考察残差图的分析人员将成为专家 5  
## 14.8.2 关于$\hat{y}$的残差图
另一种残差图的做法时，用水平轴表示应变量的预测值$\hat{y}$，用纵轴表示对应的残差值。每个残差都用图上的一个点来表示  
图14-13是得到的残差图  

In [None]:
Armand_lv1.plot.scatter('Sales','error')
plt.xlim(50,200)
plt.plot(np.array([50,200]),np.array([0,0]),color='k',linestyle='--')
plt.show()

注意，这个残差图的图形模式与关于自变量x的残差图的图形模式是相同的。它不是让我们对模型的假定产生怀疑的那种图形模式  
对于简单线性回归，关于x的残差图和关于$\hat{y}$的残差图，这两个图给出了同样的图形模式 5  
对于多元回归分析，因为有一个以上的自变量，所以关于$\hat{y}$的残差图有着更广泛的应用  
## 14.8.3 标准化残差  
许多由计算机软件包生成的残差图都利用了残差的标准化形式  
就像我们在前面几章中看到的那样，一个随机变量减去它的平均值，然后再除以它的标准差，就得到了一个标准化的随机变量  
由于最小二乘法的性质，残差的平均值是零。于是，每个残差只要简单地除以它的标准差，就得到了**标准化残差**  
我们能够证明，第i个残差的标准差取决于估计的标准误差s和对应的自变量$x_i$的值 5  
<hr/>

**第i个残差的标准差**（14-30）  
$$s_{y_i-\hat{y}_i}=s\sqrt{1-h_i}$$
式中,$s_{y_i-\hat{y}_i}$代表第i个残差的标准差;s代表估计的标准误差（14-31）  
$$h_i=\frac{1}{n}+\frac{(x_i-\bar{x})^2}{\Sigma(x_i-\bar{x})^2}$$
<hr/>

注意，因为在式（14-30）中出现$h_i$，所以这就表明第i个残差的标准差依赖于$x_i$ 5  
一旦计算出每个残差的标准差，我们就能将每个残差除以它所对应的标准差，计算出标准化残差  
<hr/>

**第i次观测的标准化残差**（14-32）  
$$\frac{y_i-\hat{y}_i}{s_{y_i-\hat{y}_i}}$$
<hr/>

表14-8给出了Armand比萨饼连锁店例子的标准化残差的计算过程  

In [None]:
'''
5 
5  
'''
Armand_lv2=Armand.loc[:,['Population','Sales','PopulationDiff']]
Armand_lv2['PopDiff^2']=Armand_lv2['PopulationDiff'].pow(2)
Armand_lv2['h_i']=Armand_lv2['PopDiff^2'].div(Armand_lv2['PopDiff^2'].sum()).add(1/len(Armand_lv2))
Armand_lv2['s_yi-hatyi']=Armand_lv2['h_i'].mul(-1).add(1).apply(lambda x:np.sqrt(x)).mul(Armand_s)
Armand_lv2['error']=Armand_lv1['error']
Armand_lv2['stdError']=Armand_lv2['error'].div(Armand_lv2['s_yi-hatyi'])
Armand_lv2

图14-14是关于自变量x的标准化残差图  

In [None]:
'''
5
'''
Armand_lv2.plot.scatter('Population','stdError')
plt.plot(np.array([0,28]),np.array([0,0]),linestyle='--',color='black')
plt.ylim(-2.5,2.5)
plt.xlim(0,28)
plt.xticks(np.arange(0,28,2))
plt.show()

标准化残差图能对随机误差项$\varepsilon$服从正态分布的假定提供一种直观的认识。如果这一假定被满足，那么标准化残差的分布看起来也应该服从一个标准正态概率分布  
于是，当查看标准化残差图时，我们应该期望看到，大约有95%标准化残差介于-2和+2之间  
从图14-14我看到，对于Armand比萨饼连锁店例子，所有的标准化残差都落在-2和+2之间，所以，根据对标准化残差图的分析，我们没有有怀疑$\varepsilon$服从正态分布的假定  
由于回归分析要求我们计算估计值$\hat{y}$、残差和标准化残差，而这些计算又十分烦琐费力，所以大部分统计软件包，作为可供选择的回归分析输出，都提供了这些值的计算结果  
## 14.8.4 正态概率图
确定误差项$\varepsilon$服从正态分布的假定成立的另一个方法是**正态概率图**。为了说明如何绘制一张正态概率图，我们首先介绍正态分数的概念 5  
假设我们从一个平均值为0、标准差为1的标准正态概率分布中随机地抽取10个数值，并将这一抽样过程反复进行，然后把每个样本中的10个数值按从小到大的顺序排列  
现在我们仅考虑每个样本中最小的数值。在反复进行的抽样过程中得到的最小值是一个随机变量，称为一阶顺序统计量  
统计学家已经证明，来自标准正态概率分布的容量为10的样本，一阶顺序统计量的期望值为-1.55。这个期望值称为正态分数  
对于样本容量n=10的情形，有10个顺序统计量和10个正态分数（表14-9）。一般地说，如果我们有一个由n个观测值组成的数据集，那么就有n个顺序统计量和n个正态分数  
<center>表14-9 n=10的正态分数 5</center>


In [None]:
'''
python	python	Built-in Functions	range()
python	pandas	series	s.reset_index() drop
python	pandas	series	s.round()
python	scipy	Statistical functions (scipy.stats)	n.rvs()
'''
nl=[]

for i in range(10):    
    nl.append(norm.rvs())
nls=pd.Series(nl)
nls_lv1=nls.sort_values().reset_index(drop=True).round(2)
nls_lv1.name='norm_fraction'
print(nls_lv1.to_string())
nls_lv1=pd.Series([-1.55,-1.0,-0.65,-0.37,-0.12,0.12,0.37,0.65,1.00,1.55])
nls_lv1

现在让我们说明，对于Armand比萨饼连锁店的例子，怎样利用10个正态分数去确定标准化残差服从标准正态概率分布  
我们从表14-8中的10个标准化残差的排序着手。我们将10个正态分数和10个排好顺序的标准化残差放在一起，如表14-10所示  

In [None]:
'''
python	pandas	dataframe	pd.DataFrame()
5
'''
Armand_norm=pd.DataFrame()
Armand_norm['norm_fraction']=nls_lv1
Armand_norm['stdError']=Armand_lv2['stdError'].sort_values().reset_index(drop=True)
Armand_norm

如果正态性的假定被满足，那么最小的标准化残差应接近最小的正态分数，下一个最小的标准化残差应接近下一个最小的正态分数，依次类推  

In [None]:
'''
python	matplotlib	Pyplot function overview	plt.figure() figsize
python	matplotlib	Pyplot function overview	plt.scatter()
'''
plt.figure(figsize=(6,6))
plt.scatter(Armand_norm['norm_fraction'],Armand_norm['stdError'].sort_values())
plt.xlim(-2.5,2.5)
plt.ylim(-2.5,2.5)
plt.plot(np.array([-2.5,2.5]),np.array([-2.5,2.5]),color='black')
plt.show()