In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import linregress
from sklearn import linear_model
import statsmodels.formula.api as smf
import statsmodels.api as sm

# 实践中的统计
## dunnhumby
dunnhumby公司将经过证实的与生俱来的能力与宏大的目标结合起来，以寻找客户购买什么样的商品以及为什么购买这些商品的线索和模式  
该公司将这些见解变成可操作的策略，这些策略创造了急剧的增长和可持续的忠诚度，最终提高了品牌价值和客户的认知度  
在欧洲、亚洲和美洲，dunnhumby雇佣的员工超过950人，该公司为一些声望很高的著名公司提供服务，如克罗格、乐购、可口可乐、通用磨坊、金佰利、百事、宝洁和家得宝  
公司的研究工作始于收集消费者的统计数据。这些数据来自于客户的奖励或优惠卡购买记录，以及电子销售点的交易和传统的市场研究  
数据的分析常常要将数以十亿计的数据点转换成有关消费者行为、喜好和生活方式的详细见解。这种见解有利于制订更有效的营销方案，包括定价、促销、广告、产品分类决策的战略建议  
研究人员使用被称为logistic回归的多元回归技术帮助他们分析以客户为基础的数据。使用logistic回归，建立一个估计的多元回归方程，该方程的形式如下所示 5  
$$\hat{y}=b_0+b_1x_1+b_2x_2+b_3x_3+\dots+b_px_p$$
应变量$\hat{y}$是客户是属于一个特定的客户群体的概率估计  
自变量$x_1,x_2,x_3,\dots,x_p$是客户实际购买行为的度量，可能包括购买的具体物品、购买物品的数量、购买物品的金额、周几购买、一天的什么时候购买，等等  
分析有助于确认出与预测客户群体最相关的自变量，对客户总体提供了更好的了解。分析的重点在于了解顾客对商品开发，市场营销、直接营销方案等问题的态度，而这些问题与公司服务的客户群有极大的相关性  
在本章中，我们将介绍多元回归的概念，并且说明如何将第14章介绍的简单线性回归的概念扩展到多元回归的情形 5  
让我们回想一下，被回归方程预测的或者解释的变量称为应变量，用来预测或者解释应变量的变量称为自变量  
在本章中，我们将通过考虑两个或两个以上自变量的情形，来继续我们回归分析的学习。这一研究领域称为**多元回归分析** 5  
# 15.1 多元回归模型
多元回归分析是研究应变量y如何依赖两个或两个以上自变量的问题。在一般情形下，我们将用p表示自变量的数目  
## 15.1.1 回归模型和回归方程  
我们在第14章介绍的回归模型和回归方程的概念对多元回归情形同样适用。描述应变量y如何依赖于自变量$x_1,x_2,\dots,x_p$和一个误差项的方程称为**多元回归模型**  
我们首先假设多元回归模型的形式如下  
<hr />

**多元回归模型**（15-1）
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$
<hr />

在多元回归模型中，$\beta_0,\beta_1,\beta_2,\dots,\beta_p$是参数，误差项$\varepsilon$是随机变量 5  
误差项说明了包含在y里面但不能被p个自变量的线性关系解释的变异性  
假定之一是$\varepsilon$的平均值或期望值是零。由于这一假定，y的平均值或期望值E(y)等于$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$  
描述y的平均值如何依赖于$x_1,x_2,\dots,x_p$的方程称为**多元回归方程**  
<hr />

**多元回归方程**（15-2）  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
<hr />

5  
## 15.1.2 估计的多元回归方程  
如果参数$\beta_0,\beta_1,\beta_2,\dots,\beta_p$的值是已知的，在给定$x_1,x_2,\dots,x_p$的值时，我们能利用式（15-2）计算y的平均值  
我们利用一个简单随机样本计算样本统计量$b_0,b_1,b_2,\dots,b_p$，将它们作为未知参数$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$的点估计量  
利用这些样本统计量我们得到了下面的**估计的多元回归方程**  
<hr />

**估计的多元回归方程**(15-3)  
$$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$
式中，$b_0,b_1,b_2,\dots,b_p$是$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$的估计值;$\hat{y}$代表应变量的估计值 5  
<hr />

对于多元回归情形，估计步骤如图15-1所示  
![15-1](../syn_pic/statistics_for_business_economics/15-1.png)
<center>图15-1 多元线性回归模型的估计步骤 5</center>

# 15.2 最小二乘法
现在我们利用同样的方法来建立估计的多元回归方程。我们再次叙述最小二乘准则如下  
<hr />

**最小二乘准则**（15-4）  
$$min\Sigma(y_i-\hat{y}_i)^2$$
式中，$y_i$代表对于第i次观测，应变量的观测值;$\hat{y}_i$代表对于第i次观测，应变量的估计值  
<hr />

我们能利用估计的多元回归方程  
$$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$
计算应变量的估计值 5  
正如式（15-4）所显示的那样，最小二乘法是利用样本数据，通过使残差的平方和达到最小的方法求得$b_0,b_1,b_2,\dots,b_p$的值  
对于样本容量相对比较小的数据集，我们能利用这些公式通过手算就能计算出$b_0$和$b_1$  
可是在多元回归情形，计算回归系数$b_0,b_1,b_2,\dots,b_p$的公式将涉及矩阵代数的知识，这已经超出了本书的范围  
重点将是如何解释计算机软件包的输出，而不是如何进行多元回归的计算  
## 15.2.1 例子：Butler运输公司  
作为多元回归分析的一个说明，我们将考虑Butler运输公司所面临的一个问题，它是一家位于南加利福尼亚地区的独立运输公司 5  
为了制定最佳的工作计划表，公司的管理人员希望估计他们的司机每天行驶的时间  
由10项运输任务组成的简单随机样本提供的数据如表15-1所示，散点图如图15-2所示  

In [None]:
but=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch15/Butler.csv')
but

In [None]:
'''
python	matplotlib	figure	Figure.figsize
'''
but.plot.scatter('Miles','Time',figsize=(6,6))
plt.ylim(3,11)
plt.xlim(40,110)
plt.show()

对这个散点图仔细观察后，管理人员假设，能利用简单线性回归模型$y=\beta_0+\beta_1x_1+\varepsilon$来描述每天行驶的时间(y)与每天运送货物的行驶里程($x_1$)之间的关系 5  
我们利用最小二乘法估计未知参数$\beta_0$和$\beta_1$，建立估计的回归方程为（15-5）  
$$\hat{y}=b_0+b_1x_1$$
在图15-3中，我们给出了利用表15-1中的数据进行简单线性回归得到的Minitab计算机输出。估计的回归方程是  

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	linregress()
'''
but_slo,but_int,but_rva,but_pva,but_std=linregress(but['Miles'],but['Time'])
print('y={:.2f}+{:.4f}x'.format(but_int,but_slo))

In [None]:
print('p-值={:.3f}比alpha=0.05小，拒绝原假设beta_1=0'.format(but_pva))

于是我们能断定，每天行驶的时间与每天运送货物的行驶里程之间存在一个显著的关系 5  

In [None]:
print('判定系数r_sqr={:.1%}'.format(np.power(but_rva,2)))

In [None]:
flam='Time~Miles'
lrm=smf.ols(flam,but)
lrm_md=lrm.fit()
lrm_md.ssr

因为判定系数$R^2=66.4$%,所以我们可以看出，运输车每天行驶时间变异性的66.4%能被运送货物的行驶里程的线性影响解释。这一结果还算不错，但是管理人员或许希望考虑增加第二个自变量解释应变量中剩余的变异性  
在视图确认另一个自变量时，管理人员觉得运送货物的次数也可能影响到行驶的总时间。估计的回归方程是（15-6）  

In [None]:
'''
5
python sklearn Classical linear regressors linear_model.LinearRegression()
python sklearn Classical linear regressors LinearRegression.coef_
python sklearn Classical linear regressors LinearRegression.intercept_
python sklearn Classical linear regressors LinearRegression.fit()
'''
lr=linear_model.LinearRegression()
lr.fit(but.loc[:,['Miles','Deliveries']],but['Time'])
print('y = {:.3f} + {:.4f}x1 + {:.3f}x2'.format(lr.intercept_,lr.coef_[0],lr.coef_[1]))

In [None]:
'''
python sklearn Classical linear regressors LinearRegression.score()
'''
lr.score(but.loc[:,['Miles','Deliveries']],but['Time'])

在下一节，我们将讨论如何利用多元判定系数来度量，我们得到的这个估计的回归方程对观测数据是一个好的拟合  
在此之前，让我们先仔细地考察一下式（15-6）中的两个估计值$b_1=0.0611$和$b_2=0.923$  
## 15.2.2 关于回归系数解释的注释  
现在我们得到了两个估计的回归方程，一个估计的回归方程是仅用每天运送货物的行驶里程作为自变量，另一个估计的回归方程包含了用运送货物的次数作为第二个自变量,可以对两个估计的回归方程之间的关系作出一些解释  
在这两种情形下，$b_1$的值是不同的。在简单线性回归情形，我们把$b_1$看做当自变量变化一个单位时，应变量y变化程度的一个估计 5  
在多元回归情形，这一解释应稍微做些修改。也就是说，在多元回归分析情形，我们对每一个回归系数有以下解释：当所有其他自变量都保持不变时，$b_1$可以看做对应的自变量$x_i$变化一个单位时，应变量y变化程度的一个估计  
在包括两个自变量的Butler运输公司的例子中，$b_1=0.0611$。于是，当运送货物的次数保持不变时，对应于运送货物行驶的里程每增加1英里，运送货物车辆期望增加的行驶时间的估计值是0.0611小时 5  
# 15.3 多元判定系数
在简单线性回归情形中，我们已经说明了总的平方和能被分解为两部分：回归平方和及误差平方和。同样的方法也能应用到多元回归的情形  
<hr />

**SST,SSR和SSE之间的关系**（15-7）  
$$SST=SSR+SSE$$
式中，$SST=\Sigma(y_i-\bar{y})^2$代表总的平方和；$SSR=\Sigma(\hat{y}_i-\bar{y})^2$代表回归平方和;$SSE=\Sigma(y_i-\hat{y}_i)^2$代表误差平方和  
<hr />

由于这个三个平方和的计算非常困难，因此我们依靠计算机软件包得到这三个平方和的数值  

In [None]:
'''
5
python	patsy	formula	~
python	statsmodels	ANOVA	smf.ols()
python	statsmodels	ANOVA	Models.fit()
python	statsmodels	Linear Regression	RegressionResults() summary()
'''
fla='Time ~ Miles + Deliveries'
lrs=smf.ols(fla,but)
lrmd=lrs.fit()
lrmd.summary()

In [None]:
'''
python	statsmodels	ANOVA	stats.anova_lm()
'''
sm.stats.anova_lm(lrmd)

In [None]:
'''
RegressionResults
'''
but_sst=(but['Time']-but['Time'].mean()).pow(2).sum()
print('15-4 SSE={:.3f}'.format(lrmd.ssr))
print('15-4 SST={:.3f}'.format(but_sst))
print('15-4 SSR={:.3f}'.format(but_sst-lrmd.ssr))

In [None]:
'''
5
'''
print('15-3 SSE={:.3f}'.format(lrm_md.ssr))
print('15-3 SST={:.3f}'.format(but_sst))
print('15-3 SSR={:.3f}'.format(but_sst-lrm_md.ssr))

在这两种情形下，SST的值是相同的，因为它不依赖于$\hat{y}$  
但是当第二个自变量进入模型后，SSR增加而SSE减少。这就意味着，估计的多元回归方程对观测数据给出了一个更好的拟合  
在第14章里，我们利用判定系数$r^2=SSR/SST$来度量估计的回归方程的拟合优度。我们将同样的概念应用到多元回归的情形  
术语**多元判定系数**表示的是对估计的多元回归方程拟合优度的度量。我们用$R^2$表示多元判定系数，它的计算公式如下  
<hr />

**多元判定系数**(15-8)  
$$R^2=\frac{SSR}{SST}$$
5  
<hr />

我们能把多元判定系数$R^2$理解为应变量y中的变异性能被估计的多元回归方程解释的比例  
对于由两个自变量的Butler运输公司的例子，因为SSR=21.601,SST=23.900，故而我们有  

In [None]:
butRsq=(but_sst-lrmd.ssr)/but_sst
print('R-sq={:.3f}'.format(butRsq))

所以，在运输车辆行驶时间y中变异性的90.4%，能用运送货物的行驶里程和运送货物的次数作自变量的估计的多元回归方程解释  
对于仅有一个自变量，即每天运送货物的行驶里程（$x_1$)估计的多元回归方程，图15-3给出了R-sq的值是66.4%。在一般情形下，$R^2$总是随着新的自变量不断进入模型而增加 5  
由于增加自变量将影响到应变量中的变异性被估计的回归方程解释的百分比，为了避免高估这一影响，许多分析学家提出用自变量的数目去修正$R^2$的值  
用n表示观测值的数目，p表示自变量的数目，**修正多元判定系数**的计算公式如下  
<hr />

**修正多元判定系数**(15-9)  
$$R^2_a=1-(1-R^2)\frac{n-1}{n-p-1}$$
<hr />

对于Butler运输公司的例子，n=10,p=2，我们有  

In [None]:
'''
5
'''
butAdjRsq=1-(1-butRsq)*(len(but)-1)/(len(but)-1-(len(but.columns)-2))
print('R-sqa={:.2f}'.format(butAdjRsq))

于是，对于有两个自变量的多元判定系数进行修正后，我们得到的修正多元判定系数是0.88  
## 注释
如果$R^2$的数值比较小，而模型所包含的自变量的数目比较大时，修正多元判定系数可能取负值；在这种情形下，Minitab将把修正多元判定系数的数值调整为0 5  
# 15.4 模型的假定
在15.1节中，我们引入了式(15-10)形式的多元回归模型  
<hr />

**多元回归模型**（15-10）
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$
<hr />

在多元回归模型中，关于误差项$\varepsilon$的假定与简单线性回归模型的假定相似  
<hr />

**关于多元回归模型$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$的误差项$\varepsilon$的假定**  
1. 误差项$\varepsilon$是一个平均值或期望值为零的随机变量，即$E(\varepsilon)=0$ 5  
    这就意味着：对于给定的$x_1,x_2,\dots,x_p$的值，y的期望值或平均值是（15-11）  
    $$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
    式（15-11）就是我们在15.1节中极少的多元回归方程。在这个方程中，E(y)表示对于给定的$x_1,x_2,\dots,x_p$的值,y的所有可能出现的值的期望值或平均值  
2. 对于自变量$x_1,x_2,\dots,x_p$所有的值，$\varepsilon$的方差都是相同的。我们用$\sigma^2$表示$\varepsilon$的方差  
    这就意味着：对于自变量$x_1,x_2,\dots,x_p$所有的值，y关于回归线的方差也都等于$\sigma^2$ 5  
3. $\varepsilon$的值是相互独立的  
    这就意味着：对于自变量$x_1,x_2,\dots,x_p$的一组特定的值，它所对于的误差项$\varepsilon$的值与自变量$x_1,x_2,\dots,x_p$的任意一组其他值所对应的误差项$\varepsilon$的值不相关  
4. 误差项$\varepsilon$是一个服从正态分布的随机变量，它表示了y的值和由$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$给出的y的期望值之间的离差  
    这就意味着：因为$\beta_0,\beta_1,\beta_2,\dots,\beta_p$是常数，对于给定的$x_1,x_2,\dots,x_p$的值，应变量y也是一个服从正态分布的随机变量  

<hr />

为了对由式（15-11）给出的关系式的形式由更深入的了解，我们考虑下面含有两个自变量的多元回归方程 5  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2$$
这个方程的图形是三维空间的一个平面。图15-5给出了这一一个图形的例子  
![15-5](../syn_pic/statistics_for_business_economics/15-5.png)
<center>图15-5 具有两个自变量的多元回归分析问题的回归方程图形</center>

注意，在图中，当$x_1=x_1^*$,$x_2=x_2^*$时，$\varepsilon$是y的实际观测值和y的期望值E(y)之间的差 5  
在回归分析中，我们经常用术语响应变量代替术语应变量。此外，因为多元回归方程生成一个平面或是一个曲面，所以我们把它的图形称为响应曲面 5  
# 15.5 显著性检验  
在简单线性回归情形时，我们应用t检验和F检验进行显著性检验。在简单线性回归情形时，这两个检验给出了同样的结论；也就是说，如果原假设被拒绝，我们的结论时$\beta_1\ne0$  
而在多元回归情形中，进行t检验和F检验的目的是不同的  
1. F检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系;我们把F检验称为总体的显著性检验  
2. 如果F检验已经表明了模型总体的显著性，那么t检验用于确定每一个单个的自变量是不是显著的自变量  
    对模型中每一个单个的自变量，都要单独地进行t检验;我们把每一个这样的t检验都称为单个的显著性检验 5  

在以下内容中，我们将对F检验和t检验加以解释，并将这两个检验应用于Butler运输公司的例子  
## 15.5.1 F检验  
在15.4节中定义的多元回归模型是  
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$
F检验的假设与多元回归模型的参数有关  
$$H_0：\beta_1=\beta_2=\dots=\beta_p=0$$
$$H_a：至少有一个参数不等于零$$  
5  
如果原假设$H_0$被拒绝，那么我们就有足够的统计证据断定，至少有一个参数不等于零，并且应变量y和所有自变量$x_1,x_2,\dots,x_p$之间的关系在总体上是显著的  
在叙述F检验的步骤之前，我们需要回忆一下均方的概念。均方是一个平方和除以它所对应的自由度  
在多元回归情形，总的平方和有n-1个自由度，回归平方和(SSR)有p个自由度，误差平方和有n-p-1个自由度  
因此，回归的均方（MSR）是SSR/p，误差的均方(MSE)是SSE/（n-p-1）(15-12)  
$$MSR=\frac{SSR}{p}$$
和(15-13) 5  
$$MSE=\frac{SSE}{n-p-1}$$
根据在第14章中讨论的结果，MSE给出了误差项$\varepsilon$的方差$\sigma^2$的一个无偏估计量  
如果原假设$H_0：\beta_1=\beta_2=\dots=\beta_p=0$，MSR也给出了方差$\sigma^2$的一个无偏估计量，并且MSR/MSE的值将接近于1  
为了确定需要多么大的MSR/MSE的值就能拒绝$H_0$，我们利用这样一个事实:如果$H_0$成立并且有关多元回归模型的假定都成立，那么MSR/MSE的抽样分布式一个分子的自由度为p，分母的自由度为n-p-1的F分布  
对于多元回归情形，显著性F检验的步骤如下 5  
<hr />

**总体显著性的F检验**  
$$H_0：\beta_1=\beta_2=\dots=\beta_p=0$$
$$H_a：至少有一个参数不等于零$$ 
检验的统计量$F=\frac{MSR}{MSE}$（15-14）  
拒绝法则  
p-值法：如果p-值$\le\alpha$，则拒绝$H_0$  
临界值法：如果F$\ge F_{\alpha}$，则拒绝$H_0$ 5  

式中，$F_{\alpha}$式分子的自由度为p，分母的自由度为n-p-1时，使F分布的上侧面积为$\alpha$的F值  
<hr />

让我们将F检验应用于Butler运输公司的多元回归问题。因为有两个自变量，所以我们把检验的假设写成如下形式  
$$H_0：\beta_1=\beta_2=0$$
$$H_a：\beta_1,\beta_2中至少有一个参数不等于零$$ 
利用式(15-14)，我们得到检验的统计量  

对于$\alpha=0.01$的显著性水平，因为p-值小于0.01，所以应该拒绝$H_0$ 5  

In [None]:
'''

'''
lrmd