In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import linregress,f,t
from sklearn import linear_model
import statsmodels.formula.api as smf
import statsmodels.api as sm
from io import StringIO

# 实践中的统计
## dunnhumby
dunnhumby公司将经过证实的与生俱来的能力与宏大的目标结合起来，以寻找客户购买什么样的商品以及为什么购买这些商品的线索和模式  
该公司将这些见解变成可操作的策略，这些策略创造了急剧的增长和可持续的忠诚度，最终提高了品牌价值和客户的认知度  
在欧洲、亚洲和美洲，dunnhumby雇佣的员工超过950人，该公司为一些声望很高的著名公司提供服务，如克罗格、乐购、可口可乐、通用磨坊、金佰利、百事、宝洁和家得宝  
公司的研究工作始于收集消费者的统计数据。这些数据来自于客户的奖励或优惠卡购买记录，以及电子销售点的交易和传统的市场研究  
数据的分析常常要将数以十亿计的数据点转换成有关消费者行为、喜好和生活方式的详细见解。这种见解有利于制订更有效的营销方案，包括定价、促销、广告、产品分类决策的战略建议  
研究人员使用被称为logistic回归的多元回归技术帮助他们分析以客户为基础的数据。使用logistic回归，建立一个估计的多元回归方程，该方程的形式如下所示 5  
$$\hat{y}=b_0+b_1x_1+b_2x_2+b_3x_3+\dots+b_px_p$$
应变量$\hat{y}$是客户是属于一个特定的客户群体的概率估计  
自变量$x_1,x_2,x_3,\dots,x_p$是客户实际购买行为的度量，可能包括购买的具体物品、购买物品的数量、购买物品的金额、周几购买、一天的什么时候购买，等等  
分析有助于确认出与预测客户群体最相关的自变量，对客户总体提供了更好的了解。分析的重点在于了解顾客对商品开发，市场营销、直接营销方案等问题的态度，而这些问题与公司服务的客户群有极大的相关性  
在本章中，我们将介绍多元回归的概念，并且说明如何将第14章介绍的简单线性回归的概念扩展到多元回归的情形 5  
让我们回想一下，被回归方程预测的或者解释的变量称为应变量，用来预测或者解释应变量的变量称为自变量  
在本章中，我们将通过考虑两个或两个以上自变量的情形，来继续我们回归分析的学习。这一研究领域称为**多元回归分析** 5  
# 15.1 多元回归模型
多元回归分析是研究应变量y如何依赖两个或两个以上自变量的问题。在一般情形下，我们将用p表示自变量的数目  
## 15.1.1 回归模型和回归方程  
我们在第14章介绍的回归模型和回归方程的概念对多元回归情形同样适用。描述应变量y如何依赖于自变量$x_1,x_2,\dots,x_p$和一个误差项的方程称为**多元回归模型**  
我们首先假设多元回归模型的形式如下  
<hr />

**多元回归模型**（15-1）
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$
<hr />

在多元回归模型中，$\beta_0,\beta_1,\beta_2,\dots,\beta_p$是参数，误差项$\varepsilon$是随机变量 5  
误差项说明了包含在y里面但不能被p个自变量的线性关系解释的变异性  
假定之一是$\varepsilon$的平均值或期望值是零。由于这一假定，y的平均值或期望值E(y)等于$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$  
描述y的平均值如何依赖于$x_1,x_2,\dots,x_p$的方程称为**多元回归方程**  
<hr />

**多元回归方程**（15-2）  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
<hr />

5  
## 15.1.2 估计的多元回归方程  
如果参数$\beta_0,\beta_1,\beta_2,\dots,\beta_p$的值是已知的，在给定$x_1,x_2,\dots,x_p$的值时，我们能利用式（15-2）计算y的平均值  
我们利用一个简单随机样本计算样本统计量$b_0,b_1,b_2,\dots,b_p$，将它们作为未知参数$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$的点估计量  
利用这些样本统计量我们得到了下面的**估计的多元回归方程**  
<hr />

**估计的多元回归方程**(15-3)  
$$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$
式中，$b_0,b_1,b_2,\dots,b_p$是$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$的估计值;$\hat{y}$代表应变量的估计值 5  
<hr />

对于多元回归情形，估计步骤如图15-1所示  
![15-1](../syn_pic/statistics_for_business_economics/15-1.png)
<center>图15-1 多元线性回归模型的估计步骤 5</center>

# 15.2 最小二乘法
现在我们利用同样的方法来建立估计的多元回归方程。我们再次叙述最小二乘准则如下  
<hr />

**最小二乘准则**（15-4）  
$$min\Sigma(y_i-\hat{y}_i)^2$$
式中，$y_i$代表对于第i次观测，应变量的观测值;$\hat{y}_i$代表对于第i次观测，应变量的估计值  
<hr />

我们能利用估计的多元回归方程  
$$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$
计算应变量的估计值 5  
正如式（15-4）所显示的那样，最小二乘法是利用样本数据，通过使残差的平方和达到最小的方法求得$b_0,b_1,b_2,\dots,b_p$的值  
对于样本容量相对比较小的数据集，我们能利用这些公式通过手算就能计算出$b_0$和$b_1$  
可是在多元回归情形，计算回归系数$b_0,b_1,b_2,\dots,b_p$的公式将涉及矩阵代数的知识，这已经超出了本书的范围  
重点将是如何解释计算机软件包的输出，而不是如何进行多元回归的计算  
## 15.2.1 例子：Butler运输公司  
作为多元回归分析的一个说明，我们将考虑Butler运输公司所面临的一个问题，它是一家位于南加利福尼亚地区的独立运输公司 5  
为了制定最佳的工作计划表，公司的管理人员希望估计他们的司机每天行驶的时间  
由10项运输任务组成的简单随机样本提供的数据如表15-1所示，散点图如图15-2所示  

In [None]:
but=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch15/Butler.csv')
but

In [None]:
'''
python	matplotlib	figure	Figure.figsize
'''
but.plot.scatter('Miles','Time',figsize=(6,6))
plt.ylim(3,11)
plt.xlim(40,110)
plt.show()

对这个散点图仔细观察后，管理人员假设，能利用简单线性回归模型$y=\beta_0+\beta_1x_1+\varepsilon$来描述每天行驶的时间(y)与每天运送货物的行驶里程($x_1$)之间的关系 5  
我们利用最小二乘法估计未知参数$\beta_0$和$\beta_1$，建立估计的回归方程为（15-5）  
$$\hat{y}=b_0+b_1x_1$$
在图15-3中，我们给出了利用表15-1中的数据进行简单线性回归得到的Minitab计算机输出。估计的回归方程是  

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	linregress()
'''
but_slo,but_int,but_rva,but_pva,but_std=linregress(but['Miles'],but['Time'])
print('y={:.2f}+{:.4f}x'.format(but_int,but_slo))

In [None]:
print('p-值={:.3f}比alpha=0.05小，拒绝原假设beta_1=0'.format(but_pva))

于是我们能断定，每天行驶的时间与每天运送货物的行驶里程之间存在一个显著的关系 5  

In [None]:
print('判定系数r_sqr={:.1%}'.format(np.power(but_rva,2)))

In [None]:
flam='Time~Miles'
lrm=smf.ols(flam,but)
lrm_md=lrm.fit()
lrm_md.ssr

因为判定系数$R^2=66.4$%,所以我们可以看出，运输车每天行驶时间变异性的66.4%能被运送货物的行驶里程的线性影响解释。这一结果还算不错，但是管理人员或许希望考虑增加第二个自变量解释应变量中剩余的变异性  
在视图确认另一个自变量时，管理人员觉得运送货物的次数也可能影响到行驶的总时间。估计的回归方程是（15-6）  

In [None]:
'''
5
python sklearn Classical linear regressors linear_model.LinearRegression()
python sklearn Classical linear regressors LinearRegression.coef_
python sklearn Classical linear regressors LinearRegression.intercept_
python sklearn Classical linear regressors LinearRegression.fit()
'''
lr=linear_model.LinearRegression()
lr.fit(but.loc[:,['Miles','Deliveries']],but['Time'])
print('y = {:.3f} + {:.4f}x1 + {:.3f}x2'.format(lr.intercept_,lr.coef_[0],lr.coef_[1]))

In [None]:
'''
python sklearn Classical linear regressors LinearRegression.score()
'''
lr.score(but.loc[:,['Miles','Deliveries']],but['Time'])

在下一节，我们将讨论如何利用多元判定系数来度量，我们得到的这个估计的回归方程对观测数据是一个好的拟合  
在此之前，让我们先仔细地考察一下式（15-6）中的两个估计值$b_1=0.0611$和$b_2=0.923$  
## 15.2.2 关于回归系数解释的注释  
现在我们得到了两个估计的回归方程，一个估计的回归方程是仅用每天运送货物的行驶里程作为自变量，另一个估计的回归方程包含了用运送货物的次数作为第二个自变量,可以对两个估计的回归方程之间的关系作出一些解释  
在这两种情形下，$b_1$的值是不同的。在简单线性回归情形，我们把$b_1$看做当自变量变化一个单位时，应变量y变化程度的一个估计 5  
在多元回归情形，这一解释应稍微做些修改。也就是说，在多元回归分析情形，我们对每一个回归系数有以下解释：当所有其他自变量都保持不变时，$b_1$可以看做对应的自变量$x_i$变化一个单位时，应变量y变化程度的一个估计  
在包括两个自变量的Butler运输公司的例子中，$b_1=0.0611$。于是，当运送货物的次数保持不变时，对应于运送货物行驶的里程每增加1英里，运送货物车辆期望增加的行驶时间的估计值是0.0611小时 5  
# 15.3 多元判定系数
在简单线性回归情形中，我们已经说明了总的平方和能被分解为两部分：回归平方和及误差平方和。同样的方法也能应用到多元回归的情形  
<hr />

**SST,SSR和SSE之间的关系**（15-7）  
$$SST=SSR+SSE$$
式中，$SST=\Sigma(y_i-\bar{y})^2$代表总的平方和；$SSR=\Sigma(\hat{y}_i-\bar{y})^2$代表回归平方和;$SSE=\Sigma(y_i-\hat{y}_i)^2$代表误差平方和  
<hr />

由于这个三个平方和的计算非常困难，因此我们依靠计算机软件包得到这三个平方和的数值  

In [None]:
'''
5
python	patsy	formula	~
python	statsmodels	ANOVA	smf.ols()
python	statsmodels	ANOVA	Models.fit()
python	statsmodels	Linear Regression	RegressionResults() summary()
'''
fla='Time ~ Miles + Deliveries'
lrs=smf.ols(fla,but)
lrmd=lrs.fit()
lrmd.summary()

In [None]:
'''
python	statsmodels	ANOVA	stats.anova_lm()
'''
sm.stats.anova_lm(lrmd)

In [None]:
'''
RegressionResults
'''
but_sst=(but['Time']-but['Time'].mean()).pow(2).sum()
print('15-4 SSE={:.3f}'.format(lrmd.ssr))
print('15-4 SST={:.3f}'.format(but_sst))
print('15-4 SSR={:.3f}'.format(but_sst-lrmd.ssr))

In [None]:
'''
5
'''
print('15-3 SSE={:.3f}'.format(lrm_md.ssr))
print('15-3 SST={:.3f}'.format(but_sst))
print('15-3 SSR={:.3f}'.format(but_sst-lrm_md.ssr))

在这两种情形下，SST的值是相同的，因为它不依赖于$\hat{y}$  
但是当第二个自变量进入模型后，SSR增加而SSE减少。这就意味着，估计的多元回归方程对观测数据给出了一个更好的拟合  
在第14章里，我们利用判定系数$r^2=SSR/SST$来度量估计的回归方程的拟合优度。我们将同样的概念应用到多元回归的情形  
术语**多元判定系数**表示的是对估计的多元回归方程拟合优度的度量。我们用$R^2$表示多元判定系数，它的计算公式如下  
<hr />

**多元判定系数**(15-8)  
$$R^2=\frac{SSR}{SST}$$
5  
<hr />

我们能把多元判定系数$R^2$理解为应变量y中的变异性能被估计的多元回归方程解释的比例  
对于由两个自变量的Butler运输公司的例子，因为SSR=21.601,SST=23.900，故而我们有  

In [None]:
butRsq=(but_sst-lrmd.ssr)/but_sst
print('R-sq={:.3f}'.format(butRsq))

所以，在运输车辆行驶时间y中变异性的90.4%，能用运送货物的行驶里程和运送货物的次数作自变量的估计的多元回归方程解释  
对于仅有一个自变量，即每天运送货物的行驶里程（$x_1$)估计的多元回归方程，图15-3给出了R-sq的值是66.4%。在一般情形下，$R^2$总是随着新的自变量不断进入模型而增加 5  
由于增加自变量将影响到应变量中的变异性被估计的回归方程解释的百分比，为了避免高估这一影响，许多分析学家提出用自变量的数目去修正$R^2$的值  
用n表示观测值的数目，p表示自变量的数目，**修正多元判定系数**的计算公式如下  
<hr />

**修正多元判定系数**(15-9)  
$$R^2_a=1-(1-R^2)\frac{n-1}{n-p-1}$$
<hr />

对于Butler运输公司的例子，n=10,p=2，我们有  

In [None]:
'''
5
'''
butAdjRsq=1-(1-butRsq)*(len(but)-1)/(len(but)-1-(len(but.columns)-2))
print('R-sqa={:.2f}'.format(butAdjRsq))

于是，对于有两个自变量的多元判定系数进行修正后，我们得到的修正多元判定系数是0.88  
## 注释
如果$R^2$的数值比较小，而模型所包含的自变量的数目比较大时，修正多元判定系数可能取负值；在这种情形下，Minitab将把修正多元判定系数的数值调整为0 5  
# 15.4 模型的假定
在15.1节中，我们引入了式(15-10)形式的多元回归模型  
<hr />

**多元回归模型**（15-10）
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$
<hr />

在多元回归模型中，关于误差项$\varepsilon$的假定与简单线性回归模型的假定相似  
<hr />

**关于多元回归模型$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$的误差项$\varepsilon$的假定**  
1. 误差项$\varepsilon$是一个平均值或期望值为零的随机变量，即$E(\varepsilon)=0$ 5  
    这就意味着：对于给定的$x_1,x_2,\dots,x_p$的值，y的期望值或平均值是（15-11）  
    $$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
    式（15-11）就是我们在15.1节中极少的多元回归方程。在这个方程中，E(y)表示对于给定的$x_1,x_2,\dots,x_p$的值,y的所有可能出现的值的期望值或平均值  
2. 对于自变量$x_1,x_2,\dots,x_p$所有的值，$\varepsilon$的方差都是相同的。我们用$\sigma^2$表示$\varepsilon$的方差  
    这就意味着：对于自变量$x_1,x_2,\dots,x_p$所有的值，y关于回归线的方差也都等于$\sigma^2$ 5  
3. $\varepsilon$的值是相互独立的  
    这就意味着：对于自变量$x_1,x_2,\dots,x_p$的一组特定的值，它所对于的误差项$\varepsilon$的值与自变量$x_1,x_2,\dots,x_p$的任意一组其他值所对应的误差项$\varepsilon$的值不相关  
4. 误差项$\varepsilon$是一个服从正态分布的随机变量，它表示了y的值和由$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$给出的y的期望值之间的离差  
    这就意味着：因为$\beta_0,\beta_1,\beta_2,\dots,\beta_p$是常数，对于给定的$x_1,x_2,\dots,x_p$的值，应变量y也是一个服从正态分布的随机变量  

<hr />

为了对由式（15-11）给出的关系式的形式由更深入的了解，我们考虑下面含有两个自变量的多元回归方程 5  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2$$
这个方程的图形是三维空间的一个平面。图15-5给出了这一一个图形的例子  
![15-5](../syn_pic/statistics_for_business_economics/15-5.png)
<center>图15-5 具有两个自变量的多元回归分析问题的回归方程图形</center>

注意，在图中，当$x_1=x_1^*$,$x_2=x_2^*$时，$\varepsilon$是y的实际观测值和y的期望值E(y)之间的差 5  
在回归分析中，我们经常用术语响应变量代替术语应变量。此外，因为多元回归方程生成一个平面或是一个曲面，所以我们把它的图形称为响应曲面 5  
# 15.5 显著性检验  
在简单线性回归情形时，我们应用t检验和F检验进行显著性检验。在简单线性回归情形时，这两个检验给出了同样的结论；也就是说，如果原假设被拒绝，我们的结论时$\beta_1\ne0$  
而在多元回归情形中，进行t检验和F检验的目的是不同的  
1. F检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系;我们把F检验称为总体的显著性检验  
2. 如果F检验已经表明了模型总体的显著性，那么t检验用于确定每一个单个的自变量是不是显著的自变量  
    对模型中每一个单个的自变量，都要单独地进行t检验;我们把每一个这样的t检验都称为单个的显著性检验 5  

在以下内容中，我们将对F检验和t检验加以解释，并将这两个检验应用于Butler运输公司的例子  
## 15.5.1 F检验  
在15.4节中定义的多元回归模型是  
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$
F检验的假设与多元回归模型的参数有关  
$$H_0：\beta_1=\beta_2=\dots=\beta_p=0$$
$$H_a：至少有一个参数不等于零$$  
5  
如果原假设$H_0$被拒绝，那么我们就有足够的统计证据断定，至少有一个参数不等于零，并且应变量y和所有自变量$x_1,x_2,\dots,x_p$之间的关系在总体上是显著的  
在叙述F检验的步骤之前，我们需要回忆一下均方的概念。均方是一个平方和除以它所对应的自由度  
在多元回归情形，总的平方和有n-1个自由度，回归平方和(SSR)有p个自由度，误差平方和有n-p-1个自由度  
因此，回归的均方（MSR）是SSR/p，误差的均方(MSE)是SSE/（n-p-1）(15-12)  
$$MSR=\frac{SSR}{p}$$
和(15-13) 5  
$$MSE=\frac{SSE}{n-p-1}$$
根据在第14章中讨论的结果，MSE给出了误差项$\varepsilon$的方差$\sigma^2$的一个无偏估计量  
如果原假设$H_0：\beta_1=\beta_2=\dots=\beta_p=0$，MSR也给出了方差$\sigma^2$的一个无偏估计量，并且MSR/MSE的值将接近于1  
为了确定需要多么大的MSR/MSE的值就能拒绝$H_0$，我们利用这样一个事实:如果$H_0$成立并且有关多元回归模型的假定都成立，那么MSR/MSE的抽样分布式一个分子的自由度为p，分母的自由度为n-p-1的F分布  
对于多元回归情形，显著性F检验的步骤如下 5  
<hr />

**总体显著性的F检验**  
$$H_0：\beta_1=\beta_2=\dots=\beta_p=0$$
$$H_a：至少有一个参数不等于零$$ 
检验的统计量$F=\frac{MSR}{MSE}$（15-14）  
拒绝法则  
p-值法：如果p-值$\le\alpha$，则拒绝$H_0$  
临界值法：如果F$\ge F_{\alpha}$，则拒绝$H_0$ 5  

式中，$F_{\alpha}$式分子的自由度为p，分母的自由度为n-p-1时，使F分布的上侧面积为$\alpha$的F值  
<hr />

让我们将F检验应用于Butler运输公司的多元回归问题。因为有两个自变量，所以我们把检验的假设写成如下形式  
$$H_0：\beta_1=\beta_2=0$$
$$H_a：\beta_1,\beta_2中至少有一个参数不等于零$$ 
利用式(15-14)，我们得到检验的统计量  

In [None]:
'''
5
python	statsmodels	Linear Regression	RegressionResults.mse_resid
python	statsmodels	Linear Regression	RegressionResults.mse_model
'''
but_mse=lrmd.mse_resid
but_msr=lrmd.mse_model
but_f=but_msr/but_mse
but_f

对于$\alpha=0.01$的显著性水平，因为p-值小于0.01，所以应该拒绝$H_0$  

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults.nobs
'''
f.sf(but_f,2,lrmd.nobs-2-1)

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f() f.isf()
'''
but_f=f.isf(0.01,2,lrmd.nobs-2-1)
print('因为32.88>{:.2f},所以我们拒绝原假设'.format(but_f))

前面已经提到，均方误差MSE给出了误差项$\varepsilon$的方差$\Sigma^2$的一个无偏估计量  
就是在14.5节中所定义的那样，我们把这个标准差称为估计的标准误差，并用s表示 5    

In [None]:
but_s=np.sqrt(lrmd.mse_resid)
print('我们有s={:.3f}'.format(but_s))

表15-3是一般的方差分析表（ANOVA）,它给出了多元回归模型F检验的结果  
<center>表15-3 具有p个自变量的多元回归模型的方差分析表</center>

![tb15-3](../syn_pic/statistics_for_business_economics/tb15-3.png)  
## 15.5.2 t检验  
如果F检验显示了多元回归关系在总体上是显著的，那么t检验就能帮助我们确定每一个单个参数的显著性问题。对于单个参数的显著性检验，t检验的步骤如下  
<hr />

**单个参数的显著性的t检验**  
对于任一个参数$\beta_i$ 5  
$$H_0:\beta_i=0$$
$$H_a:\beta_i\ne0$$
检验的统计量（15-15）  
$$t=\frac{b_i}{s_{b_i}}$$
拒绝法则  
p-值法：如果p-值$\le\alpha$，则拒绝$H_0$  
临界值法：如果$t\le-t_{\alpha/2}$或者$t\ge-t_{\alpha/2}$，则拒绝$H_0$  
式中，$t_{\alpha/2}$是自由度为n-p-1时，使t分布的上侧面积为$\alpha/2$的t值 5  
<hr />

在检验统计量的公式里，$s_{b_i}$是$b_i$标准差的估计,$s_{b_i}$的值由计算机软件包提供  
让我们将t检验用于Butler运输公司的多元回归问题。$b_1,b_2,s_{b_1}和s_{b_2}$的值如下  

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults.bse
'''
but_sb1=lrmd.bse['Miles']
but_sb1

In [None]:
but_sb2=lrmd.bse['Deliveries']
but_sb2

In [None]:
'''
5
'''
but_b1=lrmd.params['Miles']
but_b2=lrmd.params['Deliveries']
but_b1

对于参数$\beta_1和\beta_2$的假设检验，我们利用式（15-15）,就能得到检验的统计量  

In [None]:
but_t1=but_b1/but_sb1
but_t2=but_b2/but_sb2

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	t() t.isf()
'''
but_t0005=t.isf(0.01/2,lrmd.nobs-2-1)
print('由于{:.2f}>{:.3f}，所以我们拒绝beta1=0'.format(but_t1,but_t0005))
print('由于{:.2f}>{:.3f}，所以我们拒绝beta1=0'.format(but_t2,but_t0005))

对于显著性水平$\alpha=0.01$，Minitab输出给出的p-值分别如下  

In [None]:
'''
5 
python	statsmodels	Linear Regression	RegressionResults.pvalues
'''
lrmd.pvalues

## 15.5.3 多重共线性  
在回归分析中，我们曾经使用自变量这个术语来表示用于预测或者解释应变量值的那些变量。但是这个术语并不意味着，这些自变量本身在某种统计意义上是独立的  
相反，在多元回归问题中，大部分自变量在某种程度上是互相关联的  
为此我们计算它们的样本相关系数$r_{x_1x_2}$，然后确定这两个变量相关的程度  

In [None]:
'''
python	pandas	series	s.corr()
'''
but_corr=but['Miles'].corr(but['Deliveries'])
print('样本相关系数计算的结果是r={:.2f}'.format(but_corr))

在多元回归分析中，我们把自变量之间的相关性称为**多重共线性** 5  
我们不用$x_2$表示运送货物的次数，而用$x_2$表示消耗汽油的加仑数量。因此，从逻辑上我们能认定$x_1$和$x_2$是高度相关的自变量  
假定，我们已经建立了估计的回归方程$\hat{y}=b_0+b_1x_1+b_2x_2$，并且F检验显示了多元回归关系在总体上是显著的  
然后，假定我们进行关于$\beta_1$的t检验来断定$\beta_1\ne0$是否成立。如果我们不能拒绝$H_0:\beta_1=0$，这个结果是否意味着每天运送货物行驶的时间不依赖于行驶里程呢？  
不一定。它很可能意味着：由于$x_2$已经在模型里，所以$x_1$对决定y的数值已经不再有显著的贡献了  
类似地，通过t检验可能导致我们得出$\beta_2=0$结论，由于$x_1$已经在模型里，所以我们也不再需要增加更多的有关消耗汽油数量的信息了 5  
综上所述，在对单个参数的显著性进行t检验时，由于多重共线性而带来的困难是:当多元回归方程总体显著性的F检验表明有一个显著的关系时，我们可能得出单个参数没有一个是显著地不同于零的结论  
只有当自变量之间的相关性非常小的时候，才有可能回避这个问题  
为了确定多重共线性是否对模型的估计产生十分严重的后果，统计学家已经提出了一些不同的检验方法  
对于任何一个含有两个自变量的多元回归模型，如果它们样本相关系数的绝对值大于0.7，那么依照经验的检验方法，多重共线性有可能成为一个潜在的问题  
如果可能的话，我们应尽一切努力避免在模型中包含高度相关的自变量 5  
## 注释
通常，在对某个问题进行研究时，多重共线性对我们进行的回归分析，或者对计算机输出结果的解释都不会产生影响  
但是，当存在严重的多重共线性时，即当两个或两个以上的自变量相互高度相关时如果我们对单个参数进行t检验,并对t检验的结果进行解释时，就可能出现困难  
除了本节说明的问题外，严重的多重共线性困难导致最小二乘估计出现错误的符号。
也就是说，在模拟研究中，研究者设计了基本的回归模型，接着利用最小二乘法求出参数$\beta_0,\beta_1,\beta_2$等的估计值，但是在高度多重共线性的条件下，最小二乘估计可能与被故参数有一个完全相反的符号 5  
# 15.6 应用估计的回归方程进行估计和预测  
在多元回归分析中，估计y的平均值和预测y的个别值的步骤，与包含一个自变量的回归分析所进行的那些步骤类似  
在两种情形下，我们都利用$\hat{y}=b_0+b_1x$作为它们的点估计 
在多元回归分析中，我们应用同样的步骤，即我们将自变量$x_1,x_2,\dots,x_p$的给定值代入估计的回归方程里，使用对应的$\hat{y}$的值作为y的期望值和y的一个个别值的点估计  
假定在Butler运输公司的例子里，我们希望利用含有$x_1$(每天运送货物的行驶里程)和$x_2$（运送货物的次数）两个自变量的估计的回归方程去建立两个区间估计：  
1. 对于所有的运货汽车，在运送货物行驶100英里和运送货物2次的情形下，这些汽车平均行驶时间的置信区间 5  
2. 对于一辆特定的运货汽车，在运送货物行驶100英里和运送货物2次的情形下，这些汽车平均行驶时间的预测区间  

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults.predict()
'''
but_pred_data=pd.DataFrame({'Miles':[50,50,50,100,100,100],'Deliveries':[2,3,4,2,3,4]})
lrmd.predict(but_pred_data)

因此，在这两种情形下，汽车行驶时间的点估计大约等于7小时  
所需公式的推导已经超出了本教科书的范围，但是对于多元回归分析情形，一旦自变量$x_1,x_2,\dots,x_p$的值被用户设定，计算机软件包往往就能提供这些区间估计  
在Butler运输公司的例子中，对于我们所选取的$x_1$和$x_2$的数值，表15-4给出了置信水平为95%的置信区间和预测区间的上下限的数值;这些数值都可以通过使用Minitab得到 5  
需要注意的是，y的一个个别值的区间估计要比y的期望值的区间估计有更宽的范围。这一区别只不过反映了这样一个事实:对于给定的$x_1$和$x_2$的数值，我们估计所有运货汽车的平均时间比我们预测一辆特定运货汽车的行驶时间要有更高的精确度  

In [None]:
'''
5
python	statsmodels	Linear Regression	RegressionResults.get_prediction()
python	statsmodels	Linear Regression	PredictionResults()
python	statsmodels	Linear Regression	PredictionResults.summary_frame()
'''
but_pred=lrmd.get_prediction(but_pred_data)
but_pred.summary_frame(0.95)

# 15.7 分类自变量
至今为止，我们所考虑的例子的自变量但是定量自变量，例如学生人数、运送货物行驶的距离、运送货物的次数等  
但是，在许多情形下，我们必须利用**分类自变量**处理问题，例如性别、付款方式、等等  
## 15.7.1 约翰逊过滤水股份公司案例
约翰逊过滤水股份公司对于遍布南佛罗里达州的过滤水系统提供维修保养服务。为了估计服务时间和服务成本，约翰逊公司的管理人员希望对顾客的每一次维修请求，预测必要的维修时间  
由10次维修服务组成一个样本，有关资料数据如表15-5所示  

In [None]:
'''
5
'''
johnson=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch15/Johnson.csv')
johnson.columns=['x1','x2','y']
johnson

我们用y表示按小时计算的维修时间，$x_1$表示从最近一次维修服务至今的月数，仅仅利用$x_1$进行预测的回归模型是  
$$y=\beta_0+\beta_1x_1+\varepsilon$$
我们利用Minitab建立了估计的回归方程，得到的输出如图15-7所示。估计的回归方程是（15-16）  

In [None]:
'''
python	patsy	formula	~
5
'''
js_formula='y ~ x1'
js_ols=smf.ols(js_formula,johnson)
js_result=js_ols.fit()
print('y={:.2f}+{:.3f}x1'.format(js_result.params[0],js_result.params[1]))

In [None]:
js_result.summary()

#软件	标记语言	LaTeX	分段函数  
在$\alpha=0.05$的显著性水平下，对于t(或F)检验，p-值为0.016，这就表明维修时间显著地依赖于从最近一次维修服务至今的月数  
$R^2=53.4\%$表明了$x_1$仅仅解释了维修时间变异性的53.4%  
为了将故障的维修类型引入回归模型，我们定义下面的变量  
$$x_2=\begin{cases}0&如果维修的故障类型是机械的 \\ 1&如果维修的故障类型是电子的\end{cases}$$
5  
在回归分析中，$x_2$称为**虚拟变量**或指标变量。利用这个虚拟变量，我们能把多元回归模型写成如下形式  
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon$$
利用Minitab和表15-5的数据，我们能求出模型参数的估计值。图15-8所示的Minitab输出表名了估计的多元回归方程是  

In [None]:
'''
5
python	patsy	formula	C()
'''
js_formula2='y ~ x1 + C(x2)'
js_ols=smf.ols(js_formula2,johnson)
js_result2=js_ols.fit()
print('y={:.2f}+{:.3f}x1+{:.2f}x2'.format(js_result2.params[0],js_result2.params[2],js_result2.params[1]))

In [None]:
js_result2.summary()

在$\alpha=0.05$的显著性水平下，与F检验相联系的p-值为0.001,这就表明回归关系是显著的  
在图15-8中，打印输出的t检验部分表明，从最近一次维修服务至今的月数和维修的类型这两个变量在统计上都是显著的  
另外$R^2=85.9\%$和$R_a^2=81.9\%$表明估计的回归方程很好地解释了维修时间的变异性  
于是，对于各种不同类型的维修服务请求，在估计必要的维修时间时，估计的回归方程（15-17）应该是有帮助的 5  
## 15.7.2 解释参数  
对于约翰逊过滤水公司的例子，多元回归方程是（15-18）  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2$$
当模型中存在一个分类变量时，为了弄清楚如何对参数$\beta_0,\beta_1和\beta_2$做出合理的解释，我们考虑$x_2=0$的情形  
在已知故障类型是机械型时，用E(y|机械)表示故障维修时间的平均值或期望值，我们有(15-19)  
$$E(y|机械)=\beta_0+\beta_1x_1+\beta_2\times0=\beta_0+\beta_1x_1$$
5  
类似地，对于电子类型的故障（x_2=1），我们有（15-20）  
$$E(y|电子)=\beta_0+\beta_1x_1+\beta_2\times1=\beta_0+\beta_1x_1+\beta_2$$
比较式(15-19)和式(15-20)，我们看到：无论是机械类型的故障还是电子类型的故障，平均维修时间都是$x_1$的线性函数  
这两个方程的斜率都是$\beta_1$，但是y轴截距不同。$\beta_2$的解释是：它表示电子类型故障的平均维修时间与机械类型故障的平均维修时间之间的差  
如果$\beta_2$是正的，那么电子类型故障的平均维修时间将大于机械类型故障的平均维修时间 5  
利用估计的多元回归方程$\hat{y}=0.93+0.388x_1+1.26x_2$，我们看到：0.93是$\beta_0$的估计值，1.26是$\beta_2$的估计值  
于是，当$x_2=0$时，有（15-21）  
$$\hat{y}=0.93+0.388x_1$$
当$x_1=0$时，有（15-22）  
$$\hat{y}=0.93+0.388x_1+1.26\times1=2.19+0.388x_1$$
实际上，对维修的故障类型引入虚拟变量为我们提供了能用于预测维修时间的两个估计的回归方程，一个方程对应机械类型故障的维修时间，一个方程对应电子类型故障的维修时间  
图15-9是根据表15-6的约翰逊过滤水公司的数据画出的散点图。用纵轴表示按小时计算的维修时间(y)，用水平轴表示从最近一次维修服务至今的月数($x_1$) 5  

In [None]:
johnson.head()

In [None]:
'''
python	pandas	series	s.apply()
'''
cl=['red','blue']
jcl=johnson['x2'].apply(lambda x:cl[x])

In [None]:
'''
python	pandas	dataframe	d.plot.scatter() c
5
'''
johnson.plot.scatter('x1','y',c=jcl,figsize=(7,7))
plt.xlim(0,11)
plt.xticks(np.arange(0,11,1))
plt.ylim(0,6)
plt.plot(np.array([0,11]),np.array([2.19,2.19+0.388*11]))
plt.plot(np.array([0,11]),np.array([0.93,0.93+0.388*11]))
plt.show()

## 15.7.3 更复杂的分类变量
但是，当一个分类变量超过两个水平时，我们必须在定义虚拟变量和解释虚拟变量两方面谨慎从事  
正如我们将要说明的那样，如果一个分类变量有k个水平，那么需要定义k-1个虚拟变量，每一个虚拟变量或者取值为0，或者取值为1  
例如，假定复印件制造商组织策划的销售区域是某一个特定州的A,B和C三个地区。管理人员希望，利用回归分析方法帮助他们去预测每周复印机的销售数量  
因为，销售地区是一个分类变量，它有A,B,C三个水平，所以我们将需要3-1=2个虚拟变量来表示销售地区。每一个虚拟变量被定义为如下形式  
$$x_1=\begin{cases}1&如果销售地区是B \\ 0&其他\end{cases}$$
5  
$$x_2=\begin{cases}1&如果销售地区是C \\ 0&其他\end{cases}$$
根据这个定义，我们有$x_1$和$x_2$的值如下 

|销售地区|$x_1$|$x_2$|
|--|--|--|
|A|0|0|
|B|1|0|
|C|0|1|

对应于销售地区A的观测值，虚拟变量被定义为$x_1=0,x_2=0$；对应于销售地区B的观测值，虚拟变量被定义为$x_1=1,x_2=0$；对应于销售地区C的观测值，虚拟变量被定义为$x_1=0,x_2=1$  5   
复印机销售数量的期望值E(y)关于虚拟变量的回归方程将被写为  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2$$
我了帮助我们理解参数$\beta_0,\beta_1和\beta_2$的意义，我们考虑回归方程的三种变化  
$$E(y|销售地区A)=\beta_0+\beta_1\times0+\beta_2\times0=\beta_0$$
$$E(y|销售地区B)=\beta_0+\beta_1\times1+\beta_2\times0=\beta_0+\beta_1$$
$$E(y|销售地区C)=\beta_0+\beta_1\times0+\beta_2\times1=\beta_0+\beta_2$$
5  
于是，$\beta_0$是地区A销售数量的平均值或期望值，$\beta_1$是地区B销售数量的平均值和地区A销售数量的平均值之间的差，$\beta_2$是地区C销售数量的平均值和地区A销售数量的平均值之间的差  
因为分类变量有三个水平，所以需要2个虚拟变量，但是，指定$x_1=0,x_2=0$表示销售地区A，指定$x_1=1,x_2=0$表示销售地区B，$x_1=0,x_2=1$表示销售地区C却是任意的  
重点是要牢记，在多元回归分析中，如果一个分类变量有k个水平，那么需要在多元回归分析中定义k-1个虚拟变量 5  
# 15.8 残差分析
在第14章中我们曾经指出，在作残差图和识别异常值时，经常要用到标准化残差。对于第i次观测，标准化残差的一般公式如下  
<hr />

**第i次观测的标准化残差**（15-23）  
$$\frac{y_i-\hat{y}_i}{s_{y_i-\hat{y}_i}}$$
式中，$s_{y_i-\hat{y}_i}$代表第i次观测的残差的标准差  
<hr />

第i次观测的残差的标准差的一般公式定义如下  
<hr />

**第i次观测的残差的标准差**(15-24) 5  
$$s_{y_i-\hat{y}_i}=s\sqrt{1-h_i}$$
式中，s代表估计的标准误差;$h_i$代表第i次观测的杠杆率  
<hr />

正如我们在第14章中已经陈述的那样，一次观测的**杠杆率**是通过自变量的观测值与这些观测值的平均值之间的距离有多远确定的  
在多元回归情形，对于第i次观测，计算$h_i、s_{y_i-\hat{y}_i}$和标准化残差，如果用手算是非常复杂的  
对于本章前面介绍的Butler运输公司的例子，表15-7列出了预测值、残差和标准化残差 5  

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults.resid

'''
lrmd.resid

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults.fittedvalues
'''
lrmd.fittedvalues

In [None]:
'''
python	statsmodels	Linear Regression	OLSResults()
python	statsmodels	Linear Regression	OLSResults.get_influence()
python	statsmodels	Statistics stats	OLSInfluence()
python	statsmodels	Statistics stats	OLSInfluence.summary_table()
python	statsmodels	Input-Output iolib	table.SimpleTable()
'''
lrmd_ols=lrmd.get_influence()
lrmd_stdcc=lrmd_ols.summary_table()
lrmd_stdcc

图15-10是Butler运输公司多元回归例子的标准化残差图，在图中所使用的标准化残差和y的预测值$\hat{y}$，都可以从表15-7中得到  
这个标准化残差图并没有表示出任何与众不同的反常情形。同时，所有的标准化残差都介于-2和+2之间。最后，我们的结论是：模型的假定都是合适的 5  

In [None]:
'''
python	statsmodels	Input-Output iolib	table.SimpleTable.as_csv()
python	pandas	Input/Output	read_csv() head
python	pandas	Input/Output	read_csv() usecols
python	pandas	Input/Output	read_csv() skiprows

'''
lrmd_string=StringIO(lrmd_stdcc.as_csv())
lrmd_std_lv1=pd.read_csv(lrmd_string,header=0,skiprows=[1],usecols=[1,2,4])
print(lrmd_std_lv1.dtypes)
lrmd_std_lv1.columns=['y','y_hat','stdres']
lrmd_std_lv1

In [None]:
'''
5
'''
lrmd_std_lv1.plot.scatter('y','stdres',figsize=(6,6),color='k')
plt.ylim(-2.5,2.5)
plt.xlim(4,10)
plt.plot(np.array([4,10]),np.array([0,0]),linestyle='--',color='k')
plt.show()

正态概率图也能用来确定误差项$\varepsilon$的分布是否服从正态分布的假定  
## 15.8.1 检测异常值
和其他数据相比较，**异常值**时一个与众不同的的观测值;换句话说，异常值与由其他观测值作出的散点图所显示的趋势不相吻合  
对于Butler运输公司例子的标准化残差，应用这一规则，我们没有从数据集中检测出任何异常值  
一般来说，如果在数据集中存在一个或一个以上的异常值，将导致估计的标准误差s的增加，从而使得第i次观测的残差的标准差$s_{y_i-\hat{y}_i}$的增加  
最后导致的结果时，虽然一个残差可能超乎寻常的大，但由于在式(15-23)中由一个大的分母，从而可能使识别一个观测值为异常值的标准化残差规则失效 5  
我们利用一种被称为**学生化删除残差**的标准化残差，就能防止这种情形发生  
## 15.8.2 学生化删除残差和异常值 
假设从数据集中删除第i次观测值，利用其余的n-1次观测值建立一个新的估计的回归方程。设$s_(i)$表示从数据集中删除了第i次观测值后得到的估计的标准误差  
如果我们计算第i次观测值的残差的标准差，用$s_(i)$代替式（15-24）中的s，那么在我们计算第i次观测的标准化残差时，式（15-23）利用了$s_{y_i-\hat{y}_i}$的修正值，这一得到的标准化残差称为学生化删除残差  
如果第i次观测值是一个异常值，那么$s_{(i)}$将小于s。所以，第i次观测的学生化删除残差的绝对值将大于标准化残差的绝对值 5  
在这种意义下，学生化删除残差可以检测出标准化不能检测出的异常值  
对于Butler运输公司例子，我们利用Minitab可以得到学生化删除残差，结果列在表15-8中  

In [None]:
'''
python	statsmodels	Input-Output iolib	table.SimpleTable.as_csv()
python	pandas	Input/Output	read_csv() skiprows
python	pandas	Input/Output	read_csv() head
'''
lrmd_string=StringIO(lrmd_stdcc.as_csv())
lrmd_std_lv2=pd.read_csv(lrmd_string,header=0,skiprows=[1],usecols=[1,4,7])
lrmd_std_lv2.columns=['y','stdres','ext_stdres']
lrmd_std_lv2

我们能利用t分布来确定，学生化删除残差是否表明存在异常值。回想一下，我们用p表示自变量的个数，用n表示观测值的个数  
如果我们从数据集中删除第i次观测值，那么数据集中余下的观测值还有n-1个;在这种情形下，误差平方和的自由度是(n-1)-p-1 5  
对于Butler运输公司的例子，n=10,p=2，删除第i次观测值后，自由度是9-2-1=6。在0.05显著性水平下，有6个自由度t分布的双侧分位数  

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	t() t.isf()
python	pandas	series	s.abs()
'''
but_t0025=t.isf(0.05/2,6)
lrmd_std_lv2['ext_stdres'].abs()>but_t0025

因为在表15-8中，学生化删除残差都没有超过这个界限，所以我们断定：在这个数据集里，不存在异常值  
## 15.8.3 有影响的观测值
正如我们在标准化残差的讨论中指出的那样，一个观测值的数值很容易就能得到  
Minitab不但能够计算出杠杆率的数值，而且还能利用经验法则：$h_i>3(p+1)/n$识别出**有影响的观测值** 5  
对于Butler运输公司的例子，自变量的个数是p=2，观测值的个数是n=10，杠杆率的临界值是$3\times(2+1)/10=0.9$  
利用Minitab，我们得到的Butler运输公司例子的杠杆率数值如表15-9所示。因为$h_i$都不超过0.9,所以在这个数据集里，我们没有检测出有影响的观测值  

In [None]:
'''
5
'''
lrmd_string=StringIO(lrmd_stdcc.as_csv())
lrmd_std_lv3=pd.read_csv(lrmd_string,header=0,skiprows=[1],usecols=[1,3,5])
lrmd_std_lv3.columns=['y','cook','hat_Leverage']
lrmd_std_lv3['hat_Leverage']>0.9

## 15.8.4 利用库克距离测度识别有影响的观测值  
利用杠杆率识别有影响的观测值时可能出现的一个问题是：一个观测值能被识别出来是一个有高杠杆率的观测值，但是根据得到的估计的回归方程，这个观测值未必是一个有影响的观测值  
例如，表15-10是一个由8个观测值组成的数据集和它们对应的杠杆率。因为第8个观测值的杠杆率是0.91>0.75（临界值）,所以这个观测值被识别出来是一个有影响的观测值  
<center>表15-10 利用杠杆率的临界值说明潜在问题的数据集</center>

![tb15-10](../syn_pic/statistics_for_business_economics/tb15-10.png)

In [None]:
'''
python	patsy	formula	~
python	statsmodels	Linear Regression	OLSResults.get_influence()
python	statsmodels	Statistics stats	OLSInfluence.summary_table()

'''
cook_data=pd.DataFrame({'xi':[1,1,2,3,4,4,5,15],
             'yi':[18,21,22,21,23,24,26,39]})
cook_formla='yi ~ xi'
mod=smf.ols(cook_formla,cook_data)
fitted_mod=mod.fit()
inf_mod=fitted_mod.get_influence()
inf_mod.summary_table()

图15-11给出了与表15-10的数据集相对应的散点图。我们利用Minitab建立了这些数据的估计的回归方程如下 5  

In [None]:
cook_data.plot.scatter('xi','yi',color='k',figsize=(6,6))
plt.xlim(0,16)
plt.ylim(0,45)
plt.plot(np.array([0,16]),np.array([18.2,1.39*16+18.2]),color='k')
plt.show()

In [None]:
print('y={:.1f}+{:.2f}x'.format(fitted_mod.params[0],fitted_mod.params[1]))

图15-11中的直线就是这个方程的图示。现在让我们从数据集中奖观测值删除掉，对剩余的7个观测值拟合一个新的估计的回归方程。这个新的估计的回归方程是 5  
$$\hat{y}=18.1+1.42x$$
我们注意到，新的估计的回归方程和利用所有数据建立的估计的回归方程，这两个方程的y轴截距和斜率没有显著的区别  
尽管杠杆率准则将第8个观测值识别为一个有影响的观测值，但显然这个观测值对我们的估计结果影响很小。于是在某些情形下，仅仅利用杠杆率来识别有影响的观测值，可能导致错误的结论  
**库克距离测度**利用第i次观测值的杠杆率$h_i$和第i次观测值的残差$(y_i-\hat{y}_i)$来确定这个观测值是不是一个有影响的观测值  
<hr />

**库克距离测度**（15-25） 5  
$$D_i=\frac{(y_i-\hat{y}_i)^2}{(p+1)s^2}\left[\frac{h_i}{(1-h_i)^2}\right]$$
式中，$D_i$代表第i次观测的库克距离测度;$y_i-\hat{y}_i$代表第i次观测的残差;$h_i$代表第i次观测的杠杆率;p代表自变量的个数;s代表估计的标准误差  
<hr />

如果一个观测值的残差和杠杆率比较大，那么库克距离测度也将比较大，从而就能表明这个观测值是一个有影响的观测值  
作为经验准则，如果$D_i\gt1$,那么就表明第i次观测值是一个有影响的观测值，并应对这个观测值做进一步考察  
## 注释
1. 识别异常值和有影响的观测值的步骤预先向我们提出了警告，某些观测值可能对回归结果产生潜在的影响 5  
    我们对每一个异常值和有影响的观测值都要进行仔细检查。如果发现是数据的误差，那么应该对数据误差做出修正，并重新进行回归分析  
    一般地，我们不应该将异常值和有影响的观测值从数据集中删除掉，除非有明显的证据表明，它们不是我们正在研究的总体元素，这时候我们就不应该再把它们包括再原始数据集中  
2. 为了确定库克距离测度$D_i$的值是否足够大，使得我们能得出第i次观测值是一个有影响的观测值的结论，我们还能将$D_i$的值与分子自由度为p+1、分母自由度为n-p-1的F分布的第50个百分位数做比较  
    对应于显著性水平$\alpha=0.5$的F分布表一定能实现这一检验  
    我们给出的经验准则（$D_i\gt1$）就是根据以下事实：对于相当广泛的各种不同情形，F分布表的值非常接近于1 5  

# 15.9 logistic回归
在许多回归应用中，应变量仅能够被假定为两个离散值。例如，为了预测人们是否愿意使用某种信用卡，一家银行很想建立一个估计的回归方程  
如果银行批准使用某种信用卡要求，则应变量被赋值为y=1；如果银行拒绝使用某种信用卡要求，则应变量被赋值为y=0  
利用logistic回归，在被选取出来的自变量的一组特定值已知的条件下，我们能估计银行将批准使用某种信用卡要求的概率  
现在让我们考虑logistic回归的一个应用，该应用涉及了Simmons商店正在使用的一种直接邮寄广告的促销手段  
因为商家目录的成本昂贵，所以Simmons只愿意将商品目录寄送给那些最有可能使用优惠券并购买200美元或200美元以上商品的顾客 5  
管理员认为，在预测收到商品目录的顾客是否将使用优惠券并购买200美元或200美元以上商品时，两个可能会有所帮助的变量是在Simmons商店的年消费支出和顾客是否拥有Simmons信用卡  
Simmons进行了一项实验性的研究，随机样本由50名拥有Simmons信用卡的顾客和50名没有Simmons信用卡的其他顾客组成  
对被随机抽取出来的100名顾客，Simmons把商品目录送给他们中的每一名顾客。在一个实验周期结束时，Simmons记录下顾客是否使用了优惠券  
前10名商品目录接受者的样本数据如表15-11所示  

In [None]:
'''
5
'''
sim_data=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch15/Simmons.csv')
sim_data.head(10)

每一名顾客去年在Simmons商店的年消费支出以1000美元为单位;信用卡的信息被赋值，如果顾客拥有Simmons信用卡，则被赋值为1;否则为0  
我们可以利用表15-11的数据建立一个多元回归模型，该模型能帮助Simmons预测：一名商品目录的接受者是否将使用优惠券并购买200美元或200美元以上的商品  
我们用年消费支出和Simmons信用卡作为自变量，优惠券作为应变量。因为应变量仅可以被假定为两个值，0或1，所以无法应用常规的多元回归模型  
下面我们将看到，如何利用logistic回归去帮助Simmons预测哪一种类型的顾客最有可能利用商店直接邮寄广告的促销手段  
## 15.9.1 logistic回归方程
在许多方面，logistic回归与普通回归是类似的。在多元回归分析中，我们把y的平均值或期望值称为多元回归方程（15-26） 5  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
在logistic回归中，我们不但在实践上，而且统计理论已经证明：下面的非线性方程较好地描述了E(y)的$x_1,x_2,\dots,x_p$之间的关系  
<hr />

**logistic回归**(15-27)  
$$E(y)=\frac{e^{\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p}}{1+e^{\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p}}$$
<hr />

如果应变量y的两个值被赋值为0或1，那么在自变量$x_1,x_2,\dots,x_p$的一组特定值已知的条件下，式(15-27)中E(y)的值给出了y=1的概率 5  
由于(y)被解释为概率，所以通常将logistic回归方程写成如下形式  
<hr />

**logistic回归中的E(y)被解释为概率**(15-28)  
$$E(y)=P(y=1|x_1,x_2,\dots,x_p)$$
<hr />

为了更好地了解logistic回归方程的特征，假定模型仅包括一个自变量x，并且模型的参数值为$\beta_0=-7,\beta_1=3$  
对应于这些参数值，logistic回归方程为（15-29） 5  
$$E(y)=P(y=1|x)=\frac{e^{-7+3x}}{1+e^{-7+3x}}$$
图15-12是式（15-29）的图示。注意，图形为一条S型曲线    

In [None]:
'''
python	numpy	Array creation routines	np.linspace() num
python	numpy	Mathematical functions	np.exp()
5
'''
log_x=np.linspace(0,5,200)
log_y=np.exp(-7+3*log_x)/(1+np.exp(-7+3*log_x))
plt.plot(log_x,log_y)
plt.xlim(0,5)
plt.ylim(0,1.1)
plt.show()

由于E(y)的取值范围为0~1和E(y)为一条S形曲线这两个事实，就从理论上使式（15-29）非常适合做应变量的概率等于1的模型  
## 15.9.2 估计logistic回归方程  
在简单线性回归和多元回归时，我们利用最小二乘法计算模型参数（$\beta_0,\beta_1,\beta_2,\dots,\beta_p$）的估计量$b_0,b_1,b_2,\dots,b_p$  
我们将利用计算机软件包求出这些估计量，得到下面的**估计的logistic回归方程**  
<hr />

**估计的logistic回归方程(15-31)  
$$E(y)=\frac{e^{}}{1+e}$$**(15-30)  
$$\hat{y}=P(y=1|x_1,x_2,\dots,x_p)的估计=\frac{e^{b_0+b_1x_1+b_2x_2+\dots+b_px_p}}{1+e^{b_0+b_1x_1+b_2x_2+\dots+b_px_p}}$$
5  
<hr />

式中，$\hat{y}$是在自变量$x_1,x_2,\dots,x_p$的一组特定值已知时，给出了y=1的概率的估计  
现在让我们回到Simmons商店的例子。在这个问题中，我们定义的变量如下所示  
$$y=\begin{cases}0&如果顾客没有使用优惠券 \\1&如果顾客使用了优惠券\end{cases}$$
<center>$x_1=$在Simmons商店的年消费支出（1000美元）</center>

$$x_2=\begin{cases}0&如果顾客没有Simmons信用卡 \\1&如果顾客有Simmons信用卡\end{cases}$$
5  
于是，我们选择有两个自变量的logistic回归方程(15-31)  
$$E(y)=\frac{e^{\beta_0+\beta_1x_1+\beta_2x_2}}{1+e^{\beta_0+\beta_1x_1+\beta_2x_2}}$$
我们利用样本数据（见表15-11）和Minitab的二进制logistic回归程序计算模型参数$\beta_0,\beta_1,\beta_2$的估计值。得到的Minitab的部分输出如图15-13所示  

In [None]:
'''
python	statsmodels	statsmodels.formula.api	Logit()
python	statsmodels	Regression with Discrete Dependent Variable	Logit()
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults()
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.summary()
'''
log_formla='Coupon ~ Spending + Card'
log_mod=smf.logit(log_formla,sim_data).fit()
log_mod.summary()

In [None]:
'''
5
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.params
'''
log_mod.params

In [None]:
print('{:.5f}+{:.6f}x1+{:.5f}x2'.format(log_mod.params[0],log_mod.params[1],log_mod.params[2]))

现在我们就能利用式（15-32）估计一种特定类型的顾客使用优惠券的概率。为此我们将$x_1=2,x_2=0$代入式（15-32)中，得到  

In [None]:
'''
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.predict()
'''
log_mod.predict(pd.DataFrame({'Spending':[2],
                              'Card':[0]}))

于是，对于这种特定类型的顾客群体，他们使用优惠券的概率大约为0.19。类似地，我们可以估计去年的消费支出为2000美元和拥有Simmons信用卡的顾客，他们使用优惠券的概率  

In [None]:
'''
5
'''
log_mod.predict(pd.DataFrame({'Spending':[2],
                              'Card':[1]}))

但是，在推断出任何结论之前，我们必须对得到估计的logistic回归方程的统计显著性进行评估  
## 15.9.3 显著性检验
logistic回归的显著性检验与多元回归的显著性检验相类似。首先，我们进行总体的显著性检验。对于Simmons商店的例子，总体的显著性检验如下：  
$$H_0:\beta_1=\beta_2=0$$
$$H_a:至少有一个参数不等于零$$
总体的显著性检验是根据G检验统计量的值进行的。如果原假设成立，则G统计量的抽样分布为服从自由度等于模型中自变量个数的$\chi^2$分布  
虽然G统计量的计算超出了本教科书的范围，但是G统计量的值和它所对应的p-值，已在Minitab的二元logistic回归的输出部分给出 5  

In [None]:
'''
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.llr
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.df_model
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.llr_pvalue
'''

print('G统计量的值是{:.3f},它的自由度是{:.0f},它的p-值是{:.3f}'.format(log_mod.llr,
                                                       log_mod.df_model,
                                                       log_mod.llr_pvalue))

于是，在$\alpha\ge0.001$的任一显著性水平下，我们应该拒绝原假设，并且得到模型的总体是显著的结论  
如果G检验表明模型的总体是显著的，那么我们就可以利用z检验来确定每一单个的自变量对模型总体是否有显著的作用。对于自变量$x_i$，提出的假设是  
$$H_0:\beta_i=0$$
$$H_a:\beta_i\ne0$$
如果原假设成立，则估计的系数$b_i$除以它的标准差$s_{b_i}$，得到的结果$z_i=b_i/s_{b_i}$为一服从标准正态分布的统计量 5  
在Minitab输出中的列标题”z“包含了每一个被估计的系数的$z_i$值，列标题”p>|z|“包含了对应的p-值。假定我们在$\alpha=0.05$的显著性水平下，检验Simmons商店模型中自变量的显著性  
所以在$\alpha=0.05$的显著性水平下，两个自变量在统计上都是显著的  
## 15.9.4 管理上的应用
我们已经讨论了如何建立估计的logistic回归方程和如何检验它的显著性。现在让我们利用这些结果对Simmons商店通过邮寄商品目录进行促销的问题做成一个决策检验  
对去年的消费支出1000~7000美元的两类顾客：一类拥有Simmons信用卡，另一类没有Simmons信用卡，我们在表15-12中看到了他们使用优惠券的估计的概率  

In [None]:
'''
5
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.predict()
python	pandas	dataframe	d.set_index()
python	pandas	series	s.unstack()
python	pandas	dataframe	d.sort_index() ascending
'''
data1512=pd.DataFrame({'Spending':[1,2,3,4,5,6,7,1,2,3,4,5,6,7],
                              'Card':[0,0,0,0,0,0,0,1,1,1,1,1,1,1]})
data1512['prop']=log_mod.predict(data1512)
df1512=data1512.set_index(['Card','Spending']).unstack()
df1512_lv1=df1512.sort_index(ascending=False)
df1512_lv1.columns=[1,2,3,4,5,6,7]
df1512_lv1

In [None]:
'''
python	pandas	dataframe	d.ge()
'''
df1512_lv1.ge(0.4)

假定Simmons只愿意将促销的商品目录邮寄给那些使用优惠券的概率等于或大于0.40的顾客。利用表15-12中估计的概率，Simmons促销策略应该是：  
**拥有Simmons信用卡的顾客**：对去年的消费支出为2000美元或2000美元以上的每一位顾客都邮寄促销的商品目录  
**没有Simmons信用卡的顾客**：对去年的消费支出为6000美元或6000美元以上的每一位顾客都邮寄促销的商品目录  
## 15.9.5 解释logistic回归方程
对一个回归方程做出解释涉及与我们建立方程要回答的商务问题有关的自变量。利用logistic回归，直接解释自变量和y=1的概率之间的关系非常困难，这是因为logistic回归方程是非线性方程 5  
但是统计学家们已经证明：他们能利用一个被称为机会比率的概念间接地解释这一关系  
**有利于一个事件发生的机会比**被定义为事件将要发生的概率与该事件将不会发生的概率的比  
在logistic回归中，我们总是将感兴趣的事件设定为y=1。于是在自变量的一组特定值已知时，有利于事件y=1发生的机会比能按下式计算：（15-33）  
$$机会比=\frac{P(y=1|x_1,x_2,\dots,x_p)}{1-P(y=1|x_1,x_2,\dots,x_p)}$$
**机会比率**度量了当一组自变量中只有一个自变量增加了一个单位时，对机会比的影响 5  
机会比率是当给定的一组自变量中增加了一个单位时，y=1的机会比($odds_1$)除以该组自变量的值都没有变化时，y=1的机会比($odds_0$)  
<hr />

**机会比率**(15-34)  
$$机会比率=\frac{odds_1}{odds_0}$$
<hr />

例如，假定我们想要对去年的消费支出为2000美元并且拥有Simmons信用卡的顾客使用优惠券的机会比，与去年的消费支出为2000美元但没有Simmons信用卡的顾客使用优惠券的机会比进行比较  
我们感兴趣的是解释在自变量$x_2$增加一个单位时的影响。在这种情形时，  
$$odds_1=\frac{P(y=1|x_1=2,x_2=1)}{1-P(y=1|x_1=2,x_2=1)}$$
和 5  
$$odds_0=\frac{P(y=1|x_1=2,x_2=0)}{1-P(y=1|x_1=2,x_2=0)}$$
我们在前面已经得到，y=1的概率的估计值。于是，    

In [None]:
'''
python	pandas	dataframe	d.at[]
'''
p1=df1512_lv1.at[1,2]
p0=df1512_lv1.at[0,2]
odds1=p1/(1-p1)
odds0=p0/(1-p0)
print('odds1的估计值={:.4f}'.format(odds1))
print('odds0的估计值={:.4f}'.format(odds0))

In [None]:
print('估计的机会比率={:.2f}'.format(odds1/odds0))

于是，我们能够断定:去年消费支出为2000美元并且拥有Simmons信用卡的顾客使用优惠券的机会比是去年消费支出同为2000美元但没有Simmons信用卡的顾客使用优惠券的机会比的3倍 5  
当所有其他的自变量都保持不变时，我们能计算出每一个自变量的机会比率。但是所有其他的自变量取什么样的常数值却是无关紧要的  
于是，我们能够断定：拥有Simmons信用卡的顾客使用优惠券的机会比是没有Simmons信用卡的顾客使用优惠券的机会比的3倍  
对于logistic回归软件包，机会比率是标准输出。让我们参照图15-13Minitab的部分输出进行说明  
![15-13](../syn_pic/statistics_for_business_economics/15-13.png)
<center>图15-13 对于Simmons商店例子的logistic回归的部分输出</center>

在Minitab输出的列标题”Odds Ratio“下，数值1.41告诉我们：去年消费支出为3000美元的顾客使用优惠券估计的机会比是去年消费支出为2000美元的顾客使用优惠券估计的机会比的1.41倍 5  
而且，这个解释对$x_1$的任何一个单位的变化都成立。但是，假定我们感兴趣的问题是，当自变量的增加超过一个单位时，机会比的变化情况。为了回答这个问题，我们必须考察机会比率和回归系数之间的关系  
在一个变量的机会比率和它所对应的回归系数之间存在一个唯一的关系。在一个logistic回归方程中，每一个自变量都能表示成如下形式  
$$机会比率=e^{\beta_i}$$
为了说明这个关系，考虑在Simmons商店例子中的自变量$x_1$。$x_1$估计的机会比率是  
$$估计的机会比率=e^{b_i}$$
5  

In [None]:
'''
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.params

'''
spending_ratio=np.exp(log_mod.params[1])

print('估计的机会比率={:.2f}'.format(spending_ratio))

一旦我们求出了模型参数的估计值，利用自变量机会比率和回归系数之间的关系，就能很容易地计算出机会比率的估计值，而且它也为我们提供了当连续型自变量的变化大于或小于一个单位时，研究机会比率变化的能力  
当一个自变量变化一个单位，而所有其他的自变量都保持不变时，一个自变量的机会比率描述了该自变量机会比的变化。假定，我们想要考虑自变量的变化大于一个单位，比如c个单位时的影响  
例如，假定在Simmons商店的例子中，我们想要对去年的消费支出为5000美元（$x_1=5$）的顾客使用优惠券的机会比，与去年的消费支出为2000美元（$x_1=2$）的顾客使用优惠券的机会进行比较  
在这种情形时，c=5-2=3，对应的估计的机会比率是 5  

In [None]:
spending_ratio=np.exp(3*log_mod.params[1])

print('估计的机会比率={:.2f}'.format(spending_ratio))

换句话说，对于一个去年消费支出增加3000美元的顾客而言，使用优惠券估计的机会比率是2.79  
一般说来，机会比率使我们能够比较两个不同事件的机会比。于是，如果正在考虑的自变量对事件发生的概率由一个正影响，那么对应的机会比率将大于1  
图15-13的Minitab输出对每一个机会比率都给出了置信水平未95%的置信区间 5  
例如$x_1$机会比率的点估计值是1.41，置信水平为95%的置信区间是(1.09,1.81)。因为置信区间不包含数值1，所以我们能够断定：$x_1$对估计的机会比率有一个显著的影响  

In [None]:
'''
python	statsmodels	Regression with Discrete Dependent Variable	LogitResults.conf_int()
python	pandas	dataframe	d.apply()
'''
log_par_cv=log_mod.conf_int().iloc[1:,:]
log_par_cv.apply(lambda x:np.exp(x))

## 15.9.6 对数机会比变换
在有利于y=1的机会比和logistic回归方程中e的指数之间，我们能够观察到一个有趣的关系。这个关系可以表示为  
$$ln(odds)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
这个方程表明：有利于y=1的机会比的自然对数是自变量的线性函数。我们称这个线性函数为**对数机会比** 5  
我们用符号$g(x_1,x_2,\dots,x_p)$表示对数机会比  
<hr />

**对数机会比**（15-35）  
$$g(x_1,x_2,\dots,x_p)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
<hr />

用$g(x_1,x_2,\dots,x_p)$代替式（15-27）中的$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$，我们能将logistic回归方程写成如下形式（15-36）  
$$E(y)=\frac{e^{g(x_1,x_2,\dots,x_p)}}{1+e^{g(x_1,x_2,\dots,x_p)}}$$
5  
一旦我们估计出logistic回归方程的参数，我们就能就算出对数机会比的估计值。我们用符号$\hat{g}(x_1,x_2,\dots,x_p)$表示**估计的对数机会比**，从而我们就得到  
<hr />

**估计的对数机会比**（15-37）  
$$\hat{g}(x_1,x_2,\dots,x_p)=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$
<hr />

于是，根据估计的对数机会比，估计的logistic回归方程是（15-38） 5  
$$\hat{y}=\frac{e^{\hat{g}(x_1,x_2,\dots,x_p)}}{1+e^{\hat{g}(x_1,x_2,\dots,x_p)}}$$
对于Simmons商店的例子，估计的对数机会比是  

In [None]:
print('g(x1,x2)={:.5f}+{:.6f}x1+{:.5f}x2'.format(log_mod.params[0],log_mod.params[1],log_mod.params[2]))

估计的logistic回归方程是  
$$\hat{y}=\frac{e^{\hat{g}(x_1,x_2,\dots,x_p)}}{1+e^{\hat{g}(x_1,x_2,\dots,x_p)}}=\frac{e^{-2.14637+0.341643x_1+1.09873x_2}}{1+e^{-2.14637+0.341643x_1+1.09873x_2}}$$
于是，由于在估计的对数机会比和估计的logistic回归方程之间存在唯一的关系，所以我们能计算Simmons商店的概率，这个概率可以通过用$e^{\hat{g}(x_1,x_2)}$除以$1+e^{\hat{g}(x_1,x_2)}$得到 5  
## 注释
1. 由于在模型中被估计的系数和对应的机会比率之间存在唯一的关系，建立在G统计量基础上的总体的显著性检验也是机会比率的总体显著性的检验  
    另外，对模型单个参数显著性的z检验也给出了对应的机会比率显著性的统计检验  
2. 在logistic回归情形，没有单一的测度能给出拟合优度 5  

# 小结
作为在第14章中介绍的简单线性回归分析的推广，在这一章里，我们引入了多元线性回归分析的内容  
回归方程$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$描述了应变量y的平均值或期望值如何依赖自变量$x_1,x_2,\dots,x_p$的值  
我们利用样本数据和最小二乘法建立了估计的回归方程$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$  
作为估计的回归方程拟合优度的一个度量，我们介绍了多元判定系数的概念。多元判定系数测定了在应变量y的变异性中，能被估计的回归方程解释的部分所占的比率  
修正多元判定系数是一个类似的拟合优度的度量，它用自变量的个数进行调整，这样就可以避免由于增加较多自变量而产生的高估影响 5  
F检验用于确定应变量和所有自变量之间在总体上是否存在一个显著的关系。t检验用于确定，在回归模型中的其他自变量已知时，应变量和单个的自变量之间是否存在一个显著的关系  
自变量之间的相关性被称为多重共线性，我们已经讨论过这一概念  
分类自变量这一节叙述了如何利用虚拟变量将分类数据与多元回归分析结合起来  
残差分析这一节叙述了如何利用残差分析来证实模型的假设、检测异常值和识别有影响的观测值的方法  
在这一节里，我们还讨论了标准化残差、杠杆率、学生化删除残差和库克距离测度等问题 5  
作为本章的结束，我们用一节的篇幅介绍了logistic回归问题，在这一节里，我们讨论了如何利用logistic回归来模拟应变量可能仅有两个假定值的情形 5  
# 关键术语
**多元回归分析** 包含两个或两个以上自变量的回归分析  
**多元回归模型** 描述应变量y是如何依赖自变量$x_1,x_2,\dots,x_p$和误差项$\varepsilon$的数学方程  
**多元回归方程** 应变量的期望值或平均值与自变量的值之间关系的数学方程，即$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$  
**估计的多元回归方程** 根据样本数据和最小二乘法得到的多元回归方程的估计，即$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$  
**最小二乘法** 用来建立估计的回归方程的方法。这个方法使残差的平方和极小化 5  
**多元判定系数**  估计的多元回归方程拟合优度的度量。它能被理解为在应变量y的变异性中，能被估计的回归方程解释的部分所占的比例  
**修正多元判定系数**  估计的多元回归方程拟合优度的度量，它用自变量的个数进行调整，这样就可以避免用于增加较多自变量而产生的高估影响  
**多重共线性** 用于描述自变量之间相关性的术语  
**分类自变量** 使用分类数据的自变量  
**虚拟变量** 用于模拟分类自变量影响的变量。虚拟变量的取值可以仅为0或1 5  
**杠杆率** 自变量的值与自变量的平均值之间距离远近的度量  
**异常值** 与其他数据所显示的趋势不相吻合的观测值  
**学生化删除残差** 通过从数据集中删除第i次观测值，然后完成回归分析和有关计算，得到一个修正的估计的标准误差，在修正的估计的标准误差的基础上得到的标准化残差  
**有影响的观测值** 对回归结果有一个强影响的观测值  
**库克距离测度** 建立在第i次观测的杠杆率和第i次观测残差基础上的观测影响程度度量 5  
**logistic回归方程**  关于E(y)的数学方程，而E(y)是对于自变量$x_1,x_2,\dots,x_p$的值，y=1的概率，即$E(y)=P(y=1|x_1,x_2,\dots,x_p)=\frac{e^{\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p}}{1+e^{\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p}}$  
**估计的logistic回归方程**  根据样本数据得到的logistic回归方程的估计，即$\hat{y}=P(y=1|x_1,x_2,\dots,x_p)$的估计=$\frac{e^{b_0+b_1x_1+b_2x_2+\dots+b_px_p}}{1+e^{b_0+b_1x_1+b_2x_2+\dots+b_px_p}}$  
**有利于一个事件发生的机会比**  事件将要发生的概率与该事件将不会发生的概率的比  
**机会比率** 当一组自变量中只有一个自变量增加了一个单位时，y=1的机会比($odds_1$)除以该组自变量的值没有变化时，y=1的机会比($odds_0$),即机会比率=$odds_1/odds_0$  
**对数机会比**  有利于事件y=1发生的机会比的自然对数，即$g(x_1,x_2,\dots,x_p)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$ 5  
**估计的对数机会比**  根据样本数据得到的对数机会比的估计，即$\hat{g}(x_1,x_2,\dots,x_p)=b_0+b_1x_1+b_2x_2+\dots+b_px_p$ 5  
# 重要公式
多元回归模型（15-1）  
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$  
多元回归方程（15-2）
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$  
估计的多元回归方程（15-3）  
$$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$  
最小二乘法准则（15-4）  
$$min\Sigma(y_i-\hat{y}_i)^2$$
SST,SSR和SSE之间的关系（15-7）  
$$SST=SSR+SSE$$
多元判定系数（15-8） 5  
$$R^2=\frac{SSR}{SST}$$
修正多元判定系数(15-9)  
$$R^2_a=1-(1-R^2)\frac{n-1}{n-p-1}$$
均方回归（15-12）  
$$MSR=\frac{SSR}{p}$$  
均方误差（15-13）  
$$MSE=\frac{SSE}{n-p-1}$$
F检验统计量（15-14）
$$F=\frac{MSR}{MSE}$$
t检验统计量（15-15） 5  
$$t=\frac{b_i}{s_{b_i}}$$
第i次观测的标准化残差（15-23）  
$$\frac{y_i-\hat{y}_i}{s_{y_i-\hat{y}_i}}$$
第i次观测的残差的标准差（15-24）
$$s_{y_i-\hat{y}_i}=s\sqrt{1-h_i}$$
库克距离测度（15-25）  
$$D_i=\frac{(y_i-\hat{y}_i)^2}{(p+1)s^2}\left[\frac{h_i}{(1-h_i)^2}\right]$$
logistic回归方程（15-27）  
$$E(y)=\frac{e^{\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p}}{1+e^{\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p}}$$
估计的logistic回归方程（15-30） 5  
$$\hat{y}=P(y=1|x_1,x_2,\dots,x_p)的估计=\frac{e^{b_0+b_1x_1+b_2x_2+\dots+b_px_p}}{1+e^{b_0+b_1x_1+b_2x_2+\dots+b_px_p}}$$  
机会比率（15-34）  
$$机会比率=\frac{odds_1}{odds_0}$$
对数机会比（15-35）  
$$g(x_1,x_2,\dots,x_p)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$  
估计的对数机会比（15-37）  
$$\hat{g}(x_1,x_2,\dots,x_p)=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$ 5
# 案例15-1 
## 消费者调查股份有限公司
消费者调查股份有限公司是一家独立的机构，该机构为各种类型的厂商调查消费者的态度和行为  
在一项研究中，公司的客户要求对消费者的特点进行调查，其目的是为了能预测消费者使用信用卡进行支付的数额  
对于由50名消费者组成的一个样本，采集了有关年收入、家庭成员人数和年信用卡支付数额的统计资料  

In [None]:
cons=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch15/Consumer.csv')
cons.tail()

## 管理报告
1. 利用描述统计学的方法整理这些数据。对你的发现进行评述 5  

In [None]:
'''
python	pandas	dataframe	d.dtypes
'''
cons.dtypes

In [None]:
'''
python	pandas	series	s.str.replace()
python	pandas	series	s.astype()
'''
cons.columns=['Income_1000s','Household_size','Amount_Charged']
condf=cons.copy()
condf['Amount_Charged']=cons.iloc[:,2].str.replace(',','').astype('int')
condf.head()

In [None]:
condf.describe()

In [None]:
'''
python	pandas	dataframe	d.corr()
'''
condf.corr()

In [None]:
'''
5
python	pandas	dataframe	d.hist()
python	matplotlib	figure	Figure.figsize
python	matplotlib	patches	Patch() edgecolor/color
'''
condf.hist(figsize=(7,7),edgecolor='k')
plt.show()

2. 首先用年收入作为自变量，然后用家庭成员人数作为自变量，分别建立估计的回归方程。哪一个自变量是更好的预测年信用卡支付数额的变量？讨论你的发现  

In [None]:
'''
python	statsmodels	statsmodels.formula.api	ols()
python	statsmodels	statsmodels.formula.api	Models.fit()
python	statsmodels	Linear Regression	RegressionResults.summary()
'''
Income_formula='Amount_Charged ~ Income_1000s'
Income_mod=smf.ols(Income_formula,condf).fit()
Income_mod.summary()

In [None]:
Household_formula='Amount_Charged ~ Household_size'
Household_mod=smf.ols(Household_formula,condf).fit()
Household_mod.summary()

由上述结果可知，两个变量都是显著的，但从判定系数来看，Household_size变量对应变量有更高的解释百分比  
3. 用年收入和家庭成员人数作为自变量，建立估计的回归方程。讨论你的发现 5  

In [None]:
Amount_formula='Amount_Charged ~ Household_size + Income_1000s'
Amount_mod=smf.ols(Amount_formula,condf).fit()
Amount_mod.summary()

In [None]:
'''
python	statsmodels	Linear Regression	OLSResults.get_influence()
python	statsmodels	Statistics stats	OLSInfluence.summary_table()
python	io	StringIO	StringIO()
python	statsmodels	Input-Output iolib	table.SimpleTable.as_csv()
python	pandas	Input/Output	read_csv() skiprows
python	pandas	Input/Output	read_csv() usecols

'''
Amount_influence=Amount_mod.get_influence()
Amount_table=Amount_influence.summary_table()
Amount_str=StringIO(Amount_table.as_csv())
Amount_df=pd.read_csv(Amount_str,skiprows=[1],usecols=[1,3,5,7])
Amount_df.columns=['y','cook_dis','hat','ext_stud']
Amount_df.head()

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults.nobs
python	statsmodels	Linear Regression	RegressionResults.df_model
'''
amount_stud_df=Amount_mod.nobs-1-Amount_mod.df_model-1
amount_stud_df

In [None]:
'''
python	pandas	series	s.abs()
'''
stud_z0025=t.isf(0.05/2,amount_stud_df)
Amount_outline=Amount_df[Amount_df['ext_stud'].abs()>stud_z0025]
Amount_outline

In [None]:
'''
5
python	pandas	series	s.any()
'''
con_lv1=condf.copy()
con_lv1['outline']=condf['Amount_Charged'].apply(lambda x:(Amount_outline['y']==x).any())
con_lv1.head(10)

In [None]:
'''
python	statsmodels	Graphics	influence_plot()
python	statsmodels	Graphics	influence_plot() size
python	matplotlib	Pyplot function overview	ylim()
'''
sm.graphics.influence_plot(Amount_mod,size=20)
plt.ylim(-4,5)
plt.show()

In [None]:
con_modify=con_lv1[con_lv1['outline']==False]
con_modify
Amount_mod_modify=smf.ols(Amount_formula,con_modify).fit()
Amount_mod_modify.summary()

In [None]:
'''
python	statsmodels	Linear Regression	RegressionResults.params
'''
print(Amount_mod.params)
print(Amount_mod_modify.params)

4. 对于年收入为40000美元的三口之家，该家庭预测的年信用卡支付数额是多少？

In [None]:
'''
5
python	statsmodels	Linear Regression	RegressionResults.get_prediction()
python	statsmodels	Linear Regression	PredictionResults.summary_frame()
'''
Amount_data=pd.DataFrame({'Income_1000s':[40],
                         'Household_size':[3]})
Amount_pred=Amount_mod.get_prediction(Amount_data)
Amount_pred.summary_frame()

5. 请对模型是否需要增加其他自变量进行讨论。增加自变量可能会有什么帮助？  
    可以增加与现有两个变量相关性较小的变量，增加自变量将加强模型对应变量的可解释比率 5  