In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import linregress

# 实践中的统计
## dunnhumby
dunnhumby公司将经过证实的与生俱来的能力与宏大的目标结合起来，以寻找客户购买什么样的商品以及为什么购买这些商品的线索和模式  
该公司将这些见解变成可操作的策略，这些策略创造了急剧的增长和可持续的忠诚度，最终提高了品牌价值和客户的认知度  
在欧洲、亚洲和美洲，dunnhumby雇佣的员工超过950人，该公司为一些声望很高的著名公司提供服务，如克罗格、乐购、可口可乐、通用磨坊、金佰利、百事、宝洁和家得宝  
公司的研究工作始于收集消费者的统计数据。这些数据来自于客户的奖励或优惠卡购买记录，以及电子销售点的交易和传统的市场研究  
数据的分析常常要将数以十亿计的数据点转换成有关消费者行为、喜好和生活方式的详细见解。这种见解有利于制订更有效的营销方案，包括定价、促销、广告、产品分类决策的战略建议  
研究人员使用被称为logistic回归的多元回归技术帮助他们分析以客户为基础的数据。使用logistic回归，建立一个估计的多元回归方程，该方程的形式如下所示 5  
$$\hat{y}=b_0+b_1x_1+b_2x_2+b_3x_3+\dots+b_px_p$$
应变量$\hat{y}$是客户是属于一个特定的客户群体的概率估计  
自变量$x_1,x_2,x_3,\dots,x_p$是客户实际购买行为的度量，可能包括购买的具体物品、购买物品的数量、购买物品的金额、周几购买、一天的什么时候购买，等等  
分析有助于确认出与预测客户群体最相关的自变量，对客户总体提供了更好的了解。分析的重点在于了解顾客对商品开发，市场营销、直接营销方案等问题的态度，而这些问题与公司服务的客户群有极大的相关性  
在本章中，我们将介绍多元回归的概念，并且说明如何将第14章介绍的简单线性回归的概念扩展到多元回归的情形 5  
让我们回想一下，被回归方程预测的或者解释的变量称为应变量，用来预测或者解释应变量的变量称为自变量  
在本章中，我们将通过考虑两个或两个以上自变量的情形，来继续我们回归分析的学习。这一研究领域称为**多元回归分析** 5  
# 15.1 多元回归模型
多元回归分析是研究应变量y如何依赖两个或两个以上自变量的问题。在一般情形下，我们将用p表示自变量的数目  
## 15.1.1 回归模型和回归方程  
我们在第14章介绍的回归模型和回归方程的概念对多元回归情形同样适用。描述应变量y如何依赖于自变量$x_1,x_2,\dots,x_p$和一个误差项的方程称为**多元回归模型**  
我们首先假设多元回归模型的形式如下  
<hr />

**多元回归模型**（15-1）
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p+\varepsilon$$
<hr />

在多元回归模型中，$\beta_0,\beta_1,\beta_2,\dots,\beta_p$是参数，误差项$\varepsilon$是随机变量 5  
误差项说明了包含在y里面但不能被p个自变量的线性关系解释的变异性  
假定之一是$\varepsilon$的平均值或期望值是零。由于这一假定，y的平均值或期望值E(y)等于$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$  
描述y的平均值如何依赖于$x_1,x_2,\dots,x_p$的方程称为**多元回归方程**  
<hr />

**多元回归方程**（15-2）  
$$E(y)=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$$
<hr />

5  
## 15.1.2 估计的多元回归方程  
如果参数$\beta_0,\beta_1,\beta_2,\dots,\beta_p$的值是已知的，在给定$x_1,x_2,\dots,x_p$的值时，我们能利用式（15-2）计算y的平均值  
我们利用一个简单随机样本计算样本统计量$b_0,b_1,b_2,\dots,b_p$，将它们作为未知参数$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$的点估计量  
利用这些样本统计量我们得到了下面的**估计的多元回归方程**  
<hr />

**估计的多元回归方程**(15-3)  
$$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$
式中，$b_0,b_1,b_2,\dots,b_p$是$\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_px_p$的估计值;$\hat{y}$代表应变量的估计值 5  
<hr />

对于多元回归情形，估计步骤如图15-1所示  
![15-1](../syn_pic/statistics_for_business_economics/15-1.png)
<center>图15-1 多元线性回归模型的估计步骤 5</center>

# 15.2 最小二乘法
现在我们利用同样的方法来建立估计的多元回归方程。我们再次叙述最小二乘准则如下  
<hr />

**最小二乘准则**（15-4）  
$$min\Sigma(y_i-\hat{y}_i)^2$$
式中，$y_i$代表对于第i次观测，应变量的观测值;$\hat{y}_i$代表对于第i次观测，应变量的估计值  
<hr />

我们能利用估计的多元回归方程  
$$\hat{y}=b_0+b_1x_1+b_2x_2+\dots+b_px_p$$
计算应变量的估计值 5  
正如式（15-4）所显示的那样，最小二乘法是利用样本数据，通过使残差的平方和达到最小的方法求得$b_0,b_1,b_2,\dots,b_p$的值  
对于样本容量相对比较小的数据集，我们能利用这些公式通过手算就能计算出$b_0$和$b_1$  
可是在多元回归情形，计算回归系数$b_0,b_1,b_2,\dots,b_p$的公式将涉及矩阵代数的知识，这已经超出了本书的范围  
重点将是如何解释计算机软件包的输出，而不是如何进行多元回归的计算  
## 15.2.1 例子：Butler运输公司  
作为多元回归分析的一个说明，我们将考虑Butler运输公司所面临的一个问题，它是一家位于南加利福尼亚地区的独立运输公司 5  
为了制定最佳的工作计划表，公司的管理人员希望估计他们的司机每天行驶的时间  
由10项运输任务组成的简单随机样本提供的数据如表15-1所示，散点图如图15-2所示  

In [None]:
but=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch15/Butler.csv')
but

In [None]:
'''
python	matplotlib	figure	Figure.figsize
'''
but.plot.scatter('Miles','Time',figsize=(6,6))
plt.ylim(3,11)
plt.xlim(40,110)
plt.show()

对这个散点图仔细观察后，管理人员假设，能利用简单线性回归模型$y=\beta_0+\beta_1x_1+\varepsilon$来描述每天行驶的时间(y)与每天运送货物的行驶里程($x_1$)之间的关系 5  
我们利用最小二乘法估计未知参数$\beta_0$和$\beta_1$，建立估计的回归方程为（15-5）  
$$\hat{y}=b_0+b_1x_1$$
在图15-3中，我们给出了利用表15-1中的数据进行简单线性回归得到的Minitab计算机输出。估计的回归方程是  

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	linregress()
'''
but_slo,but_int,but_rva,but_pva,but_std=linregress(but['Miles'],but['Time'])
print('y={:.2f}+{:.4f}x'.format(but_int,but_slo))