In [None]:
import pandas as pd
import numpy as np
from scipy.stats import f,f_oneway

# 实践中的统计
Burke市场营销服务公司是工业界最富有经验的市场研究机构之一  
在一项研究中，Burke受聘于一家公司来为儿童干谷类食品的潜在新品种做出评价。Anon产品开发者认为可能改善谷类食品味道的四个关键因素为：  
1. 谷类食品中小麦与玉米的比例
2. 甜味剂的类型：食糖、蜂蜜或人工增甜剂  
3. 有无果味香精 5  
4. 加工时间的长短  

Burke设计了一个用于确定这四个因素对谷类食品味道将会产生什么影响的实验  
例如，一种测试的谷类食品是在某个特定的小麦与玉米的比例、食糖、果味香精和短加工时间条件下制成的  
另一种测试的谷类食品是在小麦与玉米的比例不同，但其他三个因素相同的条件下制成的，等等  
方差分析是一种统计方法，我们使用这种方法来研究儿童品尝谷类食品的味道得到的数据。下面显示的是分析结果： 5   
+ 谷类食品的成分及甜味剂的类型对味道评价的影响很大  
+ 果味香精事实上破坏了谷类食品的味道  
+ 加工时间对谷类食品的味道没有影响  

这些信息帮助Anon公司识别出了可能生产出最佳味道谷类食品的因素  
Burke进行的实验设计及随后的方差分析对生产谷类食品的设计方案很有助益 5  
在第1章里我们提到，统计研究可以分为实验性研究与观测性研究两类。在实验性统计研究中，数据是通过实验产生的。一项实验首先要从确定一个我们感兴趣的变量开始  
然后确定并控制一个或多个其他变量，这些其他变量与我们感兴趣的变量是相关的；于此同时，收集这些变量如何影响我们感兴趣的那一个变量的数据  
在观测性研究中，我们经常是通过抽样调查，而不是通过控制一项实验来获取数据。一些好的设计原则仍然会得到试用，但是严格控制一项实验性统计研究往往是不可能的  
在本章中，我们介绍三种类型的实验设计：完全随机化设计、随机化区组设计以及析因设实验  
对于每一种实验设计，我们将要说明，方差分析的统计方法如何能用于现有数据的分析。我们也可以使用ANOVA来分析通过观测性研究得到的数据 5  
在13.1节，我们将介绍实验性研究的基本原理，并且将说明，如何将这些基本原理应用到完全随机化设计中  
在接下来的几节中，我们将讨论多重比较方法和另外另个有广泛应用的实验设计：随机化区组设计和析因实验 5  
# 13.1 实验设计和方差分析简介  
作为实验性统计研究的例子，我们考虑Chemitech公司遇到的问题。公司的工程部负责确定新过滤系统的最佳装配方法  
考虑了各种更可能的装配方法后，工程部将范围缩小至三种方法：方法A、方法B及方法C。Chemitech公司希望确定：哪种装配方法能使每周生产的过滤系统的数量最多  
在Chemitech公司的实验中，装配方法是独立变量或**因子**。因为对应于这个因子有三种装配方法，所以我们说这一实验有三个处理；每个**处理**对应于三种装配方法中的一种  
Chemitech公司的问题是一个**单因子实验**的示例；该问题只涉及一个定性因子（装配方法）。更为复杂的实验可能由多个因子组成；其中有些因子可能是定性的，有些因子可能是定量的  
三种装配方法或处理确定了Chemitech公司实验的三个总体。第一个总体是使用装配方法A的全体工人，第二个总体是使用装配方法B的全体工人，第三个总体是使用装配方法C的全体工人 5  
注意，对每个总体，因变量或**响应变量**是每周装配的过滤系统的数量，并且该实验的主要统计目的是确定：三个总体每周所生产的过滤系统的平均数量是否相同  
假设从Chemitech公司生产车间的全体装配工人中抽取3名工人组成一个随机样本。用试验设计的术语，三名随机抽取的工人是**实验单元**  
我们将在Chemitech公司的问题中使用的实验设计成为**完全随机化设计**。这种类型的设计要求将每一种装配方法或处理随机地指派给一个实验单元或一名工人   
如图本例所解释的那样，随机化的概念是所有实验设计的一个重要原则  
注意：这个实验对每个处理只会得到一个装配好的过滤系统的测度或数量。对于每种装配方法，为了得到更多的数据，我们必须重复或复制基本的实验过程 5  
复制的过程是实验设计的另一个重要原则，图13-1显示了Chemitech公司实验的完全随机化设计  
![13-1](../syn_pic/statistics_for_business_economics/13-1.png)
<center>图13-1 评价Chemitech公司装配方法实验的完全随机化设计</center>

## 13.1.1 数据收集  
一旦我们对实验设计感到满意，我们将进行收集和分析数据的工作。在指派装配方法及培训工作都已经完成后，在一周内每名工人装配的过滤系统的数量如表13-1所示  
<center>表13-1 15名工人生产的过滤系统的数量</center>


In [None]:
'''
读取 5
'''
Chemitech=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/Chemitech.csv')
Chemitech

In [None]:
'''
python	pandas	dataframe	d.var()
python	pandas	dataframe	d.std()
'''
Chemitech_mean=Chemitech.mean()
print(Chemitech_mean.to_string())
print('-'*20)
Chemitech_var=Chemitech.var()
print(Chemitech_var.to_string())
print('-'*20)
print(Chemitech.std().to_string())

真正的问题是，观察到的三个样本均值之间的差异是否足够大，以致我们能够得出结论：对应于三种装配方法的总体均值是不同的。为了用统计术语来描述这一问题，我们引入下列记号  
$\mu_1$——使用装配方法A每周生产的过滤系统的数量  
$\mu_2$——使用装配方法B每周生产的过滤系统的数量  
$\mu_3$——使用装配方法C每周生产的过滤系统的数量 5
尽管我们根本不可能知道$\mu_1$,$\mu_2$,$\mu_3$的实际数值，但我们还是试图用样本均值来检验下面的假设  
$$H_0:\mu_1=\mu_2=\mu_3$$
$$H_a:总体均值不全相等$$  
正如我们很快将要证明的那样，利用方差分析这一统计方法可以确定，在三个样本均值之间观察到的差异是否足够达到可以拒绝$H_0$  
## 13.1.2 方差分析的假定  
应用方差分析需要三个假定 5  
1. **对每个总体，响应变量服从正态分布**。这就意味着：在Chemitech公司的实验中，对于每一种装配方法，每周生产的过滤系统的数量必须服从正态分布  
2. **响应变量的方差，记为$\sigma^2$，对所有总体都是相同的**。这就意味着：在Chemitech公司的实验中，对于每一种装配方法，每周生产的过滤系统数量的方差必须是相同的  
3. **观测值必须是独立的**。这就意味着：在Chemitech公司的实验中，对于每一种装配方法，每周生产的过滤系统的数量必须与任何其他工人每周生产的过滤系统的数量独立  

## 13.1.3 方差分析：概念性综述  
如果三个总体均值相等，我们可以期望三个样本均值彼此之间很接近。如果样本均值的变异性“小”，则支持$H_0$；如果样本均值的变异性“大”，则支持$H_a$  
如果原假设$H_0:\mu_1=\mu_2=\mu_3$为真，则我们可以利用样本均值之间的变异性建立$\sigma^2$的一个估计 5  
首先，我们注意到：如果方差分析的假设成立，则每一个样本都是来自均值为$\mu$、方差为$\sigma^2$的同一正态分布。图13-2用图示说明了这一抽样分布  
![13-2](../syn_pic/statistics_for_business_economics/13-2.png)
<center>图13-2 $H_0$为真时$\bar{x}$的抽样分布</center>

于是，如果原假设为真，我们可以把由表13-1得到的三个样本均值$\bar{x}_1=62,\bar{x}_2=66,\bar{x}_3=52$中的每一个，都认为是从图13-2所表示的抽样分布中随机抽取的数值  
在这种情况下，三个样本均值$\bar{x}_1、\bar{x}_2和\bar{x}_3$的均值与方差可以用来估计该抽样分布的均值与方差 5  

In [None]:
'''
python	pandas	series	s.mean()
python	pandas	series	s.var()
'''
print('该抽样分布的均值为{:.0f}'.format(Chemitech_mean.mean()))
print('该抽样分布的方差为{:.0f}'.format(Chemitech_mean.var()))

In [None]:
Chemitech_ites=Chemitech_mean.var()*len(Chemitech)
Chemitech_ites

由$\sigma^2_{\bar{x}}=\sigma^2/n$，解得$$\sigma^2=n\sigma^2_{\bar{x}}$$
于是$$\sigma^2的估计值=n\times(\sigma^2_{\bar{x}}的估计量)=ns^2_{\bar{x}}=5\times52=260$$ 
5  
所得结果$ns^2_{\bar{x}}=260$称为$\sigma^2$的处理间估计  
$\sigma^2$的处理间估计的根据是：原假设为真。在这种情形下，每个样本都来自同一个总体，并且$\bar{x}$只有一个抽样分布  
为了说明$H_0$为假时发生了什么情况，假定总体均值全不相同。注意，由于三个样本分布来自均值不同的三个正态分布，因此将导致有三个不同的抽样分布。图13-3表明在这种情形下，样本均值批次之间不再像$H_0$为真时那样接近  
![13-3](../syn_pic/statistics_for_business_economics/13-3.png)
<center>图13-3 $H_0$为假时$\bar{x}$的抽样分布</center>

一般地，当总体均值不相等时，处理间估计将会高估总体方差$\sigma^2$ 5    
每个样本内部的变异也会对我们得到的方差分析的结论产生影响。当我们从每一个总体抽取一个随机样本时，每个样本方差都给出了$\sigma^2$的一个无偏估计  
因此，我们可以将$\sigma^2$的个别估计组合或合并成一个总的估计。用这种方法得到的$\sigma^2$的估计称为$\sigma^2$的合并估计或处理内估计  
因为每个样本方差给出的$\sigma^2$的估计仅以每个样本内部的变异为依据，因此，$\sigma^2$的处理内估计不受总体均值是否相等的影响  
当样本容量相等时，$\sigma^2$的处理内估计可以通过计算个别样本方差的算数平均值得到  

In [None]:
'''
5  
'''
Chemitech_ines=Chemitech_var.mean()
print('sigma^2的处理内估计={:.2f}'.format(Chemitech_ines))

在Chemitech公司实验的例子中，$\sigma^2$的处理间估计260远大于$\sigma^2$的处理内估计28.33。事实上，这两个估计量的比值为9.18

In [None]:
Chemitech_ites/Chemitech_ines

但是，我们回想起：只有当原假设为真时，处理间估计方法才是总体方差$\sigma^2$的一个好的估计量;如果原假设为假，处理间估计方法将高估总体方差$\sigma^2$  
不过在这两种情形下，处理内估计都是总体方差$\sigma^2$的一个好的估计量  
因此，如果原假设为真，则两个估计量应该很接近，并且它们的比值接近于1。如果原假设为假，则处理间估计将大于处理内估计，并且它们的比值也将是大的 5  
总的来说，ANOVA背后的逻辑是以共同总体方差$\sigma^2$的两个独立的估计量为基础  
$\sigma^2$的一个估计量是以样本均值自己之间的变异性为依据，$\sigma^2$的另一个估计量是以每个样本内部数据的变异性为依据。通过比较$\sigma^2$的这两个估计量，我们就能够确定总体均值是否相等  
## 注释
1. 实验设计中的随机化与观测性研究中的概率抽样相类似  
2. 在许多医学实验中，潜在的偏差通过使用双盲实验设计。在这样的设计中，无论是应用处理的医生还是受试对象，都不知道应用的是哪一种处理  
3. 对于一个完全随机化实验设计，我们在本节中给出了如何应用方差分析来检验k个总体均值相等的概念性叙述。我们将看到，对于观测性或非实验性研究，也可以用同样的程序来检验k个总体均值相等的问题 5  
4. 在10.1节和10.2节中我们已经介绍了检验两个总体均值相等的假设的统计方法，ANOVA也可以用来检验两个总体均值相等的假设。但是在实践中，除非在处理三个或三个以上总体的均值问题时，通常不使用方差分析方法 5  

# 13.2 方差分析和完全随机化实验设计
在本节中，我们将说明，对于一个完全随机化实验设计，如何应用方差分析来检验k个总体均值是否相等的问题。被检验的假设的一般形式为  
$$H_0:\mu_1=\mu_2=\dots=\mu_k$$
$$H_a:k个总体的均值不全相等$$ 
式中，$\mu_j$代表第j个总体的均值  
我们假定从K个总体或处理中抽取一个容量为$n_j$的简单随机样本。对于得到的样本数据，令 5  
$x_{ij}$代表第j个处理的第i个观测值;$n_j$代表第j个处理的观测值个数;$\bar{x}_j$代表第j个处理的样本均值;$s^2_j$代表第j个处理的样本方差;$s_j$代表第j个处理的样本标准差  
第j个处理的样本均值与样本方差的计算公式如下所示  
(13-1)  
$$\bar{x}_j=\frac{\sum_{i=1}^{n_j}{x_{ij}}}{n_j}$$
(13-2)  
$$s_j^2=\frac{\sum_{i=1}^{n_j}{(x_{ij}-\bar{x}_j)^2}}{n_j-1}$$
总样本均值，即为$\bar{x}$，等于所有观测值之和除以观测值的总个数。即(13-3) 5  
$$\bar{x}=\frac{\sum_{j=1}^{k}\sum_{i=1}^{n_j}{x_{ij}}}{n_T}$$  
式中(13-4)  
$$n_T=n_1+n_2+\dots+n_k$$  
若每个样本的容量是相等的，都为n，则$n_T=kn$；在这种情形下，式(13-3)简化为(13-5)  
$$\bar{x}=\frac{\sum_{j=1}^{k}{\bar{x}_j}}{k}$$
5  
换句话说，只要样本容量全相等，总样本均值恰好是k个样本均值的算术平均数  
在Chemitech公司实验的例子中，因为每个样本都是由n=5个观测值组成，所以总样本均值可利用式(13-5)求得。对于表13-1中的数据，我们得到下面的结果  

In [None]:
print('均值为{:.0f}'.format(Chemitech_mean.mean()))

因此，若原假设为真($\mu_1=\mu_2=\mu_3=\mu$)，则总样本均值60为总体均值$\mu$的最优估计值  
## 13.2.1 总体方差的处理间估计  
在上一节，我们介绍了$\sigma^2$的一个处理间估计的概念，并且说明了当样本容量相等时如何计算处理间估计 5  
我们称$\sigma^2$的这个估计量为均方处理，记作MSTR。计算MSTR的一般公式为（13-6）  
$$MSTR=\frac{\sum_{j=1}^{k}{n_j(\bar{x}_j-\bar{x})^2}}{k-1}$$
式(13-6)中的分子称为处理平方和，记为SSTR。分母k-1表示与SSTR相联系的自由度。因此，处理均方也可以按以下公式计算  
<hr />

**处理均方**(13-7)  
$$MSTR=\frac{SSTR}{k-1}$$
式中(13-8) 5  
$$SSTR=\sum_{j=1}^{k}{n_j(\bar{x}_j-\bar{x})^2}$$
<hr />

若$H_0$为真，则MSTR给出了$\sigma^2$的一个无偏估计。但是，如果k个总体均值不相等，则MSTR就不是$\sigma^2$的无偏估计;事实上，在这种情况下，MSTR将会高估总体方差$\sigma^2$  
对于表13-1中Chemitech公司实验的数据，我们得到下面的结果  

In [None]:
'''
python	pandas	series	s.pow()
python	pandas	series	s.count()
'''
sstr=Chemitech_mean.sub(Chemitech_mean.mean()).pow(2).sum()*5
mstr=sstr/(Chemitech_mean.count()-1)
mstr

## 13.2.2 总体方差的处理内估计  
在上一节，我们介绍了$\sigma^2$的处理内估计的概念，并且说明了当样本容量相等时如何计算处理内估计。我们称$\sigma^2$的这个估计量为均方误差，记作MSE。计算MSE的一般公式为(13-9) 5  
$$MSE=\frac{\sum_{j=1}^{k}{(n_j-1)s_j^2}}{n_T-k}$$
式(13-9)中的分子称为误差平方和，记作SSE。MSE的分母是与SSE相联系的自由度。因此，MSE的计算公式也可以表示成下面的形式  
<hr />

误差均方(13-10)  
$$MSE=\frac{SSE}{n_T-k}$$
式中(13-11)  
$$SSE=\sum_{j=1}^{k}{(n_j-1)s_j^2}$$
<hr />

5  
我们注意到:MSE是以每个处理内部的变异性为依据：它不受原假设是否为真的影响。因此，MSE永远给$\sigma^2$的一个无偏估计  
对于表13-1中Chemitech公司实验的数据，我们得到下面的结果  

In [None]:
'''
python	pandas	dataframe	d.count()

'''
chem_samplen=Chemitech.count()
chem_k=chem_samplen.count()
sse=Chemitech_var.mul(chem_samplen[0]-1).sum()

mse=sse/(chem_samplen.sum()-chem_k)
mse

## 13.2.3 方差估计量的比较:F检验  
如果原假设为真，则MSTR与MSE给出$\sigma^2$的两个独立的无偏估计量。根据在第11章中曾介绍过的内容，我们知道：对于正态总体，$\sigma^2$的两个独立的估计量之比的抽样分布服从F分布  
因此，如果原假设为真，并且ANOVA的假定得到满足，则MSTR/MSE的抽样分布服从一个分子自由度为k-1，分母自由度为$n_T-k$的F分布  
但是，如果原假设不成立，由于MSTR高估了总体方差$\sigma^2$，从而使得MSTR/MSE的值被夸大 5  
因此，如果得到的MSTR/MSE的值太大，以至于不像是随机抽取分子自由度为k-1，分母自由度为$n_T-k$的F分布的话，则我们将拒绝$H_0$  
因为，拒绝$H_0$的决定是基于MSTR/MSE的值，于是用来检验k个总体均值是否相等的检验统计量如下所示  
<hr />

**k个总体均值相等的检验统计量**(13-12)  
$$F=\frac{MSTR}{MSE}$$
检验统计量服从分子自由度为k-1，分母自由度为$n_T-k$的F分布 5  
<hr />

现在让我们回答Chemitech公司实验的例子，在$\alpha=0.05$的显著性水平下进行假设检验。检验统计量的值为  

In [None]:
'''
计算检验统计量
'''
Chemitech_TS=mstr/mse
print('检验统计量的值为{:.2f}'.format(Chemitech_TS))

In [None]:
'''
计算自由度
'''
moldf=chem_k-1
dendf=chem_samplen.sum()-chem_k

因为对于大的检验统计量的值，我们将拒绝原假设，所以p-值是检验统计量的值F=9.18上侧的F分布曲线下方的面积  
13-4用图示说明了F=MSTR/MSE的抽样分布，检验统计量的值，以及假设检验的p-值，它是F分布上侧曲线下方的面积 5  
![13-4](../syn_pic/statistics_for_business_economics/13-4.png)
<center>图13-4 利用MSTR/MSE的抽样分布计算的p-值</center>


In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f() f.sf()
'''
Chemitech_P=f.sf(Chemitech_TS,moldf,dendf)
print('p-值={:.3f}<alpha=0.05，我们拒绝H_0'.format(Chemitech_P))

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f() f.isf()
'''
Chemitech_F=f.isf(0.05,moldf,dendf)
print('由于检验统计量={:.2f}>临界值F={:.2f}，故我们拒绝H_0'.format(Chemitech_TS,Chemitech_F))

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f_oneway()
'''
f_oneway(Chemitech.iloc[:,0],Chemitech.iloc[:,1],Chemitech.iloc[:,2])

如同其他的检验假设方法一样，我们也可以利用临界值法。当alpha=0.05时，适用于上侧的拒绝法则是如果$F\ge3.89$，则拒绝$H_0$ 5  
因为F=9.18，所以我们拒绝$H_0$，并且得出结论：三个总体的均值是不相等的。检验k个总体均值相等的完整过程概况如下  
<hr />

**k个总体均值相等的检验**  
$$H_0:\mu_1=\mu_2=\dots=\mu_k$$
$$H_a:k个总体的均值不全相等$$
检验统计量  
$$F=\frac{MSTR}{MSE}$$
拒绝法则 5  
p-值法：如果p-值$\le\alpha$，则拒绝$H_0$  
临界值法：如果$F\ge{F_\alpha}$，则拒绝$H_0$  
式中，$F_\alpha$是分子自由度为k-1，分母自由度为$n_T-k$时，使F分布的上侧面积为$\alpha$的F值  
<hr />

### 13.2.4 ANOVA表
前面的计算结果可以很方便地用方差分析表或$ANOVA表$表示出来。一个完全随机化实验设计的ANOVA表的一般形式如表13-2所示  
在列标题“方差来源”中，与“总计”相联系的平方和称为总平方和(SST)。我们注意到，Chemitech公司实验的结果意味着：SST=SSTR+SSE，并且总平方和的自由度是处理平方和的自由度与误差平方和的自由度之和 5  
<center>表13-4 完全随机化设计的ANOVA表</center>

![tb13-2](../syn_pic/statistics_for_business_economics/tb13-2.png)
我们应该指出的是，如果我们将全部15个观测值看成是一个数据集，那么SST除以它的自由度$n_T-1$，恰好是该数据集的总的样本方差  
如果我们把整个数据集作为一个样本，总平方和SST的计算公式为（13-13）  
$$SST=\sum_{j=1}^{k}{\sum_{i=1}^{n_j}{(x_{ij}-\bar{x})^2}}$$
可以证明，我们从Chemitech公司实验的方差分析表上看到的结果也可以用于其他问题，即(13-14) 5  
$$SST=SSTR+SSE$$
换句话说，SST可以被分解为两个平方和：处理平方和误差平方和  
我们还注意到，SST对应的自由度$n_T-1$也可以被分解为对应于SSTR的自由度k-1与对应于SSE的自由度$n_T-k$  
方差分析可以被看做是将总平方和及其自由度**分解**成它们所对应的来源（处理与误差）的一个过程  
这些平方和除以适当的自由度，可以给出方差的估计量，以及用于检验总体均值相等的假设的F值和p-值 5  