In [None]:
import pandas as pd
import numpy as np
from scipy.stats import f,f_oneway,t,ttest_rel,ttest_ind
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from matplotlib import pyplot as plt

# 实践中的统计
Burke市场营销服务公司是工业界最富有经验的市场研究机构之一  
在一项研究中，Burke受聘于一家公司来为儿童干谷类食品的潜在新品种做出评价。Anon产品开发者认为可能改善谷类食品味道的四个关键因素为：  
1. 谷类食品中小麦与玉米的比例
2. 甜味剂的类型：食糖、蜂蜜或人工增甜剂  
3. 有无果味香精 5  
4. 加工时间的长短  

Burke设计了一个用于确定这四个因素对谷类食品味道将会产生什么影响的实验  
例如，一种测试的谷类食品是在某个特定的小麦与玉米的比例、食糖、果味香精和短加工时间条件下制成的  
另一种测试的谷类食品是在小麦与玉米的比例不同，但其他三个因素相同的条件下制成的，等等  
方差分析是一种统计方法，我们使用这种方法来研究儿童品尝谷类食品的味道得到的数据。下面显示的是分析结果： 5   
+ 谷类食品的成分及甜味剂的类型对味道评价的影响很大  
+ 果味香精事实上破坏了谷类食品的味道  
+ 加工时间对谷类食品的味道没有影响  

这些信息帮助Anon公司识别出了可能生产出最佳味道谷类食品的因素  
Burke进行的实验设计及随后的方差分析对生产谷类食品的设计方案很有助益 5  
在第1章里我们提到，统计研究可以分为实验性研究与观测性研究两类。在实验性统计研究中，数据是通过实验产生的。一项实验首先要从确定一个我们感兴趣的变量开始  
然后确定并控制一个或多个其他变量，这些其他变量与我们感兴趣的变量是相关的；于此同时，收集这些变量如何影响我们感兴趣的那一个变量的数据  
在观测性研究中，我们经常是通过抽样调查，而不是通过控制一项实验来获取数据。一些好的设计原则仍然会得到试用，但是严格控制一项实验性统计研究往往是不可能的  
在本章中，我们介绍三种类型的实验设计：完全随机化设计、随机化区组设计以及析因设实验  
对于每一种实验设计，我们将要说明，方差分析的统计方法如何能用于现有数据的分析。我们也可以使用ANOVA来分析通过观测性研究得到的数据 5  
在13.1节，我们将介绍实验性研究的基本原理，并且将说明，如何将这些基本原理应用到完全随机化设计中  
在接下来的几节中，我们将讨论多重比较方法和另外另个有广泛应用的实验设计：随机化区组设计和析因实验 5  
# 13.1 实验设计和方差分析简介  
作为实验性统计研究的例子，我们考虑Chemitech公司遇到的问题。公司的工程部负责确定新过滤系统的最佳装配方法  
考虑了各种更可能的装配方法后，工程部将范围缩小至三种方法：方法A、方法B及方法C。Chemitech公司希望确定：哪种装配方法能使每周生产的过滤系统的数量最多  
在Chemitech公司的实验中，装配方法是独立变量或**因子**。因为对应于这个因子有三种装配方法，所以我们说这一实验有三个处理；每个**处理**对应于三种装配方法中的一种  
Chemitech公司的问题是一个**单因子实验**的示例；该问题只涉及一个定性因子（装配方法）。更为复杂的实验可能由多个因子组成；其中有些因子可能是定性的，有些因子可能是定量的  
三种装配方法或处理确定了Chemitech公司实验的三个总体。第一个总体是使用装配方法A的全体工人，第二个总体是使用装配方法B的全体工人，第三个总体是使用装配方法C的全体工人 5  
注意，对每个总体，因变量或**响应变量**是每周装配的过滤系统的数量，并且该实验的主要统计目的是确定：三个总体每周所生产的过滤系统的平均数量是否相同  
假设从Chemitech公司生产车间的全体装配工人中抽取3名工人组成一个随机样本。用试验设计的术语，三名随机抽取的工人是**实验单元**  
我们将在Chemitech公司的问题中使用的实验设计成为**完全随机化设计**。这种类型的设计要求将每一种装配方法或处理随机地指派给一个实验单元或一名工人   
如图本例所解释的那样，随机化的概念是所有实验设计的一个重要原则  
注意：这个实验对每个处理只会得到一个装配好的过滤系统的测度或数量。对于每种装配方法，为了得到更多的数据，我们必须重复或复制基本的实验过程 5  
复制的过程是实验设计的另一个重要原则，图13-1显示了Chemitech公司实验的完全随机化设计  
![13-1](../syn_pic/statistics_for_business_economics/13-1.png)
<center>图13-1 评价Chemitech公司装配方法实验的完全随机化设计</center>

## 13.1.1 数据收集  
一旦我们对实验设计感到满意，我们将进行收集和分析数据的工作。在指派装配方法及培训工作都已经完成后，在一周内每名工人装配的过滤系统的数量如表13-1所示  
<center>表13-1 15名工人生产的过滤系统的数量</center>


In [None]:
'''
读取 5
'''
Chemitech=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/Chemitech.csv')
Chemitech

In [None]:
'''
python	pandas	dataframe	d.var()
python	pandas	dataframe	d.std()
'''
Chemitech_mean=Chemitech.mean()
print(Chemitech_mean.to_string())
print('-'*20)
Chemitech_var=Chemitech.var()
print(Chemitech_var.to_string())
print('-'*20)
print(Chemitech.std().to_string())

真正的问题是，观察到的三个样本均值之间的差异是否足够大，以致我们能够得出结论：对应于三种装配方法的总体均值是不同的。为了用统计术语来描述这一问题，我们引入下列记号  
$\mu_1$——使用装配方法A每周生产的过滤系统的数量  
$\mu_2$——使用装配方法B每周生产的过滤系统的数量  
$\mu_3$——使用装配方法C每周生产的过滤系统的数量 5
尽管我们根本不可能知道$\mu_1$,$\mu_2$,$\mu_3$的实际数值，但我们还是试图用样本均值来检验下面的假设  
$$H_0:\mu_1=\mu_2=\mu_3$$
$$H_a:总体均值不全相等$$  
正如我们很快将要证明的那样，利用方差分析这一统计方法可以确定，在三个样本均值之间观察到的差异是否足够达到可以拒绝$H_0$  
## 13.1.2 方差分析的假定  
应用方差分析需要三个假定 5  
1. **对每个总体，响应变量服从正态分布**。这就意味着：在Chemitech公司的实验中，对于每一种装配方法，每周生产的过滤系统的数量必须服从正态分布  
2. **响应变量的方差，记为$\sigma^2$，对所有总体都是相同的**。这就意味着：在Chemitech公司的实验中，对于每一种装配方法，每周生产的过滤系统数量的方差必须是相同的  
3. **观测值必须是独立的**。这就意味着：在Chemitech公司的实验中，对于每一种装配方法，每周生产的过滤系统的数量必须与任何其他工人每周生产的过滤系统的数量独立  

## 13.1.3 方差分析：概念性综述  
如果三个总体均值相等，我们可以期望三个样本均值彼此之间很接近。如果样本均值的变异性“小”，则支持$H_0$；如果样本均值的变异性“大”，则支持$H_a$  
如果原假设$H_0:\mu_1=\mu_2=\mu_3$为真，则我们可以利用样本均值之间的变异性建立$\sigma^2$的一个估计 5  
首先，我们注意到：如果方差分析的假设成立，则每一个样本都是来自均值为$\mu$、方差为$\sigma^2$的同一正态分布。图13-2用图示说明了这一抽样分布  
![13-2](../syn_pic/statistics_for_business_economics/13-2.png)
<center>图13-2 $H_0$为真时$\bar{x}$的抽样分布</center>

于是，如果原假设为真，我们可以把由表13-1得到的三个样本均值$\bar{x}_1=62,\bar{x}_2=66,\bar{x}_3=52$中的每一个，都认为是从图13-2所表示的抽样分布中随机抽取的数值  
在这种情况下，三个样本均值$\bar{x}_1、\bar{x}_2和\bar{x}_3$的均值与方差可以用来估计该抽样分布的均值与方差 5  

In [None]:
'''
python	pandas	series	s.mean()
python	pandas	series	s.var()
'''
print('该抽样分布的均值为{:.0f}'.format(Chemitech_mean.mean()))
print('该抽样分布的方差为{:.0f}'.format(Chemitech_mean.var()))

In [None]:
Chemitech_ites=Chemitech_mean.var()*len(Chemitech)
Chemitech_ites

由$\sigma^2_{\bar{x}}=\sigma^2/n$，解得$$\sigma^2=n\sigma^2_{\bar{x}}$$
于是$$\sigma^2的估计值=n\times(\sigma^2_{\bar{x}}的估计量)=ns^2_{\bar{x}}=5\times52=260$$ 
5  
所得结果$ns^2_{\bar{x}}=260$称为$\sigma^2$的处理间估计  
$\sigma^2$的处理间估计的根据是：原假设为真。在这种情形下，每个样本都来自同一个总体，并且$\bar{x}$只有一个抽样分布  
为了说明$H_0$为假时发生了什么情况，假定总体均值全不相同。注意，由于三个样本分布来自均值不同的三个正态分布，因此将导致有三个不同的抽样分布。图13-3表明在这种情形下，样本均值批次之间不再像$H_0$为真时那样接近  
![13-3](../syn_pic/statistics_for_business_economics/13-3.png)
<center>图13-3 $H_0$为假时$\bar{x}$的抽样分布</center>

一般地，当总体均值不相等时，处理间估计将会高估总体方差$\sigma^2$ 5    
每个样本内部的变异也会对我们得到的方差分析的结论产生影响。当我们从每一个总体抽取一个随机样本时，每个样本方差都给出了$\sigma^2$的一个无偏估计  
因此，我们可以将$\sigma^2$的个别估计组合或合并成一个总的估计。用这种方法得到的$\sigma^2$的估计称为$\sigma^2$的合并估计或处理内估计  
因为每个样本方差给出的$\sigma^2$的估计仅以每个样本内部的变异为依据，因此，$\sigma^2$的处理内估计不受总体均值是否相等的影响  
当样本容量相等时，$\sigma^2$的处理内估计可以通过计算个别样本方差的算数平均值得到  

In [None]:
'''
5  
'''
Chemitech_ines=Chemitech_var.mean()
print('sigma^2的处理内估计={:.2f}'.format(Chemitech_ines))

在Chemitech公司实验的例子中，$\sigma^2$的处理间估计260远大于$\sigma^2$的处理内估计28.33。事实上，这两个估计量的比值为9.18

In [None]:
Chemitech_ites/Chemitech_ines

但是，我们回想起：只有当原假设为真时，处理间估计方法才是总体方差$\sigma^2$的一个好的估计量;如果原假设为假，处理间估计方法将高估总体方差$\sigma^2$  
不过在这两种情形下，处理内估计都是总体方差$\sigma^2$的一个好的估计量  
因此，如果原假设为真，则两个估计量应该很接近，并且它们的比值接近于1。如果原假设为假，则处理间估计将大于处理内估计，并且它们的比值也将是大的 5  
总的来说，ANOVA背后的逻辑是以共同总体方差$\sigma^2$的两个独立的估计量为基础  
$\sigma^2$的一个估计量是以样本均值自己之间的变异性为依据，$\sigma^2$的另一个估计量是以每个样本内部数据的变异性为依据。通过比较$\sigma^2$的这两个估计量，我们就能够确定总体均值是否相等  
## 注释
1. 实验设计中的随机化与观测性研究中的概率抽样相类似  
2. 在许多医学实验中，潜在的偏差通过使用双盲实验设计。在这样的设计中，无论是应用处理的医生还是受试对象，都不知道应用的是哪一种处理  
3. 对于一个完全随机化实验设计，我们在本节中给出了如何应用方差分析来检验k个总体均值相等的概念性叙述。我们将看到，对于观测性或非实验性研究，也可以用同样的程序来检验k个总体均值相等的问题 5  
4. 在10.1节和10.2节中我们已经介绍了检验两个总体均值相等的假设的统计方法，ANOVA也可以用来检验两个总体均值相等的假设。但是在实践中，除非在处理三个或三个以上总体的均值问题时，通常不使用方差分析方法 5  

# 13.2 方差分析和完全随机化实验设计
在本节中，我们将说明，对于一个完全随机化实验设计，如何应用方差分析来检验k个总体均值是否相等的问题。被检验的假设的一般形式为  
$$H_0:\mu_1=\mu_2=\dots=\mu_k$$
$$H_a:k个总体的均值不全相等$$ 
式中，$\mu_j$代表第j个总体的均值  
我们假定从K个总体或处理中抽取一个容量为$n_j$的简单随机样本。对于得到的样本数据，令 5  
$x_{ij}$代表第j个处理的第i个观测值;$n_j$代表第j个处理的观测值个数;$\bar{x}_j$代表第j个处理的样本均值;$s^2_j$代表第j个处理的样本方差;$s_j$代表第j个处理的样本标准差  
第j个处理的样本均值与样本方差的计算公式如下所示  
(13-1)  
$$\bar{x}_j=\frac{\sum_{i=1}^{n_j}{x_{ij}}}{n_j}$$
(13-2)  
$$s_j^2=\frac{\sum_{i=1}^{n_j}{(x_{ij}-\bar{x}_j)^2}}{n_j-1}$$
总样本均值，即为$\bar{x}$，等于所有观测值之和除以观测值的总个数。即(13-3) 5  
$$\bar{x}=\frac{\sum_{j=1}^{k}\sum_{i=1}^{n_j}{x_{ij}}}{n_T}$$  
式中(13-4)  
$$n_T=n_1+n_2+\dots+n_k$$  
若每个样本的容量是相等的，都为n，则$n_T=kn$；在这种情形下，式(13-3)简化为(13-5)  
$$\bar{x}=\frac{\sum_{j=1}^{k}{\bar{x}_j}}{k}$$
5  
换句话说，只要样本容量全相等，总样本均值恰好是k个样本均值的算术平均数  
在Chemitech公司实验的例子中，因为每个样本都是由n=5个观测值组成，所以总样本均值可利用式(13-5)求得。对于表13-1中的数据，我们得到下面的结果  

In [None]:
print('均值为{:.0f}'.format(Chemitech_mean.mean()))

因此，若原假设为真($\mu_1=\mu_2=\mu_3=\mu$)，则总样本均值60为总体均值$\mu$的最优估计值  
## 13.2.1 总体方差的处理间估计  
在上一节，我们介绍了$\sigma^2$的一个处理间估计的概念，并且说明了当样本容量相等时如何计算处理间估计 5  
我们称$\sigma^2$的这个估计量为均方处理，记作MSTR。计算MSTR的一般公式为（13-6）  
$$MSTR=\frac{\sum_{j=1}^{k}{n_j(\bar{x}_j-\bar{x})^2}}{k-1}$$
式(13-6)中的分子称为处理平方和，记为SSTR。分母k-1表示与SSTR相联系的自由度。因此，处理均方也可以按以下公式计算  
<hr />

**处理均方**(13-7)  
$$MSTR=\frac{SSTR}{k-1}$$
式中(13-8) 5  
$$SSTR=\sum_{j=1}^{k}{n_j(\bar{x}_j-\bar{x})^2}$$
<hr />

若$H_0$为真，则MSTR给出了$\sigma^2$的一个无偏估计。但是，如果k个总体均值不相等，则MSTR就不是$\sigma^2$的无偏估计;事实上，在这种情况下，MSTR将会高估总体方差$\sigma^2$  
对于表13-1中Chemitech公司实验的数据，我们得到下面的结果  

In [None]:
'''
python	pandas	series	s.pow()
python	pandas	series	s.count()
'''
sstr=Chemitech_mean.sub(Chemitech_mean.mean()).pow(2).sum()*5
mstr=sstr/(Chemitech_mean.count()-1)
mstr

## 13.2.2 总体方差的处理内估计  
在上一节，我们介绍了$\sigma^2$的处理内估计的概念，并且说明了当样本容量相等时如何计算处理内估计。我们称$\sigma^2$的这个估计量为均方误差，记作MSE。计算MSE的一般公式为(13-9) 5  
$$MSE=\frac{\sum_{j=1}^{k}{(n_j-1)s_j^2}}{n_T-k}$$
式(13-9)中的分子称为误差平方和，记作SSE。MSE的分母是与SSE相联系的自由度。因此，MSE的计算公式也可以表示成下面的形式  
<hr />

误差均方(13-10)  
$$MSE=\frac{SSE}{n_T-k}$$
式中(13-11)  
$$SSE=\sum_{j=1}^{k}{(n_j-1)s_j^2}$$
<hr />

5  
我们注意到:MSE是以每个处理内部的变异性为依据：它不受原假设是否为真的影响。因此，MSE永远给$\sigma^2$的一个无偏估计  
对于表13-1中Chemitech公司实验的数据，我们得到下面的结果  

In [None]:
'''
python	pandas	dataframe	d.count()

'''
chem_samplen=Chemitech.count()
chem_k=chem_samplen.count()
sse=Chemitech_var.mul(chem_samplen[0]-1).sum()

mse=sse/(chem_samplen.sum()-chem_k)
mse

## 13.2.3 方差估计量的比较:F检验  
如果原假设为真，则MSTR与MSE给出$\sigma^2$的两个独立的无偏估计量。根据在第11章中曾介绍过的内容，我们知道：对于正态总体，$\sigma^2$的两个独立的估计量之比的抽样分布服从F分布  
因此，如果原假设为真，并且ANOVA的假定得到满足，则MSTR/MSE的抽样分布服从一个分子自由度为k-1，分母自由度为$n_T-k$的F分布  
但是，如果原假设不成立，由于MSTR高估了总体方差$\sigma^2$，从而使得MSTR/MSE的值被夸大 5  
因此，如果得到的MSTR/MSE的值太大，以至于不像是随机抽取分子自由度为k-1，分母自由度为$n_T-k$的F分布的话，则我们将拒绝$H_0$  
因为，拒绝$H_0$的决定是基于MSTR/MSE的值，于是用来检验k个总体均值是否相等的检验统计量如下所示  
<hr />

**k个总体均值相等的检验统计量**(13-12)  
$$F=\frac{MSTR}{MSE}$$
检验统计量服从分子自由度为k-1，分母自由度为$n_T-k$的F分布 5  
<hr />

现在让我们回答Chemitech公司实验的例子，在$\alpha=0.05$的显著性水平下进行假设检验。检验统计量的值为  

In [None]:
'''
计算检验统计量
'''
Chemitech_TS=mstr/mse
print('检验统计量的值为{:.2f}'.format(Chemitech_TS))

In [None]:
'''
计算自由度
'''
moldf=chem_k-1
dendf=chem_samplen.sum()-chem_k

因为对于大的检验统计量的值，我们将拒绝原假设，所以p-值是检验统计量的值F=9.18上侧的F分布曲线下方的面积  
13-4用图示说明了F=MSTR/MSE的抽样分布，检验统计量的值，以及假设检验的p-值，它是F分布上侧曲线下方的面积 5  
![13-4](../syn_pic/statistics_for_business_economics/13-4.png)
<center>图13-4 利用MSTR/MSE的抽样分布计算的p-值</center>


In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f() f.sf()
'''
Chemitech_P=f.sf(Chemitech_TS,moldf,dendf)
print('p-值={:.3f}<alpha=0.05，我们拒绝H_0'.format(Chemitech_P))

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f() f.isf()
'''
Chemitech_F=f.isf(0.05,moldf,dendf)
print('由于检验统计量={:.2f}>临界值F={:.2f}，故我们拒绝H_0'.format(Chemitech_TS,Chemitech_F))

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f_oneway()
'''
f_oneway(Chemitech.iloc[:,0],Chemitech.iloc[:,1],Chemitech.iloc[:,2])

如同其他的检验假设方法一样，我们也可以利用临界值法。当alpha=0.05时，适用于上侧的拒绝法则是如果$F\ge3.89$，则拒绝$H_0$ 5  
因为F=9.18，所以我们拒绝$H_0$，并且得出结论：三个总体的均值是不相等的。检验k个总体均值相等的完整过程概况如下  
<hr />

**k个总体均值相等的检验**  
$$H_0:\mu_1=\mu_2=\dots=\mu_k$$
$$H_a:k个总体的均值不全相等$$
检验统计量  
$$F=\frac{MSTR}{MSE}$$
拒绝法则 5  
p-值法：如果p-值$\le\alpha$，则拒绝$H_0$  
临界值法：如果$F\ge{F_\alpha}$，则拒绝$H_0$  
式中，$F_\alpha$是分子自由度为k-1，分母自由度为$n_T-k$时，使F分布的上侧面积为$\alpha$的F值  
<hr />

## 13.2.4 ANOVA表
前面的计算结果可以很方便地用方差分析表或$ANOVA表$表示出来。一个完全随机化实验设计的ANOVA表的一般形式如表13-2所示  
在列标题“方差来源”中，与“总计”相联系的平方和称为总平方和(SST)。我们注意到，Chemitech公司实验的结果意味着：SST=SSTR+SSE，并且总平方和的自由度是处理平方和的自由度与误差平方和的自由度之和 5  
<center>表13-4 完全随机化设计的ANOVA表</center>

![tb13-2](../syn_pic/statistics_for_business_economics/tb13-2.png)
我们应该指出的是，如果我们将全部15个观测值看成是一个数据集，那么SST除以它的自由度$n_T-1$，恰好是该数据集的总的样本方差  
如果我们把整个数据集作为一个样本，总平方和SST的计算公式为（13-13）  
$$SST=\sum_{j=1}^{k}{\sum_{i=1}^{n_j}{(x_{ij}-\bar{x})^2}}$$
可以证明，我们从Chemitech公司实验的方差分析表上看到的结果也可以用于其他问题，即(13-14) 5  
$$SST=SSTR+SSE$$
换句话说，SST可以被分解为两个平方和：处理平方和误差平方和  
我们还注意到，SST对应的自由度$n_T-1$也可以被分解为对应于SSTR的自由度k-1与对应于SSE的自由度$n_T-k$  
方差分析可以被看做是将总平方和及其自由度**分解**成它们所对应的来源（处理与误差）的一个过程  
这些平方和除以适当的自由度，可以给出方差的估计量，以及用于检验总体均值相等的假设的F值和p-值 5  
## 13.2.5 方差分析的计算机输出结果
利用计算机统计软件包，可以很容易地完成大样本容量或多个总体方差分析的计算 5  

## 13.2.6 K个总体均值相等的检验：一项观测性研究  
我们已经说明了，对于一个完全随机化实验设计，怎样应用方差分析来检验k个总体均值是否相等的问题  
重要的是要理解：ANOVA也可以利用一项观测性研究得到的数据，来检验三个或三个以上总体均值是否相等的问题  
NCP公司在位于亚特兰大、达拉斯以及西雅图的工厂生产打印机与传真机  
为了考察在这些工厂中有多少员工了解质量管理方面的知识，管理人员从每个工厂抽取一个由6名员工组成的随机样本，并对他们进行质量意识考试  
18名员工的考试成绩列在表13-4中。管理人员希望利用这些数据来检验假设：三个工厂的平均考试成绩是相同的 5  
我们规定总体1为位于亚特兰大工厂的全体员工，总体2为位于达拉斯工厂的全体员工，总体3为位于西雅图工厂的全体员工。令  
$\mu_1=$总体1的平均考试成绩  
$\mu_2=$总体1的平均考试成绩  
$\mu_3=$总体1的平均考试成绩  
尽管我们永远不可能知道$\mu_1,\mu_2,\mu_3$的实际数值，但是我们仍然希望利用样本资料来检验下面的假设  
$$H_0;\mu_1=\mu_2=\mu_3$$  
$$H_a;总体均值不全相等$$  
5  
注意：对于NCP公司观测性研究进行的假设检验，与对于Chemitech公司的实验进行的假设检验是完全相同的  

In [None]:
'''
读取
'''
ncp=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/NCP.csv')
ncp

In [None]:
'''
python	pandas	dataframe	d.var()
python	pandas	series	s.round()

'''
ncp_mean=ncp.mean()
ncp_var=ncp.var()
ncp_std=ncp.std()
print('mean')
print(ncp_mean.to_string())
print('var')
print(ncp_var.to_string())
print('std')
print(ncp_std.round(2).to_string())

即使在分析时适用同样的ANOVA方法，但值得注意的是，NCP公司的观测性统计研究不同于Chemitech公司的实验性统计研究  
进行NCP公司研究的人员无法空值如何将员工个人指派给工厂。如果为了归类为实验性研究，NCP公司就必须随机抽取18名员工，然后以随机的方式将每一名员工指派到三家工厂中的一家工作 5  
## 注释
1. 总样本均值也可以按照k个样本均值的加权平均值来计算  
    $$\bar{x}=\frac{n_1\bar{x}_1+n_2\bar{x}_2+\dots+n_k\bar{x}_k}{n_T}$$
   在各个样本均值已给出的情况下，用这个公式计算总样本均值较式（13-3）简单  
2. 如果每个样本都由n个观测值组成，则式（13-6）可以写作 5  
    $$MSTR=\frac{n\sum_{j=1}^{k}{(\bar{x}_j-\bar{x})^2}}{k-1}=n\left[\frac{\sum_{j=1}^{k}{(\bar{x}_j-\bar{x})^2}}{k-1}\right]=ns^2_{\bar{x}}$$
    注意：当我们引入$\sigma^2$的处理间估计的概念时，这个结果与我们在13.2节中介绍的式(13-6)是相同的。式(13-6)是上面结果在样本容量不等时的简单推广  
3. 若每个样本有n个观测值，则$n_T=kn$；于是,$n_T-k=k(n-1)$，并且式(13-9)可以重写成如下形式  
    $$MSE=\frac{\sum_{j=1}^{k}{(n-1)s^2_j}}{k(n-1)}=\frac{(n-1)\sum_{j=1}^{k}{s_j^2}}{k(n-1)}=\frac{\sum_{j=1}^{k}{s^2_j}}{k}$$  
    5  
    换句话说，若样本容量相同，则MSE恰好为k个样本方差的算术平均值。注意：当我们引入$\sigma^2$的处理内估计的概念时，上式与我们在13.2节中使用过式(13-9)相同 5  
    
# 13.3 多重比较方法  
当我们应用方差分析方法检验k个总体均值是否相等时，拒绝原假设只能让我们得出k个总体的均值不全相等的结论  
在某些情况下，我们希望再向前迈进一步，并确定在k个均值中间到底哪几个均值之间存在差异。本节的目的是说明，如何使用**多重比较方法**在成对的总体均值之间进行统计比较  
## 13.3.1 Fisher的LSD方法  
假设，方差分析给出的统计依据，使得我们拒绝总体均值相等的原假设。在这种情况下，Fisher的最小显著性差异（LSD）方法可以用来确定，到底在哪些均值之间存在着差异  
为了说明在对总体均值进行两两比较如何使用Fisher的LSD方法，我们仍然回到13.1节介绍过的Chemitech公司实验的例子  
在第10章，我们介绍了检验两个总体均值相等的假设的统计方法。Fisher的LSD方法是以曾经介绍过的两个总体情形的t检验统计量为依据，只是在如何估计总体方差时做出细微的修正 5  
<hr />

**Fisher的LSD方法**  
$$H_0:\mu_i=\mu_j$$
$$H_a:\mu_i\ne\mu_j$$
检验统计量（13-16）  
$$t=\frac{\bar{x}_i-\bar{x}_j}{\sqrt{MSE\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}}$$
拒绝法则  
p-值法：如果p-值$\le\alpha$，则拒绝$H_0$  
临界值法：如果$t\le-t_{\alpha/2}$或者$t\ge{t_{\alpha/2}}$，则拒绝$H_0$ 5  
式中，$t_{\alpha/2}$是自由度为$n_T-k$时，使t分布的上侧面积为$\alpha/2$的t值  
<hr />

现在，让我们在$\alpha=0.05$的显著性水平下，应用这一方法来判定总体1(方法A)和总体2(方法B)的均值之间是否存在显著的差异。对于Chemitech公司的实验数据，检验统计量的值是  

In [None]:
Chemitech_T=(Chemitech_mean[0]-Chemitech_mean[1])/np.sqrt(mse*(1/chem_samplen[0]+1/chem_samplen[1]))
print('检验统计量的值={:.2f}'.format(Chemitech_T))

因为这是一个双边检验,p-值是t分布曲线下，t=-1.19左侧的面积的两倍  

In [None]:
'''
5  
python	scipy	Statistical functions (scipy.stats)	t() t.cdf()
'''
Chemitech_P=t.cdf(Chemitech_T,dendf)*2
print('由于P-值={:.2f}>alpha=0.05，所以我们不能拒绝原假设'.format(Chemitech_P))

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	ttest_ind()
'''
ttest_ind(Chemitech['Method A'],Chemitech['Method B'])

许多有实际经验的专业人员发现，通过判断样本均值之差的大小而决定是否拒绝$H_0$更容易些。在这种情形下，检验统计量为$\bar{x}_i-\bar{x}_j$，检验可按以下步骤进行  
<hr />

**基于检验统计量$\bar{x}_i-\bar{x}_j$的Fisher的LSD方法**  
$$H_0:\mu_i=\mu_j$$
$$H_a:\mu_i\ne\mu_j$$
检验统计量  
$$\bar{x}_i-\bar{x}_j$$
 5  
显著性水平$\alpha$下的拒绝法则  
<center>如果$|\bar{x}_i-\bar{x}_j|\gt LSD$，则拒绝$H_0$</center>

式中（13-17）  
<center>$LSD=t_{\alpha/2}\sqrt{MSE\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}$</center>

<hr />

对于Chemitech公司实验的例子，LSD的值为  

In [None]:
'''
5  
python	scipy	Statistical functions (scipy.stats)	t() t.isf()
'''
lsd=t.isf(0.05/2,dendf)*np.sqrt(mse*(1/chem_samplen[0]+1/chem_samplen[1]))
print('LSD的值为{:.2f}'.format(lsd))

注意：当样本容量相等时，只能计算出一个LSD的值。在这种情形下，我们可以简单地将任何两个样本均值之差的大小与LSD的值作比较  
例如，总体1与总体3的样本均值之差为10，因为该差值比7.34大，这就意味着，我们能够拒绝方法A与方法C每周生产的过滤系统总体的平均数量是相等的原假设  

In [None]:
Chemitech_mean[0]-Chemitech_mean[2]

Fisher的LSD方法也可用于建立两个总体均值之差的置信区间估计。一般步骤如下  
<hr />

**应用Fisher的LSD方法的两个总体均值之差的置信区间估计**（13-18） 5  
$$\bar{x}_i-\bar{x}_j\pm LSD$$
式中(13-19)  
$$LSD=t_{\alpha/2}\sqrt{MSE\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}$$
其中，$t_{\alpha/2}$是自由度为$n_T-k$时，使t分布的上侧面积为$\alpha/2$的t值  
<hr />

如果式（13-18）的置信区间包含数值0，则我们不能拒绝两个总体均值相等的原假设。但是，如果式(13-18)的置信区间不包含数值0，则我们可以得出两个总体均值之间存在差异的结论  
于是，总体1和总体2均值之差的置信水平为95%的置信区间估计是$(62-66)\pm7.34$；由于该区间包含数值0，所以我们不能拒绝两个总体均值相等的假设 5  
## 13.3.2 第一类错误概率 
我们开始讨论Fisher的LSD方法的前提是：方差分析为我们提供了拒绝总体均值相等的原假设的统计证据  
在这种情形下，我们说明了如何使用Fisher的LSD方法来确定：总体均值之间的差异到底出现在哪些均值之间  
在技术上，Fisher的LSD方法被称为保护性或限制性LSD检验，这是因为，只有当我们首先找到一个用于方差分析的显著的F值时，我们才使用LSD检验  
为了弄清楚在多重比较检验中，这种区别为什么是重要的，我们需要解释一下比较方式的第一类错误概率与实验方式的第一类错误概率的区别  
在Chemitech公司实验的例子中，我们利用Fisher的LSD方法做了三个成对的两两比较 5  
检验1  
$$H_0:\mu_1=\mu_2$$
$$H_a:\mu_1\ne \mu_2$$  
检验2  
$$H_0:\mu_1=\mu_3$$
$$H_a:\mu_1\ne \mu_3$$ 
检验3  
$$H_0:\mu_2=\mu_3$$
$$H_a:\mu_2\ne \mu_3$$
在每一种情形下，我们都使用$\alpha=0.05$的显著性水平。因此，对每个检验，如果原假设为真，则犯第一类错误的概率为$\alpha=0.05$  
在讨论多重比较方法时，我们把这个第一类错误的概率（$\alpha=0.05$）称为**比较方式的第一类错误概率**；比较方式的第一类错误概率表示了与单个的两两比较相联系的显著性水平 5    
现在我们考虑一个略为不同的问题。在进行三次成对的两两比较时，三次检验中至少有一次犯第一类错误的概率是多少？  
为了回答这个问题，我们注意到：三次检验都不犯第一类错误的概率为  

In [None]:
'''
python	numpy	Mathematical functions	np.power()
'''
np.around(1-np.power(0.95,3),4)

我们将这个错误概率称为总的或**实验方式的第一类错误概率**。为避免混淆，我们将实验方式的第一类错误概率即为$\alpha_{EW}$  
对于总体个数较多的问题，犯实验方式第一类错误的概率就会变得比较大。例如，对于有5个总体、10个可能的成对的两两比较的问题 5  
在比较方式错误概率$\alpha=0.05$时，如果我们利用Fisher的LSD方法检验所有可能的成对的两两比较，则犯实验方式第一类错误的概率将是    

In [None]:
np.around(1-np.power(1-0.05,10),2)

控制总的犯实验方式错误概率的一种方法称为Bonferroni修正方法，该方法在每一次检验中都使用一个较小的比较方式错误概率  
例如，如果我们想要检验C个成对的两两比较，并希望总的犯实验方式第一类错误的最大概率为$\alpha_{EX}$，那么我们只要简单地将犯比较方式错误概率等于$\alpha_{EX}/C$即可  
在Chemitech公司实验的例子中，如果我们想要使用Fisher的LSD方法检验所有三个成对的两两比较，并且希望犯实验方式错误的最大概率为$\alpha_{EX}=0.05$时，那么我们只要设比较方式错误概率为 5  

In [None]:
np.around(0.05/3,3)

In [None]:
np.around(0.05/10,4)

回忆一下第9章有关假设检验的讨论，对于固定的样本容量，减少犯第一类错误的概率将导致增加犯第二类错误的概率，而第二类错误是指：当两个总体的均值实际上不相等时，却接受了两总体均值相等的原假设  
在这种情况下，还有几种其他方法，如Tukey方法与Duncan多重区域检验，也可用于解决这里问题。事实上，没有任何一种方法对所有类型的问题都是最优的 5  
# 13.4 随机化区组设计
至此，我们已经讨论了完全随机化设计。回想一下，为检验处理均值之间的差异，我们计算F值时使用了比值(13-20)  
$$F=\frac{MSTR}{MSE}$$
每当外部的因素（实验中没有考虑到的因素）引起的差异使得式（13-20)中的分母MSE变大时，将会出现一个问题。在这种情况下，式(13-20)的F值将会变小  
于是，给我们发出的信号是处理均值之间不存在差异，而这一的差异在事实上却是存在的  
本节我们将介绍一种称为**随机化区组设计**的实验设计。这种实验设计方法是通过消除MSE项中来自外部的变异，以达到控制变异外部来源的目的 5  
该设计方法为真实的误差方差给出了一个更好的估计，并且在查明处理均值之间差异的能力方面，得到了一个更加有效的假设检验方法  
## 13.4.1 空中交通管理员工作压力测试  
考虑了工作站的若干设计方案后，三种最有可能减轻管理员工作压力的工作站具体方案被选出。关键问题是：三种方案对管理员工作压力的影响程度有多大差异？  
在完全随机化实验中，管理员的随机样本被指派给每种工作站方案。但是，管理员认为，在应对有压力的局面时，他们的能力是大不相同的    
因此，当考虑变异的组内来源（MSE）时，我们必须意识到：该变异既包括随机误差又包括管理员个人差异导致的误差  
将个人差异的影响分离出来的一种办法是使用随机化区组设计。这样的设计能识别出源自管理员个人差异的变异性，并将其从MSE项中剔除 5   
随机化区组需要管理员的一个单样本。样本中每个管理员要分别在三种工作站方案下接受检验。用实验设计的术语，工作站是影响因子，管理员是区组  
随机化区组设计中随机化是指（系统）指派给管理员的顺序是随机的  
为了给出必要的数据，将三种工作站安装在俄亥俄州奥柏林的克利夫兰控制中心。随机选出6名管理员，并指派他们操作每个系统。数据如表13-5所示  
<center>表13-5 空中交通管理员工作压力测试的随机化区组设计</center>


In [None]:
'''
读取 5
'''
airTraffic=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/AirTraffic.csv')
airTraffic

表13-6是收集的管理员工作压力测试数据的汇总。因为较低的工作压力测试值被人为是比较好的，所以样本数据看起来似乎支持系统B，因为它的平均压力等级为13  
但是，通常的问题仍然存在：对于三个系统，样本数据证明了总体的平均压力水平是不同的结论吗？类似完全随机化设计方法，方差分析的计算可以用来回答这个统计问题  
<center>表13-6 空中交通管理员工作压力测试的压力数据汇总</center>

In [None]:
'''
python	pandas	dataframe	d.set_index()
'''
airTraffic_reset1=airTraffic.set_index('Controller')
airTraffic_reset1

In [None]:
'''
python pandas dataframe d.stack()
'''
airTraffic_reset2=airTraffic_reset1.stack()
airTraffic_reset2.index.names=['Controller','System']
airTraffic_reset2.name='pressure'
airTraffic_reset2.head()

In [None]:
'''
python	pandas	series	s.index
python	pandas	series	s.reindex()
'''
airTraffic_reset3=airTraffic_reset2.reset_index()
airTraffic_reset3.head()

In [None]:
'''
python	pandas	dataframe	d.pivot_table() aggfunc
python	pandas	dataframe	d.pivot_table() margins
'''
airTraffic_pt=airTraffic_reset3.pivot_table(index='Controller',columns='System',aggfunc='sum',margins=True)
airTraffic_pt

In [None]:
airTraffic_reset1.mean()

In [None]:
'''
python	pandas	dataframe	d.mean() axis
'''
airTraffic_reset1.mean(axis=1)

## 13.4.2 ANOVA方法
随机化区组设计的ANOVA方法要求我们将总平方和（SST）分解成三个部分：处理平方和（SSTR）、区组平方和（SSBL）和误差平方和（SSE）。该分解的公式如下（13-21）  
<center>SST=SSTR+SSBL+SSE</center>

5  
我们将这一平方和的分解汇总与表13-7所示的随机化区组设计的ANOVA表中  
表中所使用的记号分别表示：k代表处理的个数;b代表区组的个数;$n_T$代表总样本容量($n_T=kb$)
注意：ANOVA表还显示出：总自由度$n_T-1$如何被分解成处理的自由度k-1、区组的自由度b-1和误差项的自由度(k-1)(b-1)的和  
均方列表示的是平方和被自由度除，F=MSTR/MSE是用于检验处理均值之间差异显著性的F比  
随机化区组设计的主要贡献是：通过划分区组，我们将管理员个人的差异从MSE项中剔除，并且得到了一个在三种可供选择的工作站方案中压力差异的更有力的检验 5  
<center>表13-7 k个处理,b个区组的随机化区组设计的ANOVA表</center>

|方差来源|平方和|自由度|均方|F|p-值|
|--|--|--|--|--|--|
|处理|SSTR|k-1|$$MSTR=\frac{SSTR}{k-1}$$|$\frac{MSTR}{MSE}$||
|区组|SSBL|b-1|$$MSBL=\frac{SSBL}{b-1}$$|||
|误差|SSE|(k-1)(b-1)|$$MSE=\frac{SSE}{(k-1)(b-1)}$$|||
|总计|SST|$n_T$-1||||

5  
## 13.4.3 计算与结论
为了检验随机化区组设计中的处理均值之间的差异，我们需要计算F统计量。为简化演示，我们分四步完成计算  
$x_{ij}$代表在区组i中对应于处理j的观测值;$\bar{x}_{.j}$代表第J个处理的样本均值;$\bar{x}_{i.}$代表第1个区组的样本均值;$\bar{\bar{x}}$代表总样本均值  
第1步:计算总平方和(SST)（13-22）
$$SST=\sum_{i=1}^{b}\sum_{j=1}^{k}(x_{ij}-\bar{\bar{x}})^2$$
第2步:计算处理平方和(SSTR)（13-23） 5
$$SSTR=b\sum_{j=1}^{k}(\bar{x}_{.j}-\bar{\bar{x}})^2$$
第3步:计算区组平方和(SSBL)（13-24）
$$SSBL=k\sum_{j=1}^{b}(\bar{x}_{i.}-\bar{\bar{x}})^2$$
第4步:计算误差平方和(SSE)（13-25）
<center>SSE=SST-SSTR-SSBL</center>

5  
对于表13-6中的空中交通管理员的数据，根据这些计算步骤得到下面的平方和  

In [None]:
'''
第一步
python	pandas	series	s.apply()
python	python	More on Defining Functions	lambda a, b: a+b
python	python	str	s.format() f
'''
pressure_all=airTraffic_reset3['pressure']
pressure_sst=pressure_all.apply(lambda x:np.power(x-pressure_all.mean(),2)).sum()
sst_df=len(airTraffic_reset3)-1
print('sst={:.0f},sst_df={:.0f}'.format(pressure_sst,sst_df))

In [None]:
'''
第二步
'''
pressure_sstr=airTraffic_reset1.mean().sub(pressure_all.mean()).pow(2).sum()*len(airTraffic_reset1)
sstr_df=len(airTraffic_reset1.columns)-1
print('sstr={:.0f},sstr_df={:.0f}'.format(pressure_sstr,sstr_df))

In [None]:
'''
第三步
python	pandas	dataframe	d.mean() axis
'''
pressure_ssbl=airTraffic_reset1.mean(axis=1).sub(pressure_all.mean()).pow(2).sum()*len(airTraffic_reset1.columns)
ssbl_df=len(airTraffic_reset1)-1
print('ssbl={:.0f},ssbl_df={:.0f}'.format(pressure_ssbl,ssbl_df))

In [None]:
'''
第四步 5  
'''
pressure_sse=pressure_sst-pressure_sstr-pressure_ssbl
sse_df=ssbl_df*sstr_df
print('sse={:.0f},sse_df={:.0f}'.format(pressure_sse,sse_df))

这些平方和分布除以它们各自的自由度，得到如表13-8所示的对应的均方值  

In [None]:
mstr=pressure_sstr/sstr_df
msbl=pressure_ssbl/ssbl_df
mse=pressure_sse/sse_df
pressure_f=mstr/mse
print('检验统计量的值是{:.2f}'.format(pressure_f))

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f() f.sf()
'''
pressure_p=f.sf(pressure_f,dfn=sstr_df,dfd=sse_df)
print('P-值={:.3f}<alpha=0.05，我们拒绝原假设，三个可供选择的工作站，总体的平均压力水平是不同的'.format(pressure_p))

In [None]:
'''
python	patsy	formula	C()
python	statsmodels	ANOVA	smf.ols()
python	statsmodels	ANOVA	Models.fit()
'''
pressure_formula='pressure~ System + C(Controller)'
pressure_ols=ols(pressure_formula,airTraffic_reset3).fit()
pressure_ols.summary()

In [None]:
'''
python	statsmodels	ANOVA	anova_lm()
'''

pressure_anova_results = anova_lm(pressure_ols)
pressure_anova_results

关于随机化区组设计，我们可以做一些一般性的注释。本节所介绍的实验设计是一种完全的区组设计：“完全”一词表明：每一个区组都要从属于所有k个处理  
也就是说，所有管理员（区组）要在所有三个系统（处理）下接受测试。如果某些（但不是全部）处理用于每个区组，这样的实验设计被称为不完全区组设计 5  
但是，在某些情况下，区组的划分是在每个区组内使实验单元是“相似的”情况下实施的  
例如，假设在空中交通管理员的一个预先测试中，管理员总体被分为若干个组，从极高的个人压力组到极低的个人压力组。每一个压力分组中有三名管理员参加研究，这样我们就实现了区组划分  
最后，我们要注意：表13-7所示ANOVA表给出的F值是为了检验处理的影响，而不是检验区组的影响。其原因在于实验是为了检验单一因素——工作站方案而设计的  
基于个人压力差异的区组划分是为了从MSE项中剔除这种变异性而实施的 
有些统计分析员计算F=MSBL/MSE，并用该统计量检验区组的显著性。然后他们利用这一结果作为在将来的实验中是否可以要求进行同样类型的区组划分的一个依据 5  
然而，如果管理员个人压力差异成为研究的一个因子，那么应该使用不同的实验设计。有关第二个因子的结论，不应该作为实施区组显著性检验的一个依据  
## 注释
因为有b个区组使得自由度减少了b-1，所以随机化区组设计的误差自由度小于完全随机化设计的误差自由度  
如果n很小，因为误差自由度的减少，区组的潜在影响可能被掩盖;当n很大时，这种影响被最小化了 5  
# 析因实验
迄今为止，我们所讨论的实验设计使我们能够得出有关一个因子的一些统计结论。然而，在有些实验中，我们希望得到有关一个以上变量或因子的统计结论  
**析因实验**是一种实验设计，该实验设计允许我们同时得到有关两个或两个以上因子同时存在时的一些统计结论  
之所以使用术语“析因”是因为实验条件包含了所有可能的因子组合。例如，如果有因子A的a个水平，因子B的b个水平，那么实验将涉及收集ab个处理组合的数据  
作为两因子析因实验的一个例子，我们将考虑与管理类研究生入学考试（GMAT）有关的一项研究  
在试图提高学生的GMAT的成绩时，著名的德克萨斯大学考虑提供下面三种GMAT辅导课程 5  
1. 3小时的复习课，内容覆盖了GMAT常考的题型  
2. 一天的课程，内容覆盖了相关的考试内容，还要进行一次模拟考试并评定分数  
3. 10周的强化班，内容涉及发现每个考生的薄弱环节并设立个性化的提高课程  

因此，这项研究中的一个因子就是GMAT辅导课程，该课程有三个处理：3小时的复习课、一天的课程和10周的强化班  
通常参加GMAT考试的学生来自三种类型的院校：商学院、工学院以及艺术与科学学院。因此，在实验中值得关注的第二个因子就是学生本科所在的院校是否影响GMAT分数 5  
本科所在院校这第二个因子，也有三个处理：商学院、工学院以及艺术与科学学院  
对于这一实验的析因设计有三个处理对应于因子A——辅导课程，有三个处理对应于因子B——本科所在的院校，因此以一共有$3\times3=9$种处理组合  
<center>表13-9 两因子GMAT实验的9种处理组合</center>

![tb13-9](../syn_pic/statistics_for_business_economics/tb13-9.png)
假设，对应于表13-9所示的9种处理组合的每一个，我们都选取两名学生组成一个样本：两名商学院学生参加3小时的复习课，另两名参加一天的课程，还有两名参加10周的强化班  
此外，对于每种辅导课程，各有两名工学院的学生以及艺术与科学学院的学生参加。用实验设计的术语，每个处理组合容量为2的样本意味着我们有两个**复制** 5  
这个实验设计要求：从每一个本科院校准备就读研究生的学生里随机地抽取6名学生  
然后，每个本科院校的两名学生应该随机地指派参加每种辅导课程，从而一共有18名学生参加了该项研究  
我们假定：随机抽取的学生已经上完辅导课程，并且也已参加了GMAT。他们的得分列于表13-10中  
<center>表13-10 两因子实验的GMAT分数</center>

![tb13-10](../syn_pic/statistics_for_business_economics/tb13-10.png)

In [None]:
'''
5  
python	pandas	dataframe	d.rename() inplace
python	pandas	dataframe	d.fillna() method 
python	pandas	dataframe	d.unstack()
python	pandas	series	s.reset_index()

'''
GMATStudy=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/GMATStudy.csv')
GMATStudy.rename(columns={'Unnamed: 0':'FactorA'}, inplace = True)
GMATStudy=GMATStudy.fillna(method='ffill')
GMATStudy_lv1=GMATStudy.set_index('FactorA').unstack()
GMATStudy_lv1.name='values'
GMATStudy_lv2=GMATStudy_lv1.reset_index()
GMATStudy_lv2.rename(columns={'level_0':'FactorB'}, inplace = True)
GMATStudy_lv2

我们对表13-10中的数据进行方差分析计算，计算结果可以给出下面问题的答案  
+ 主影响（因子A）：辅导课程的不同对GMAT的成绩有影响吗？  
+ 主影响（因子B）：本科院校的不同对GMAT的成绩有影响吗？  
+ 交互影响（因子A和B）：一些本科院校的学生参加某种类型的辅导课程得到较好的GMAT成绩，而另一些本科院校的学生参加另一种类型的辅导课程能得到较好的GMAT成绩吗？  

术语**交互作用** 是指一种新的影响，因为我们应用了析因实验，所以现在可以研究这种新的影响了 5  
## 13.5.1 ANOVA方法
两因子析因实验的ANOVA方法要求我们将总平方和(SST)分解为四个部分：因子A的平方和(SSA)，因子B的平方和(SSB)，交互作用的平方和(SSAB)和误差平方和(SSE)  
分解公式如下（13-26）  
$$SST=SSA+SSB+SSE$$
平方和与自由度的分解汇总与表13-11中，表中使用了下面的符号：a代表因子A的水平数;b代表因子B的水平数;r代表复制的个数;$n_T$代表实验中观测值的总数;$n_T=abr$  
<center>表13-11 有r个复制的两因子析因实验的ANOVA表</center>

|方差来源|平方和|自由度|均方|F|p-值 5|
|--|--|--|--|--|--|
|因子A|SSA|a-1|$$MSA=\frac{SSA}{a-1}$$|$\frac{MSA}{MSE}$||
|因子B|SSB|b-1|$$MSB=\frac{SSB}{b-1}$$|$\frac{MSB}{MSE}$||
|交互作用|SSAB|(a-1)(b-1)|$$MSAB=\frac{SSAB}{(a-1)(b-1)}$$|$\frac{MSAB}{MSE}$||
|误差|SSE|ab(r-1)|$$MSE=\frac{SSE}{ab(r-1)}$$|||
|总计|SST|$$n_T-1$$|5|||

## 13.5.2 计算与结论
为了检验因子A、因子B和交互作用的显著性，我们需要计算F统计量，为此我们需要计算MSA、MSB、MSAB和MSE  
为了简化表述，我们将计算分5步进行。除a、b、r和$n_T$如前定义外，我们还是用了下面的符号  
$x_{ijk}$——对应于因子A的处理i和因子B的处理j的第k次复制的观测值  
$\bar{x}_{i.}$——处理i（因子A）的观测值的样本均值  
$\bar{x}_{.j}$——处理j（因子B）的观测值的样本均值 5  
$\bar{x}_{ij}$——对应于处理i（因子A）和处理j（因子B的）组合的观测值的样本均值  
$\bar{\bar{x}}$——所有$n_T$个观测值的总样本均值  
第1步：计算总平方和（13-27）  
$$SST=\sum_{i=1}^{a}{\sum_{j=1}^{b}{\sum_{k=1}^{r}{(x_{ijk}-\bar{x})^2}}}$$
第2步：计算因子A的平方和（13-28） 5  
$$SSA=br\sum_{i=1}^{a}{(\bar{x}_{i.}-\bar{x})^2}$$
第3步：计算因子B的平方和（13-29）  
$$SSB=ar\sum_{i=1}^{b}{(\bar{x}_{.j}-\bar{x})^2}$$
第4步：计算交互作用的平方和（13-30）  
$$SSAB=r\sum_{i=1}^{a}{\sum_{j=1}^{b}{(\bar{x}_{ij}-\bar{x}_{i.}-\bar{x}_{.j}+\bar{x})^2}}$$
5  
第5步：计算误差平方和（13-31）  
$$SSE=SST-SSA-SSB-SSAB$$  
表13-12列出了实验收集的数据和有助于我们计算平方和的各个合计。对于GMAT两因子析因实验，我们利用式(13-27)-式(13-31)，计算的平方和如下所示  
<center>表13-12 两因子实验的GMAT汇总数据</center>

![tb13-12](../syn_pic/statistics_for_business_economics/tb13-12.png)

In [None]:
'''
python	pandas	series	s.var()
第1步
'''
gmat_value=GMATStudy_lv2['values']
gmat_x_bar=gmat_value.mean()
gmat_sst=gmat_value.var()*(len(gmat_value)-1)
gmat_sst

In [None]:
'''
 5
python	pandas	series	s.groupby()
python	pandas	GroupBy	g.mean()
python	pandas	dataframe	d.groupby()
python	pandas	GroupBy	g.count()
python	pandas	series	s.iloc[]
'''
gmat_xi_bar=gmat_value.groupby(GMATStudy_lv2['FactorA']).mean()
gmat_xj_bar=gmat_value.groupby(GMATStudy_lv2['FactorB']).mean()
gmat_xij_bar=GMATStudy_lv2.groupby(['FactorB','FactorA']).mean()
gmat_r=GMATStudy_lv2.groupby(['FactorB','FactorA']).count().iloc[0]
gmat_a=len(gmat_xi_bar)
gmat_b=len(gmat_xj_bar)

In [None]:
'''
第2步
'''
gmat_ssa=gmat_b*gmat_r*gmat_xi_bar.sub(gmat_x_bar).pow(2).sum().round(0)

In [None]:
'''
第3步
'''
gmat_ssb=gmat_a*gmat_r*gmat_xj_bar.sub(gmat_x_bar).pow(2).sum()
gmat_ssb

In [None]:
'''
python	pandas	series	s.reset_index()
python	pandas	dataframe	d.merge() suffixes
python	pandas	dataframe	d.set_index()
'''
gmat_xi_bar_lv1=gmat_xi_bar.reset_index()
gmat_xj_bar_lv1=gmat_xj_bar.reset_index()
gmat_xij_bar_lv1=gmat_xij_bar.reset_index()
gmat_xij_bar_lv2=gmat_xij_bar_lv1.merge(gmat_xi_bar_lv1,on='FactorA',suffixes=('','_i')).merge(gmat_xj_bar_lv1,on='FactorB',suffixes=('','_j'))
gmat_xij_bar_lv3=gmat_xij_bar_lv2.set_index(['FactorA','FactorB'])
gmat_xij_bar_lv3

In [None]:
'''
第4步
'''
gmat_ssab=gmat_r*gmat_xij_bar_lv3['values'].sub(gmat_xij_bar_lv3['values_i']).sub(gmat_xij_bar_lv3['values_j']).add(gmat_x_bar).pow(2).sum()
gmat_ssab=gmat_ssab.round(0)
gmat_ssab

In [None]:
'''
第5步 5
'''
gmat_sse=gmat_sst-gmat_ssa-gmat_ssb-gmat_ssab
gmat_sse

这些平方和除上它们所对应的自由度，得到适用于检验两个主影响（辅导课程和本科院校）和交互作用影响的均方值   

In [None]:
gmat_msa=gmat_ssa/(gmat_a-1)
gmat_msb=gmat_ssb/(gmat_b-1)
gmat_msab=gmat_ssab/((gmat_a-1)*(gmat_b-1))
gmat_mse=gmat_sse/(gmat_a*gmat_b*(gmat_r-1))

因为在任何中型到大型的析因实验中涉及大量的计算，因此在实施上面方差分析和用于假设检验推断的p-值计算时，计算机通常起着重要的作用  

In [None]:
'''
python	pandas	dataframe	d.copy()
'''
gmat_copy=GMATStudy_lv2.copy()
gmat_copy.columns=['b','a','c']
gmat_copy.head(5)

In [None]:
'''
5   
python	statsmodels	api formula.api
python	statsmodels	ANOVA	smf.ols()
python	statsmodels	ANOVA	Models.fit()
python	statsmodels	ANOVA	anova_lm()
python	patsy	formula	formula
'''
formula='c~ a + b + a:b'
anova_results = anova_lm(ols(formula,gmat_copy).fit())
anova_results

在$\alpha=0.05$的显著性水平下，对两因子的GMAT研究进行假设检验。用于检验三种辅导课程（因子A）之间显著差异的p-值是0.299   
因为p-值=0.299，大于$\alpha=0.05$，所以对于三种辅导课程，GMAT的平均考试成绩不存在显著差异  
但是，对于本科院校的影响，p-值=0.005，小于$\alpha=0.05$;于是，对于三种类型的本科院校，GMAT的平均考试成绩存在显著差异  
最后，因为交互作用影响的p-值=0.350，大于$\alpha=0.05$，所以不存在显著的交互作用影响  
综上所述，这项研究没有理由让我们相信：对于来自不同本科院校准备参加GMAT考试的学生，三种辅导课程在提高他们GMAT的成绩方面是不同的 5  
我们发现，本科院校是一个显著的因子。我们可以对个别处理的均值进行检验；然而，观测三个样本均值后，我们可以期望：商学院和工学院学生的GMAT分数对辅导课程没有显著区别 5  

In [None]:
'''
python	statsmodels	Statistics stats	pairwise_tukeyhsd()
python	statsmodels	Statistics stats	TukeyHSDResults() summary()
'''
hsd=pairwise_tukeyhsd(gmat_copy['c'],gmat_copy['b'])
print('Arts and Sciences 存在与其他两个院校存在显著差异')
hsd.summary()

# 小结
本章我们介绍了如何利用方差分析来检验若干个总体或处理之间的差异。我们引进了完全随机化设计、随机化区组设计和两因子析因实验  
我们利用完全随机化设计和随机化区组设计，可以得出有关单个因子均值之间是否存在差异的结论。在随机化区组设计中划分区组的主要目的是从误差项中删除来自外部的变异  
我们已经说明了，在方差分析和实验设计中使用的统计检验的基础是建立总体方差$\sigma^2$的两个独立的估计量  
我们已经说明了，在方差分析和实验设计中使用的统计检验的基础是建立总体方差$\sigma^2$的两个独立的估计量  
在单因子情形，一个估计量以处理之间的差异为依据；这个估计量仅当均值$\mu_1,\mu_2,\dots,\mu_k$全相等时，给出$\sigma^2$的一个无偏估计量 5  
$\sigma^2$的第二个估计量以每个样本内部观测值的差异为依据;这个估计量总能给出$\sigma^2$的一个无偏估计量  
为了确定总体或处理均值相等的原假设是否成立，我们通过计算$\sigma^2$的这两个估计量的比值(F统计量)，建立了一个拒绝该原假设的规则  
在所有讨论过的实验设计中，我们要按照不同的来源对平方和和自由度进行分解，从而使我们能够计算出适用于方差分析和检验的数值  
我们还说明了Fisher的LSD方法和Bonferroni修正方法如何用于成对比较以判断在哪些均值之间有差异 5  
# 关键术语
**因子** 引起关注的自变量的另一个称谓  
**处理** 因子的不同水平  
**响应变量** 引起关注的应变量的另一个称谓  
**实验单元** 实验中引起关注的研究对象  
**ANOVA表** 一种用来汇总方差分析计算和结果的表。它包括显示方差来源、平方和、自由度、均方和F值得列 5  
**分解** 将总平方和与自由度分配给各组成部分的过程  
**多重比较方法**  能用于成对的总体均值之间进行统计比较的统计方法  
**比较方式的第一类错误概率** 与单个两两成对比较相联系的犯第一类错误的概率  
**实验方式的第一类错误概率** 若干个两两比较中至少有一个犯第一类错误的概率  
**完全随机化设计** 处理被随机地指派给实验单元的一种实验设计 5  
**区组划分** 对所有的处理使用相同的或相似的实验单元的过程。区组划分的目的使从误差项中删除来自外部的变异，因此给出了总体或处理均值之间是否存在差异的更有力的检验  
**随机化区组设计** 使用区组划分的一种实验设计  
**析因实验** 一种实验设计方法，该方法允许我们得到有关两个或两个以上因子同时存在的统计结论  
**复制** 在一个实验中每个实验条件的重复次数  
**交互作用** 当一个因子的水平与另一个因子的水平相互作用时，对响应变量产生的影响 5  
# 重要公式  
**完全随机化设计**  
处理j的样本均值（13-1）  
$$\bar{x}_j=\frac{\sum_{i=1}^{n_j}{x_{ij}}}{n_j}$$  
处理j的样本方差（13-2）  
$$s^2_j=\frac{\sum_{i=1}^{n_j}{(x_{ij}-\bar{x}_j)^2}}{n_j-1}$$
总样本均值（13-3） 5  
$$\bar{x}=\frac{\sum_{j=1}^{k}{\sum_{i=1}^{n_j}{x_{ij}}}}{n_T}$$
$$n_T=n_1+n_2+\dots+n_k$$
均方处理（13-7）  
$$MSTR=\frac{SSTR}{k-1}$$
处理平方和（13-8）  
$$SSTR=\sum_{j=1}^{k}{n_j(\bar{x}_j-\bar{x})^2}$$
均方误差（13-10） 5  
$$MSE=\frac{SSE}{n_T-k}$$
误差平方和（13-11）  
$$SSE=\sum_{j=1}^{k}{(n_j-1)s_j^2}$$
k个总体均值相等的检验统计量（13-12）  
$$F=\frac{MSTR}{MSE}$$
总平方和（13-13） 5  
$$SST=\sum_{j=1}^{k}\sum_{i=1}^{n_j}{(x_{ij}-\bar{x})^2}$$
平方和分解（13-14）  
$$SST=SSTR+SSE$$
**多重比较方法**  
Fisher的LSD方法的检验统计量（13-16）  
$$t=\frac{\bar{x}_i-\bar{x}_j}{\sqrt{MSE\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}}$$
Fisher的LSD（13-17） 5  
$$LSD=t_{\alpha/2}\sqrt{MSE\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}$$  
**随机化区组设计**  
总平方和（13-22）  
$$SST=\sum_{i=1}^{b}\sum_{j=1}^{k}(\bar{x}_{ij}-\bar{\bar{x}})^2$$
处理平方和（13-23）  
$$SSTR=b\sum_{j=1}^{k}{(\bar{x}_{.j}-\bar{\bar{x}})^2}$$
区组平方和（13-24） 5  
$$SSBL=k\sum_{i=1}^{b}{(x_{i.}-\bar{\bar{x}})^2}$$
误差平方和（13-25）  
$$SSE=SST-SSTR-SSBL$$  
**析因实验**  
总平方和（13-27）  
$$SST=\sum_{i=1}^a{\sum_{j=1}^b{\sum_{k=1}^r{(x_{ijk}-\bar{\bar{x}})^2}}}$$
因子A的平方和（13-28） 5  
$$SSA=br\sum_{i=1}^a{(\bar{x}_{.j}-\bar{\bar{x}})^2}$$
因子B的平方和（13-29）  
$$SSB=ar\sum_{j=1}^b(\bar{x}_{.j}-\bar{\bar{x}})^2$$  
交互作用平方和（13-30）  
$$SSAB=r\sum_{i=1}^a\sum_{j=1}^b(\bar{x}_{ij}-\bar{x}_{i.}-\bar{x}_{.j}+\bar{\bar{x}})^2$$ 
误差平方和（13-31） 5  
$$SSE=SST-SSA-SSB-SSAB$$
# 案例13-1
**Wentworth 医疗中心**  
作为对65岁及以上的老人长期研究的一部分，位于纽约州北部地区的Wentworth医疗中心的社会学家和内科医生调查了地理位置和抑郁症之间的关系  
抽取了60名健康状况不错的人组成的一个样本，其中20人居住在北卡罗莱纳州，20人居住在纽约州，20人居住在佛罗里达州  
对随机选中的每个人进行了一次测量抑郁症的标准化检验，收集到的数据如下表所示；较高的检验分数表示有较高程度的抑郁症  

In [None]:
Medical1=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/Medical1.csv')
Medical1.head()

研究的第二部分时考察地理位置与患有慢性病的65岁及以上的老人得抑郁症之间得关系，这项慢性病诸如关节炎、高血压和心脏病等 5  
具有这种身体状况的老人也抽取60人组成的一个样本，同样20人居住在北卡罗莱纳州，20人居住在纽约州，20人居住在佛罗里达州  

In [None]:
Medical2=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/Medical2.csv')
Medical2.head()

**管理报告**  
1. 利用描述统计学方法汇总这两部分研究的数据。关于抑郁症的得分，你的初步观测结果是什么？

In [None]:
for s in Medical1:
    ms=Medical1[s]
    ms.plot.hist(bins=15,edgecolor='black',alpha=0.3)    
    plt.title(s)
    plt.show()

In [None]:
'''
5  
python	pandas	series	s.plot.hist() bins
python	matplotlib	Artist	alpha
python	matplotlib	patches	Patch() edgecolor/color
python	matplotlib	Pyplot function overview	plt.title()
'''
for s in Medical2:
    ms=Medical2[s]
    ms.plot.hist(bins=15,edgecolor='black',alpha=0.3)    
    plt.title(s)
    plt.show()

In [None]:
Medical1_des=Medical1.describe()
Medical1_des

In [None]:
'''
python	pandas	series	s.pow()
'''
Medical1_des.loc['std',:].pow(2)

In [None]:
Medical2_des=Medical2.describe()
Medical2_des

In [None]:
Medical2_des.loc['std',:].pow(2)

Florida的样本均值较其他两个州都低，North Carolina的样本方差较较其他两个州都高 5  

2. 对于两个数据集使用方差分析方法，在每种情况下称述需要进行检验的假设，你的结论是什么？  
原假设：$\mu_1=\mu_2=\mu_3$  备择假设：$\mu_1=\mu_2=\mu_3$不成立  

In [None]:
'''
python	scipy	Statistical functions (scipy.stats)	f_oneway()

'''
Medical1_f,Medical1_p=f_oneway(Medical1.iloc[:,0],Medical1.iloc[:,1],Medical1.iloc[:,2])
print('由于抑郁症的P-值={:.3f}<alpha=0.05，故拒绝原假设'.format(Medical1_p))

In [None]:
Medical2_f,Medical2_p=f_oneway(Medical2.iloc[:,0],Medical2.iloc[:,1],Medical2.iloc[:,2])
print('由于慢性疾病的P-值={:.3f}>alpha=0.05，故不能拒绝原假设'.format(Medical2_p))

3. 在适当的地方使用单个处理方法的统计推断。你的结论是什么？ 5  

In [None]:
def hsdDf(df):   
    '''
    5  
    python	pandas	dataframe	d.stack()
    python	pandas	series	s.reset_index()
    python	pandas	dataframe	d.drop() axis
    python	statsmodels	Statistics stats	pairwise_tukeyhsd()
    python	statsmodels	Statistics stats	TukeyHSDResults() summary()
    '''    
    lv1=df.stack().reset_index()
    lv1=lv1.drop('level_0',axis=1)
    lv1.columns=['area','value']
    return pairwise_tukeyhsd(lv1['value'],lv1['area']).summary()

Medical1_hsd=hsdDf(Medical1)
print('Florida与New York存在显著差异')
Medical1_hsd