In [None]:
import pandas as pd
import numpy as np

# 实践中的统计
Burke市场营销服务公司是工业界最富有经验的市场研究机构之一  
在一项研究中，Burke受聘于一家公司来为儿童干谷类食品的潜在新品种做出评价。Anon产品开发者认为可能改善谷类食品味道的四个关键因素为：  
1. 谷类食品中小麦与玉米的比例
2. 甜味剂的类型：食糖、蜂蜜或人工增甜剂  
3. 有无果味香精 5  
4. 加工时间的长短  

Burke设计了一个用于确定这四个因素对谷类食品味道将会产生什么影响的实验  
例如，一种测试的谷类食品是在某个特定的小麦与玉米的比例、食糖、果味香精和短加工时间条件下制成的  
另一种测试的谷类食品是在小麦与玉米的比例不同，但其他三个因素相同的条件下制成的，等等  
方差分析是一种统计方法，我们使用这种方法来研究儿童品尝谷类食品的味道得到的数据。下面显示的是分析结果： 5   
+ 谷类食品的成分及甜味剂的类型对味道评价的影响很大  
+ 果味香精事实上破坏了谷类食品的味道  
+ 加工时间对谷类食品的味道没有影响  

这些信息帮助Anon公司识别出了可能生产出最佳味道谷类食品的因素  
Burke进行的实验设计及随后的方差分析对生产谷类食品的设计方案很有助益 5  
在第1章里我们提到，统计研究可以分为实验性研究与观测性研究两类。在实验性统计研究中，数据是通过实验产生的。一项实验首先要从确定一个我们感兴趣的变量开始  
然后确定并控制一个或多个其他变量，这些其他变量与我们感兴趣的变量是相关的；于此同时，收集这些变量如何影响我们感兴趣的那一个变量的数据  
在观测性研究中，我们经常是通过抽样调查，而不是通过控制一项实验来获取数据。一些好的设计原则仍然会得到试用，但是严格控制一项实验性统计研究往往是不可能的  
在本章中，我们介绍三种类型的实验设计：完全随机化设计、随机化区组设计以及析因设实验  
对于每一种实验设计，我们将要说明，方差分析的统计方法如何能用于现有数据的分析。我们也可以使用ANOVA来分析通过观测性研究得到的数据 5  
在13.1节，我们将介绍实验性研究的基本原理，并且将说明，如何将这些基本原理应用到完全随机化设计中  
在接下来的几节中，我们将讨论多重比较方法和另外另个有广泛应用的实验设计：随机化区组设计和析因实验 5  
# 13.1 实验设计和方差分析简介  
作为实验性统计研究的例子，我们考虑Chemitech公司遇到的问题。公司的工程部负责确定新过滤系统的最佳装配方法  
考虑了各种更可能的装配方法后，工程部将范围缩小至三种方法：方法A、方法B及方法C。Chemitech公司希望确定：哪种装配方法能使每周生产的过滤系统的数量最多  
在Chemitech公司的实验中，装配方法是独立变量或**因子**。因为对应于这个因子有三种装配方法，所以我们说这一实验有三个处理；每个**处理**对应于三种装配方法中的一种  
Chemitech公司的问题是一个**单因子实验**的示例；该问题只涉及一个定性因子（装配方法）。更为复杂的实验可能由多个因子组成；其中有些因子可能是定性的，有些因子可能是定量的  
三种装配方法或处理确定了Chemitech公司实验的三个总体。第一个总体是使用装配方法A的全体工人，第二个总体是使用装配方法B的全体工人，第三个总体是使用装配方法C的全体工人 5  
注意，对每个总体，因变量或**响应变量**是每周装配的过滤系统的数量，并且该实验的主要统计目的是确定：三个总体每周所生产的过滤系统的平均数量是否相同  
假设从Chemitech公司生产车间的全体装配工人中抽取3名工人组成一个随机样本。用试验设计的术语，三名随机抽取的工人是**实验单元**  
我们将在Chemitech公司的问题中使用的实验设计成为**完全随机化设计**。这种类型的设计要求将每一种装配方法或处理随机地指派给一个实验单元或一名工人   
如图本例所解释的那样，随机化的概念是所有实验设计的一个重要原则  
注意：这个实验对每个处理只会得到一个装配好的过滤系统的测度或数量。对于每种装配方法，为了得到更多的数据，我们必须重复或复制基本的实验过程 5  
复制的过程是实验设计的另一个重要原则，图13-1显示了Chemitech公司实验的完全随机化设计  
![13-1](../syn_pic/statistics_for_business_economics/13-1.png)
<center>图13-1 评价Chemitech公司装配方法实验的完全随机化设计</center>

## 13.1.1 数据收集  
一旦我们对实验设计感到满意，我们将进行收集和分析数据的工作。在指派装配方法及培训工作都已经完成后，在一周内每名工人装配的过滤系统的数量如表13-1所示  
<center>表13-1 15名工人生产的过滤系统的数量</center>


In [None]:
'''
读取 5
'''
Chemitech=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch13/Chemitech.csv')
Chemitech.tail()