In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm,t
from matplotlib import pyplot as plt

# 实践中的统计
John Morrell公司于1827年创建于英国，是历史最悠久的肉类制造商。每种地区品牌都在消费者中拥有很高的品牌认知度和忠诚度  
John Morrell公司的市场研究部门负责管理公司各类产品的大量信息，并将这些产品与同类品牌的竞争产品进行对比。在这三种产品的对比检验中，消费者样本根据口感、外观、香味和整体偏好，对产品进行评价  
公司关注的一个研究问题是：消费者总体中是否有超过50%的人偏爱John Morrell公司生产的炖牛肉食品。令p表示偏爱John Morrell产品的总体比率，研究中问题的假设检验是：  
$$H_0:p\le0.50$$
$$H_a:p\gt0.50$$
原假设$H_0$表示，偏爱John Morrell产品的总体比率≤50% 5  
如果样本数据支持拒绝$H_0$，从而接受备择假设$H_a$，则John Morrell会得出研究结论：通过三种产品的比较，消费者总体中超过50%以上的人偏爱John Morrell公司的产品  
在一项独立的口感检验的研究中，来自辛辛那提、密尔沃基和洛杉矶的224名消费者组成一个样本，其中有150人选择John Morrell公司生产的炖牛肉为自己最喜爱的食品  
利用统计假设检验的步骤，原假设$H_0$被拒绝。研究提供统计证据支持$H_a$，得出的结论是：消费者总体中超过50%的人偏爱John Morrell公司的产品  
总体比率的点估计$\bar{p}=150/224=0.67$。因此，样本数据支持食品杂志的广告，认为在三种产品的口味比较重，John Morrell公司生产的炖牛肉“在竞争中受欢迎程度为2：1”  
本章我们将介绍如何提出假设，如何像John Morrell公司那样进行假设检验。通过分析样本数据，我们可以确定是否拒绝一个假设 5  
在第7章和第8章中，我们说明了如何利用样本对总体参数进行点估计和区间估计。本章，我们将继续讨论在统计推断中如何利用假设检验来确定是否应拒绝关于总体参数值的说法  
在假设检验中，我们首先对总体参数做一个尝试性的假设。该尝试性的假设称为**原假设**记作$H_0$。然后，定义另一个与原假设的内容完全对立的假设，记作$H_a$，称之为**备择假设**  
假设检验的过程就是根据样本数据对这两个对立的假设$H_0$和$H_a$进行检验  
本章说明如何对总体均值和总体比率进行假设检验 5  
# 9.1 原假设和备择假设的建立
原假设和备择假设可能并不总是显而易见的，必须谨慎地构造适当的假设，从而使得假设检验的结论能够为研究者或者决策者提供所需要的信息。在确定原假设和备择假设时，关键的问题是考虑搜集样本的目的是什么，我们想要做出怎样的结论  
在本章的开篇，我们说原假设$H_0$是关于总体参数（比如总体均值或者总体比率）的一个尝试性的假设。备择假设$H_a$是与原假设对立的一种说法  
## 9.1.1 备择假设作为研究的假设  
在许多假设检验的应用中，都是试图搜集证据来支持研究中的假设。在这些情形下，通常最好从备择假设开始，然后得到研究者希望支持的结论  
某产品研究小组专门设计了一种新型燃油喷射系统来提高每加仑英里数的额定值。产品研究小组要对这种新型燃油喷射系统进行控制实验，寻找统计依据做出结论：新型燃油喷射系统使得每加仑行驶的英里数超过目前使用的系统  
制造一批这种新型燃油喷射系统，将它们安装在要检测的汽车上，并且满足研究控制的驾驶条件 5  
计算这些汽车每加仑燃油行驶里程的样本均值，并据此在假设检验中判断是否可以得出结论：新型燃油喷射系统的每加仑燃油行驶里程超过了24英里  
令每加仑行驶里程的总体均值为$\mu$，则研究中的假设$\mu\gt24$是备择假设。由于目前的燃油喷射系统每加仑平均行驶里程是24英里，所以我们尝试性地假定：新型燃油喷射系统并不比目前的系统好，于是选择$\mu\le24$为原假设  
原假设和备择假设分别为：  
$$H_0:\mu\le24$$
$$H_a:\mu\gt24$$
如果样本结果得出拒绝$H_0$的结论，则可以做出$H_a:\mu\gt24$为真的推断。然而，如果样本结果得出不能拒绝$H_0$的结论，则研究者不能断定，新型燃油喷射系统由于目前的系统  
企业通过不断开发比已有产品和方法更优的新产品、新方法和新系统等，方能成功地保持竞争性 5  
在接纳一项新事物之前，希望通过研究来判定是否有统计依据支持我们做出新方法确实更好的结论。在这种情形下，通常将研究中的假设表述为备择假设  
例如，认为一种新型教学方法由于目前的方法，则备择假设为新方法更好，原假设为新方法不比老方法好。在这些情形下，若拒绝原假设$H_0$，则为研究中的假设提供了统计上的支持  
## 9.1.2 原假设作为被怀疑的假定 
当然，不是所有的假设检验都涉及研究的假设  
在下面的讨论中，我们考虑假设检验的应用，这里我们从一种信念或假定开始，即从总体参数值的说法是真实的开始。然后，我们将利用一个假设检验对这种假定提出怀疑，并确定是否有统计证据支持做出假定不准确的结论  
在这种情形下，首先确立原假设是有益的。原假设$H_0$表述了对总体参数值的信念或者假定。备择假设$H_0$是这种信念或者假说不正确 5  
作为一个例子，考虑某种软饮料产品的制造商所面对的情况。瓶装软饮料的标签上注明，每瓶67.6盎司。除非有其他理由，我们通常假设标签上的标注是正确的，但可以对制造商的说法提出质疑  
因此，在关于每瓶饮料重量的总体均值的假设检验中，我们会从假设标签是正确的开始，设定原假设为$\mu\ge67.6$。于是，原假设和备择假设分别为：
$$H_0:\mu\ge67.6$$
$$H_a:\mu\lt67.6$$
政府监督部门肩负着保证商标标注有效的义务，他们选取一些瓶装软饮料组成样本，计算灌装重量的样本均值，并据此进行随后的假设检验  
下面我们从制造商的角度重新考虑瓶装软饮料的灌装问题。企业的目标是，调整装瓶操作使得每瓶饮料重量的总体均值恰好为标签标准的67.6盎司 5  
虽然企业的目标如此，但是生产操作中时常会出现失控，那么在我们的例子中，将会发生软饮料灌装不足或者灌装过量的情形  
在应用假设检验时，我们依然会假设生产线运行正常开始，设定原假设为$\mu=67.6$盎司，挑战该假设的备择假设为$\mu\ne67.6$盎司，既不会发生软饮料灌入不足或者灌入过量的情形  
原假设和备择假设分别为：
$$H_0:\mu=67.6$$
$$H_a:\mu\ne67.6$$
假如软饮料制造商利用质量控制方法定期从灌装生产线上抽取一部分灌装软饮料组成样本，计算每瓶灌入重量的样本均值  
如果样本结果使得我们得到拒绝$H_0$的结论，则推断$H_a:\mu\ne67.6$为真。我们的结论是，装瓶操作运行不正常，需要对生产流程进行调整，以恢复到每瓶的总体均值为67.6盎司的状态 5  
关于软饮料制造的上述两种假设检验的形式说明：研究者或者决策者的观点不同，原假设和备择假设也随之不同  
在正确地建立假设时，重要的是，要了解假设检验具体应用于何种情况，从而使得构建的假设能够为研究者或者决策者提供所需要的信息  
## 9.1.3 原假设和备择假设形式的小结
本章中的假设检验涉及两个总体参数：总体均值和总体比率  
根据不同情况，总体参数的假设检验采取以下三种形式之一：其中两个在原假设用不等号；第三个在原假设用等号  
对于总体均值的假设检验，我们令$\mu_0$代表假定值并且必须采用以下三种形式之一进行假设检验 5  
$$H_0:\mu\ge\mu_0$$
$$H_a:\mu\lt\mu_0$$
<hr />

$$H_0:\mu\le\mu_0$$
$$H_a:\mu\gt\mu_0$$
<hr />

$$H_0:\mu=\mu_0$$
$$H_a:\mu\ne\mu_0$$
前面两种形式成为单侧检验；第三种形式成为双侧检验  
许多情况下，关于$H_0和H_a$的选择并非显而易见，必须通过判断来选择 5  
在选择$H_0和H_a$的适当形式时，记住将检验试图建立的结果设为备择假设因此，询问使用者是否正在寻找支持$\mu\lt\mu_0,\mu\gt\mu_0或\mu\ne\mu_0$的证据对我们确定$H_a$是有帮助的 5  
# 9.2 第一类错误和第二类错误
原假设和备择假设是关于总体的两种对立的观点。但是，由于假设检验是基于样本信息得到的，不可能做出结论总是正确，所以我们必须考虑发生误差的可能性  
表9-1列示了假设检验中可能发生的两类错误  
![tb9-1](../syn_pic/statistics_for_business_economics/tb9-1.png)
<center>表9-1 假设检验中的正确结论与错误结论 </center>

表9-1的第一行说明，当接受$H_0$结论时可能发生的情况。这时，如果$H_0$为真时，则该结论正确，如果$H_a$为真时，那么我们发生了**第二类错误**，即当$H_0$为假时我们却接受了$H_0$  
表9-1的第二行说明，当拒绝$H_0$结论时可能发生的情况。这时，如果$H_0$为真时，那么我们发生了**第一类错误**，即当$H_0$为真时我们却拒绝了$H_0$ 5    
回忆在第9.1节讨论的假设检验的例子。汽车生产研究小组开发了一种能提高汽车每加仑行驶里程的新型燃油喷射系统。目前所用系统每加仑平均行驶24英里，建立以下的假设检验  
$$H_0:\mu\le24$$
$$H_a:\mu\gt24$$
在应用中，第一类错误是指，$H_0$为真时却拒绝了$H_0$，即当研究者认为新型燃油喷射系统提高了每加仑燃料的行驶里程（$\mu\gt24$）,而实际情况却是新系统并不比目前所使用的系统好  
反之，第二类错误是指，$H_0$为假时却接受了$H_0$，即当研究者认为新型燃油喷射系统并不比目前的系统好（$\mu\le24$）,而实际情况却是新系统提高了每加仑燃料的行驶里程  
对于每加仑燃料行驶里程的假设检验，原假设是$H_0:\mu\le24$。假定，原假设为真是一个等式的形式，即$\mu=24$ 5  
当作为一个等式的原假设为真时，犯第一类错误的概率被称为检验的**显著性水平**  
于是，对于每加仑燃料行驶里程的假设检验，显著性水平是当$\mu=24$时，拒绝$H_0:\mu\le24$的概率  
出于这个概念的重要性，下面我们重新叙述显著性水平的定义  
用希腊字母$\alpha$（阿尔法）表示显著性水平，一般取$\alpha$为0.05和0.01  
<hr />

**显著性水平**  
当作为一个等式的原假设为真时，犯第一类错误的概率称为检验的显著性水平 5  
<hr />

在实践中，由进行假设检验的人设定显著性水平。通过选择$\alpha$，控制了犯第一类错误的概率  
如果犯第一类错误的概率成本很高，则选择小的$\alpha$值。如果犯第一类错误的概率成本不高，则通常选择较大的$\alpha$值  
应用中，一般将只控制第一类错误的假设检验称为显著性检验。许多假设检验的应用都属于这一种类型  
在假设检验的大多数应用中，虽然对发生第一类错误的概率进行了控制，但通常并不对发生第二类错误的概率加以控制  
因此，如果我们决定接受$H_0$，我们并不能确定该决策有多大的可信度 5  
由于第二类错误的发生具有不确定性，所以通常统计学家建议我们在叙述中采用“不能拒绝$H_0$”而不采用“接受$H_0$”这种说法  
不论何时，只要未对发生第二类错误的概率加以确定或控制，我们就不会做出接受$H_0$的结论。这种情形下，只能得出两种可能的结论：不能拒绝$H_0$或拒绝$H_0$  
虽然在假设检验中，通常没有对第二类错误进行控制，但是这确实是我们可以做到的。事实上，在第9.7节和第9.8节，我们将介绍确定和控制第二类错误发生概率的方法  
## 注释
美国George Mason大学的经济学教授兼联合专栏作家沃尔特·威廉姆斯指出，在决策中第一类错误或第二类错误发生的可能性经常存在。无论做出何种决策，都不能忽视发生重大损失的可能性 5  
# 9.3 总体均值：$\sigma$已知  
在第8章我们曾说，如果在应用中可以根据历史数据或者其他信息在抽样前得到总体标准差的一个好的估计，则可看做$\sigma$是已知的  
本节我们说明，在$\sigma$已知的情形下如何对总体均值进行假设检验  
本节所介绍的方法是在样本恰好选自服从正态分布总体的条件下进行的。在总体服从正态分布的假定不合理的情形下，只有当样本容量足够大的适合，这些方法才是有效的  
## 9.3.1 单侧检验  
总体均值的**单侧检验**有以下两种形式  
下侧检验 5  
$$H_0:\mu\ge\mu_0$$
$$H_a:\mu\lt\mu_0$$
上侧检验  
$$H_0:\mu\le\mu_0$$
$$H_a:\mu\gt\mu_0$$
我们考虑一个下侧检验的例子  
美国联邦贸易委员会（FTC)定期进行统计调查设计，以检验制造商的产品说明。例如，大号听装Hilltop咖啡的标签上标明装有3磅咖啡  
我们将说明，FTC如何通过下侧检验来对Hilltop的承诺进行检验  
第一步是给检验提出原假设和备择假设。如果罐内装入咖啡重量的总体均值至少为每听3磅，那么Hilltop关于其产品的承诺是正确的 5  
令$\mu$代表听装咖啡重量的总体均值，得到如下形式的原假设和对立假设  
$$H_0:\mu\ge3$$
$$H_a:\mu\lt3$$
注意，总体均值的假定值$\mu_0=3$  
如果样本数据表明，$H_0$不能被拒绝，则统计证据不支持我们做出标签上的承诺被违背的结论，从而不会对Hilltop采取任何措施。反之亦然  
假定选取36听咖啡组成一个随机样本，并且计算样本均值$\bar{x}$作为总体均值$\mu$的估计值 5  
如果样本均值$\bar{x}$小于3磅，则样本结果对原假设提出了质疑  
我们想知道的是：当样本均值$\bar{x}$比3磅少多少的时候，我们才能断言差异明显并且甘愿冒着犯第一类错误的风险（错误地）控告Hilltop违背了标签的承诺  
这个问题的关键因素在于决策者所选择的显著性水平的值  
正如上一节所提到的那样，用$\alpha$表示显著性水平，它是当作为一个等式的原假设为真时，拒绝$H_0$而发生的第一类错误的概率  
在Hilltop咖啡的研究中，FTC检验程序的负责人做出如下说明：“如果公司达到了其重量规格$\mu=3$的要求”，则我们不会对Hilltop采取任何措施。但是，我们会以1%的可能性犯这类错误。” 5  
从该负责人的说明中可知，我们设定该假设检验的显著性水平$\alpha=0.01$。于是，我们必须设计一个假设检验，使得当$\mu=3$时犯第一类错误的概率为0.01  
在Hilltop咖啡问题的研究中，通过确定原假设、备择假设和显著性水平，我们已经完成了每个假设检验所需的前两步  
现在我们准备完成假设检验的第三步：收集样本数据和计算检验统计量的值  
**检验统计量** 在Hilltop咖啡问题的研究中，FTC前期的检验表明，总体标准差可以假定为已知，$\sigma=0.18$  
另外，前期检验还表明，听装咖啡重量的总体可以假定服从正态分布 5  
因此，在Hilltop咖啡的研究中，$\bar{x}$的抽样分布服从正态分布，$\sigma=0.18$已知，样本容量n=36  
图9-1给出当作为一个等式的原假设为真时，即$\mu=\mu_0=3$时$\bar{x}$的抽样分布  
![9-1](../syn_pic/statistics_for_business_economics/9-1.png)
图9-1 当作为一个等式（$\mu=3$）的原假设为真时，Hilltop咖啡问题研究的$\bar{x}$的抽样分布  

In [None]:
def stdError(sigma,n):
    '''
    常用代码 样本均值的抽样分布 样本均值的标准误差  5 
    '''
    return sigma/np.sqrt(n)

print('样本均值的标准误差σ={:.2f}'.format(stdError(0.18,36)))

由于样本均值的抽取分布服从正态分布，则
$$z=\frac{\bar{x}-\mu_0}{\sigma_{\bar{x}}}=\frac{\bar{x}-3}{0.03}$$
的抽样分布服从标准正态分布。z=-1表示$\bar{x}$的值是在均值的假定值$\mu_0$的左侧1个标准差的地方，z=-2表示$\bar{x}$的值是在均值的假定值$\mu_0$的左侧2个标准差的地方，依次类推  
我们可以通过标准正态概率分布表得到对应于任何z值的左侧概率  
在$\sigma$已知的情形下对总体均值进行假设检验，我们用标准正态随机变量z作为**检验统计量**来确定$\bar{x}$是否偏离$\mu$的假定值足够远，从而有理由拒绝原假设 5  
令$\sigma_{\bar{x}}=\sigma/\sqrt{n}$，检验统计量如下   
<hr />

**总体均值假设检验的检验统计量：$\sigma$已知**（9-1）  
$$z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$
<hr />

下侧检验的关键问题在于：检验统计量z的值必须多小，我们才能选择拒绝原假设？有两种方法可以解决这个问题：p-值法和临界值法  
**p-值法** p-值法利用检验统计量z的值来计算一个被称为**p-值**的概率 5  
p-值用于确定是否拒绝原假设  
<hr />

**p-值** 
p-值是一个概率值，它是样本所提供的证据对原假设支持程度的度量。p-值越小说明反对原假设的证据越多  
<hr />

我们看看如何计算和使用p-值。用于计算p-值的方法依赖于检验是下侧检验、上侧检验还是双侧检验。对于下侧检验，p-值是检验统计量小于或等于样本所给出的检验统计量的值的概率   
从而，在$\sigma$已知的情形下为了计算下侧检验的p-值，我们必须得到标准正态曲线下在检验统计量的值左边部分的面积  
在计算出p-值以后，我们必须决定它是否小到足以拒绝原假设；正如我们将要说明的那样，这需要计算出的p-值与显著性水平进行比较 5  
我们现在计算Hilltop咖啡下侧检验的p-值。假定选取36听Hilltop咖啡组成样本，我们计算检验统计量z的值为   

In [None]:
'''
读取
pandas series s.values

'''
d0=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/Coffee.csv')
d1=d0.iloc[:-1,0]
sp=d1.values

'''
z值
numpy The N-dimensional array (ndarray) ndarray.mean()
'''

def testStatZ(sample,mu,s):
    '''
    总体均值假设检验 已知标准差 检验统计量z
    sample：样本 ndarray
    mu：检验的mu_0
    s：已知的标准差
    '''
    n= len(sample)
    x_bar=sample.mean()
    return (x_bar-mu)/(s/np.sqrt(n))

z=testStatZ(sp,3,0.18)
print('z={:.2f}'.format(z))

'''
p值
scipy Statistical functions (scipy.stats) norm() n.cdf()
'''
p_=norm.cdf(z)
print('p-值={:.4f}'.format(p_))

这个p-值没有对原假设提供支持，但是它小到足以能够使我们拒绝$H_0$了吗？答案依赖于检验的显著性水平 5  
正如前面所说，FTC检验项目的负责人选取0.01作为显著性水平。选择$\alpha=0.01$意味着：当作为一个等式（$\mu_0=3$）的原假设为真时，负责人愿意容许以0.01的概率拒绝原假设  
在由36听咖啡组成样本的Hilltop问题研究中，p-值=0.0038，这意味着：当作为一个等式的原假设为真时，得到$\bar{x}=2.92$或者更小的$\bar{x}$值的概率为0.0038  
由于0.0038小于$\alpha=0.01$，我们拒绝$H_0$。从而，我们发现有足够的统计证据在0.01的显著性水平下拒绝原假设  
![9-2](../syn_pic/statistics_for_business_economics/9-2.png)
<center>图9-2 对于Hilltop咖啡研究，当$\bar{x}=2.92和z=-2.67$时的p-值 5</center>

我们现在可以陈述利用p-值法确定是否可以拒绝原假设的基本规则。对于给定的显著性水平$\alpha$，p-值法的拒绝法则如下   
<hr />

**p-值法的拒绝法则**  
如果p-值$\le\alpha$，则拒绝$H_0$
<hr />

虽然，做出拒绝决定的根据源于p-值与FTC负责人选取的显著性水平的比较，观测的p-值0.0038意味着对于任何$\alpha\ge0.0038$的情形，我们都将拒绝$H_0$。因此，p-值也被称为观测的显著性水平  
不同的决策者可能对发生第一类错误的成本有不同的看法，并且选择不同的显著性水平  
**临界值法**  临界值法要求我们首先确定被称为临界值的检验统计量的值。对于下侧检验，**临界值**是确定检验统计量的值是否小到足以聚集原假设的一个基准 5  
在检验统计量的抽样分布中，与下侧面积$\alpha$（显著性水平）相对应的值是检验统计量的临界值。换句话说，临界值是使得我们拒绝原假设的检验统计量的最大值   
在$\sigma$已知的情形下，检验统计量z的抽样分布是标准正态分布。从而，临界值是检验统计量的值，该值对应于标准正态概率分布的下侧$\alpha=0.01$的面积  

In [None]:
'''
scipy Statistical functions (scipy.stats) norm() n.ppf()
'''
cv=norm.ppf(0.01)
print('z={:.2f}'.format(cv))

![9-3](../syn_pic/statistics_for_business_economics/9-3.png)
<center>图9-3 Hilltop咖啡问题假设检验的临界值是-2.23</center>

从而，如果样本所得的检验统计量的值小于或等于0.01。在这种情况下，我们将拒绝原假设 5  
<center>如果$z\le-2.33$，则拒绝$H_0$</center>

由于z=-2.67<-2.23，所以我们拒绝$H_0$并且得出Hilltop咖啡的分量不足的结论  
<center>Sampling distribution of $z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}:z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$的抽样分布</center>  

我们可以将临界值法的拒绝法则推广到任意的显著性水平。下侧检验的聚集法则如下  
<hr />

**下侧检验的拒绝法则：临界值法** 5  
如果$z\le-z_\alpha$，则拒绝$H_0$  
式子中，$-z_\alpha$是临界值，即标准正态概率分布下侧面积为$\alpha$时对应的z值  
<hr />

p-值法的优点在于，p-值能够告诉我们结果有多么显著（观测的显著性水平）。而如果我们使用临界值法，我们只能得到在规定的显著性水平下结果是显著的  
在本节的开头，我们已经说过总体均值的单侧检验采用以下两种形式之一：  
下侧检验 5  
$$H_0:\mu\ge\mu_0$$
$$H_a:\mu\lt\mu_0$$
上侧检验  
$$H_0:\mu\le\mu_0$$
$$H_a:\mu\gt\mu_0$$
我们已经通过Hilltop咖啡问题的研究说明了如何进行下侧检验。我们可以用相同的方法进行上侧检验。检验统计量仍然通过式（9-1）计算  
采用临界值法时，如果检验统计量的值大于或等于临界值$Z_\alpha$，则我们将拒绝原假设；换句话说，如果$z\ge{z_\alpha}$，则拒绝$H_0$  
## 9.3.2 双侧检验  
在假设检验中，关于总体均值的**双侧检验**的一般形式如下：
$$H_0:\mu=\mu_0$$
$$H_a:\mu\ne\mu_0$$
5  
在这一小节，我们将介绍如何在$\sigma$已知情形下对总体均值进行双侧检验  
美国高尔夫球协会制定了一些标准，高尔夫设备制造商如果想让他们的产品被接受用于USGA的赛事，则必须达到这些标准  
MaxFlight有限公司最近采用一种高技术制造工艺所生产的高尔夫球，平均发球距离为295码。当求的平均发球距离超过295码时，MaxFlight的高尔夫球将因为超过击球和滚动的总标准而被USGA拒绝  
令假设值$\mu_0=295$，则MaxFlight假设检验的原假设和备择假设如下：  
$$H_0:\mu=295$$
$$H_a:\mu\ne295$$
5  
如果样本均值明显小于295码或明显大于295码，则我们拒绝$H_0$  
质量控制小组选择$\alpha=0.05$作为检验的显著性水平。在制造工艺处于正常运行时，进行前期检验的数据表明，可以假定总体的标准差为已知$\sigma=12$。从而，样本容量n=50时，$\bar{x}$的标准误差是  

In [None]:
'''
'''
print('样本均值的标准误差σ={:.1f}'.format(stdError(12,50)))

由于样本容量较大，我们根据中心极限定理可知$\bar{x}$的抽样分布近似服从正态分布（见第7章）。图9-4是当假定均值$\mu_0=295$时，MaxFlight假设检验的$\bar{x}$的抽样分布  
![9-4](../syn_pic/statistics_for_business_economics/9-4.png)
<center>图9-4 MaxFlight假设检验的$\bar{x}$的抽样分布 5</center>

假定抽取50个高尔夫球组成一个样本，它的样本均值$\bar=297.6$码。超过295码的$\bar{x}$的值是否足够大，使得我们能够在0.05的显著性水平下拒绝$H_0$?  
**p-值法** p-值是一个用于确定是否能够拒绝原假设的概率值。对于双侧检验，检验统计量的值位于抽样分布的两侧尾部则为拒绝原假设提供支持  
我们首先计算检验统计量z的值。利用式（9-1）和$\bar{x}=297.6$，检验统计量的值为  

In [None]:
'''
读取
'''
dg0=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/GolfTest.csv')
dg1=dg0.iloc[:,0]
spg=dg1.values

'''
z值 5
常用代码 已知标准差 检验统计量z
'''
zg=testStatZ(spg,295,12)
print('检验统计量的值为{:.2f}'.format(zg))

通过图9-5，我们可知这个例子中双侧检验的p-值为$P(z\le-1.53)+P(z\ge1.53)$。因为正态曲线是对称的，这个概率可以通过先计算标准正态曲线下z=1.53右侧部分的面积，再将它乘以2得到  
![9-5](../syn_pic/statistics_for_business_economics/9-5.png)
<center>图9-5 MaxFlight假设检验的p-值</center>

In [None]:
'''
p值
scipy Statistical functions (scipy.stats) norm() n.sf()
总体均值假设检验 已知标准差 双侧检验 p-值
'''
p_=norm.sf(zg)*2
print('p-值={:.3f}'.format(p_))

下面，我们将p-值与显著性水平进行比较，看是否应该拒绝原假设。在显著性水平$\alpha=0.05$条件下，由于p-值=0.126>0.05，我们不能拒绝$H_0$  
与单侧检验p-值的计算相比，双侧检验p-值的计算略显复杂。但是，它可以简单地分成以下三个步骤 5  
<hr />

**双侧检验p-值的计算**
1. 计算检验统计量z的值  
2. 如果检验统计量的值在上侧（z>0)，计算标准正态曲线下在z右侧部分的面积。如果检验统计量的值在下侧（z<0)，计算标准正态曲线下在z左侧部分的面积  
3. 将步骤2中所得的面积或概率乘以2得到p-值  
<hr />

**临界值法**  在结束这一节之前，我们看看如何对检验统计量z的值和临界值进行比较，从而对一个双侧检验做出假设检验决策  
图9-6表明，检验的临界值位于标准正态分布的上侧尾端和下侧尾端。从而，利用临界值方法，双侧检验的拒绝法则是 5  
![9-6](../syn_pic/statistics_for_business_economics/9-6.png)
<center>图9-6 MaxFlight假设检验的临界值</center>

In [None]:
def bilateralTestCV(z):
    '''
    总体均值假设检验 双侧检验 临界值
    '''
    z=norm.ppf(1-z/2)
    return -z,z

cv1,cv2=bilateralTestCV(0.05)
print('z1≤{:.2f}或者z2≥{:.2f}，则拒绝H0'.format(cv1,cv2))

<center>如果z≤-1.96或者z≥1.96，则拒绝$H_0$</center>

因为MaxFlight研究中检验统计量的值z=1.53，统计证据不允许我们在0.05的显著性水平下拒绝原假设  
## 9.3.3 本节小结与实用建议  
我们给出了总体均值的下侧检验和双侧检验的例子。根据这些例子，我们现在可以将$\sigma$已知的情形下总体均值的假设检验程序汇总在表9-2中。注意，$\mu_0$是总体均值的假设值 5  
<center>表9-2 总体均值假设检验的小结：$\sigma$已知</center>

|表9-2|下侧检验|上侧检验|双侧检验|
|:-|:-|:-|:-|
|假设 5|$$H_0:\mu\ge\mu_0$$$$H_a:\mu\lt\mu_0$$|$$H_0:\mu\le\mu_0$$$$H_a:\mu\gt\mu_0$$|$$H_0:\mu=\mu_0$$$$H_a:\mu\ne\mu_0$$|
|检验统计量|$$z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$|$$z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$|$$z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$|
|拒绝法则:p-值法 5|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|
|拒绝法则:临界值法|如果$z\le-z_\alpha$，则拒绝$H_0$|如果$z\ge{z_\alpha}$，则拒绝$H_0$|如果$z\le-z_{\alpha/2}$或者$z\ge z_{\alpha/2}$，则拒绝$H_0$|

本节所给的两个例子的假设检验步骤适用于任何的假设检验 5  
<hr />

**假设检验的步骤**  
1. 提出原假设和备择假设  
2. 指定检验中的显著性水平 
3. 搜集样本数据并计算检验统计量的值  

**p-值法**  
4. 利用检验统计量的值计算p-值
5. 如果p-值$\le\alpha$，则拒绝$H_0$ 5  

**临界值法**  
4. 利用显著性水平确定临界值以及拒绝法则
5. 利用检验统计量的值以及拒绝法则确定是否拒绝$H_0$   

<hr />

对于假设检验中样本容量问题，实用建议与我们在第8章区间估计中有关样本容量的建议类似。在绝大多数应用中，当我们使用本节介绍的假设检验方法时，$n\ge30$就足够了  
在样本容量小于30的情形下，进行抽样的总体分布是重要的考虑因素。如果总体是正态分布，则我们所描述的假设检验方法是精确的，并且适用于任何样本容量    
如果总体不是正太分布但至少大致上是对称的，则样本容量为15时便可以预期能够提供可以接受的结果 5  
## 9.3.4 区间估计与假设检验的关系
在第8章我们介绍了如何对总体均值进行置信区间估计。在$\sigma$已知的情形下，总体均值的$(1-\alpha)\%$置信区间估计为  
$$\bar{x}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$  
在本章我们给出以下形式的总体均值的双侧假设检验  
$$H_0:\mu=\mu_0$$
$$H_a:\mu\ne\mu_0$$
式中，$\mu_0$为总体均值的假设值 5  
假定我们沿用第8章所描述的程序构造总体均值的$100(1-\alpha)\%$置信区间。我们知道，在得到的置信区间中，有$100(1-\alpha)\%$将包含总体均值，有$100a\%$将不包含总体均值  
因此，构造一个$100(1-\alpha)\%$置信区间，并且每当置信区间不包含$\mu_0$时拒绝$H_0$，等价于在显著性水平$\alpha$下进行双侧假设检验   
现在，利用置信区间进行双侧假设检验的步骤概况如下  
<hr />

**置信区间的方法检验如下形式的假设**  
$$H_0:\mu=\mu_0$$
$$H_a:\mu\ne\mu_0$$
5  
1. 从总体中抽取一个简单随机样本，并利用样本均值$\bar{x}$建立总体均值$\mu$的置信区间  
$$\bar{x}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$
2. 如果置信区间包含假设值$\mu_0$，则不能拒绝$H_0$。否则，拒绝$H_0$  
<hr />

我们通过对MaxFlight进行假设检验来说明如何使用置信区间方法。MaxFlight的假设检验具有以下形式  
$$H_0:\mu=295$$
$$H_a:\mu\ne295$$
为了在显著性水平$\alpha=0.05$下检验该假设，我们抽取50只高尔夫球并计算发球距离的样本均值$\bar{x}=297.6$码，已知总体标准差$\sigma=12$码 5  
利用这些结果及$z_{0.025}=1.96$，我们得到总体均值95%置信区间估计为  


In [None]:
'''
python Built-in Functions len() 
'''
def normz(val):
    '''
    总体均值区间估计 已知标准差 Z分数
    注意0.95的面积有两个尾部，需要计算的是0.025的面积对应的z    
    '''
    return norm.ppf((1+val)/2)


def printLloyd(val,sigma,sample):
    '''
    总体均值区间估计 已知标准差 置信区间v1
    sample:ndarray 样本
    val：置信水平
    sigma：总体标准差
    '''
    mean=sample.mean()
    inter=normz(val)*sigma/np.sqrt(len(sample))
    
    print('{:.0%}的置信区间为从{:.1f}到{:.1f}'.format(val,mean-inter,mean+inter))
    
printLloyd(0.95,12,spg)

这一发现使质量控制管理人员可以95%得出结论：高尔夫球总体的平均发球距离介于294.3-300.9码  
由于总体均值的假设值$\mu_0=295$落在该区间中，所以假设检验的结论为：原假设$H_0:\mu=295$不能被拒绝  
注意，上述讨论以及例子都是关于总体均值的双侧假设检验。这种关系可以扩展到总体参数的单侧检验中。但是，这时要求建立在实践中很少用到的单侧置信区间 5  
## 注释  
我们以及说明了如何利用p-值。p值越小，则拒绝$H_0$的证据越多，支持$H_a$的证据也越多。下面是统计学家给出的一些用于解释小的p-值的指导意见  
+ p-值小于0.01——超强证据断定$H_a$为真 
+ p-值介于0.01和0.05之间——强证据断定$H_a$为真
+ p-值介于0.05和0.10之间——弱证据断定$H_a$为真  
+ p-值大于0.10——没有足够的证据断定$H_a$为真 5  

# 9.4 总体均值：$\sigma$未知
本节我们说明在$\sigma$未知情形下如何对总体均值进行假设检验  
于是，在$\sigma$  未知情形下对总体均值进行假设检验时，利用样本均值$\bar{x}$估计$\mu$，用  样本标准差s估计$\sigma$  
在$\sigma$未知情形下，假设检验的步骤与9.3节描述的$\sigma$已知情形下的步骤相同。然而，在$\sigma$未知情形下检验统计量的抽样分布式t分布  
在$\sigma$未知情形下，总体均值假设检验的依据仍然是t分布。对于$\sigma$未知情形，检验统计量服从自由度为n-1的t分布  
<hr />

**总体均值假设检验的检验统计量：$\sigma$未知**（9-2） 5  
$$t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$
<hr />

在本节末，我们给出了实际应用中关于总体分布和样本容量的一些建议  
## 9.4.1 单侧检验
我们考虑在$\sigma$未知情形下，关于总体均值单侧假设检验的例子  
一本商务旅行方面的杂志想根据商务旅客总体评定的平均等级对横跨大西洋门户机场分类。总体平均等级分超过7分的机场将被认为是提供了优质服务的机场  
杂志的职员在每一个机场选取60名商务旅客组成一个样本，并得到他们的评级数据 5  
在伦敦希思罗机场的样本中，平均等级分$\bar{x}=7.25$分，样本标准差$s=1.052$分。数据能否表明：希思罗机场可以被认为是提供了优质服务的机场？  
该上侧检验的原假设和对立假设如下：  
$$H_0:\mu\le7$$
$$H_a:\mu\gt7$$ 
我们将在$\alpha=0.05$的显著性水平下，进行这一检验  

In [None]:
'''
读取 5
'''
ar=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/AirRating.csv')
ar.head()

In [None]:
'''
检验统计量
numpy The N-dimensional array (ndarray) ndarray.std()
'''
def testStatZUnknow(sample,mu):
    '''
    总体均值假设检验 未知标准差 检验统计量t
    sample：样本 ndarray
    mu：检验的mu_0
    '''
    n= len(sample)
    x_bar=sample.mean()
    s=sample.std()
    return (x_bar-mu)/(s/np.sqrt(n))

zt=testStatZUnknow(ar.values,7)

print('检验统计量的值为{:.2f}'.format(zt))

t的抽样分布的自由度n-1=60-1=59。由于该检验是一个上侧检验，因此p-值是t分布曲线下的t=1.84右侧的面积  

In [None]:
'''
scipy Statistical functions (scipy.stats) t() t.sf()
'''
def upperTTest(sample,mu):
    '''
    总体均值假设检验 未知标准差 单侧检验 p-值    
    '''
    z=testStatZUnknow(sample,mu)
    f=len(sample)-1
    return t.sf(z,f)

p_ar=upperTTest(ar.values,7)
print('上侧p-值为{:.4f}'.format(p_ar))

在希思罗机场的假设检验中，由于0.0342<0.05，因此我们拒绝原假设，并且得到结论：应将希思罗机场评定为提供了优质服务的机场  
## 9.4.2 双侧检验
作为$\sigma$未知情形下总体均值的双侧假设检验的例子，考虑Holiday Toys假设检验中所面临的情况。企业生产产品并通过1000多家零售商分销其产品 5  
在为即将到来的冬季制定生产规模计划时，Holiday Toys必须在指导零售层面的实际需求之前，确定每种产品生产的数量  
对本年度最重要的一种新款玩具，Holiday Toys的市场负责人预计平均每家零售商的需求量为40个  
在根据这一估计做出最后的生产决策之前，Holiday Toys决定对25个零售商组成的样本进行调查，以便得到有关这种新款玩具需求量的更多信息  
向每个零售商提供有关这种新款玩具特征的信息，以及成本和建议的零售价格。然后要求每个零售商给出一个预计的订货量  
令$\mu$表示每家零售商订货量的总体均值，根据样本数据进行以下双侧假设检验 5  
$$H_0:\mu=40$$
$$H_a:\mu\ne40$$
如果不能拒绝$H_0$，那么Holiday Toys将继续根据市场负责人的估计制定生产计划，认为每家零售商订货量的总体均值为40个  
在利用t分布之前，为了解总体分布的形状，分析人员绘制了样本数据的直方图  

In [None]:
'''
读取
pandas dataframe d.plot.hist()
'''
od=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/Orders.csv')
od.plot.hist()
plt.show()

样本数据的直方图表明，没有偏斜或者任何异常点存在，于是分析人员认为采用自由度n-1=24的t分布是合适的 5  

In [None]:
'''
求检验统计量t
常用代码 未知标准差 检验统计量t  
'''
t_od=testStatZUnknow(od.values,40)

print('检验统计量的值为{:.2f}'.format(t_od))

In [None]:
'''
求 p-值
scipy Statistical functions (scipy.stats) t() t.sf()
scipy Statistical functions (scipy.stats) t() t.cdf()
'''
def bilateralTTestP(sample,mu):
    '''
    总体均值假设检验 未知标准差 双侧检验 p-值    
    '''
    t_value=testStatZUnknow(sample,mu)
    f=len(sample)-1
    if t_value<0:
        p=t.cdf(t_value,f) 
    else:
        p=t.sf(t_value,f)       
    return p*2

p_od=bilateralTTestP(od.values,40)
print('得到的p-值为{:.4f}'.format(p_od))

由于0.2822>0.05，所以在$\alpha=0.05$的显著性水平下，不能拒绝$H_0$  
也可以将检验统计量与临界值作比较来进行双侧假设检验决策  

In [None]:
'''
求临界值 5
pandas dataframe d.values
scipy Statistical functions (scipy.stats) t() t.ppf()
'''
def bilateralTTestCv(sample,mu,alpha):
    '''
    总体均值假设检验 未知标准差 双侧检验 临界值
    '''
    t_value=testStatZUnknow(sample,mu)
    f=len(sample)-1
    t_alpha=t.ppf(alpha/2,f)
    
    print('检验统计量的值为{:.4f}'.format(t_value))
    print('在alpha={:.2f}的显著性水平下，自由度为{:.0f}的t分布,{:.4f}和{:.4f}是双侧检验的临界值'\
          .format(alpha,f,t_alpha,-t_alpha)
         )
    if t_value>t_alpha:
        print('由于{:.4f}大于{:.4f}，所以不能拒绝原假设'.format(\
                                                 t_value,t_alpha))
    else:
        print('由于{:.4f}小于等于{:.4f}，所以拒绝原假设'.format(\
                                                 t_value,t_alpha))
    
bilateralTTestCv(od.values,40,0.05)

## 9.4.3 本节小结与实用建议
表9-3给出了在$\sigma$未知的情形下对总体均值进行假设检验的一个小结  
本节假设检验方法的应用依赖于抽样总体的分布以及样本容量。如果总体是正态分布，则在任意样本容量下，本节所介绍的假设检验给出的都是精确的结果  
如果总体不是正态分布，则这些方法是近似的。尽管如此，我们发现，在大多数情况下，当样本容量n≥30时都能给出好的结果  
如果总体近似正态分布，则在小样本容量下（比如,n<15）便可以得到满意的结果。当总体存在高度偏斜或者由异常点时，建议样本容量应接近50  
<center>表9-3 总体均值假设检验的小结：$\sigma$未知 5</center>

|sigma未知|下侧检验|上侧检验|双侧检验|
|:-|:-|:-|:-|
|假设|$$H_0:\mu\ge\mu_0$$$$H_a:\mu\lt\mu_0$$|$$H_0:\mu\le\mu_0$$$$H_a:\mu\gt\mu_0$$|$$H_0:\mu=\mu_0$$$$H_a:\mu\ne\mu_0$$|
|检验统计量 5|$$t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$|$$t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$|$$t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$|
|拒绝法则:p-值法 5|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|
|拒绝法则:临界值法 5|如果$t\le-t_\alpha$，则拒绝$H_0$|如果$t\ge t_\alpha$，则拒绝$H_0$|如果$t\le-t_{\alpha/2}$或者$t\ge t_{\alpha/2}$，则拒绝$H_0$|

# 9.5 总体比率
在本节中，我们说明如何对总体比率p进行假设检验。令$p_0$代表总体比率的假设值，关于总体比率的假设检验有以下三种形式：  
$$H_0:p\ge p_0$$
$$H_a:p\lt p_0$$
<hr />

$$H_0:p\le p_0$$
$$H_a:p\gt p_0$$
<hr />

$$H_0:p= p_0$$
$$H_a:p\ne p_0$$
称第一种形式为下侧检验，称第二种形式为上侧检验，称第三种形式为双侧检验 5  
根据样本比率$\bar{p}$与总体比率的假设值$p_0$之差来对总体比率进行假设检验  
假设检验所使用的方法与总体均值假设检验所使用的方法相似，唯一的不同之处是我们利用样本比率和标准误差来计算检验统计量  
我们以Pine Greek高尔夫球场所面临的情况为例。为了增加女性运动员的比率，Pine Greek实施了一项特别设计的促销活动以吸引更多的女性高尔夫球员  
由于研究的目的是确定女性高尔夫球员所占比率是否上升，因此备择假设为$H_a:p\gt0.20$的上侧检验是适宜的。Pine Greek假设检验的原假设和备择假设如下所示：  
$$H_0:p\le0.20$$
$$H_a:p\gt0.20$$
5  
如果能够拒绝$H_0$，则检验结果会对女性高尔夫球员所占比率上升的结论，给予统计上的支持，并且说明促销活动是有效的。在进行假设检验时，球场管理者设定显著性水平$\alpha=0.05$  
假设检验的下一步是选取一个样本，并计算适当的检验统计量的值。总体参数p的点估计量$\bar{p}$  的抽样分布是计算检验统计量的基础  
当作为一个等式的原假设为真时，$\bar{p}$的期望值等于假设值$p_0$，即$E(\bar{p})=p_0$。$\bar{p}$的标准误差为  
$$\sigma_{\bar{p}}=\sqrt{\frac{p_0(1-p_0)}{n}}$$
在第7章我们曾说过，如图np≥5并且n(1-p)≥5，则$\bar{p}$的抽样分布近似服从正态分布。在实践中通常应用的这些条件，式（9-3）  
$$z=\frac{\bar{p}-p_0}{\sigma_{\bar{p}}}$$
5  
服从标准正态概率分布，其中$\sigma_{\bar{p}}=\sqrt{p_0(1-p_0)/n}$。对总体比率进行假设检验时，使用标准正态随机变量z为检验统计量  
<hr />

**总体比率假设检验的检验统计量**（9-4）
$$z=\frac{\bar{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$
<hr />

现在我们计算Pine Greek假设检验中的检验统计量。假设选取400名高尔夫球员组成一个随机样本，其中100人是女性。样本中女性高尔夫球员的比率为  

In [None]:
'''
读取 5
pandas dataframe d.tail()
'''
wg=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/WomenGolf.csv')
wg.tail()

In [None]:
'''
pandas series s.div()  
'''
wg_s=wg['Golfer'].value_counts()
wg_bar_p=wg_s.div(wg_s.sum())[1]
print('样本中女性高尔夫球员的比率为{:.2f}'.format(wg_bar_p))

In [None]:
def testStatZRatio(bar_p,p_0,n):
    '''
    常用代码 总体比率 检验统计量z
    '''
    mol=bar_p-p_0
    den=np.sqrt(p_0*(1-p_0)/n)
    return mol/den

wg_z=testStatZRatio(wg_bar_p,0.2,len(wg))
print('检验统计量的值为{:.2f}'.format(wg_z))

In [None]:
wg_p=norm.sf(wg_z)
print('Pine Greek检验的p-值为{:.4f}'.format(wg_p))

由于Pine Greek假设检验是上侧检验，因此p-值是z大于或者等于2.50的概率，即z≥2.50的标准正态曲线下的面积。图9-7给出了p-值的计算  
![9-7 5](../syn_pic/statistics_for_business_economics/9-7.png)  
球场管理者设定显著性水平$\alpha=0.05$。p-值=0.0062<0.05，有充分的统计依据在0.05的显著性水平下拒绝$H_0$  
也可以使用临界值法作出是否拒绝原假设的决策  

In [None]:
'''
scipy Statistical functions (scipy.stats) norm() n.isf()
'''
z_005=norm.isf(0.05)
print('与正态概率分布上侧面积为0.05相对应的临界值为{:.3f}'.format(z_005))

由于z=2.5>1.645，因此拒绝$H_0$  
我们再次发现，p-值法和临界值法得到的假设检验结论是相同的，但p-值法提供了更多的信息。p-值=0.0062表明，对于任何大于或等于0.0062的显著性水平，原假设都能被拒绝 5  
## 小结
对总体均值进行假设检验的方法和对总体比率进行假设检验的方法相似。虽然我们仅仅说明了如何对总体比率的上侧检验进行假设检验，类似的方法也适用于下侧检验和双侧检验  
表9-4给出了对总体比率假设检验的一个总结。我们假定np≥5并n(1-p)≥5，于是$\bar{p}$的抽样分布近似服从正态概率分布  
<center>表9-4 总体比率假设检验的小结</center>

|总体比率|下侧检验|上侧检验|双侧检验|
|:-|:-|:-|:-|
|假设 5|$$H_0:p\ge p_0$$$$H_a:p\lt p_0$$|$$H_0:p\le p_0$$$$H_a:p\gt p_0$$|$$H_0:p=p_0$$$$H_a:p\ne p_0$$|
|检验统计量|$$z=\frac{\bar{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$|$$z=\frac{\bar{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$|$$z=\frac{\bar{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$|
|拒绝法则:p-值法 5|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|
|拒绝法则:临界值法 5|如果$z\le-z_{\alpha}$，则拒绝$H_0$|如果$z\ge z_{\alpha}$，则拒绝$H_0$|如果$z\le-z_{\alpha/2}$或者$z\ge z_{\alpha/2}$，则拒绝$H_0$|

# 9.6 假设检验与决策
在本章前面的各节中，我们介绍了关于显著性检验的假设检验的应用。在提出原假设和备择假设之后，我们选取样本，计算检验统计量的值和相应的p-值  
我们将p-值与控制第一类错误概率的$\alpha$相比，其中$\alpha$成为检验的显著性水平。如果p-值$\le\alpha$，则我们做出“拒绝$H_0$”的结婚，并称结果是显著的  
在显著性检验中，我们控制了第一类错误的概率，但对发生第二类错误的概率没有予以控制。因此，我们给出的结论是“不能拒绝$H_0$”  ，而不是“接受$H_a$”  
“不能拒绝$H_0$”的结论，从统计证据上将是非结论性的，这通常意味着将推出做出决策或采取行动，直到更深入的研究和检验之后才能再做决策或行动  
然而，如果假设检验的目的是：当$H_0$为真时，做出一种决策;当$H_a$为真时，做出另一种决策 5  
不论是得出拒绝$H_0$还是不能拒绝$H_0$的结论，决策者都想要或者在某些情形下不得不做出决策。这时，统计学家往往建议控制发生第二类错误的概率。同时控制第一类错误和第二类错误的概率时，检验检验的结论是接受$H_0$或者拒绝$H_0$  
成批验收的抽样问题，就是这种决策中假设检验的一个好的实例。例如，对供应商的一批电池，某名质量控制管理人员必须决定是接受这批货物还是因其质量差而将货物退换给供应商  
假定，设计规格要求供应商的电池平均使用寿命至少为120小时，为了评估这批电池的质量，我们选取36节电池组成样本进行检验。令$\mu$代表这批电池使用寿命的均值，关于总体均值的原假设和备择假设如下  
$$H_0:\mu\ge120$$$$H_a:\mu\lt120$$
如果拒绝$H_0$，则做出备择假设为真的结论。这一结论表明，正确的做法是将这批电池退换给供应商。但是如果不能拒绝$H_0$，决策者仍需确定采取何种措施 5  
在这样的决策情形下，我们建议将假设检验过程扩展，控制发生第二类错误的概率。在9.7节和9.8节中，我们将说明如何计算发生第二类错误的概率，如何调整样本容量帮助控制发生第二类错误的概率 5  
# 9.7 计算第二类错误的概率
在本节，我们说明在总体均值的假设检验中如何计算发生第二类错误的概率。以9.6节所描述的成批验收问题为例，我们对该过程进行演示  
电池平均使用寿命的原假设和备择假设为$H_0:\mu\ge120$和$H_a:\mu\lt120$  
假定进行假设检验的显著性水平$\alpha=0.05$，在$\sigma$已知的情形下，检验统计量是  
$$z=\frac{\bar{x}-120}{\sigma/\sqrt{n}}$$
根据临界值法以及z_0.05=1.645，下侧检验的拒绝法则为 5  

In [None]:
z_bat=norm.ppf(0.05)
print('下侧检验的拒绝法则为如果z≤{:.3f}，则拒绝原假设'.format(z_bat))

<center>如果z≤-1.645，则拒绝$H_0$</center>

假定选取36节电池组成一个样本，并且基于以前的测试，可以假设总体标准差已知$\sigma=12$小时。拒绝法则是，如果  
$$z=\frac{\bar{x}-120}{12/\sqrt{36}}\le-1.645$$
则拒绝$H_0$。从上式中解出$\bar{x}$，于是如果  

In [None]:
def sampleMeanCv(mu,val,sigma,n):
    '''
    总体均值第二类错误 已知标准差 临界样本均值
    mu:假设检验的总体均值
    val:显著性水平
    sigma:总体标准差
    n:样本容量
    '''
    z=norm.ppf(val)
    return (mu+z*sigma/np.sqrt(n))

bar_x=sampleMeanCv(120,0.05,12,36)
print('拒绝原假设的临界样本均值x={:.2f}'.format(bar_x))

$$\bar{x}\le120-1.645\frac{12}{\sqrt{36}}=116.71$$  
 5  
则拒绝$H_0$。这意味着，每当$\bar{x}\gt116.71$，我们将作出接受这批电池的决策。首先，每当电池均值的真值小于120小时时，我们做出接受$H_0:\mu\ge120$的决策时，我们就犯了第二类错误  
因而，为了计算发生第二类错误的概率，我们必须选择一个小于120小时的$\mu$值。例如，假定如果电池寿命的均值$\mu=112$小时，于是认为该批电池的质量差  
如果$\mu=112$确实是真值，却接受了$H_0:\mu\ge120$，那么犯第二类错误的概率有多大呢？注意：它是当$\mu=112$时，样本均值$\bar{x}$大于116.71的概率  
图9-8给出了当均值$\mu=112$时$\bar{x}$的抽样分布，其上侧阴影部分的面积为$\bar{x}\gt116.71$的概率  
![9-8](../syn_pic/statistics_for_business_economics/9-8.png)  
<center>图9-8 当$\mu=112$时发生第二类错误的概率 5</center>

根据标准正态分布，当$\bar{x}=116.71$时  

In [None]:
z=(116.71-112)/(12/np.sqrt(36))
print('z={:.2f}'.format(z))

由标准正态概率表可知，z=2.36时的上侧面积是

In [None]:
'''
scipy Statistical functions (scipy.stats) norm() n.sf()
'''
p=norm.sf(z)
print('上侧面积是{:.4f}'.format(p))

def betaProb(mu,val,sigma,n,real_mu):
    '''
    总体均值第二类错误 已知标准差 第二类错误概率
    mu:假设检验的总体均值
    val:显著性水平
    sigma:总体标准差
    n:样本容量
    real_mu:实际的总体均值
    '''
    z1=norm.ppf(val)
    sn=sigma/np.sqrt(n)
    bar_x=(mu+z1*sn)
    z2=(bar_x-real_mu)/sn
    return norm.sf(z2)

re_mu=112
p_beta=betaProb(120,0.05,12,36,re_mu)
print ('如果总体均值为{:.0f}时，发生第二类错误的概率{:.4f}'.format(re_mu,p_beta))
print('功效为{:.4f}'.format(1-p_beta))

0.0093是当$\mu=112$时发生第二类错误的概率。令$\beta$表示发生第二类错误的概率，我们看到当$\mu=112$时，$\beta=0.0091$  
对其他小于120的$\mu$值，我们可以重复该计算过程，给出对于每一个$\mu$值相应发生第二类错误的概率 5  
表9-5列出了一些小于120的$\mu$值发生第二类错误的概率  
<center>表9-5 对成批验收的假设检验发生第二类错误的概率</center>

![tb9-5](../syn_pic/statistics_for_business_economics/tb9-5.png)  
当$H_0$为假时，做出拒绝$H_0$的正确结论的概率称作检验的**功效**。对于给定的$\mu$值，功效为$1-\beta$  ，即做出拒绝原假设正确结论的概率等于1减去发生第二类错误的概率  
功效的值列示在表9-5中，根据这些值，将于每个一个$\mu$值相对应的功效绘制在图9-9中，所得曲线称为**功效曲线**  
注意，功效曲线渐进于原假设为假时的$\mu$值。对任意一个$\mu$值，功效曲线的高度代表了当$H_0$为假时做出拒绝$H_0$正确结论的概率 5  
![9-9](../syn_pic/statistics_for_business_economics/9-9.png)  
<center>图9-9 对成批验收的假设检验问题的功效曲线</center>

总之，对总体均值进行假设检验时，可以按照下面所给的程序逐步计算出发生第二类错误的概率  
1. 确立原假设和备择假设
2. 在显著性水平$\alpha$下，根据临界值法确定临界值并建立检验的拒绝法则  
3. 利用该拒绝法则，解出与检验统计量的临界值相对应的样本均值的取值 5  
4. 利用步骤3的结果，得到接受$H_0$时所对应的样本均值的值，这些值构成了检验的接受域
5. 对于满足备择假设的$\mu$值，利用$\bar{x}$的抽样分布和步骤4中的接受域，计算样本均值落在接受域的概率 5  

# 9.8 确定总体均值假设检验的样本容量
假定对总体均值的数值进行假设检验，检验的用户确定发生第一类错误的概率被设定为显著性水平  
通过控制样本容量，用户也可以控制发生第二类错误的概率。让我们说明，如何确定下面有关总体均值下侧检验的样本容量  
$$H_0:\mu\ge\mu_0$$$$H_a:\mu\lt\mu_0$$
![9-10](../syn_pic/statistics_for_business_economics/9-10.png)  
<center>图9-10 对于给定的第一类错误水平（$\alpha$）和第二类错误水平（$\beta$）,确定样本容量</center>

图9-10的上半部分是当$H_0$为真并且$\mu=\mu_0$时$\bar{x}$的抽样分布 5  
对于下侧检验，检验统计量的临界值记作$-z_a$。图上半部分中垂线c与$\bar{x}$的值相对应  
注意，如果当$\bar{x}\le c$时拒绝$H_0$，则发生第一类错误的概率为$\alpha$  
以$z_a$表示标准正态分布上侧面积为$\alpha$时所对应的z值，可利用下面的公式计算c：  
$$c=\mu_0-z_\alpha\frac{\sigma}{\sqrt{n}}$$（9-5）  
图9-10的下半部分是，当备择假设$H_a$为真并且$\mu=\mu_a\lt\mu_0$时$\bar{x}$抽样分布 5  
$\beta$表示的阴影区域是，当$\bar{x}\gt c$时却接受了原假设时决策者发生第二类错误的概率  
以$z_\beta$表示标准正态分布上侧面积为$\beta$时所对应的z值，可利用下面的公式计算c  
$$c=\mu_a+z_\beta\frac{\sigma}{\sqrt{n}}$$（9-6）  
由于我们想要选取一个c值，使得当我们拒绝$H_0$和接受$H_a$时，发生第一类错误的概率等于选定的值$\alpha$，发生第二类错误的概率等于选定的值$\beta$  
因此，式(9-5)和式（9-6）必须给出相等的c值。于是，下面的表达式一定成立 5  
$$\mu_0-z_\alpha\frac{\sigma}{\sqrt{n}}=\mu_a+z_\beta\frac{\sigma}{\sqrt{n}}$$
解出$\sqrt{n}$如下：  
$$\sqrt{n}=\frac{(z_\alpha+z_\beta)\sigma}{(\mu_0-\mu_z)}$$  
等式两边平方，得到下面的总体均值单侧假设检验的样本容量公式  
<hr />

**总体均值单侧假设检验的样本容量**（9-7） 5  
$$n=\frac{(z_\alpha+z_\beta)^2\sigma^2}{(\mu_0-\mu_a)^2}$$
式中，$z_\alpha$代表标准正态分布的上侧面积为$\alpha$时对应的z值；$z_\beta$代表标准正态分布的上侧面积为$\beta$时对应的z值  
$\sigma$代表总体的标准差；$\mu_0$代表原假设的总体均值的数值；$\mu_a$代表第二类错误所使用的总体均值的数值  
注意：双侧假设检验中，在式（9-7）中以$z_{\alpha/2}$代替$z_\alpha$  
<hr />

虽然，对于如图9-10所示的假设检验建立了式(9-7)的推理方法，但是对总体均值的任何单侧检验也成立。在总体均质化的双侧检验中，只需在式（9-7）中以$z_{\alpha/2}$代替$z_\alpha$即可 5  
我们回答9.6节和9.7节成批验收的例子。我们假定质量控制人员对第一类错误和第二类错误的可接受概率做出如下称述  
第一类错误的陈述：如果这批电池的平均寿命$\mu=120$，那么我愿冒概率为$\alpha=0.05$的风险拒绝该批电池  
第二类错误的陈述：如果这批电池的平均寿命比规格要求少5小时（即$\mu$=115），那么我愿意冒概率为$\beta=0.01$的风险接受该批电池  
以上陈述是以管理者的判断为依据。但是，在确定样本容量之前，必须对发生两类错误所允许的概率做出说明  
利用式（9-7），在成批验收的例子中，我们建议的样本容量是 5  

In [None]:
'''
scipy Statistical functions (scipy.stats) norm() n.isf()
numpy Mathematical functions np.power()
numpy Mathematical functions np.ceil()
'''
def sampleSizeOverallMean(alpha,beta,sigma,mu0,mua):
    '''
    假设检验样本容量 总体均值 样本容量
    alpha：拒绝原假设的显著性水平
    beta：接受原假设的显著性水平
    sigma：总体标准差
    mu0：拒绝原假设的总体均值
    mua：接受原假设的总体均值
    '''
    zb=norm.isf(beta)
    za=norm.isf(alpha)
    return np.power(za+zb,2)*np.power(sigma,2)/np.power(mu0-mua,2)

n=sampleSizeOverallMean(0.05,0.1,12,120,115)
print('我们建议的样本容量是{:.1f}'.format(np.ceil(n)))

当n=50时，由于发生第一类错误和发生第二类错误的概率已经控制在可接受的水平内，所以在假设检验中，质量控制管理者要在接受$H_0$和拒绝$H_0$的陈述中做出判断  
我们可以观察到$\alpha、\beta$和样本容量n之间的三种关系  
1. 一旦三个量中有两个量已知，即可计算另一个量
2. 对于给定的显著性水平$\alpha$，增加样本容量将会减少$\beta$ 5  
3. 对于给定的样本容量，减少$\alpha$将会使$\beta$增大，想法增大$\alpha$将会使$\beta$减小  

当未对第二类错误的概率加以控制的时候，我们应该牢记第三条，它说明不能毫无必要地选择太小的显著性水平$\alpha$  
对于给定的样本容量，选择较小的显著性水平意味着将使发生第二类错误的风险增大 5  
# 小结
假设检验是一种统计方法，它利用样本数据来确定是否拒绝关于总体参数值的说法。假设是关于总体参数两种对立的说法，其中一个叫做原假设（$H_0$)，另一个叫做备择假设（$H_a$)  
当根据历史数据或者其他信息可以假定总体标准差已知时，总体均值的假设检验过程以标准正态分布为依据。当$sigma$未知时，用样本标准差s估计$sigma$，假设检验过程以t分布为依据  
在这两种情形下，假设检验结果的质量依赖于总体分布的形式以及样本容量。如果总体服从正态分布，则即使在小样本的情形下，这两种假设检验方法也是适用的。但是，如果总体不服从正态分布，则需要较大的样本容量  
在对总体比率进行建设检验时，假设检验程序利用的检验统计量以标准正态分布为依据  
在所有上述情形下，都可以利用检验统计量的值来计算检验的p-值。当p-值小于或者等于显著性水平$\alpha$时，我们拒绝原假设 5  
也可以将检验统计量的值与临界值相比较后得出假设检验的结论  
作为假设检验程序的扩展，本章给出了关于第二类错误的分析 5  
# 关键术语
**原假设** 在假设检验的程序中，试验性地假定为真的假设  
**备择假设** 如果原假设被拒绝时，被认为是真的假设  
**第一类错误** 当$H_0$为真时却拒绝了$H_0$的错误  
**第二类错误** 当$H_0$为假时却接受了$H_0$的错误  
**显著性水平** 当作为一个等式的原假设为真时，发生第一类错误的概率 5  
**单侧检验** 假设检验的一种，当检验统计量的值在抽样分布的某一侧时，拒绝原假设  
**检验统计量** 一种统计量，它的值用于确定是否拒绝原假设  
**p-值** p-值是一个概率值，当根据样本做出拒绝原假设的结论时，p-值是对证据充分程度的一种度量。p-值越小，则越有理由拒绝原假设$H_0$  
对于下侧检验，p-值是检验统计量小于或者等于样本所给出的检验统计量的值的概率。对于上侧检验，p-值是检验统计量大于或者等于样本所给出的检验统计量的值的概率  
对于双侧检验，p-值是检验统计量大于或者等于样本所给出的检验统计量的绝对值的概率 5  
**功效** 当$H_0$为假时做出拒绝$H_0$的正确结论的概率  
**功效曲线**  对不满足原假设的总体参数的所有可能值，拒绝$H_0$的概率曲线图。功效曲线给出了拒绝原假设的正确结论的概率 5  
# 重要公式
总体均值假设检验的检验统计量：$\sigma$已知（9-1）  
$$z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$
总体均值假设检验的检验统计量：$\sigma$未知（9-2）  
$$t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$
总体比率假设检验的检验统计量（9-4） 5  
$$z=\frac{\bar{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$
总体均值单侧假设检验的样本容量（9-7）
$$n=\frac{(z_\alpha+z_\beta)^2\sigma^2}{(\mu_0-\mu_a)^2}$$
在双侧检验中，用$z_{\alpha/2}$代替$z_\alpha$  
5
# 案例9-1
**Quality Associates有限公司**  
在一个应用项目中，一名客户向Quality Associates提供了一个样本，该样本由工艺流程正常运行时的800个观测值组成。这些数据的样本标准差为0.21；因为有如此多的样本数据，因此，总体标准差被假设为0.21  
然后，Quality Associates建议：持续不断地定期抽取容量为30的随机样本以对工艺流程进行监测。当工艺流程的运行状况不能令人满意时，可以采取纠正措施来解决这个问题   
设计规格要求工艺流程的均值为12，Quality Associates建议采用如下形式的假设检验  
$$H_0:\mu=12$$
$$H_a:\mu\ne12$$
只要$H_0$被拒绝，就应该采取纠正措施 5  
下表为第一天运行新的工艺流程的统计控制程序时，每隔一小时收集的样本数据  
**管理报告**  
1. 对每个样本在0.01的显著性水平下进行假设检验，并且确定，如果需要的话，应该采取怎么的措施？给出每一检验的检验统计量和p-值  
2. 计算每一个样本的标准差。总体标准差为0.21的假设合理吗？
3. 在$\mu=12$附近，计算样本均值$\bar{x}$的范围，使得只要一个新的样本均值落在这一范围内，工艺流程的运行状况将被人为是令人满意的  
    如果$\bar{x}$超过上限或低于下限，将采取纠正措施。在质量控制目标中，这些界限被称作控制上限和控制下限 5  
4. 讨论将显著性水平改变为一个更大的值时的影响？如果增加显著性水平，哪种错误或误差将增加？  

In [None]:
'''
读取
'''
df_ass=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/Quality.csv')
df_ass.head()

In [None]:
'''
需求1
python str s.format() s
总体均值假设检验 已知标准差 检验统计量z
'''

def bilateralTestP(z):
    '''
    总体均值假设检验 已知标准差 双侧检验 p-值v1
    '''
    if z<0:
        p_=norm.cdf(z)
    else:
        p_=norm.sf(z)
    return p_*2
 
for i in df_ass:
    sample=df_ass[i].values
    z=testStatZ(sample,12,0.21)
    p=bilateralTestP(z)
    print('{:s}样本的检验统计量z为{:.2f},对应的p-值为{:.4f}'.format(i,z,p))
    if p<0.01:
        print('由于{:.4f}<=0.01,在0.01的显著性水平下拒绝了原假设:mu=12，故需要采取纠正措施'\
             .format(p))
    else:
        print('由于{:.4f}>0.01,在0.01的显著性水平下不能拒绝原假设:mu=12，故不需要采取纠正措施'\
             .format(p))
    print('-'*10)

原假设$H_0：\sigma=0.21$，备择假设$H_a：\sigma\ne0.21$，显著性水平设定为0.01

In [None]:
'''
需求2
总体均值假设检验 未知标准差 双侧检验 p-值
总体均值假设检验 未知标准差 检验统计量t
python Sequence Types — list, tuple, range s.append()
'''
list_ass=[]
for i in df_ass:
    list_ass.append(df_ass[i].std())

z_ass=testStatZUnknow(np.array(list_ass),0.21)
p_ass=bilateralTTestP(np.array(list_ass),0.21)
print('由于{:.4f}大于{:.2f},故不能拒绝原假设sigma=0.21'.format(p_ass,0.01))

In [None]:
'''
需求3 5
'''
    
def printConfidenceIntervalKnow(val,sigma,mu,n):
    '''
    总体均值区间估计 已知标准差 置信区间v2
    mu: 质量控制均值
    val：置信水平
    sigma：总体标准差
    '''
    inter=normz(val)*sigma/np.sqrt(n)
    print('{:.0%}的置信区间为从{:.4f}到{:.4f}'.format(val,mu-inter,mu+inter))
    
printConfidenceIntervalKnow(0.95,0.21,12,800)

需求4  
需如果增加显著性水平，比如从0.01增加到0.05，显著性水平是发生第一类错误的概率，即当原假设为真时，拒绝了原假设的概率 5  