In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm

# 实践中的统计
John Morrell公司于1827年创建于英国，是历史最悠久的肉类制造商。每种地区品牌都在消费者中拥有很高的品牌认知度和忠诚度  
John Morrell公司的市场研究部门负责管理公司各类产品的大量信息，并将这些产品与同类品牌的竞争产品进行对比。在这三种产品的对比检验中，消费者样本根据口感、外观、香味和整体偏好，对产品进行评价  
公司关注的一个研究问题是：消费者总体中是否有超过50%的人偏爱John Morrell公司生产的炖牛肉食品。令p表示偏爱John Morrell产品的总体比率，研究中问题的假设检验是：  
$$H_0:p\le0.50$$
$$H_a:p\gt0.50$$
原假设$H_0$表示，偏爱John Morrell产品的总体比率≤50% 5  
如果样本数据支持拒绝$H_0$，从而接受备择假设$H_a$，则John Morrell会得出研究结论：通过三种产品的比较，消费者总体中超过50%以上的人偏爱John Morrell公司的产品  
在一项独立的口感检验的研究中，来自辛辛那提、密尔沃基和洛杉矶的224名消费者组成一个样本，其中有150人选择John Morrell公司生产的炖牛肉为自己最喜爱的食品  
利用统计假设检验的步骤，原假设$H_0$被拒绝。研究提供统计证据支持$H_a$，得出的结论是：消费者总体中超过50%的人偏爱John Morrell公司的产品  
总体比率的点估计$\bar{p}=150/224=0.67$。因此，样本数据支持食品杂志的广告，认为在三种产品的口味比较重，John Morrell公司生产的炖牛肉“在竞争中受欢迎程度为2：1”  
本章我们将介绍如何提出假设，如何像John Morrell公司那样进行假设检验。通过分析样本数据，我们可以确定是否拒绝一个假设 5  
在第7章和第8章中，我们说明了如何利用样本对总体参数进行点估计和区间估计。本章，我们将继续讨论在统计推断中如何利用假设检验来确定是否应拒绝关于总体参数值的说法  
在假设检验中，我们首先对总体参数做一个尝试性的假设。该尝试性的假设称为**原假设**记作$H_0$。然后，定义另一个与原假设的内容完全对立的假设，记作$H_a$，称之为**备择假设**  
假设检验的过程就是根据样本数据对这两个对立的假设$H_0$和$H_a$进行检验  
本章说明如何对总体均值和总体比率进行假设检验 5  
# 9.1 原假设和备择假设的建立
原假设和备择假设可能并不总是显而易见的，必须谨慎地构造适当的假设，从而使得假设检验的结论能够为研究者或者决策者提供所需要的信息。在确定原假设和备择假设时，关键的问题是考虑搜集样本的目的是什么，我们想要做出怎样的结论  
在本章的开篇，我们说原假设$H_0$是关于总体参数（比如总体均值或者总体比率）的一个尝试性的假设。备择假设$H_a$是与原假设对立的一种说法  
## 9.1.1 备择假设作为研究的假设  
在许多假设检验的应用中，都是试图搜集证据来支持研究中的假设。在这些情形下，通常最好从备择假设开始，然后得到研究者希望支持的结论  
某产品研究小组专门设计了一种新型燃油喷射系统来提高每加仑英里数的额定值。产品研究小组要对这种新型燃油喷射系统进行控制实验，寻找统计依据做出结论：新型燃油喷射系统使得每加仑行驶的英里数超过目前使用的系统  
制造一批这种新型燃油喷射系统，将它们安装在要检测的汽车上，并且满足研究控制的驾驶条件 5  
计算这些汽车每加仑燃油行驶里程的样本均值，并据此在假设检验中判断是否可以得出结论：新型燃油喷射系统的每加仑燃油行驶里程超过了24英里  
令每加仑行驶里程的总体均值为$\mu$，则研究中的假设$\mu\gt24$是备择假设。由于目前的燃油喷射系统每加仑平均行驶里程是24英里，所以我们尝试性地假定：新型燃油喷射系统并不比目前的系统好，于是选择$\mu\le24$为原假设  
原假设和备择假设分别为：  
$$H_0:\mu\le24$$
$$H_a:\mu\gt24$$
如果样本结果得出拒绝$H_0$的结论，则可以做出$H_a:\mu\gt24$为真的推断。然而，如果样本结果得出不能拒绝$H_0$的结论，则研究者不能断定，新型燃油喷射系统由于目前的系统  
企业通过不断开发比已有产品和方法更优的新产品、新方法和新系统等，方能成功地保持竞争性 5  
在接纳一项新事物之前，希望通过研究来判定是否有统计依据支持我们做出新方法确实更好的结论。在这种情形下，通常将研究中的假设表述为备择假设  
例如，认为一种新型教学方法由于目前的方法，则备择假设为新方法更好，原假设为新方法不比老方法好。在这些情形下，若拒绝原假设$H_0$，则为研究中的假设提供了统计上的支持  
## 9.1.2 原假设作为被怀疑的假定 
当然，不是所有的假设检验都涉及研究的假设  
在下面的讨论中，我们考虑假设检验的应用，这里我们从一种信念或假定开始，即从总体参数值的说法是真实的开始。然后，我们将利用一个假设检验对这种假定提出怀疑，并确定是否有统计证据支持做出假定不准确的结论  
在这种情形下，首先确立原假设是有益的。原假设$H_0$表述了对总体参数值的信念或者假定。备择假设$H_0$是这种信念或者假说不正确 5  
作为一个例子，考虑某种软饮料产品的制造商所面对的情况。瓶装软饮料的标签上注明，每瓶67.6盎司。除非有其他理由，我们通常假设标签上的标注是正确的，但可以对制造商的说法提出质疑  
因此，在关于每瓶饮料重量的总体均值的假设检验中，我们会从假设标签是正确的开始，设定原假设为$\mu\ge67.6$。于是，原假设和备择假设分别为：
$$H_0:\mu\ge67.6$$
$$H_a:\mu\lt67.6$$
政府监督部门肩负着保证商标标注有效的义务，他们选取一些瓶装软饮料组成样本，计算灌装重量的样本均值，并据此进行随后的假设检验  
下面我们从制造商的角度重新考虑瓶装软饮料的灌装问题。企业的目标是，调整装瓶操作使得每瓶饮料重量的总体均值恰好为标签标准的67.6盎司 5  
虽然企业的目标如此，但是生产操作中时常会出现失控，那么在我们的例子中，将会发生软饮料灌装不足或者灌装过量的情形  
在应用假设检验时，我们依然会假设生产线运行正常开始，设定原假设为$\mu=67.6$盎司，挑战该假设的备择假设为$\mu\ne67.6$盎司，既不会发生软饮料灌入不足或者灌入过量的情形  
原假设和备择假设分别为：
$$H_0:\mu=67.6$$
$$H_a:\mu\ne67.6$$
假如软饮料制造商利用质量控制方法定期从灌装生产线上抽取一部分灌装软饮料组成样本，计算每瓶灌入重量的样本均值  
如果样本结果使得我们得到拒绝$H_0$的结论，则推断$H_a:\mu\ne67.6$为真。我们的结论是，装瓶操作运行不正常，需要对生产流程进行调整，以恢复到每瓶的总体均值为67.6盎司的状态 5  
关于软饮料制造的上述两种假设检验的形式说明：研究者或者决策者的观点不同，原假设和备择假设也随之不同  
在正确地建立假设时，重要的是，要了解假设检验具体应用于何种情况，从而使得构建的假设能够为研究者或者决策者提供所需要的信息  
## 9.1.3 原假设和备择假设形式的小结
本章中的假设检验涉及两个总体参数：总体均值和总体比率  
根据不同情况，总体参数的假设检验采取以下三种形式之一：其中两个在原假设用不等号；第三个在原假设用等号  
对于总体均值的假设检验，我们令$\mu_0$代表假定值并且必须采用以下三种形式之一进行假设检验 5  
$$H_0:\mu\ge\mu_0$$
$$H_a:\mu\lt\mu_0$$
<hr />

$$H_0:\mu\le\mu_0$$
$$H_a:\mu\gt\mu_0$$
<hr />

$$H_0:\mu=\mu_0$$
$$H_a:\mu\ne\mu_0$$
前面两种形式成为单侧检验；第三种形式成为双侧检验  
许多情况下，关于$H_0和H_a$的选择并非显而易见，必须通过判断来选择 5  
在选择$H_0和H_a$的适当形式时，记住将检验试图建立的结果设为备择假设因此，询问使用者是否正在寻找支持$\mu\lt\mu_0,\mu\gt\mu_0或\mu\ne\mu_0$的证据对我们确定$H_a$是有帮助的 5  
# 9.2 第一类错误和第二类错误
原假设和备择假设是关于总体的两种对立的观点。但是，由于假设检验是基于样本信息得到的，不可能做出结论总是正确，所以我们必须考虑发生误差的可能性  
表9-1列示了假设检验中可能发生的两类错误  
![tb9-1](../syn_pic/statistics_for_business_economics/tb9-1.png)
<center>表9-1 假设检验中的正确结论与错误结论 </center>

表9-1的第一行说明，当接受$H_0$结论时可能发生的情况。这时，如果$H_0$为真时，则该结论正确，如果$H_a$为真时，那么我们发生了**第二类错误**，即当$H_0$为假时我们却接受了$H_0$  
表9-1的第二行说明，当拒绝$H_0$结论时可能发生的情况。这时，如果$H_0$为真时，那么我们发生了**第一类错误**，即当$H_0$为真时我们却拒绝了$H_0$ 5    
回忆在第9.1节讨论的假设检验的例子。汽车生产研究小组开发了一种能提高汽车每加仑行驶里程的新型燃油喷射系统。目前所用系统每加仑平均行驶24英里，建立以下的假设检验  
$$H_0:\mu\le24$$
$$H_a:\mu\gt24$$
在应用中，第一类错误是指，$H_0$为真时却拒绝了$H_0$，即当研究者认为新型燃油喷射系统提高了每加仑燃料的行驶里程（$\mu\gt24$）,而实际情况却是新系统并不比目前所使用的系统好  
反之，第二类错误是指，$H_0$为假时却接受了$H_0$，即当研究者认为新型燃油喷射系统并不比目前的系统好（$\mu\le24$）,而实际情况却是新系统提高了每加仑燃料的行驶里程  
对于每加仑燃料行驶里程的假设检验，原假设是$H_0:\mu\le24$。假定，原假设为真是一个等式的形式，即$\mu=24$ 5  
当作为一个等式的原假设为真时，犯第一类错误的概率被称为检验的**显著性水平**  
于是，对于每加仑燃料行驶里程的假设检验，显著性水平是当$\mu=24$时，拒绝$H_0:\mu\le24$的概率  
出于这个概念的重要性，下面我们重新叙述显著性水平的定义  
用希腊字母$\alpha$（阿尔法）表示显著性水平，一般取$\alpha$为0.05和0.01  
<hr />

**显著性水平**  
当作为一个等式的原假设为真时，犯第一类错误的概率称为检验的显著性水平 5  
<hr />

在实践中，由进行假设检验的人设定显著性水平。通过选择$\alpha$，控制了犯第一类错误的概率  
如果犯第一类错误的概率成本很高，则选择小的$\alpha$值。如果犯第一类错误的概率成本不高，则通常选择较大的$\alpha$值  
应用中，一般将只控制第一类错误的假设检验称为显著性检验。许多假设检验的应用都属于这一种类型  
在假设检验的大多数应用中，虽然对发生第一类错误的概率进行了控制，但通常并不对发生第二类错误的概率加以控制  
因此，如果我们决定接受$H_0$，我们并不能确定该决策有多大的可信度 5  
由于第二类错误的发生具有不确定性，所以通常统计学家建议我们在叙述中采用“不能拒绝$H_0$”而不采用“接受$H_0$”这种说法  
不论何时，只要未对发生第二类错误的概率加以确定或控制，我们就不会做出接受$H_0$的结论。这种情形下，只能得出两种可能的结论：不能拒绝$H_0$或拒绝$H_0$  
虽然在假设检验中，通常没有对第二类错误进行控制，但是这确实是我们可以做到的。事实上，在第9.7节和第9.8节，我们将介绍确定和控制第二类错误发生概率的方法  
## 注释
美国George Mason大学的经济学教授兼联合专栏作家沃尔特·威廉姆斯指出，在决策中第一类错误或第二类错误发生的可能性经常存在。无论做出何种决策，都不能忽视发生重大损失的可能性 5  
# 9.3 总体均值：$\sigma$已知  
在第8章我们曾说，如果在应用中可以根据历史数据或者其他信息在抽样前得到总体标准差的一个好的估计，则可看做$\sigma$是已知的  
本节我们说明，在$\sigma$已知的情形下如何对总体均值进行假设检验  
本节所介绍的方法是在样本恰好选自服从正态分布总体的条件下进行的。在总体服从正态分布的假定不合理的情形下，只有当样本容量足够大的适合，这些方法才是有效的  
## 9.3.1 单侧检验  
总体均值的**单侧检验**有以下两种形式  
下侧检验 5  
$$H_0:\mu\ge\mu_0$$
$$H_a:\mu\lt\mu_0$$
上侧检验  
$$H_0:\mu\le\mu_0$$
$$H_a:\mu\gt\mu_0$$
我们考虑一个下侧检验的例子  
美国联邦贸易委员会（FTC)定期进行统计调查设计，以检验制造商的产品说明。例如，大号听装Hilltop咖啡的标签上标明装有3磅咖啡  
我们将说明，FTC如何通过下侧检验来对Hilltop的承诺进行检验  
第一步是给检验提出原假设和备择假设。如果罐内装入咖啡重量的总体均值至少为每听3磅，那么Hilltop关于其产品的承诺是正确的 5  
令$\mu$代表听装咖啡重量的总体均值，得到如下形式的原假设和对立假设  
$$H_0:\mu\ge3$$
$$H_a:\mu\lt3$$
注意，总体均值的假定值$\mu_0=3$  
如果样本数据表明，$H_0$不能被拒绝，则统计证据不支持我们做出标签上的承诺被违背的结论，从而不会对Hilltop采取任何措施。反之亦然  
假定选取36听咖啡组成一个随机样本，并且计算样本均值$\bar{x}$作为总体均值$\mu$的估计值 5  
如果样本均值$\bar{x}$小于3磅，则样本结果对原假设提出了质疑  
我们想知道的是：当样本均值$\bar{x}$比3磅少多少的时候，我们才能断言差异明显并且甘愿冒着犯第一类错误的风险（错误地）控告Hilltop违背了标签的承诺  
这个问题的关键因素在于决策者所选择的显著性水平的值  
正如上一节所提到的那样，用$\alpha$表示显著性水平，它是当作为一个等式的原假设为真时，拒绝$H_0$而发生的第一类错误的概率  
在Hilltop咖啡的研究中，FTC检验程序的负责人做出如下说明：“如果公司达到了其重量规格$\mu=3$的要求”，则我们不会对Hilltop采取任何措施。但是，我们会以1%的可能性犯这类错误。” 5  
从该负责人的说明中可知，我们设定该假设检验的显著性水平$\alpha=0.01$。于是，我们必须设计一个假设检验，使得当$\mu=3$时犯第一类错误的概率为0.01  
在Hilltop咖啡问题的研究中，通过确定原假设、备择假设和显著性水平，我们已经完成了每个假设检验所需的前两步  
现在我们准备完成假设检验的第三步：收集样本数据和计算检验统计量的值  
**检验统计量** 在Hilltop咖啡问题的研究中，FTC前期的检验表明，总体标准差可以假定为已知，$\sigma=0.18$  
另外，前期检验还表明，听装咖啡重量的总体可以假定服从正态分布 5  
因此，在Hilltop咖啡的研究中，$\bar{x}$的抽样分布服从正态分布，$\sigma=0.18$已知，样本容量n=36  
图9-1给出当作为一个等式的原假设为真时，即$\mu=\mu_0=3$时$\bar{x}$的抽样分布  
![9-1](../syn_pic/statistics_for_business_economics/9-1.png)
图9-1 当作为一个等式（$\mu=3$）的原假设为真时，Hilltop咖啡问题研究的$\bar{x}$的抽样分布  

In [None]:
def stdError(sigma,n):
    '''
    常用代码 样本均值的抽样分布 样本均值的标准误差  5 
    '''
    return sigma/np.sqrt(n)

print('样本均值的标准误差σ={:.2f}'.format(stdError(0.18,36)))

由于样本均值的抽取分布服从正态分布，则
$$z=\frac{\bar{x}-\mu_0}{\sigma_{\bar{x}}}=\frac{\bar{x}-3}{0.03}$$
的抽样分布服从标准正态分布。z=-1表示$\bar{x}$的值是在均值的假定值$\mu_0$的左侧1个标准差的地方，z=-2表示$\bar{x}$的值是在均值的假定值$\mu_0$的左侧2个标准差的地方，依次类推  
我们可以通过标准正态概率分布表得到对应于任何z值的左侧概率  
在$\sigma$已知的情形下对总体均值进行假设检验，我们用标准正态随机变量z作为**检验统计量**来确定$\bar{x}$是否偏离$\mu$的假定值足够远，从而有理由拒绝原假设 5  
令$\sigma_{\bar{x}}=\sigma/\sqrt{n}$，检验统计量如下   
<hr />

**总体均值假设检验的检验统计量：$\sigma$已知**（9-1）  
$$z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$
<hr />

下侧检验的关键问题在于：检验统计量z的值必须多小，我们才能选择拒绝原假设？有两种方法可以解决这个问题：p-值法和临界值法  
**p-值法** p-值法利用检验统计量z的值来计算一个被称为**p-值**的概率 5  
p-值用于确定是否拒绝原假设  
<hr />

**p-值** 
p-值是一个概率值，它是样本所提供的证据对原假设支持程度的度量。p-值越小说明反对原假设的证据越多  
<hr />

我们看看如何计算和使用p-值。用于计算p-值的方法依赖于检验是下侧检验、上侧检验还是双侧检验。对于下侧检验，p-值是检验统计量小于或等于样本所给出的检验统计量的值的概率   
从而，在$\sigma$已知的情形下为了计算下侧检验的p-值，我们必须得到标准正态曲线下在检验统计量的值左边部分的面积  
在计算出p-值以后，我们必须决定它是否小到足以拒绝原假设；正如我们将要说明的那样，这需要计算出的p-值与显著性水平进行比较 5  
我们现在计算Hilltop咖啡下侧检验的p-值。假定选取36听Hilltop咖啡组成样本，我们计算检验统计量z的值为   

In [None]:
'''
读取
pandas series s.values

'''
d0=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/Coffee.csv')
d1=d0.iloc[:-1,0]
sp=d1.values

'''
z值
numpy The N-dimensional array (ndarray) ndarray.mean()
'''

def testStatZ(sample,mu,s):
    '''
    常用代码 已知标准差 检验统计量z
    sample：样本 ndarray
    mu：检验的mu_0
    s：已知的标准差
    '''
    n= len(sample)
    x_bar=sample.mean()
    return (x_bar-mu)/(s/np.sqrt(n))

z=testStatZ(sp,3,0.18)
print('z={:.2f}'.format(z))

'''
p值
scipy Statistical functions (scipy.stats) norm() n.cdf()
'''
p_=norm.cdf(z)
print('p-值={:.4f}'.format(p_))

这个p-值没有对原假设提供支持，但是它小到足以能够使我们拒绝$H_0$了吗？答案依赖于检验的显著性水平 5  
正如前面所说，FTC检验项目的负责人选取0.01作为显著性水平。选择$\alpha=0.01$意味着：当作为一个等式（$\mu_0=3$）的原假设为真时，负责人愿意容许以0.01的概率拒绝原假设  
在由36听咖啡组成样本的Hilltop问题研究中，p-值=0.0038，这意味着：当作为一个等式的原假设为真时，得到$\bar{x}=2.92$或者更小的$\bar{x}$值的概率为0.0038  
由于0.0038小于$\alpha=0.01$，我们拒绝$H_0$。从而，我们发现有足够的统计证据在0.01的显著性水平下拒绝原假设  
![9-2](../syn_pic/statistics_for_business_economics/9-2.png)
<center>图9-2 对于Hilltop咖啡研究，当$\bar{x}=2.92和z=-2.67$时的p-值 5</center>

我们现在可以陈述利用p-值法确定是否可以拒绝原假设的基本规则。对于给定的显著性水平$\alpha$，p-值法的拒绝法则如下   
<hr />

**p-值法的拒绝法则**  
如果p-值$\le\alpha$，则拒绝$H_0$
<hr />

虽然，做出拒绝决定的根据源于p-值与FTC负责人选取的显著性水平的比较，观测的p-值0.0038意味着对于任何$\alpha\ge0.0038$的情形，我们都将拒绝$H_0$。因此，p-值也被称为观测的显著性水平  
不同的决策者可能对发生第一类错误的成本有不同的看法，并且选择不同的显著性水平  
**临界值法**  临界值法要求我们首先确定被称为临界值的检验统计量的值。对于下侧检验，**临界值**是确定检验统计量的值是否小到足以聚集原假设的一个基准 5  
在检验统计量的抽样分布中，与下侧面积$\alpha$（显著性水平）相对应的值是检验统计量的临界值。换句话说，临界值是使得我们拒绝原假设的检验统计量的最大值   
在$\sigma$已知的情形下，检验统计量z的抽样分布是标准正态分布。从而，临界值是检验统计量的值，该值对应于标准正态概率分布的下侧$\alpha=0.01$的面积  

In [None]:
'''
scipy Statistical functions (scipy.stats) norm() n.ppf()
'''
cv=norm.ppf(0.01)
print('z={:.2f}'.format(cv))

![9-3](../syn_pic/statistics_for_business_economics/9-3.png)
<center>图9-3 Hilltop咖啡问题假设检验的临界值是-2.23</center>

从而，如果样本所得的检验统计量的值小于或等于0.01。在这种情况下，我们将拒绝原假设 5  
<center>如果$z\le-2.33$，则拒绝$H_0$</center>

由于z=-2.67<-2.23，所以我们拒绝$H_0$并且得出Hilltop咖啡的分量不足的结论  
<center>Sampling distribution of $z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}:z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$的抽样分布</center>  

我们可以将临界值法的拒绝法则推广到任意的显著性水平。下侧检验的聚集法则如下  
<hr />

**下侧检验的拒绝法则：临界值法** 5  
如果$z\le-z_\alpha$，则拒绝$H_0$  
式子中，$-z_\alpha$是临界值，即标准正态概率分布下侧面积为$\alpha$时对应的z值  
<hr />

p-值法的优点在于，p-值能够告诉我们结果有多么显著（观测的显著性水平）。而如果我们使用临界值法，我们只能得到在规定的显著性水平下结果是显著的  
在本节的开头，我们已经说过总体均值的单侧检验采用以下两种形式之一：  
下侧检验 5  
$$H_0:\mu\ge\mu_0$$
$$H_a:\mu\lt\mu_0$$
上侧检验  
$$H_0:\mu\le\mu_0$$
$$H_a:\mu\gt\mu_0$$
我们已经通过Hilltop咖啡问题的研究说明了如何进行下侧检验。我们可以用相同的方法进行上侧检验。检验统计量仍然通过式（9-1）计算  
采用临界值法时，如果检验统计量的值大于或等于临界值$Z_\alpha$，则我们将拒绝原假设；换句话说，如果$z\ge{z_\alpha}$，则拒绝$H_0$  
## 9.3.2 双侧检验  
在假设检验中，关于总体均值的**双侧检验**的一般形式如下：
$$H_0:\mu=\mu_0$$
$$H_a:\mu\ne\mu_0$$
5  
在这一小节，我们将介绍如何在$\sigma$已知情形下对总体均值进行双侧检验  
美国高尔夫球协会制定了一些标准，高尔夫设备制造商如果想让他们的产品被接受用于USGA的赛事，则必须达到这些标准  
MaxFlight有限公司最近采用一种高技术制造工艺所生产的高尔夫球，平均发球距离为295码。当求的平均发球距离超过295码时，MaxFlight的高尔夫球将因为超过击球和滚动的总标准而被USGA拒绝  
令假设值$\mu_0=295$，则MaxFlight假设检验的原假设和备择假设如下：  
$$H_0:\mu=295$$
$$H_a:\mu\ne295$$
5  
如果样本均值明显小于295码或明显大于295码，则我们拒绝$H_0$  
质量控制小组选择$\alpha=0.05$作为检验的显著性水平。在制造工艺处于正常运行时，进行前期检验的数据表明，可以假定总体的标准差为已知$\sigma=12$。从而，样本容量n=50时，$\bar{x}$的标准误差是  

In [None]:
'''
'''
print('样本均值的标准误差σ={:.1f}'.format(stdError(12,50)))

由于样本容量较大，我们根据中心极限定理可知$\bar{x}$的抽样分布近似服从正态分布（见第7章）。图9-4是当假定均值$\mu_0=295$时，MaxFlight假设检验的$\bar{x}$的抽样分布  
![9-4](../syn_pic/statistics_for_business_economics/9-4.png)
<center>图9-4 MaxFlight假设检验的$\bar{x}$的抽样分布 5</center>

假定抽取50个高尔夫球组成一个样本，它的样本均值$\bar=297.6$码。超过295码的$\bar{x}$的值是否足够大，使得我们能够在0.05的显著性水平下拒绝$H_0$?  
**p-值法** p-值是一个用于确定是否能够拒绝原假设的概率值。对于双侧检验，检验统计量的值位于抽样分布的两侧尾部则为拒绝原假设提供支持  
我们首先计算检验统计量z的值。利用式（9-1）和$\bar{x}=297.6$，检验统计量的值为  

In [None]:
'''
读取
'''
dg0=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch09/GolfTest.csv')
dg1=dg0.iloc[:,0]
spg=dg1.values

'''
z值 5
常用代码 已知标准差 检验统计量z
'''
zg=testStatZ(spg,295,12)
print('检验统计量的值为{:.2f}'.format(zg))

通过图9-5，我们可知这个例子中双侧检验的p-值为$P(z\le-1.53)+P(z\ge1.53)$。因为正态曲线是对称的，这个概率可以通过先计算标准正态曲线下z=1.53右侧部分的面积，再将它乘以2得到  
![9-5](../syn_pic/statistics_for_business_economics/9-5.png)
<center>图9-5 MaxFlight假设检验的p-值</center>

In [None]:
'''
p值
scipy Statistical functions (scipy.stats) norm() n.sf()
常用代码 p-值 双侧检验
'''
p_=norm.sf(zg)*2
print('p-值={:.3f}'.format(p_))