In [None]:
import numpy as np
import pandas as pd
from scipy.stats import chi2

# 实践中的统计
**美国政府审计总署**  
美国政府审计总署（GAO）是联邦政府立法机关一个独立的、非官方的审计机构  
在一个案例中，GAO的稽查员们对一个净化全美河流湖泊的内务部计划进行研究。国会要求GAO确定该计划执行的效率。为此，GAO检查了相关记录并走访了几家废物处理厂  
GAO审计的目的之一是确认这些工厂的流出物（治理后的污水）达到了一定的标准。另外，他们复查了样本的含氧量、pH值和流出物中悬浮固体的数量  
例如，仔细测定流出物的平均pH值。另外，需要复查上报的pH值的方差。关于流出物总体pH值的方差进行如下的假设检验  
$$H_0:\sigma^2=\sigma_0^2$$
$$H_a:\sigma^2\ne\sigma_0^2$$
5  
在本检验中，$\sigma_0^2$表示一个运行良好的工厂其pH值所预期的总体方差。对某个特定的工厂，原假设被拒绝了，进一步的分析表明该厂pH值的方差显著小于正常值  
稽查员们到这个特定的工厂检查测量设备把那个与该厂的管理员讨论有关的统计数字。稽查员们发现因为操作员不知如何操作而并未使用测量设备  
在本章中，你将学会如何对一个和两个总体方差进行统计推断。我们将介绍两种新的分布：$\chi^2$分布与F分布，这两种分布可以用于对总体方差进行区间估计及假设检验  
在前面四章中，我们介绍了总体均值和总体比率的统计推断方法。在本章中我们把讨论扩展到总体方差的统计推断问题  
作为一个方差能为重要决策提供信息的案例，考虑灌装液体洗涤剂的生产过程。尽管平均值是所期望的，但是灌装量的方差也是很关键的。抽取一些容器组成的样本没我们可以计算出容器中液体灌装量的样本方差 5  
这个数值可以作为灌装审查过程中容器灌装量总体方差的一个估计值。如果样本方差适度，生产过程可以继续。然而，如果样本方差过大。则需要调整灌装机械以减少容器灌装量的方差  
在11.1姐我们考虑一个总体方差的统计推断。随后，我们将讨论两个总体的方差进行推断的步骤 5  
# 11.1 一个总体方差的统计推断  
样本方差(11-1)  
$$s^2=\frac{\Sigma{(x_i-\bar{x})^2}}{n-1}$$
是总体方差$\sigma^2$的点估计。在使用样本方差作为总体方差推断的基础时，$(n-1)s^2/\sigma^2$的抽样分布起到了很大作用，该抽样分布描述如下  
<hr />

**$(n-1)s^2/\sigma^2$的抽样分布**(11-2)  
从正态总体中任意抽取一个容量为n的简单随机样本，则  
$$\frac{(n-1)s^2}{\sigma^2}$$
的抽样分布服从自由度为n-1的$\chi^2$分布 5  
<hr />

图11-1显示了$(n-1)s^2/\sigma^2$抽样分布的几种可能的形式  
![11-1](../syn_pic/statistics_for_business_economics/11-1.png)
<center>11-1 $(n-1)s^2/\sigma^2$的抽样分布（$\chi^2$分布）的例子</center>

因为只要容量为n的简单随机样本取自正态总体，则$(n-1)s^2/\sigma^2$的抽样分布就服从$\chi^2$分布，我们可以利用$\chi^2$分布对一个总体的方差建立区间估计和进行假设检验  
## 11.1.1 区间估计
为了阐述如何利用$\chi^2$分布建立总体方差$\sigma^2$的置信区间估计，假定我们试图估计本章开始时提到的洗涤剂灌装过程的总体方差 5  
抽取20个容器组成一个样本，得到灌装量的样本方差$s^2=0.0025$。我们对总体方差进行区间估计  
我们用符号$\chi^2_\alpha$表示右侧面积或概率为$\chi$的$\chi^2$分布的值  
例如，对图11-2所示的自由度为19的$\chi^2$分布，$\chi^2_{0.025}=32.852$表示有2.5%的$\chi^2$分布值落在32.852右侧；$\chi^2_{0.975}=8.907$表示有97.5%的$\chi^2$分布值落在8.907的右侧  
$\chi^2$分布的面积表或概率表很容易使用。参见表11-1并且证实：自由度为19的$\chi^2$分布的这些值是正确的  
![11-2](../syn_pic/statistics_for_business_economics/11-2.png)
<center>11-2 自由度为19的$\chi^2$分布 5</center>

从图11-2中可以看出，有0.95或95%的$\chi^2$值位于$\chi^2_{0.975}$与$\chi^2_{0.025}$之间  
这就是说，满足条件$\chi^2_{0.975}\le\chi^2\le\chi^2_{0.025}$的$\chi^2$值的概率为0.95  
![tb11-1](../syn_pic/statistics_for_business_economics/tb11-1.png)
<center>表11-1 $\chi^2$分布表节选</center>

正如式(11-2)所述，$(n-1)s^2/\sigma^2$服从$\chi^2$分布，因此我们可以用$(n-1)s^2/\sigma^2$代替$\chi^2$，得到（11-3）  
$$\chi^2_{0.975}\le\frac{(n-1)s^2}{\sigma^2}\le\chi^2_{0.025}$$ 5  
实际上，由于$(n-1)s^2/\sigma^2$的所有可能取值落在区间$\chi^2_{0.975}$到$\chi^2_{0.025}$的概率为0.95或95%，于是根据式（11-3）可以得到区间估计  
现在我们需要对式（11-3）做一些代数运算以获得总体方差$\sigma^2$的区间估计。由式（11-3）左面的不等式，我们得到 （11-4） 
$$\sigma^2\le\frac{(n-1)s^2}{\chi^2_{0.975}}$$
对式（11-3）右面的不等式做类似处理，得到（11-5）  
$$\frac{(n-1)s^2}{\chi^2_{0.025}}\le\sigma^2$$  
5  
综合式（11-4）和式（11-5），我们得到（11-6）  
$$\frac{(n-1)s^2}{\chi^2_{0.025}}\le\sigma^2\le\frac{(n-1)s^2}{\chi^2_{0.975}}$$  
因为式(11-3)对于95%的$(n-1)s^2/\sigma^2$的值成立，所以，式（11-6）给出了总体方差$\sigma^2$的95%的置信区间估计  
让我们回到求灌装量的总体方差的区间估计问题上来，我们记得，由20个容器组成的样本得到的样本方差为$s^2=0.0025$  

由于样本容量为20，所以自由度为19。如图11-2所示，我们已经知道$\chi^2_{0.975}=8.907,\chi^2_{0.025}=32.852$。将这些数值代入式（11-6），可以得到总体方差的区间估计如下 5  

In [None]:
'''
python scipy Statistical functions (scipy.stats) chi2()
python scipy Statistical functions (scipy.stats) chi2() c.isf()
'''
fill_n=20
fill_df=fill_n-1

def varCI1(val,df,var):
    '''
    统计常用代码 一个总体方差的统计推断 置信区间 方差的置信区间
    val: 置信水平
    df: 自由度
    var: 样本方差
    '''
    chi2l=chi2.isf((1-val)/2,df)
    chi2r=chi2.isf((1+val)/2,df)
    mol=df*var
    print('方差在{:.0%}置信区间下介于{:.4f}和{:.4f}之间'.format(val,mol/chi2l,mol/chi2r))
    
varCI1(0.95,fill_df,0.0025)

In [None]:
'''
python numpy Mathematical functions np.sqrt()
'''

def stdCI1(val,df,var):
    '''
    统计常用代码 一个总体方差的统计推断 置信区间 标准差的置信区间
    val: 置信水平
    df: 自由度
    var: 样本方差
    '''
    chi2l=chi2.isf((1-val)/2,df)
    chi2r=chi2.isf((1+val)/2,df)
    mol=df*var
    print('标准差在{:.0%}置信区间下介于{:.4f}和{:.4f}之间'.format(val,np.sqrt(mol/chi2l),np.sqrt(mol/chi2r)))
    
stdCI1(0.95,fill_df,0.0025)

以上我们说明了利用$\chi^2$分布建立总体方差与总体标准差的区间估计的过程。将式（11-6）推广到任意置信系数的一般情形，我们得到关于一个总体方差的区间估计如下  
<hr />

**一个总体方差的区间估计**（11-7）  
$$\frac{(n-1)s^2}{\chi^2_{\alpha/2}}\le\sigma^2\le\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}$$
5  
式中，$\chi^2$值是基于自由度为n-1的$\chi^2$分布，$1-\alpha$为置信系数  
<hr />

## 11.1.2 假设检验
用$\sigma_0^2$标识总体方差的假设值，关于总体方差有以下三种形式的假设检验：  
$$H_0:\sigma^2\ge\sigma^2_0$$
$$H_a:\sigma^2\lt\sigma^2_0$$
<hr />

$$H_0:\sigma^2\le\sigma^2_0$$
$$H_a:\sigma^2\gt\sigma^2_0$$
<hr />

$$H_0:\sigma^2=\sigma^2_0$$
$$H_a:\sigma^2\ne\sigma^2_0$$
5  
这三种形式与第9章和第10章中我们用于总体均值和比率的单侧和双侧检验的三种形式类似  
进行总体方差假设检验的步骤，是用总体方差的假设值$\sigma_0^2$和样本方差$s^2$来计算检验统计量$\chi^2$的值。假设总体服从正态分布，则检验的统计量如下  
<hr />

**一个总体方差假设检验的检验统计量**（11-8）  
$$\chi^2=\frac{(n-1)s^2}{\sigma_0^2}$$
式中，$\chi^2$服从自由度为n-1的$\chi^2$分布 5  
<hr />

在计算出检验统计量$\chi^2$的数值之后，可使用p-值法或临界值法来确定原假设是否被拒绝  
让我们考虑一下例子，圣路易斯公共汽车公司鼓励其员工遵守时间，以在公众面前树立值得信赖的形象。作为一个规范制度，该公司要求各辆汽车的到站时间变化不大  
就到站时间的方差而言，公司规定的标准是到站时间的方差不超过4。利用一下假设检验，可以帮助公司确定到站时间的方差不超过4。利用以下假设检验，可以帮助公司确定到站时间的总体方差是否过大  
$$H_0:\sigma^2\le4$$
$$H_a:\sigma^2\gt4$$
如果尝试性地假设$H_0$为真，即我们假定到站时间的总体方差满足公司规定的标准。我们在$\alpha=0.05$的显著性水平下进行假设检验 5  
假定在某个市中心车站随机抽取了24辆公共汽车的到站时间组成一个样本，得到样本方差为$s^2=4.9$。假设到站时间的总体分布近似服从正态分布，则检验统计量的数值如下  

In [None]:
def chisquareTS(var,df,svar):
    '''
    统计常用代码 一个总体方差的统计推断 假设检验 卡方检验统计量
    var：检验方差
    df：自由度
    svar：样本方差
    '''
    return df*svar/var

bus_TS=chisquareTS(4,23,4.9)
print('检验统计量的数值{:.2f}'.format(bus_TS))

In [None]:
'''
python scipy Statistical functions (scipy.stats) chi2() c.sf()
'''
bus_P=chi2.sf(fill_TS,23)
print('P-值={:.2f}>alpha=0.05，所以我们不能拒绝原假设'.format(bus_P))

![11-3](../syn_pic/statistics_for_business_economics/11-3.png)
<center>11-3 圣路易斯公共汽车公司例子的$\chi^2$分布 5</center>

同其他假设检验程序一样，也可以使用临界值法得出假设检验的结论  

In [None]:
'''
python scipy Statistical functions (scipy.stats) chi2() c.isf()
'''
bus_CV=chi2.isf(0.05,23)
print('利用计算机软件包，得到临界值={:.3f}'.format(bus_CV))

因此，对到站时间例子的拒绝法则如下：如果$\chi^2\ge35.172$，则拒绝$H_0$  
业务检验统计量的数值$\chi^2=28.18$，所以我们不拒绝原假设  
实践中，上侧检验最常用于总体方差的检验。在涉及到达时间、生产时间、灌装重量、零件尺寸等情形，一般都要求较小的方差，而较大的方差则不可能接受 5  
根据这种检验的结构，一旦拒绝原假设，则显示总体方差过大，应该采取纠正措施  
同我们对总体均值和总体比率的检验一样，也可以进行其他形式的假设检验  
历史上，申请驾驶执照的个人考试分数的方差为$\sigma^2=100$。该管理处希望新型考题的考分方差保持在原有水平上。为评价新型考题考分的方差，提出下面的双侧假设检验  
$$H_0:\sigma^2=100$$
$$H_a:\sigma^2\ne100$$
拒绝$H_0$表明方差发生了改变，因此为了使新型考题分的方差保持原有水平，则必须修订新型考题中的某些考题。一个由30名驾驶执行的申请者组成的样本将接受这种新型的考试。我们在$\alpha=0.05$的显著性水平下进行假设检验 5  
由30份新型考题的考分组成的样本方差为$s^2=162$，检验统计量$\chi^2$的数值为：  

In [None]:
'''
统计常用代码 一个总体方差的统计推断 假设检验 卡方检验统计量
'''
drive_TS=chisquareTS(100,29,162)
print('检验统计量的数值为{:.2f}'.format(drive_TS))

In [None]:
drive_P=chi2.sf(drive_TS,29)*2
print('得到双侧检验的P-值={:.2f}，由于p-值小于alpha，故我们拒绝H0'.format(drive_P))

表11-2中给出了总体方差假设检验步骤的汇总  
<center>表11-2 一个总体方差假设检验的汇总 5</center>

|汇总|下侧检验|上侧检验|双侧检验|
|:-:|:-:|:-:|:-:|
|假设|$$H_0:\sigma^2\ge\sigma^2_0$$$$H_a:\sigma^2\lt\sigma^2_0$$|$$H_0:\sigma^2\le\sigma^2_0$$$$H_a:\sigma^2\gt\sigma^2_0$$|$$H_0:\sigma^2=\sigma^2_0$$$$H_a:\sigma^2\ne\sigma^2_0$$|
|检验统计量 5|$$\chi^2=\frac{(n-1)s^2}{\sigma^2_0}$$|$$\chi^2=\frac{(n-1)s^2}{\sigma^2_0}$$|$$\chi^2=\frac{(n-1)s^2}{\sigma^2_0}$$|
|拒绝法则:p-值法 5|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|如果p-值$\le\alpha$，则拒绝$H_0$|
|拒绝法则：临界值法 5|如果$\chi^2\le\chi^2_{(1-\alpha)}$，则拒绝$H_0$|如果$\chi^2\ge\chi^2_\alpha$，则拒绝$H_0$|如果$\chi^2\le\chi^2_{(1-\alpha/2)}$或者$\chi^2\ge\chi^2_{\alpha/2}$，则拒绝$H_0$|

# 11.2 两个总体方差的统计推断
在一些统计应用中，我们可能想比较两个不同生产工序生产出来的产品质量的方差，两种不同装配方法所需装配时间的方差，或者两种加热装置温度的方差  
在比较两个总体方差时，我们将使用两个独立随机样本收集的数据，其中一个来自总体1，而另一个来自总体2，两个样本方差$s_1^2$和$s_2^2$是推断总体方差$\sigma_1^2$和$\sigma_2^2$的基础  
当两个正态总体的方差相等$(\sigma_1^2=\sigma_2^2)$时，样本方差之比$s_1^2/s_2^2$有以下抽样分布  
<hr />

**当$\sigma_1^2=\sigma_2^2$时,$s_1^2/s_2^2$的抽样分布**  
从两个方差相等的正态总体中分别抽取容量$n_1$和$n_2$的两个独立的简单随机样本，则（11-9） 5  
$$\frac{s_1^2}{s_2^2}$$
的抽样分布服从分子自由度为$n_1-1$和分母自由度为$n_2-1$的F分布。$s_1^2$为取自总体1的容量为$n_1$的随机样本的样本方差，$s_2^2$为取自总体2的容量为$n_2$的随机样本的样本方差  
<hr />

图11-4是分子和分母自由度均为20的F分布图形。从这张图上我们能看出，F分布是不对称的，而且F值永远不取负数。任何F分布的形状依赖于分子和分母的自由度  
![11-4](../syn_pic/statistics_for_business_economics/11-4.png)
<center>11-4 分子和分母自由度都为20的F分布</center>

我们将用$F_\alpha$表示在F分布的上侧面积或概率为$\alpha$时的F值。例如，如图11-4所示，$F_{0.05}$表示对于分子和分母自由度都为20的F分布，其上侧面积为0.05 5  
<center>表11-3 F分布表节选</center>

![tb11-3](../syn_pic/statistics_for_business_economics/tb11-3.png)