In [None]:
import numpy as np
import pandas as pd

# 实践中的统计
**美国政府审计总署**  
美国政府审计总署（GAO）是联邦政府立法机关一个独立的、非官方的审计机构  
在一个案例中，GAO的稽查员们对一个净化全美河流湖泊的内务部计划进行研究。国会要求GAO确定该计划执行的效率。为此，GAO检查了相关记录并走访了几家废物处理厂  
GAO审计的目的之一是确认这些工厂的流出物（治理后的污水）达到了一定的标准。另外，他们复查了样本的含氧量、pH值和流出物中悬浮固体的数量  
例如，仔细测定流出物的平均pH值。另外，需要复查上报的pH值的方差。关于流出物总体pH值的方差进行如下的假设检验  
$$H_0:\sigma^2=\sigma_0^2$$
$$H_a:\sigma^2\ne\sigma_0^2$$
5  
在本检验中，$\sigma_0^2$表示一个运行良好的工厂其pH值所预期的总体方差。对某个特定的工厂，原假设被拒绝了，进一步的分析表明该厂pH值的方差显著小于正常值  
稽查员们到这个特定的工厂检查测量设备把那个与该厂的管理员讨论有关的统计数字。稽查员们发现因为操作员不知如何操作而并未使用测量设备  
在本章中，你将学会如何对一个和两个总体方差进行统计推断。我们将介绍两种新的分布：$\chi^2$分布与F分布，这两种分布可以用于对总体方差进行区间估计及假设检验  
在前面四章中，我们介绍了总体均值和总体比率的统计推断方法。在本章中我们把讨论扩展到总体方差的统计推断问题  
作为一个方差能为重要决策提供信息的案例，考虑灌装液体洗涤剂的生产过程。尽管平均值是所期望的，但是灌装量的方差也是很关键的。抽取一些容器组成的样本没我们可以计算出容器中液体灌装量的样本方差 5  
这个数值可以作为灌装审查过程中容器灌装量总体方差的一个估计值。如果样本方差适度，生产过程可以继续。然而，如果样本方差过大。则需要调整灌装机械以减少容器灌装量的方差  
在11.1姐我们考虑一个总体方差的统计推断。随后，我们将讨论两个总体的方差进行推断的步骤 5  
# 11.1 一个总体方差的统计推断  
样本方差(11-1)  
$$s^2=\frac{\Sigma{(x_i-\bar{x})^2}}{n-1}$$
是总体方差$\sigma^2$的点估计。在使用样本方差作为总体方差推断的基础时，$(n-1)s^2/\sigma^2$的抽样分布起到了很大作用，该抽样分布描述如下  
<hr />

**$(n-1)s^2/\sigma^2$的抽样分布**(11-2)  
从正态总体中任意抽取一个容量为n的简单随机样本，则  
$$\frac{(n-1)s^2}{\sigma^2}$$
的抽样分布服从自由度为n-1的$\chi^2$分布 5  
<hr />

图11-1显示了$(n-1)s^2/\sigma^2$抽样分布的几种可能的形式  
![11-1](../syn_pic/statistics_for_business_economics/11-1.png)
<center>11-1 $(n-1)s^2/\sigma^2$的抽样分布（$\chi^2$分布）的例子</center>

因为只要容量为n的简单随机样本取自正态总体，则$(n-1)s^2/\sigma^2$的抽样分布就服从$\chi^2$分布，我们可以利用$\chi^2$分布对一个总体的方差建立区间估计和进行假设检验  
## 11.1.1 区间估计
为了阐述如何利用$\chi^2$分布建立总体方差$\sigma^2$的置信区间估计，假定我们试图估计本章开始时提到的洗涤剂灌装过程的总体方差 5  
抽取20个容器组成一个样本，得到灌装量的样本方差$s^2=0.0025$。我们对总体方差进行区间估计  
我们用符号$\chi^2_\alpha$表示右侧面积或概率为$\chi$的$\chi^2$分布的值  
例如，对图11-2所示的自由度为19的$\chi^2$分布，$\chi^2_{0.025}=32.852$表示有2.5%的$\chi^2$分布值落在32.852右侧；$\chi^2_{0.975}=8.907$表示有97.5%的$\chi^2$分布值落在8.907的右侧  
$\chi^2$分布的面积表或概率表很容易使用。参见表11-1并且证实：自由度为19的$\chi^2$分布的这些值是正确的  
![11-2](../syn_pic/statistics_for_business_economics/11-2.png)
<center>11-2 自由度为19的$\chi^2$分布 5</center>

从图11-2中可以看出，有0.95或95%的$\chi^2$值位于$\chi^2_{0.975}$与$\chi^2_{0.025}$之间  
这就是说，满足条件$\chi^2_{0.975}\le\chi^2\le\chi^2_{0.025}$的$\chi^2$值的概率为0.95  
![tb11-1](../syn_pic/statistics_for_business_economics/tb11-1.png)
<center>表11-1 $\chi^2$分布表节选</center>

正如式(11-2)所述，$(n-1)s^2/\sigma^2$服从$\chi^2$分布，因此我们可以用$(n-1)s^2/\sigma^2$代替$\chi^2$，得到（11-3）  
$$\chi^2_{0.975}\le\frac{(n-1)s^2}{\sigma^2}\le\chi^2_{0.025}$$ 5  
实际上，由于$(n-1)s^2/\sigma^2$的所有可能取值落在区间$\chi^2_{0.975}$到$\chi^2_{0.025}$的概率为0.95或95%，于是根据式（11-3）可以得到区间估计  
现在我们需要对式（11-3）做一些代数运算以获得总体方差$\sigma^2$的区间估计。由式（11-3）左面的不等式，我们得到 （11-4） 
$$\sigma^2\le\frac{(n-1)s^2}{\chi^2_{0.975}}$$
对式（11-3）右面的不等式做类似处理，得到（11-5）  
$$\frac{(n-1)s^2}{\chi^2_{0.025}}\le\sigma^2$$  