前面介绍了关于一个和两个总体的总体均值、比率和方差的假设检验的统计推断方法

本章进行的假设检验所使用的检验统计量都基于$\chi^2$分布，在所有情形中数据都是分类型的 这些$\chi^2$检验是多用途的，并由检验下列的应用扩充了假设

# 三个或多个总体比例相等性的检验

两个总体比率的统计推断方法，其假设检验的结论基于标准正态检验统计量$z$。

这里使用检验统计量$\chi^2$，对三个或多个总体比率的相等性进行统计推断

- $p_1$ ——总体$1$的总体比率
- $p_2$ ——总体$2$的总体比率
- $p_k$ ——总体$k$的总体比率

关于 $k$ 个总体比率相等性的假设陈述如下：
- $H_0: p_1=p_2= ... =p_k$
- $H_a:$ 所有总体比率不全相等

如果样本数据和$\chi^2$检验计算结果表明$H_0$没有拒绝，不能断定$k$个总体比率有差异。

然而，如果样本数据和 $\chi^2$ 检验计算结果表明 $H_0$ 被拒绝，有统计证据得出 $k$ 个总体比率不全相等的结论

也就是说，一个或多个总体比率与其他总体比率不相等，可以进一步分析，以得出哪个或哪些总体比率与其他总体比率有显著差异。

假设：$H_0: p_1=p_2=...=p3$，$H_a:$所有总体比例不全相等

| 可能再次购买 | 雪佛兰 | 福特 | 本田 | 合计 |
|:------------:|:------:|:----:|:----:|:----:|
| 是           | 69     | 120  | 123  | 312  |
| 否           | 56     | 80   | 52   | 188  |
| 合计         | 125    | 200  | 175  | 500  |

In [1]:
# 观察频数——样本结果
#              样本1         样本2           样本3              合计
#   p          69          120              123               312
#  1-p         56          80               52                188
#  合计        125          200              175               500

根据原假设$H_0:p_1=p_2=p_3=\frac{312}{500}=0.624$为每一类总体比例的总体最佳估计量

在假定$H_0$为真时的期望频数：
$$e_{ij} = \frac{第i行合计数\times第j列合计数}{总样本容量}$$

In [5]:
# 原假设为真时：期望频数
#              总体1         总体2           总体3              合计
#   p  125x0.624=78         124.8           109.2              312
#  1-p         47          75.2             65.8                188
#  合计        125          200              175               500

检验统计量$\chi^2$


$\chi^2 = \sum\limits_i\sum\limits_j\frac{(f_{ij}-e_{ij})^2}{e_{ij}}$
式中：
- $f_{ij}$为第$i$行和第$j$列的单元格的观察频数
- $e_{ij}$代表在假定$H_0$为真时第$i$行和第$j$列的单元格的期望频数

注意：在涉及$k$个总体比率相等性的$\chi^2$检验中， 上述检验统计量服从自由度为$k-1$的$\chi^2$分布，其中每个单元格的期望频数都大于或等于5

检验总体比率相等性的检验统计量$\chi^2$的计算

In [12]:
#        总体   观察频数(f_ij)     期望频数(e_ij)   差(f_ij - e_ij)  差的平方    差的平方除以期望频数
#  p1     1      69                78             -9              81           1.04
#  p2     2      120               124.8          -4.8            23.04        0.18 
#  p3     3      123               109.2          13.8            190.44       1.74
# 1-p1    1       56                47            9               81         1.72
# 1-p2    2       80                75.2          4.8             23.04        0.31
# 1-p3    3       52                65.8         13.8             190.44       2.89

$\chi^2$=7.89 自由度为3-1=2 根据p值法, $p-\le0.05$,因此拒绝$H_0$

多重比较方法

使用$\chi^2$检验得到三个总体的总体比率不全相等（$H_0$被拒绝）,因此有些总体比率之间存在差异 为了研究总体比率之间存在的差异 先计算三个总体的比率

In [13]:
# 品牌忠诚度的样本比率
# p1=69/125=0.552 
# p2=120/200=0.600
# p3=123/175=0.7029

由于$\chi^2$检验表明总体比率不全相等 因此 进行尝试性确定哪些总体比率之间存在差异是合理的 ——采用Marascuilo方法

In [1]:
# 首先计算每对总体的样本比率之差的绝对值
# 总体1和总体2 |p1 - p2|=0.048
# 总体1和总体3 |p1 - p3|=0.1509
# 总体2和总体3 |p2 - p3|=0.1029

$k$个总体比率的Marascuilo成对比较方法的临界值

$CV_{ij} = \sqrt{\chi^2_\alpha}\sqrt{\frac{\bar p_i(1-\bar p_i)}{n_i}+\frac{\bar p_j(1-\bar p_j)}{n_j}}$
式中
- $\chi^2_\alpha$为显著性水平为$\alpha$且自由度为$k-1$的$\chi^2$值
- $\bar p_i$和$\bar p_j$为总体$i$和$j$的样本比率
- $n_i$和$n_j$为总体$i$和总体$j$的样本容量

利用$\chi^2$分布表 $k-1=3-1=2$的自由度和显著性水平0.05,我们有$\chi^2_0.05=5.991$
$CV_{12} = \sqrt{5.991}\sqrt{\frac{0.552(1-0.552)}{125}+\frac{0.6(1-0.6)}{200}}=0.138$
##### $CV_{13} = 0.1379$
##### $CV_{23} = 0.1198$

In [15]:
# |pi-pj|        CV_ij           如果|pi - pj|>CV_ij,则显著
# 0.048         0.1380            不显著
# 0.1509        0.1379             显著
# 0.1029        0.1198             不显著


# 得出 总体1与总体3之间呈现显著差异  总体3比总体1具有优势

## 独立性检验
$\chi^2$检验的一个重要应用是利用样本数据检验两个分类变量的独立性

从一个总体中抽取样本 并记录两个分类变量的观测值 通过对分类变量$k$的每一对组合统计回答的个数来汇总数据

检验的原假设是两个分类变量独立，因此这种检验被称为独立性检验


### 两个分类变量独立性的$\chi^2$检验
1. 建立原假设与备选假设
    - $H_0:两个分类变量独立$   （例子：啤酒偏好与性别独立）
    - $H_\alpha:两个分类变量不独立$ （例子：啤酒偏好与性别不独立)
2. 从总体中选择一个随机样本，收集样本中每个个体对两个变量的数据 记录$r$行和$c$列的表中的观察频数$f_{ij}$
3. 假定原假设为真，计算期望频数$e_ij$
4. 如果期望频数$e_{ij}$都大于或等于5，计算检验统计量：
$$\chi^2 = \sum\limits_i\sum\limits_j\frac{(f_{ij}-e_{ij})^2}{e_{ij}}$$
5. 拒绝法则：
    - $p-$值法：如果$p-$值 $\le \alpha$,则拒绝$H_0$
    - 临界值法：如果$\chi^2 \ge \chi^2_\alpha$，则拒绝$H_0$

$\chi^2$分布的自由度为$(r-1)(c-1),\alpha$为检验的显著性水平

## 拟合优度检验
##### 使用$\chi^2$检验来确定一个被抽样的总体是否服从某个特殊的概率分布
##### 首先考虑总体服从一个历史的多项概率分布情形 并使用拟合优度检验来确定新的样本数据的总体分布在与历史的分布中相比较 是否显示存在改变
##### 然后考虑假设总体服从正态概率分布的情形 理由拟合优度检验来确定样本数据是否显示正态概率分布的假设是适当还是不适当
##### 以上两个检验都被称为拟合优度检验

### 多项概率分布
#### 多项概率分布式二项概率分布每次试验有三个或多个结果情形的推广
#### 多项概率分布的概率之和等于1
#### 对于多项概率分布，总体中的每一个个体被分配到三个或多个类中的一个或多个类中的一个且仅一个

#### 拟合优度的检验统计量
#### $\chi^2 = \sum\limits_{i=1}^{k}\frac{(f_i - e_i)^2}{e_i}$
#### 式中，$f_i$为第$i$类的观察频数，$e_i$为第$i$类的期望频数，$k$为类别个数
#### 注意：当所有类别的期望频数都是大于或等于5时，检验统计量服从自由度为$k-1$的$\chi^2$分布

#### 多项概率分布的拟合优度检验
#### P1：建立原假设和备选假设
##### $H_0:$总体服从$k$类中每类都有指定的概率的多项概率分布
##### $H_\alpha:$总体不服从$k$类中每类都有指定的概率的多项概率分布
#### P2：选择一个随机样本，并记录美衣类别的观察频数$f_i$
#### P3：假定原假设为真，由此确定每一类别的期望频数$e_i$,$e_i$等于样本容量与各类概率的乘积
#### P4：如果每一类的期望频数$e_i$都大于或等于$5$,计算检验统计量
#####  $\chi^2 = \sum\limits_{i=1}^{k}\frac{(f_i - e_i)^2}{e_i}$
#### P5：拒绝法则：
##### $p-$值法：如果$p-$值 $\le \alpha$,则拒绝$H_0$
##### 临界值法：如果$\chi^2 \ge \chi^2_\alpha$，则拒绝$H_0$
#### 式中，$\alpha$为检验的显著性水平，$k-1$为自由度

### 正态分布拟合优度检验
##### 正态分布拟合优度检验也是基于$\chi^2$分布的应用。在总体服从正态分布的假设下，将样本数据的若干类别的观察频数同时期望频数进行比较。

#### 正态分布的拟合优度检验
#### P1：建立原假设和备选假设
##### $H_0:总体服从正态概率分布$
##### $H_\alpha:总体不服从正态概率分布$
#### P2：抽取一个随机样本，并且
##### a.计算样本均值和样本标准差
##### b.定义$k$个取值区间使得每个区间中的期望频数至少为5——使用等概率区间是很好的方法
##### c.记录每个确定好的区间的数据值的观察频数
#### P3：对于步骤2（b）中确定每个区间，计算发生次数的期望频数$e_i$，即样本容量与正态随机变量落入每个区间的概率的乘积
#### P4：计算检验统计量
#####  $\chi^2 = \sum\limits_{i=1}^{k}\frac{(f_i - e_i)^2}{e_i}$
#### P5：拒绝法则：
##### $p-$值法：如果$p-$值 $\le \alpha$,则拒绝$H_0$
##### 临界值法：如果$\chi^2 \ge \chi^2_\alpha$，则拒绝$H_0$
#### 式中，$\alpha$为检验的显著性水平，自由度为$k-p-1$,其中$p$是有样本估计的分布参数的个数 在步骤2（a）中利用样本估计了均值和标准差 因此 p=2 自由度为$k-2-1=k-3$