In [None]:
import pandas as pd
import numpy as np
from scipy.stats import chi2

# 实践中的统计
**联合劝募协会**  
大罗切斯特地区的联合劝募协会是一个非营利组织，该组织致力于满足社区最重要的人文关怀需求，从而通过提高它所服务的7个县全部居民的生活质量  
每年春季，联合劝募协会/红十字会举行募捐活动，所得资金用于超过200个服务机构所提供的数百个服务项目  
因为有大量的志愿者参与，大罗切斯特地区的联合劝募协会能够保持较低的运作成本：每筹集1美元花费8美分  
为了进一步了解社区的慈善关哪，大罗切斯特地区的联合劝募协会决定进行一项调查。问卷经过预调查、修订之后，分发给440个人，得到了323份完整有效的问卷  
从搜集到的数据得到各种描述性统计量，包括频数分布和交叉分组表。分析该数据的一个重要部分是列联表和独立性$\chi^2$检验。这些统计检验的一个用途是确定行政开支关观念是否于职业独立 5  
独立性检验的假设为以下内容  
$H_0:$联合劝募协会行政开支观念与调查对象的职业独立  
$H_a:$联合劝募协会行政开支观念与调查对象的职业不独立  
调查中，两个问题为统计检验提供了数据。一个问题得到了有关行政开支占基金比例看法的数据（10%以下、11%-20%及21%以上），另一个问题是调查对象的职业  
在5%的显著性水平下进行的$\chi^2$检验，得到独立性假设被拒绝，因此可以断定联合劝募协会的行政开支观念的确与调查对象的职业有关 5  
实际的行政开支小于9%，但是有35%的调查对象认为行政开支超过21%。因此，很多人有不准确的行政开支观念  
在这一群体中，生产线工人、办事员、售货员和专业技术人员比群体中其他人员有更不准确的行政开支观念  
社区观念的研究帮助罗切斯特地区的联合劝募协会调整项目和筹集资金活动。在本章你将学会如何进行如上所述的独立性统计检验  
在第11章中我们介绍了$\chi^2$分布如何用于一个总体方差的估计与假设检验。本章我们将介绍另外两种基于$\chi^2$分布的假设检验方法  
在12.1节中，我们介绍多项总体的拟合优度检验。稍后我们用列联表讨论独立性检验，最后介绍柏松分布和正态分布的拟合优度检验 5  
# 12.1 拟合优度检验：多项总体
在本节，我们考虑这种情形：总体中的每一个个体被分配到若干个组或类中的一个且仅一个的情况。这一的总体称为**多项总体**  
多项分布可以视为二项分布在三个及三个以上类别情形的推广。在每个多项试验中有且仅有一个结果发生。每次试验被假定为独立的，而且每次试验中的概率都不变  
作为例子，考虑Scott市场调查公司进行的市场份额研究。在过去的一年中，公司A的市场份额稳定在30%，公司B稳定在50%，公司C稳定在20%  
最近公司C开发了一种“新型改进”产品，以取代当前市场商该公司所售产品。Scott市场调查公司受雇于公司C，目的是判断新产品是否使市场份额发生了变化  
在本例中，我们关注的总体使一个多项总体：每一个顾客按照他所购买公司A、公司B还是公司C的产品来进行分类。于是，我们得到一个具有三个类别的多项总体。我们使用下列记号来表示比例 5  
$P_A$——公司A的市场份额  
$P_B$——公司B的市场份额  
$P_C$——公司C的市场份额  
Scott市场调查公司将进行抽样调查，以计算各个公司的销售比例，然后进行假设检验，以确定新产品是否导致市场份额发生变化  
假定公司C新产品没有改变市场份额，则原假设和备择假设检验如下：  
$$H_0:P_A=0.30,P_B=0.50,P_C=0.20$$
$$H_a:总体比例不是P_A=0.30,P_B=0.50,P_C=0.20$$
5  
如果样本结果导致$H_0$被拒绝，则Scott市场调查公司有证据表明，新产品的引进影响了市场份额  
让我们假定市场调查公司对200名顾客进行了调查，询问每个人对于公司A、公司B及公司C产品的购买偏好。200份答卷的汇总结果如下  
<hr/>

<center>观察频数</center>

|公司A的产品|公司B的产品|公司C的产品|
|-:|-:|-:|
|48|98|54|

<hr/>

现在我们进行**拟合优度检验**，来确定200名顾客购买偏好与原假设是否相符。拟合优度检验基于样本的观察结果与原假设为真条件下的期望结果的比较  
因此，下一步就要在假设$p_A=0.30,p_B=0.50,p_C=0.20$成立的条件下，计算200名顾客期望的购买偏好，由此得到期望结果 5  
<center>期望频数</center>

|公司A的产品|公司B的产品|公司C的产品|
|-:|-:|-:|
|200x0.30=60|200x0.50=100|200x0.20=40|

于是，我们看到每个类别的期望频数使样本容量200与每个类别假设的比例的乘积  
现在，拟合优度检验重点关注观察频数与期望频数之差。观察频数与期望频数之差较大将会引起对假设的比例或市场份额的正确性产生怀疑  
观察频数与期望频数之差的大小可以用以下检验统计量来衡量  
<hr />

**拟合优度的检验统计量**（12-1） 5  
$$\chi^2=\sum_{i=1}^{k}{\frac{(f_i-e_i)^2}{e_i}}$$
式中，$f_i$代表第i类的观察频数；$e_i$代表第i类的期望频数;k代表类别个数  
注：当所有类别的期望频数都大于或等于5时，检验统计量服从自由度为k-1的$\chi^2$分布  
<hr />

让我们继续Scott市场调查的例子，并用样本数据来检验假设：多项总体比例$p_A=0.30,p_B=0.50及p_C=0.20$保持不变  
我们在$\alpha=0.05$的显著性水平下，用观察频数和期望频数来计算检验统计量的数值 5  
由于期望频数都大于或等于5，在表12-1中给出了$\chi^2$检验统计量的计算结果  
注释：  
+ 观察频数（$f_i$）
+ 期望频数（$e_i$）
+ 差（$f_i-e_i$）
+ 差的平方$(f_i-e_i)^2$
+ 差的平方除以期望频数$(f_i-e_i)^2/e_i$

<center>表12-1 Scott市场调查公司的市场份额研究$\chi^2$检验统计量的计算 5</center>

In [None]:
'''
python pandas series s.mul()
python pandas series s.pow()

'''
scott=pd.DataFrame({'category':['公司A','公司B','公司C'],
             'rate':[0.30,0.50,0.20],              
             'observation':[48,98,54]})
scott_count=scott['observation'].sum()
scott['Expected']=scott['rate'].mul(scott_count)
scott['diff']=scott['observation'].sub(scott['Expected'])
scott['diff2']=scott['diff'].pow(2)
scott['chi']=scott['diff2'].div(scott['Expected'])
print(scott.round(2).to_string())
scott_ts=scott['chi'].sum()
print('检验统计量的计算结果是{:.2f}'.format(scott_ts))

如果观察频数和期望频数之间的差很大，我们将拒绝原假设，这是因为观察频数和期望之间大的差异将使检验统计量的数值变大  
因此，拟合优度检验总是上侧检验，我们可以用检验统计量的上侧面积和p-值法来确定原假设是否被拒绝  

In [None]:
'''
python scipy Statistical functions (scipy.stats) chi2() c.sf()
'''
scott_df=len(scott)-1
scott_p=chi2.sf(scott_ts,scott_df)
print('p-值={:.4f},小于alpha=0.05，我们拒绝H_0'.format(scott_p))

除了p-值法，我们还可以使用临界值法得到相同的结论。由于$\alpha=0.05$和自由度为2  

In [None]:
'''
python scipy Statistical functions (scipy.stats) chi2() c.isf() 
5
'''
scott_cv=chi2.isf(0.05,scott_df)
print('由于临界值={:.3f}，检验统计量={:.2f}且大于临界值，则拒绝H_0'.format(scott_cv,scott_ts))

虽然我们没有做出检验结果的进一步结论，但是我们可以通过非正式地比较观察频数和期望频数，得到市场份额结构发生变化的原因  
我们发现C公司的观察频数54比期望频数40大得多，因为期望频数基于当前市场份额，观察频数较大则表明新产品将对公司C的市场份额有正的影响  
比较其他公司的观察频数和期望频数，表明公司C份额的增加对公司A的影响比对公司B的影响还大  
对假设的多项总体分布进行拟合优度检验的一般步骤总结如下  
<hr />

**多项分布的拟合优度检验小结**  
1. 建立原假设和备择假设  
    $H_0$:总体服从k类中每类都有指定的概率的多项分布 5  
    $H_a$:总体不服从k类中每类都有指定的概率的多项分布  
2. 选择一个随机样本，并记录每个类别的观察频数$f_i$  
3. 假定原假设为真，由此确定每个类别的期望频数$e_i$，$e_i$等于样本容量与各类概率的乘积  
4. 计算检验统计量的数值  
    $$\chi^2=\sum_{i=1}^{k}{\frac{(f_i-e_i)^2}{e_i}}$$
5. 拒绝法则： 5  
    p-值法： 如果p-值$\le\alpha$，则拒绝$H_0$  
    临界值法：如果$\chi^2\ge\chi^2_\alpha$，则拒绝$H_0$   
    式中，$\alpha$是检验的显著性水平，$\chi^2_\alpha$是自由度为k-1时，$\chi^2$分布的上侧面积为$\alpha$的$\chi^2$值 5  

# 12.2 独立性检验
$\chi^2$分布的另一个重要应用是根据样本数据检验两个变量的独立性  
Alber生产三种类型的啤酒：淡啤酒、普通啤酒和黑啤酒。在以此对三种啤酒市场份额的分析中，公司市场研究小组提出了一个问题：男性与女性饮酒者对于三种啤酒的偏好是否存在差异  
独立性检验重点讨论啤酒的偏好是否与饮酒者的性别独立的问题。这个独立性检验的假设为：  
$H_0$:啤酒偏好于饮酒者性别独立  
$H_a$:啤酒偏好于饮酒者性别不独立 5  
