In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm,t,ttest_ind_from_stats

# 实践中的统计
美国食品与药物管理局（FDA）的职责是通过其药物评估和研究中心（CDER）来保证药物的安全性和有效性  
为了使一种新药获得批准，公司进行了大量的统计研究来支撑他们的申请  
制药业的检验过程通常包含三个阶段：1.临床前检验；2.长期使用及安全性检验；3.临床效果检验。在每个相继的阶段，药物能通过严格检验的机会都在降低，但是，进一步检验的费用却急剧增加  
因此，在检验过程的早期剔除不成功的新药以及识别出有开发前景以供进一步检验的新药就显得极为重要  
统计在药物研究中起到重要作用，因为政府规章非常严格而且执行严厉。在临床前检验中，一般通过两三个典型总体的统计研究来确定一种新药是否可以继续长期使用以及安全性检验研究 5  
总体可以由新药、一种控制药物以及一种标准药物组成。当将一种新药送往药理组进行药效评价（药物产生期望效果的能力）时，临床前检验过程就开始了  
作为该过程的一部分，需要一名统计学家设计一套用于检验新药的实验。该实验必须规定样本容量以及统计分析方法  
在两总体研究中，一个样本用于获得有关新药（总体1）的药效的数据，第二个样本用于获得有关标准药物（总体2）的药效数据  
在大部分研究中，统计方法涉及新药总体与标准药物总体均值差异的假设检验。如果同标准药物相比，新药缺乏效力或产生了不良的效果，新药就要被拒绝并放弃做进一步检验  
在药物长期使用和安全性的检测程序上，在临床试验的过程中，要进一步收集数据和进行多总体研究 5  
为避免数据相关的偏差，FDA要求在进行这些检验前就要确定统计方法。另外，为了避免人为偏差，某些临床试验是双重或三重保密的  
如果新药达到了相关标准药品的所有要求，一份新药的申请（NDA）就会送达FDA，并由该机构的统计学家及科学家严格地仔细审阅  
在本章中，你将学习如何进行两个总体均值和比率地区间估计及假设检验，这些技术是通过分析独立随机样本及匹配样本介绍给大家地  
在第8章和第9章，我们介绍了对一个总体地均值和比例如何进行区间估计以及假设检验  
在本章中，当两个总体的均值之差或比例之差是一个重要问题时，通过说明如何对两个总体进行区间估计和假设检验，来继续我们有关统计推断的讨论 5  
当假定两个总体的标准差已知时，我们从说明如何进行两个总体均值之差的区间估计和假设检验开始有关统计推断的讨论 5  
# 10.1 两总体均值之差的推断：$\sigma_1$和$\sigma_2$已知  
令$\mu_1$表示总体1的均值，$\mu_2$表示总体2的均值，我们将重点介绍两均值之差：$\mu_1-\mu_2$的统计推断  
为了进行有关差异的统计推断，我们从总体1中抽取一个容量为$n_1$的简单随机样本，从总体2中抽取一个容量为$n_2$的另一个简单随机样本  
由于这两个样本时互相独立抽取的，因此被称为**独立简单随机样本**  
## 10.1.1 $\mu_1-\mu_2$的区间估计  
Greystone百货公司在纽约州的布法罗经营两个商场：一个位于市区，另一个地处郊区购物中心  
地区经理注意到：在一个商场畅销的商品在另一个商场卖得不一定好。经理认为这种情形归因于这两个地区顾客人群的差异 5  
顾客可能在年龄、受教育程度、收入等诸方面存在差异。假定经理要求我们调查这两个商场顾客平均年龄的差异  
我们定义总体1为在市区商场购物的所有顾客，总体2为在郊区商场购物的所有顾客  
$\mu_1$=总体1的均值（即在市区商场购物的所有顾客的平均年龄）  
$\mu_2$=总体2的均值（即在市区商场购物的所有顾客的平均年龄）  
这两个总体的均值差时$\mu_1-\mu_2$ 5  
为估计$\mu_1-\mu_2$，我们从总体1中抽取一个由$n_1$名顾客组成的简单随机样本，从总体2中抽取一个由$n_2$名顾客组成的简单随机样本，然后我们计算这两个样本均值  
$\bar{x}_1=n_1$名市区顾客的简单随机样本的样本平均年龄  
$\bar{x}_2=n_2$名市区顾客的简单随机样本的样本平均年龄  
两总体均值之差的点估计量是两个样本均值之差  
<hr />

**两个总体均值之差的点估计量**(10-1)
$$\bar{x}_1-\bar{x}_2$$
5
<hr />

图10-1给出了以两个独立简单随机样本为依据，用于估计两个总体均值之差的步骤示意图  
![10-1](../syn_pic/statistics_for_business_economics/10-1.png)
<center>图10-1 估计两总体的均值之差</center>

与其他点估计量一样，点估计量$\bar{x}_1-\bar{x}_2$由一个描述估计量抽样分布变异性的标准误差。对于两个独立简单随机样本，$\bar{x}_1-\bar{x}_2$的标准误差如下：  
<hr />

**$\bar{x}_1-\bar{x}_2$的标准误差** (10-2)
$$\sigma_{\bar{x}_1-\bar{x}_2}=\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$
<hr />

如果两个总体都服从正态分布，或者样本容量足够大，使得我们可利用中心极限定理得出$\bar{x}_1$和$\bar{x}_2$的抽样分布近似服从正态分布，那么$\bar{x}_1-\bar{x}_2$的抽样分布将服从均值为$\mu_1-\mu_2$的正态分布 5  
正如我们在第8章所介绍的那样，由一个点估计量±一个边际误差就可得出区间估计。在两个总体均值之差估计的例子中，区间估计的公式如下：  
<center>$\bar{x}_1-\bar{x}_2\pm$边际误差</center> 

如果$\bar{x}_1-\bar{x}_2$的抽样分布服从正态分布，我们可得出边际误差如下：（10-3）  
<center>边际误差$=z_{\alpha/2}\sigma_{\bar{x}_1-\bar{x}_2}=z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$</center>  

于是，两总体均值之差的区间估计如下： 5  
<hr />

**两总体均值之差的区间估计：$\sigma_1$和$\sigma_2$已知**(10-4)  
$$\bar{x}_1-\bar{x}_2\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$
式中，$1-\alpha$为置信系数  
<hr />

我们再以Greystone为例，以先前顾客统计研究的数据为依据，两个总体标准差已知，分别为$\sigma_1=9$岁和$\sigma_2=10$岁  

|样本数据|市区商场|郊区商场|
|:-:|:-:|:-:|
|样本容量|$$n_1=36$$|$$n_2=49$$|
|样本均值|$$\bar{x}_1=40$$|$$\bar{x}_2=35$$|

5  

In [None]:
'''
python str s.format() %
'''
def meanDiffStd(s1,n1,s2,n2):
    '''
    两总体均值之差的推断 标准误差 标准误差
    '''
    return np.sqrt(np.power(s1,2)/n1+np.power(s2,2)/n2)

def printMeanDiffCVKnow(std,x1,x2,val):
    '''
    两总体均值之差的推断 标准差1和标准差2已知 置信区间
    val：置信系数
    '''    
    z=norm.ppf((1+val)/2)
    inter=z*std
    mean=x1-x2
    print('两总体均值之差的{:.0%}的置信区间估计为{:.2f}到{:.2f}'.format(val,mean-inter,mean+inter))

std_diff1=meanDiffStd(9,36,10,49)
printMeanDiffCVKnow(std_diff1,40,35,0.95)

## 10.1.2 $\mu_1-\mu_2$的假设检验  
现在我们来讨论两个总体均值之差的假设检验。令$D_0$表示$\mu_1$与$\mu_2$之间假设的差，假设检验的三种形式如下：  
$$H_0:\mu_1-\mu_2\ge D_0$$
$$H_a:\mu_1-\mu_2\lt D_0$$
<hr />

$$H_0:\mu_1-\mu_2\le D_0$$
$$H_a:\mu_1-\mu_2\gt D_0$$
<hr />

$$H_0:\mu_1-\mu_2=D_0$$
$$H_a:\mu_1-\mu_2\ne D_0$$
5  
在许多应用中，$D_0=0$，以双侧检验为例，当$D_0=0$时，原假设为$H_0:\mu_1-\mu_2=0$  
第9章介绍的假设检验的步骤在这类也是适用的。我们必须选择一个显著性水平，计算检验统计量，并求出p-值以决定是否应拒绝原假设  
对于两个独立简单随机样本，我们发现，式（10-2）给出了点估计量$\bar{1}-\bar{2}$的标准误差$\sigma_{\bar{1}-\bar{2}}$，并且当样本容量充分大时，$\bar{1}-\bar{2}$服从正态分布  
在这种情形下，当$\sigma_1$和$\sigma_2$已知时，两个总体均值之差的检验统计量如下所示  
<hr />

**$\mu_1-\mu_2$的假设检验的检验统计量：$\sigma_1$和$\sigma_2$已知** （10-5） 5  
$$z=\frac{(\bar{x}_1-\bar{x}_2)-D_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$
<hr />

在下面假设检验的例子中，我们将演示如何使用这一检验统计量  
作为评价两个培训中心教育质量差异的研究的一部分，对两个中心的学员进行了一次标准化考试。用考试平均分数的差来评估两个中心教育质量的差异。两个中心的总体均值如下  
<center>$\mu_1=$在A中心培训的学员总体的平均考试分数</center>
<center>$\mu_2=$在B中心培训的学员总体的平均考试分数 5</center>

我们从一个尝试性假设开始讨论：两个中心的培训质量没有差异。对这一双侧检验，原假设和备择假设如下  
$$H_0:\mu_1-\mu_2=0$$
$$H_a:\mu_1-\mu_2\ne0$$
以前在各种情形下进行的标准化测试总能导致考试分数有近10分的标准差  
于是，我们将利用这一信息假设总体标准差已知，且$\sigma_1=10$和$\sigma_2=10$。指定研究的显著性水平为$\alpha=0.05$  
从A培训中心抽取一个$n_1=30$人的独立简单随机样本，从B培训中心抽取一个$n_2=40$人的独立简单随机样本。样本均值分别为$\bar{x}_1=82,\bar{x}_2=78$ 5  

In [None]:
def meanDiffTestZ(std,x1,x2,d):
    '''
    两总体均值之差的推断 检验统计量z 检验统计量z
    '''
    return ((x1-x2)-d)/std

std_diff=meanDiffStd(10,10,30,40)
z_diff=meanDiffTestZ(std_diff,82,78,0)
print('我们利用式（10-5）计算检验统计量z={:.2f}'.format(z_diff))

In [None]:
def bilateralTestP(z):
    if z<0:
        p=norm.cdf(z)
    else:
        p=norm.sf(z)    
    return p*2

p_diff=bilateralTestP(z_diff)

alpha=0.05
if p_diff>alpha:
    print('在{:.2f}的显著性水平下，p-值={:.4f}使我们不能拒绝H_0'.format(alpha,p_diff))
else:
    print('在{:.2f}的显著性水平下，p-值={:.4f}使我们拒绝H_0'.format(alpha,p_diff))

本章我们将利用第9章所述的p-值法进行假设检验。但是，如果你愿意，也可使用检验统计量和临界值拒绝法则  
在上面的例子中，我们讲述两个总体均值之差的双侧假设检验。我们也可以考虑下侧检验和上侧检验。对于这些单侧检验，p-值得计算步骤及拒绝法则与第9章所述相同  
## 10.1.3 实用建议 
本节所给出的区间估计与假设检验的大部分应用，随机样本都满足$n_1\ge30$及$n_2\ge30$，一旦其中之一或两者的样本容量都小于30，总体的分布就需要重点加以考虑 5  
在一般情况下，当样本容量较小时，对分析者来说，更为重要的是满足两个总体近似服从正态分布的合理假设 5  
# 10.2 两总体均值之差的推断：$\sigma_1$和$\sigma_2$未知  
在本节，对两总体标准差$\sigma_1$和$\sigma_2$未知的情形，我们将延伸有关两总体均值之差统计推断的讨论  
当我们利用样本标准差时，区间估计与假设检验的程序将建立在t分布的基础上而非标准正态分布  
## 10.2.1 $\mu_1-\mu_2$的区间估计  
在下面的例子里我们将介绍，当$\sigma_1$和$\sigma_2$未知时，如何计算边际误差以及如何建立两总体均值之差的区间估计  
Clearwater国家银行正在进行一项研究，旨在确定其两个分行的客户支票账户余额之间的差异  
从Cherry Grove分行抽取28个支票账户组成一个简单随机样本，从Beechmont分行抽取22个支票账户组成另一个独立的简单随机样本。账户余额汇总如下： 5  

|Clearwater|Cherry Grove|Beechmont|
|:-:|:-:|:-:|
|样本容量|$$n_1=28$$|$$n_2=22$$|
|样本均值（美元）|$$\bar{x}_1=1025$$|$$\bar{x}_2=910$$|
|样本标准差（美元）|$$s_1=150$$|$$s_2=125$$|

Clearwater国家银行打算估计Cherry Grove和Beechmont两个分行客户总体支票账户余额均值的差异。我们来计算这两个总团体均值之差的边际误差和区间估计  
在10.1节，当标准差$\sigma_1$和$\sigma_2$已知时，我们给出了式（10-4） 5  
当$\sigma_1$和$\sigma_2$未知时，我们用样本标准差$s_1$和$s_2$来估计$\sigma_1$和$\sigma_2$，并用$t_{\alpha/2}$代替$z_{\alpha/2}$  
则两总体均值之差的区间估计表达式如下：  
<hr />

**两个总体均值之差的区间估计:$\sigma_1$和$\sigma_2$未知**（10-6）  
$$\bar{x}_1-\bar{x}_2\pm t_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}$$
式中，$1-\alpha$为置信系数  
<hr />

在该式中，所用的t分布是近似分布，但估计结果很好且应用相对简单 5  
在应用式（10-6）的过程中遇到的唯一难题是确定$t_{\alpha/2}$合适的自由度。所用公式如下  
<hr />

**自由度：两个独立随机样本的t分布**(10-7)  
$$df=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{s_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{s_2^2}{n_2}\right)^2}$$
我们继续以Clearwater国家银行为例，来介绍如何应用式(10-6)来估计两个分行支票账户余额总体均值之差的95%的置信区间估计 5  

In [None]:
'''
numpy numpy Mathematical functions np.floor()
'''
def twoIndepSampleTDisDf(s1,n1,s2,n2):
    '''
    两总体均值之差的推断 标准差1和标准差2未知 自由度
    '''
    s1n1=np.power(s1,2)/n1
    s2n2=np.power(s2,2)/n2
    mol=np.power(s1n1+s2n2,2)
    den=np.power(s1n1,2)/(n1-1)+np.power(s2n2,2)/(n2-1)
    return np.floor(mol/den)

tdf=twoIndepSampleTDisDf(150,28,125,22)
print('t_alpha/2的自由度df={:.0f}'.format(tdf))

In [None]:
'''
两总体均值之差的推断 标准误差 标准误差
scipy scipy Statistical functions (scipy.stats) t() t.ppf()
'''
def printMeanDiffCVUnknow(std,x1,x2,val,df):
    '''
    两总体均值之差的推断 标准差1和标准差2未知 置信区间
    std：标准误差
    val：置信系数
    df：自由度
    '''    
    t_=t.ppf((1+val)/2,df)
    inter=t_*std
    mean=x1-x2
    print('两总体均值之差的{:.0%}的置信区间估计为{:.0f}到{:.0f}'.format(val,mean-inter,mean+inter))
    
t_std=meanDiffStd(150,28,125,22)
printMeanDiffCVUnknow(t_std,1025,910,0.95,tdf)

## 10.2.2 $\mu_1-\mu_2$的假设检验  
现在我们来讨论总体标准差$\sigma_1$和$\sigma_2$未知的两总体均值之差的假设检验  
假设$\mu_1$与$\mu_2$之差可用$D_0$表示，在10.1节，当$\sigma_1$和$\sigma_2$已知时，我们给出了式（10-5）的检验统计量  
检验统计量z服从标准正态分布 5  
当$\sigma_1$和$\sigma_2$未知时，我们用$s_1$作为$\sigma_1$的估计量，$s_2$作为$\sigma_2$的估计量。当$\sigma_1$和$\sigma_2$未知时，我们用这两个样本标准差替代$\sigma_1$和$\sigma_2$，可得以下的检验统计量  
<hr />

**$\mu_1-\mu_2$的假设检验的检验统计量:$\sigma_1$和$\sigma_2$未知**  (10-8)  
$$t=\frac{(\bar{x}_1-\bar{x}_2)-D_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$
t统计量的自由度由式（10-7）给出  
<hr />

在下面的假设检验例子中，我们将说明这一检验统计量的用法 5  
设想开发一个新的计算机软件包它有助于系统分析员减少设计、开发、实现信息系统所需要时间。为评估新软件包的优点，抽取了24名系统分析员组成一个随机样本   
发给每个分析员一张假定的信息系统说明书。指定其中12名分析员使用当前技术来开发该信息系统，另外12名分析员先接受新软件包的培训，然后用新软件包来开发该系统    
在本研究中有两个总体：使用当前技术的系统分析员总体和使用新软件包的系统分析员总体。考虑完成该信息系统设计项目所需要的世界，总体均值如下：  
$\mu_1$——使用当前技术的系统分析员平均项目完成时间  
$\mu_2$——使用新软件包的系统分析员平均项目完成时间 5  
负责评估新软件的研究人员希望证明信软件包能使平均项目完成时间缩短。因此假设检验为  
$$H_0:\mu_1-\mu_2\le0$$
$$H_a:\mu_1-\mu_2\gt0$$
我们使用的显著性水平为$\alpha=0.05$  
假定24个分析员完成研究的时间如表10-1所示，利用式（10-8）给出的检验统计量，我们得到  

In [None]:
'''
读取 5
pandas dataframe d.round()
'''
df_soft=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch10/SoftwareTest.csv')
aggr_soft=df_soft.describe().round().iloc[:3,:]
aggr_soft

In [None]:
x1s=aggr_soft['Current']['mean']
x2s=aggr_soft['New']['mean']
s1s=aggr_soft['Current']['std']
s2s=aggr_soft['New']['std']
n1s= aggr_soft['Current']['count']
n2s = aggr_soft['New']['count']
ds=0

stds = meanDiffStd(s1s,n1s,s2s,n2s)

# 统计常用代码 两总体均值之差的推断 检验统计量z 检验统计量z
zs = meanDiffTestZ(stds,x1s,x2s,ds)
print('利用（10-8）给出的检验统计量，我们得到z={:.2f}'.format(zs))

In [None]:
'''
两总体均值之差的推断 标准差1和标准差2未知 自由度
scipy scipy Statistical functions (scipy.stats) t() t.sf()
'''
dfs = twoIndepSampleTDisDf(s1s,n1s,s2s,n2s)
p_=t.sf(zs,dfs)
p_

In [None]:
print('由于p-值为{:.4f}，小于alpha=0.05，所以H_0被拒绝'.format(p_))

In [None]:
'''
scipy scipy Statistical functions (scipy.stats) ttest_ind_from_stats() statistic
scipy scipy Statistical functions (scipy.stats) ttest_ind_from_stats() pvalue
'''
zs1,p_1=ttest_ind_from_stats(x1s,s1s,n1s,x2s,s2s,n2s,True)
print('检验统计量z={:.2f}，对应p-值={:.3f}'.format(zs1,p_1/2))