In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm,t,ttest_ind_from_stats,ttest_ind

# 实践中的统计
美国食品与药物管理局（FDA）的职责是通过其药物评估和研究中心（CDER）来保证药物的安全性和有效性  
为了使一种新药获得批准，公司进行了大量的统计研究来支撑他们的申请  
制药业的检验过程通常包含三个阶段：1.临床前检验；2.长期使用及安全性检验；3.临床效果检验。在每个相继的阶段，药物能通过严格检验的机会都在降低，但是，进一步检验的费用却急剧增加  
因此，在检验过程的早期剔除不成功的新药以及识别出有开发前景以供进一步检验的新药就显得极为重要  
统计在药物研究中起到重要作用，因为政府规章非常严格而且执行严厉。在临床前检验中，一般通过两三个典型总体的统计研究来确定一种新药是否可以继续长期使用以及安全性检验研究 5  
总体可以由新药、一种控制药物以及一种标准药物组成。当将一种新药送往药理组进行药效评价（药物产生期望效果的能力）时，临床前检验过程就开始了  
作为该过程的一部分，需要一名统计学家设计一套用于检验新药的实验。该实验必须规定样本容量以及统计分析方法  
在两总体研究中，一个样本用于获得有关新药（总体1）的药效的数据，第二个样本用于获得有关标准药物（总体2）的药效数据  
在大部分研究中，统计方法涉及新药总体与标准药物总体均值差异的假设检验。如果同标准药物相比，新药缺乏效力或产生了不良的效果，新药就要被拒绝并放弃做进一步检验  
在药物长期使用和安全性的检测程序上，在临床试验的过程中，要进一步收集数据和进行多总体研究 5  
为避免数据相关的偏差，FDA要求在进行这些检验前就要确定统计方法。另外，为了避免人为偏差，某些临床试验是双重或三重保密的  
如果新药达到了相关标准药品的所有要求，一份新药的申请（NDA）就会送达FDA，并由该机构的统计学家及科学家严格地仔细审阅  
在本章中，你将学习如何进行两个总体均值和比率地区间估计及假设检验，这些技术是通过分析独立随机样本及匹配样本介绍给大家地  
在第8章和第9章，我们介绍了对一个总体地均值和比例如何进行区间估计以及假设检验  
在本章中，当两个总体的均值之差或比例之差是一个重要问题时，通过说明如何对两个总体进行区间估计和假设检验，来继续我们有关统计推断的讨论 5  
当假定两个总体的标准差已知时，我们从说明如何进行两个总体均值之差的区间估计和假设检验开始有关统计推断的讨论 5  
# 10.1 两总体均值之差的推断：$\sigma_1$和$\sigma_2$已知  
令$\mu_1$表示总体1的均值，$\mu_2$表示总体2的均值，我们将重点介绍两均值之差：$\mu_1-\mu_2$的统计推断  
为了进行有关差异的统计推断，我们从总体1中抽取一个容量为$n_1$的简单随机样本，从总体2中抽取一个容量为$n_2$的另一个简单随机样本  
由于这两个样本时互相独立抽取的，因此被称为**独立简单随机样本**  
## 10.1.1 $\mu_1-\mu_2$的区间估计  
Greystone百货公司在纽约州的布法罗经营两个商场：一个位于市区，另一个地处郊区购物中心  
地区经理注意到：在一个商场畅销的商品在另一个商场卖得不一定好。经理认为这种情形归因于这两个地区顾客人群的差异 5  
顾客可能在年龄、受教育程度、收入等诸方面存在差异。假定经理要求我们调查这两个商场顾客平均年龄的差异  
我们定义总体1为在市区商场购物的所有顾客，总体2为在郊区商场购物的所有顾客  
$\mu_1$=总体1的均值（即在市区商场购物的所有顾客的平均年龄）  
$\mu_2$=总体2的均值（即在市区商场购物的所有顾客的平均年龄）  
这两个总体的均值差时$\mu_1-\mu_2$ 5  
为估计$\mu_1-\mu_2$，我们从总体1中抽取一个由$n_1$名顾客组成的简单随机样本，从总体2中抽取一个由$n_2$名顾客组成的简单随机样本，然后我们计算这两个样本均值  
$\bar{x}_1=n_1$名市区顾客的简单随机样本的样本平均年龄  
$\bar{x}_2=n_2$名市区顾客的简单随机样本的样本平均年龄  
两总体均值之差的点估计量是两个样本均值之差  
<hr />

**两个总体均值之差的点估计量**(10-1)
$$\bar{x}_1-\bar{x}_2$$
5
<hr />

图10-1给出了以两个独立简单随机样本为依据，用于估计两个总体均值之差的步骤示意图  
![10-1](../syn_pic/statistics_for_business_economics/10-1.png)
<center>图10-1 估计两总体的均值之差</center>

与其他点估计量一样，点估计量$\bar{x}_1-\bar{x}_2$由一个描述估计量抽样分布变异性的标准误差。对于两个独立简单随机样本，$\bar{x}_1-\bar{x}_2$的标准误差如下：  
<hr />

**$\bar{x}_1-\bar{x}_2$的标准误差** (10-2)
$$\sigma_{\bar{x}_1-\bar{x}_2}=\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$
<hr />

如果两个总体都服从正态分布，或者样本容量足够大，使得我们可利用中心极限定理得出$\bar{x}_1$和$\bar{x}_2$的抽样分布近似服从正态分布，那么$\bar{x}_1-\bar{x}_2$的抽样分布将服从均值为$\mu_1-\mu_2$的正态分布 5  
正如我们在第8章所介绍的那样，由一个点估计量±一个边际误差就可得出区间估计。在两个总体均值之差估计的例子中，区间估计的公式如下：  
<center>$\bar{x}_1-\bar{x}_2\pm$边际误差</center> 

如果$\bar{x}_1-\bar{x}_2$的抽样分布服从正态分布，我们可得出边际误差如下：（10-3）  
<center>边际误差$=z_{\alpha/2}\sigma_{\bar{x}_1-\bar{x}_2}=z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$</center>  

于是，两总体均值之差的区间估计如下： 5  
<hr />

**两总体均值之差的区间估计：$\sigma_1$和$\sigma_2$已知**(10-4)  
$$\bar{x}_1-\bar{x}_2\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$
式中，$1-\alpha$为置信系数  
<hr />

我们再以Greystone为例，以先前顾客统计研究的数据为依据，两个总体标准差已知，分别为$\sigma_1=9$岁和$\sigma_2=10$岁  

|样本数据|市区商场|郊区商场|
|:-:|:-:|:-:|
|样本容量|$$n_1=36$$|$$n_2=49$$|
|样本均值|$$\bar{x}_1=40$$|$$\bar{x}_2=35$$|

5  

In [None]:
'''
python str s.format() %
'''
def meanDiffStd(s1,n1,s2,n2):
    '''
    两总体均值之差的推断 标准误差 标准误差
    '''
    return np.sqrt(np.power(s1,2)/n1+np.power(s2,2)/n2)

def printMeanDiffCVKnow(std,x1,x2,val):
    '''
    两总体均值之差的推断 标准差1和标准差2已知 置信区间
    val：置信系数
    '''    
    z=norm.ppf((1+val)/2)
    inter=z*std
    mean=x1-x2
    print('两总体均值之差的{:.0%}的置信区间估计为{:.2f}到{:.2f}'.format(val,mean-inter,mean+inter))

std_diff1=meanDiffStd(9,36,10,49)
printMeanDiffCVKnow(std_diff1,40,35,0.95)

## 10.1.2 $\mu_1-\mu_2$的假设检验  
现在我们来讨论两个总体均值之差的假设检验。令$D_0$表示$\mu_1$与$\mu_2$之间假设的差，假设检验的三种形式如下：  
$$H_0:\mu_1-\mu_2\ge D_0$$
$$H_a:\mu_1-\mu_2\lt D_0$$
<hr />

$$H_0:\mu_1-\mu_2\le D_0$$
$$H_a:\mu_1-\mu_2\gt D_0$$
<hr />

$$H_0:\mu_1-\mu_2=D_0$$
$$H_a:\mu_1-\mu_2\ne D_0$$
5  
在许多应用中，$D_0=0$，以双侧检验为例，当$D_0=0$时，原假设为$H_0:\mu_1-\mu_2=0$  
第9章介绍的假设检验的步骤在这类也是适用的。我们必须选择一个显著性水平，计算检验统计量，并求出p-值以决定是否应拒绝原假设  
对于两个独立简单随机样本，我们发现，式（10-2）给出了点估计量$\bar{1}-\bar{2}$的标准误差$\sigma_{\bar{1}-\bar{2}}$，并且当样本容量充分大时，$\bar{1}-\bar{2}$服从正态分布  
在这种情形下，当$\sigma_1$和$\sigma_2$已知时，两个总体均值之差的检验统计量如下所示  
<hr />

**$\mu_1-\mu_2$的假设检验的检验统计量：$\sigma_1$和$\sigma_2$已知** （10-5） 5  
$$z=\frac{(\bar{x}_1-\bar{x}_2)-D_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$
<hr />

在下面假设检验的例子中，我们将演示如何使用这一检验统计量  
作为评价两个培训中心教育质量差异的研究的一部分，对两个中心的学员进行了一次标准化考试。用考试平均分数的差来评估两个中心教育质量的差异。两个中心的总体均值如下  
<center>$\mu_1=$在A中心培训的学员总体的平均考试分数</center>
<center>$\mu_2=$在B中心培训的学员总体的平均考试分数 5</center>

我们从一个尝试性假设开始讨论：两个中心的培训质量没有差异。对这一双侧检验，原假设和备择假设如下  
$$H_0:\mu_1-\mu_2=0$$
$$H_a:\mu_1-\mu_2\ne0$$
以前在各种情形下进行的标准化测试总能导致考试分数有近10分的标准差  
于是，我们将利用这一信息假设总体标准差已知，且$\sigma_1=10$和$\sigma_2=10$。指定研究的显著性水平为$\alpha=0.05$  
从A培训中心抽取一个$n_1=30$人的独立简单随机样本，从B培训中心抽取一个$n_2=40$人的独立简单随机样本。样本均值分别为$\bar{x}_1=82,\bar{x}_2=78$ 5  

In [None]:
def meanDiffTestZ(std,x1,x2,d):
    '''
    两总体均值之差的推断 检验统计量z 检验统计量z
    '''
    return ((x1-x2)-d)/std

std_diff=meanDiffStd(10,10,30,40)
z_diff=meanDiffTestZ(std_diff,82,78,0)
print('我们利用式（10-5）计算检验统计量z={:.2f}'.format(z_diff))

In [None]:
def bilateralTestP(z):
    if z<0:
        p=norm.cdf(z)
    else:
        p=norm.sf(z)    
    return p*2

p_diff=bilateralTestP(z_diff)

alpha=0.05
if p_diff>alpha:
    print('在{:.2f}的显著性水平下，p-值={:.4f}使我们不能拒绝H_0'.format(alpha,p_diff))
else:
    print('在{:.2f}的显著性水平下，p-值={:.4f}使我们拒绝H_0'.format(alpha,p_diff))

本章我们将利用第9章所述的p-值法进行假设检验。但是，如果你愿意，也可使用检验统计量和临界值拒绝法则  
在上面的例子中，我们讲述两个总体均值之差的双侧假设检验。我们也可以考虑下侧检验和上侧检验。对于这些单侧检验，p-值得计算步骤及拒绝法则与第9章所述相同  
## 10.1.3 实用建议 
本节所给出的区间估计与假设检验的大部分应用，随机样本都满足$n_1\ge30$及$n_2\ge30$，一旦其中之一或两者的样本容量都小于30，总体的分布就需要重点加以考虑 5  
在一般情况下，当样本容量较小时，对分析者来说，更为重要的是满足两个总体近似服从正态分布的合理假设 5  
# 10.2 两总体均值之差的推断：$\sigma_1$和$\sigma_2$未知  
在本节，对两总体标准差$\sigma_1$和$\sigma_2$未知的情形，我们将延伸有关两总体均值之差统计推断的讨论  
当我们利用样本标准差时，区间估计与假设检验的程序将建立在t分布的基础上而非标准正态分布  
## 10.2.1 $\mu_1-\mu_2$的区间估计  
在下面的例子里我们将介绍，当$\sigma_1$和$\sigma_2$未知时，如何计算边际误差以及如何建立两总体均值之差的区间估计  
Clearwater国家银行正在进行一项研究，旨在确定其两个分行的客户支票账户余额之间的差异  
从Cherry Grove分行抽取28个支票账户组成一个简单随机样本，从Beechmont分行抽取22个支票账户组成另一个独立的简单随机样本。账户余额汇总如下： 5  

|Clearwater|Cherry Grove|Beechmont|
|:-:|:-:|:-:|
|样本容量|$$n_1=28$$|$$n_2=22$$|
|样本均值（美元）|$$\bar{x}_1=1025$$|$$\bar{x}_2=910$$|
|样本标准差（美元）|$$s_1=150$$|$$s_2=125$$|

Clearwater国家银行打算估计Cherry Grove和Beechmont两个分行客户总体支票账户余额均值的差异。我们来计算这两个总团体均值之差的边际误差和区间估计  
在10.1节，当标准差$\sigma_1$和$\sigma_2$已知时，我们给出了式（10-4） 5  
当$\sigma_1$和$\sigma_2$未知时，我们用样本标准差$s_1$和$s_2$来估计$\sigma_1$和$\sigma_2$，并用$t_{\alpha/2}$代替$z_{\alpha/2}$  
则两总体均值之差的区间估计表达式如下：  
<hr />

**两个总体均值之差的区间估计:$\sigma_1$和$\sigma_2$未知**（10-6）  
$$\bar{x}_1-\bar{x}_2\pm t_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}$$
式中，$1-\alpha$为置信系数  
<hr />

在该式中，所用的t分布是近似分布，但估计结果很好且应用相对简单 5  
在应用式（10-6）的过程中遇到的唯一难题是确定$t_{\alpha/2}$合适的自由度。所用公式如下  
<hr />

**自由度：两个独立随机样本的t分布**(10-7)  
$$df=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{s_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{s_2^2}{n_2}\right)^2}$$
我们继续以Clearwater国家银行为例，来介绍如何应用式(10-6)来估计两个分行支票账户余额总体均值之差的95%的置信区间估计 5  

In [None]:
'''
numpy numpy Mathematical functions np.floor()
'''
def twoIndepSampleTDisDf(s1,n1,s2,n2):
    '''
    两总体均值之差的推断 标准差1和标准差2未知 自由度
    '''
    s1n1=np.power(s1,2)/n1
    s2n2=np.power(s2,2)/n2
    mol=np.power(s1n1+s2n2,2)
    den=np.power(s1n1,2)/(n1-1)+np.power(s2n2,2)/(n2-1)
    return np.floor(mol/den)

tdf=twoIndepSampleTDisDf(150,28,125,22)
print('t_alpha/2的自由度df={:.0f}'.format(tdf))

In [None]:
'''
两总体均值之差的推断 标准误差 标准误差
scipy scipy Statistical functions (scipy.stats) t() t.ppf()
'''
def printMeanDiffCVUnknow(std,x1,x2,val,df):
    '''
    两总体均值之差的推断 标准差1和标准差2未知 置信区间
    std：标准误差
    val：置信系数
    df：自由度
    '''    
    t_=t.ppf((1+val)/2,df)
    inter=t_*std
    mean=x1-x2
    print('两总体均值之差的{:.0%}的置信区间估计为{:.0f}到{:.0f}'.format(val,mean-inter,mean+inter))
    
t_std=meanDiffStd(150,28,125,22)
printMeanDiffCVUnknow(t_std,1025,910,0.95,tdf)

## 10.2.2 $\mu_1-\mu_2$的假设检验  
现在我们来讨论总体标准差$\sigma_1$和$\sigma_2$未知的两总体均值之差的假设检验  
假设$\mu_1$与$\mu_2$之差可用$D_0$表示，在10.1节，当$\sigma_1$和$\sigma_2$已知时，我们给出了式（10-5）的检验统计量  
检验统计量z服从标准正态分布 5  
当$\sigma_1$和$\sigma_2$未知时，我们用$s_1$作为$\sigma_1$的估计量，$s_2$作为$\sigma_2$的估计量。当$\sigma_1$和$\sigma_2$未知时，我们用这两个样本标准差替代$\sigma_1$和$\sigma_2$，可得以下的检验统计量  
<hr />

**$\mu_1-\mu_2$的假设检验的检验统计量:$\sigma_1$和$\sigma_2$未知**  (10-8)  
$$t=\frac{(\bar{x}_1-\bar{x}_2)-D_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$
t统计量的自由度由式（10-7）给出  
<hr />

在下面的假设检验例子中，我们将说明这一检验统计量的用法 5  
设想开发一个新的计算机软件包它有助于系统分析员减少设计、开发、实现信息系统所需要时间。为评估新软件包的优点，抽取了24名系统分析员组成一个随机样本   
发给每个分析员一张假定的信息系统说明书。指定其中12名分析员使用当前技术来开发该信息系统，另外12名分析员先接受新软件包的培训，然后用新软件包来开发该系统    
在本研究中有两个总体：使用当前技术的系统分析员总体和使用新软件包的系统分析员总体。考虑完成该信息系统设计项目所需要的世界，总体均值如下：  
$\mu_1$——使用当前技术的系统分析员平均项目完成时间  
$\mu_2$——使用新软件包的系统分析员平均项目完成时间 5  
负责评估新软件的研究人员希望证明信软件包能使平均项目完成时间缩短。因此假设检验为  
$$H_0:\mu_1-\mu_2\le0$$
$$H_a:\mu_1-\mu_2\gt0$$
我们使用的显著性水平为$\alpha=0.05$  
假定24个分析员完成研究的时间如表10-1所示，利用式（10-8）给出的检验统计量，我们得到  

In [None]:
'''
读取 5
pandas dataframe d.round()
'''
df_soft=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch10/SoftwareTest.csv')
aggr_soft=df_soft.describe().round().iloc[:3,:]
aggr_soft

In [None]:
x1s=aggr_soft['Current']['mean']
x2s=aggr_soft['New']['mean']
s1s=aggr_soft['Current']['std']
s2s=aggr_soft['New']['std']
n1s= aggr_soft['Current']['count']
n2s = aggr_soft['New']['count']
ds=0

stds = meanDiffStd(s1s,n1s,s2s,n2s)

# 统计常用代码 两总体均值之差的推断 检验统计量z 检验统计量z
zs = meanDiffTestZ(stds,x1s,x2s,ds)
print('利用（10-8）给出的检验统计量，我们得到z={:.2f}'.format(zs))

In [None]:
'''
两总体均值之差的推断 标准差1和标准差2未知 自由度
scipy scipy Statistical functions (scipy.stats) t() t.sf()
'''
dfs = twoIndepSampleTDisDf(s1s,n1s,s2s,n2s)
p_=t.sf(zs,dfs)
p_

In [None]:
print('由于p-值为{:.4f}，小于alpha=0.05，所以H_0被拒绝'.format(p_))

In [None]:
'''
scipy scipy Statistical functions (scipy.stats) ttest_ind_from_stats() statistic
scipy scipy Statistical functions (scipy.stats) ttest_ind_from_stats() pvalue
'''
zs1,p_1=ttest_ind_from_stats(x1s,s1s,n1s,x2s,s2s,n2s,True)
print('检验统计量z={:.2f}，对应p-值={:.3f}'.format(zs1,p_1/2))

## 10.2.3 实用建议
本节介绍的区间估计与假设检验方法是一种强有力的实用方法，并且可用于相对较小的样本容量  
在大部分应用中，如果两个总体的样本容量$n_1$和$n_2$相等或接近相等，使得总样本容量$n_1+n_2$至少为20时，即使总体不是正态分布，我们也能期望得到非常好的结果  
如果总体分布高度偏斜或含有异常点，我们建议使用较大的样本容量。只有当分析者认为总体分布近似服从正态分布时才可使用较小的样本容量 5  
## 注释
当$\sigma_1$和$\sigma_2$未知时，另一种对两总体均值之差进行统计推断的方法，是以假设两总体的标准差相等（$\sigma_1=\sigma_2=\sigma$）为依据。在此假设下，将两个样本方差组合起来，得到合并的样本方差：  
$$s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$$
检验统计量t变为  
$$t=\frac{(\bar{x}_1-\bar{x}_2)-D_0}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$
并且自由度为$n_1+n_2-2$。在这里，p-值的计算及样本结果的解释与本节较早时讨论的步骤相同 5  
这个过程中的一个难题就是两总体标准差相等的假设通常难以验证，我们经常遇到的是不等的标准差，尤其是当样本容量n_1和n_2相差很大时，应用合并步骤不可能提供满意的结果  
本节介绍的t检验方法并不需要总体标准差相等的假设，并且不论总体标准差相等与否都是适用的。在大部分的应用中，t检验是被我们推荐使用的较为一般的方法 5  
# 10.3 两总体均值之差的推断：匹配样本
假设一家制造企业的员工可以用两种不同的方法完成一项生产任务。为了使产品产量最大化，公司想确认总体完成生产任务平均时间较少的方法  
令$\mu_1$表示生产方法1的总体完成生产任务的平均时间，$\mu_2$表示生产方法2的总体完成生产任务的平均时间  
如果拒绝原假设，我们就可以得出总体平均完成生产任务时间不等的结论。在这种情况下，就可以找出平均完成生产任务时间较少的方法。原假设和备择假设如下  
$$H_0:\mu_1-\mu_2=0$$
$$H_0:\mu_1-\mu_2\ne0$$
在选择用于搜集生产时间数据及检验假设的抽样方法时，我们考虑两种选择方法。一种是基于独立样本，另一种是基于**匹配技术** 5  
1. 独立样本设计：抽取工人的一个简单随机样本，样本中的每个工人使用方法1；抽取工人的另一个独立的简单随机样本，样本中的每个工人使用方法2。总体均值差的检验使用10.2节的方法  
2. 匹配样本设计：抽取工人的一个简单随机样本，每个工人先用一种方法，然后用另一种方法  
    两种方法的次序被随机地指派给工人，一些工人先使用方法1，其他工人先使用方法2。每个工人提供一对数据值，一个数值是方法1的，另一个数值是方法2的  

在匹配样本设计中，两种生产方式在相似条件下被检验（即由相同的工人使用），因此这一谁产生的抽样误差往往比独立样本设计更小  
为了演示分析匹配样本设计，现在我们利用匹配样本设计对两种生产方法总体均值之差进行检验。6名工人完成生产任务时间的数据由表10-2给出 5  

In [None]:
'''
读取
python pandas series s.sub()
'''
df_mat=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch10/Matched.csv')
df_mat['dif']=df_mat['Method 1'].sub(df_mat['Method 2'])
df_mat

In [None]:
'''
python pandas series s.std()
'''
dif_mat=df_mat['dif']
dif_mean=dif_mat.mean()
dif_std=dif_mat.std()
print('样本均值={:.2f}，样本标准差={:.3f}'.format(dif_mean,dif_std))

对于n=6名工人的小样本，我们需要假设差值的总体服从正态分布。该假设对于运用t分布进行假设检验和区间估计是必要的。下面是自由度n-1的t分布的检验统计量    
<hr />

**匹配样本假设检验的检验统计量**（10-9）
$$t=\frac{\bar{d}-\mu_d}{s_d/\sqrt{n}}$$
<hr />

5  
在$\alpha=0.05$的显著性水平下，我们用式(10-9)来检验假设$H_0:\mu_d=0$和$H_a:\mu_d\ne0$  

In [None]:
def matchSampleTestZ(sample,mu):
    '''
    统计常用代码 两总体均值之差的推断 匹配样本 检验统计量t
    sample：ndarray 样本
    mu：双侧检验值
    '''
    mean=sample.mean()
    std=sample.std()
    n=len(sample)
    return (mean-mu)/(std/np.sqrt(n))

t_mat=matchSampleTestZ(dif_mat.values,0)
print('我们可以计算出检验统计量的值t={:.2f}'.format(t_mat))

In [None]:
'''
python pandas series s.count()
'''
df_n=dif_mat.count()-1
def bilateralTTestPUnknow(z,df):
    '''
    统计常用代码 总体均值假设检验 未知标准差 双侧检验 p-值v1
    '''
    if z<0:
        p_=t.cdf(z,df)
    else:
        p_=t.sf(z,df)
    return p_*2

p_mat=bilateralTTestPUnknow(t_mat,df_n)
p_mat

In [None]:
print('p-值={:.3f}，大于alpha=0.05，因此原假设未被拒绝'.format(p_mat))

In [None]:
'''
5
'''
def tz(val,n):
    '''
    总体均值区间估计 未知标准差 Z分数
    注意0.95的面积有两个尾部，需要计算的是0.025的面积对应的z    
    '''
    return t.ppf((1+val)/2,n)

def printMeanCIUk(sample,val=0.95):
    '''
    总体均值区间估计 未知标准差 置信区间v2
    sample：ndarray 样本集
    val：置信水平
    '''
    mean=sample.mean()
    std=sample.std()
    n=len(sample)
    freedom=n-1
    inter=tz(val,freedom)*std/np.sqrt(n)
    print('均值在{:.0%}的置信水平下，介于{:.2f}到{:.2f}'.format(val,mean-inter,mean+inter))
    
printMeanCIUk(dif_mat.values)

## 注释
1. 在本节介绍的例子中，工人们首先用第一种方法完成生产任务，然后再用第二种方法。这个例子说明了在匹配样本设计中每个抽样元素（工人）提供了一对数据值  
    使用不同的但“类似的”元素也能提供成对的数据值。例如，某地的一个工人可能与另一地的一个类似的工人匹配（基于年龄、教育、性别、经验等方面的类似）。这些成对的工人可以提供用于匹配样本分析的差值数据  
2. 用匹配样本设计方法进行两总体均值的统计推断一般比用独立样本方案更精确，因此是被推荐的设计 5  

# 10.4 两总体比例之差的推断  
令$p_1$表示总体1的比例，$p_2$总体2的比例，下面我们来讨论两总体比例之差$p_1-p_2$的统计推断。为了对这个比例之差做出推断，我们选择两个独立的随机样本，这两个样本分别由总体1中的$n_1$个单位和总体2中的$n_2$个单位组成  
## 10.4.1 $p_1-p_2$的区间估计
在下面的例子中，我们将介绍如何计算边际误差以及如何建立两总体比例之差的区间估计  
一家报税公司想要比较该公司两个地区办事处的工作质量  
在每个办事处，随机抽取准备报税的申报单样本，并对申报单的准确性进行核实，该报税公司可以估计出每个办事处准备报税的申报单的出错比例。特别值得注意的是这些比例之差  
$p_1$——总体1（办事处1）的出错申报单的比例 5  
$p_2$——总体2（办事处2）的出错申报单的比例   
$\bar{p}_1$——总体1的简单随机样本的样本比例  
$\bar{p}_2$——总体2的简单随机样本的样本比例  
两总体比例之差为$p_1-p_2$。$p_1-p_2$的点估计量如下所示：  
<hr />

**两总体比例之差的点估计量** (10-10)  
$$\bar{p}_1-\bar{p}_2$$
<hr />

5  
与其他的点估计量一样，如果我们重复地抽取两个独立的样本，则点估计量$\bar{p_1}-\bar{p_2}$有一个反映它所有可能值的抽样分布。这个抽样分布的均值$\bar{p_1}-\bar{p_2}$，标准误差如下所示：  
<hr />

**$\bar{p}_1-\bar{p}_2$的标准误差**  (10-11)  
$$\sigma_{\bar{p}_1-\bar{p}_2}=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$$
<hr />

于是，两总体比例之差的点估计量是两个独立的简单随机样本的样本比例之差  
如果样本容量足够大，使得$n_1p_1$，$n_1(1-p_1)$，$n_2p_2$和$n_2(1-p_2)$都大于或等于5，则$\bar{p}_1-\bar{p}_2$的抽样分布近似服从正态分布 5  
如前所述，区间估计可由点估计加减边际误差给出。在两总体比例之差的估计中，区间估计将采取以下形式：  
<center>$\bar{p}_1-\bar{p}_2\pm$边际误差</center>

由于$\bar{p}_1-\bar{p}_2$的抽样分布近似服从正态分布，我们可用$z_{\alpha/2}\sigma_{\bar{p}_1-\bar{p}_2}$作为边际误差  
我们用样本比例$\bar{p}_1$、$\bar{p}_2$来估计$p_1$和$p_2$，得到边际误差如下（10-12）  
<center>边际误差$=z_{\alpha/2}\sqrt{\frac{\bar{p}_1(1-\bar{p}_1)}{n_1}+\frac{\bar{p}_2(1-\bar{p}_2)}{n_2}}$</center>

5  
两总体比例之差区间估计的一般形式如下  
<hr />

**两总体比例之差的区间估计**（10-13）  
$$\bar{p}_1-\bar{p}_2\pm z_{\alpha/2}\sqrt{\frac{\bar{p}_1(1-\bar{p}_1)}{n_1}+\frac{\bar{p}_2(1-\bar{p}_2)}{n_2}}$$
式中，$1-\alpha$为置信系数  
<hr />

回到报税公司的例子，我们得到两个办事处的独立简单随机样本的信息如下  

|办事处1|办事处2|
|--|--|
|$$n_1=250$$|$$n_2=300$$|
|出错申报单数=35|出错申报单数=27|

5

In [None]:
n1=250
n2=300
p1=35/n1
p2=27/n2
p_dif=p1-p2
print('于是我们估计办事处1的出错率比办事处2多{:.1%}'.format(p_dif))

In [None]:
def normz(val):
    '''
    总体均值区间估计 已知标准差 Z分数
    注意0.95的面积有两个尾部，需要计算的是0.025的面积对应的z    
    '''
    return norm.ppf((1+val)/2)

alpha=0.9
z_alpha=normz(alpha)
print('对于{:.0%}置信区间，z={:.3f}'.format(alpha,z_alpha))

In [None]:
def twoRatioDifStd(n1,p1,n2,p2):
    '''
    统计常用代码 两总体比例之差的推断 标准误差 标准误差
    '''
    a1=p1*(1-p1)/n1
    a2=p2*(1-p2)/n2
    return np.sqrt(a1+a2)

p_dif_std=twoRatioDifStd(250,p1,300,p2)

def twoRatioDifCV(dif,val,std):
    '''
    统计常用代码 两总体比例之差的推断 置信区间 置信区间
    '''
    z=normz(val)
    inter=z*std
    print('对于{:.0%}置信区间，边际误差为{:.3f}，区间为（{:.3f},{:.3f}）'.format(val,inter,dif-inter,dif+inter))
    
twoRatioDifCV(p_dif,0.9,p_dif_std)

## 10.4.2 $p_1-p_2$的假设检验
现在我们考虑两总体比例之差的假设检验。我们把重点放在两总体比例无差异的检验上。在这种情况下，假设检验有如下三种形式：  
$$H_0:p_1-p_2\ge0$$
$$H_a:p_1-p_2\lt0$$
5
<hr />

$$H_0:p_1-p_2\le0$$
$$H_a:p_1-p_2\gt0$$
<hr />

$$H_0:p_1-p_2=0$$
$$H_a:p_1-p_2\ne0$$
当我们假定作为一个等式的原假设$H_0$为真时，有$p_1-p_2=0$，也就是两总体比例是相等的，即$p_1=p_2$  
我们将以点估计量$\bar{p}_1-\bar{p}_2$的抽样分布作为检验统计量的基础。在式（10-11）中，我们已经给出$\bar{p}_1-\bar{p}_2$的标准误差为  
$$\sigma_{\bar{p}_1-\bar{p}_2}=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$$
5  
在假定作为一个等式的$H_0$为真的情况下，总体比率相等且$p_1=p_2=p$。这时，$\sigma_{\bar{p}_1-\bar{p}_2}$变为  
<hr />

**当$p_1=p_2=p$时，$\bar{p}_1-\bar{p}_2$的标准误差** （10-14）
$$\sigma_{\bar{p}_1-\bar{p}_2}=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}=\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}$$
<hr />

由于p未知，我们合并或组合两个样本点估计量（$\bar{p}_1$和$\bar{p}_2$），得到p的单一的点估计量如下：  
<hr />

**当$p_1=p_2=p$时，p的合并估计量** （10-15）  
5
$$\bar{p}=\frac{n_1\bar{p}_1+n_2\bar{p}_2}{n_1+n_2}$$
<hr />

这个p的**合并估计量**是$\bar{p}_1$和$\bar{p}_2$的加权平均值  
用$\bar{p}$代替式（10-14）中的p，我们可以得到$\bar{p}_1-\bar{p}_2$的标准误差的估计。检验统计量使用标准误差的这个估计  
关于两总体比例之差的假设检验的检验统计量的一般形式是点估计量除以$\sigma_{\bar{p}_1-\bar{p}_2}$的一个估计  
<hr />

**$p_1-p_2$的假设检验的检验统计量** （10-16）  
5  
$$z=\frac{\bar{p}_1-\bar{p}_2}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$
<hr />

该检验统计量适用于$n_1p_1$，$n_1(1-p_1)$，$n_2p_2$和$n_2(1-p_2)$全都大于或等于5的大样本情况  
让我们仍以报税公司为例，并假设公司希望应用假设检验来确定两个办事处之间的出错比例是否不同。双侧检验的原假设和备择假设如下：  
$$H_0:p_1-p_2=0$$
$$H_a:p_1-p_2\ne0$$
如果$H_0$被拒绝，该公司就可以得出两个办事处出错率不同的结论。我们的显著性水平为$\alpha=0.10$ 5  

In [None]:
print('p1:{:.2f}，n1:{:d}，p2:{:.2f}，n2:{:d}'.format(p1,n1,p2,n2))

In [None]:
ps=pd.Series([p1,p2])
ns=pd.Series([n1,n2])

def weightedMean(value,weight):
    ''' 
    统计常用代码 数值方法 加权平均数 加权平均数
    value:series;
    weight:series
    return: float
    '''
    wx = value.mul(weight).sum()
    w = weight.sum()
    return wx/w

p_bar=weightedMean(ps,ns)
print('p的合并估计量={:.4f}'.format(p_bar))

In [None]:
def twoPropDiffZ(n1,p1,n2,p2):
    '''
    统计常用代码 两总体比例之差的推断 检验统计量z 检验统计量z
    '''
    ps=pd.Series([p1,p2])
    ns=pd.Series([n1,n2])
    p=weightedMean(ps,ns)    
    p_diff=p1-p2
    return p_diff/np.sqrt(p*(1-p)*(1/n1+1/n2))
    
z_prop = twoPropDiffZ(n1,p1,n2,p2)
print('检验统计量的值={:.2f}'.format(z_prop))

In [None]:
def bilateralTestP(z):
    '''
    总体均值假设检验 已知标准差 双侧检验 p-值v1
    '''
    if z<0:
        p_=norm.cdf(z)
    else:
        p_=norm.sf(z)
    return p_*2

p_prop=bilateralTestP(z_prop)
print('我们得到p-值={:.4f}'.format(p_prop))

由于p-值小于$\alpha=0.10$，在0.10的显著性水平下我们将拒绝$H_0$。于是，报税公司可以得出两个办事处出错率不同的结论 5  
# 小结
本章我们讨论了涉及两个总体建立区间估计及进行假设检验的方法。首先，我们阐述了在抽取简单独立随机样本的情况下，如何进行关于两个总体均值之差的推断  
我们首先考虑了假定总体标准差已知的情况。标准正态分布z可用来建立区间估计和假设检验的检验统计量  
然后我们考虑了总体标准差未知并有样本标准差估计的情形。在这种情况下，可用t分布来进行区间估计和作为假设检验的检验统计量  
接下来我们讨论了匹配样本设计的两总体均值之差的统计推断。因为在大多数情形下，匹配样本方法会提高估计的准确度，因此匹配样本设计通常优于独立样本设计  
最后，讨论了关于两个总体比例之差的区间估计与假设检验 5  
# 关键术语
**独立样本** 取自两个总体的样本，抽取的方式是：组成一个样本的元素与组成另一个样本的元素是独立选取的  
**匹配样本** 一个样本的每个数据值与另一个样本的对应数据值相匹配的样本  
**p的合并估计量**  总体比例的一个估计量，它是两个独立样本的点估计量的加权平均数 5  
# 重要公式
两个总体均值之差的点估计量（10-1）
$$\bar{x}_1-\bar{x}_2$$
$\bar{x}_1-\bar{x}_2$的标准误差 （10-2）  
$$\sigma_{\bar{x}_1-\bar{x}_2}=\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$
两个总体均值之差的区间估计：$\sigma_1$和$\sigma_2$已知 （10-4） 
$$\bar{x}_1-\bar{x}_2\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$
5  
$\mu_1-\mu_2$的假设检验的检验统计量：$\sigma_1$和$\sigma_2$已知（10-5）  
$$z=\frac{(\bar{x}_1-\bar{x}_2)-D_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$
两个总体均值之差的区间估计：$\sigma_1$和$\sigma_2$未知（10-6）  
$$\bar{x}_1-\bar{x}_2\pm t_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}$$
利用两独立随机样本的t分布的自由度（10-7）  
5  
$$df=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{s_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{s_2^2}{n_2}\right)^2}$$  
$\mu_1-\mu_2$的假设检验的检验统计量：$\sigma_1$和$\sigma_2$未知（10-8）  
$$t=\frac{(\bar{x}_1-\bar{x}_2)-D_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$
匹配样本假设检验的检验统计量（10-9）  
$$t=\frac{\bar{d}-\mu_d}{s_d/\sqrt{n}}$$  
5  
两总体比例之差的点估计量  （10-10）  
$$\bar{p}_1-\bar{p}_2$$  
$\bar{p}_1-\bar{p}_2$的标准误差  （10-11）
$$\sigma_{\bar{p}_1-\bar{p}_2}=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$$
两总体比例之差的区间估计（10-13）  
$$\bar{p}_1-\bar{p}_2\pm z_{\alpha/2}\sqrt{\frac{\bar{p}_1(1-\bar{p}_1)}{n_1}+\frac{\bar{p}_2(1-\bar{p}_2)}{n_2}}$$
5  
当$p_1=p_2=p$时，$\bar{p}_1-\bar{p}_2$的标准误差（10-14）  
$$\sigma_{\bar{p}_1-\bar{p}_2}=\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}$$
当$p_1=p_2=p$时，p的合并估计量（10-15）  
$$\bar{p}=\frac{n_1\bar{p}_1+n_2\bar{p}_2}{n_1+n_2}$$
$p_1-p_2$的假设检验的检验统计量（10-16）  
5  
$$z=\frac{\bar{p}_1-\bar{p}_2}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$
5  
# 案例10-1
**Par公司**  
Par公司是一家高尔夫球设备的主要制造商。管理人员认为：引进某种耐磨损、寿命更长的高尔夫球会使Par公司的市场占有率增加  
一位研究者关注涂层对击球距离的影响。Par希望新型耐磨的高尔夫球与目前使用的高尔夫球有相同的击球距离  
为比较两种高尔夫球的击球距离，各取40只球来做距离测试。检验结果如下，其中距离是按最接近的整数码测量  
**管理报告**  
1. 提出并介绍Par公司用于比较目前使用的和新型的高尔夫球击球距离的假设检验的基本原理  
    $$H_0:\mu_1-\mu_2=0$$
    $$H_a:\mu_1-\mu_2\ne0$$
    5  
    我们使用显著性水平$\alpha=0.05$  
2. 分析数据，得出假设检验的结论。检验的p-值是多少？你对Par公司有何建议？  
3. 对每种型号的数据给出描述性的统计汇总 
4. 每种型号的总体平均击球距离的95%的置信区间是多少？两总体均值差的95%的置信区间是多少？  
5. 你认为需要更大的样本容量和对高尔夫球做更多的检验吗？请讨论 5  
    不用，因为mu1+mu2数量=80>20，且mu1样本数量=mu2样本数量，已经足够做出较好的预测了  

In [None]:
'''
读取
'''
golf=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch10/Golf.csv')
golf.head(10)

In [None]:
'''
需求2 
python scipy Statistical functions (scipy.stats) ttest_ind()
'''
mu1=golf['Current']
mu2=golf['New']
t_golf,p_golf=ttest_ind(mu1,mu2)
p_golf

In [None]:
print('由于p-值={:.2f}，大于alpha=0.05，故不能拒绝原假设H_0，无需进行任何措施'.format(p_golf))

In [None]:
'''
需求3 5   
'''
golf.describe()

In [None]:
'''
需求4.1
统计常用代码 总体均值区间估计 未知标准差 置信区间v2
'''
printMeanCIUk(mu1.values)
printMeanCIUk(mu2.values)

In [None]:
'''
需求4.2 5
python numpy The N-dimensional array (ndarray) ndarray.std()
python numpy The N-dimensional array (ndarray) ndarray.mean()
python numpy Mathematical functions np.power()
'''
def printMeanDiffCVUnknowV1(a,b,val):
    '''
    两总体均值之差的推断 标准差1和标准差2未知 置信区间v1
    a：ndarray 样本集1
    b：ndarray 样本集2
    val：置信系数
    '''    
    # 获取标准差及样本量
    s1=a.std()
    n1=len(a)
    x1=a.mean()
    s2=b.std()
    n2=len(b)
    x2=b.mean()
    
    # 计算自由度
    s1n1=np.power(s1,2)/n1
    s2n2=np.power(s2,2)/n2
    den=np.power(s1n1,2)/(n1-1)+np.power(s2n2,2)/(n2-1)
    df=np.floor(np.power(s1n1+s2n2,2)/den)
    
    # 计算t值
    t_=t.ppf((1+val)/2,df)
    
    # 计算近似标准误差
    std=np.sqrt(np.power(s1,2)/n1+np.power(s2,2)/n2)
    
    # 计算边际误差
    inter=t_*std
    
    # 计算点估计量
    mean=x1-x2
    
    # 输出区间估计
    print('两总体均值之差的{:.0%}的置信区间估计为{:.2f}到{:.2f}'.format(val,mean-inter,mean+inter))
    
printMeanDiffCVUnknowV1(mu1,mu2,0.95)

# 实操案例
+ 两总体均值之差的推断：已知标准差
    + 用户年龄研究：不同维度用户年龄均值之差
    + 用户习惯研究
        + 不同维度用户交易金额（累积、客单）均值之差
        + 不同维度用户交易频次均值之差
        + 不同维度用户停留时间均值之差
        + 不同维度用户访问频次均值之差 5
        + 不同维度用户收藏/提醒频次均值之差
    
  Ps：不同维度=艺人|平台|类目|城市等级|等等 
+ 两总体均值之差的推断：未知标准差
    + 用户年龄研究：不同活动用户年龄均值之差
    + 用户习惯研究：不同活动用户xx均值之差 5
+ 两总体均值之差的推断：匹配样本-暂无  
+ 两总体比例之差的推断  
    + 用户价值研究：
        + 不同维度用户详情转化率之差
        + 不同维度用户短信转化率之差  
        + 不同维度用户提醒/登记/收藏转化率之差 5
    + 营销效果研究：
        + 相似推广位置不同推广内容详情用户转化率之差
        + 不同短信文本/推广内容同一批用户短信转化率之差
        + 不同抵扣券同一批用户用券率之差
    + 备注
        + 相似推广位置=固定页面|活动页面等等
        + 不同维度=艺人|平台|类目|城市等级|活动|等等 5  