In [None]:
from scipy.stats import norm,t
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

# 实践中的统计
Food Lion食品城创立于1957年，是美国最大的连锁超市之一。Food Lion通过高效的运作，比如标准化的存储方式、仓库的创新设计、高效能的设备以及供应商的同步数据，来保持物美价廉  
在这样一个库存密集型的企业中，公司决定采取后进先出(LIFO)的库存计价法。该方法将当期成本与当期收益相配比，从根本上降低了激烈的价格变化对利润的影响  
Food Lion为7个库存池中的每一个分别建立了LIFO指数，这7个库存池分别为：杂货、纸（家居），宠物、保健和化妆品、奶制品、烟草和酒类  
对每个库存池，LIFO指数要求对每种产品的年末库存按当年年末成本和上一年年末成本分别计价  
为避免在全部的1200个存储点中对库存逐一进行计数而浪费财力和时间，Food Lion选取50个存储点组成一个简单随机样本。年末仅对这些样本存储点中的库存进行实地盘存 5  
去年，保健品和化妆品库存池的LIFO指数的样本估计值为1.015。在95%的置信水平下，Food Lion计算得到样本估计的边际误差为0.006。于是，总体LIFO指数的95%置信水平的区间估计为(1.009,1.021)    
本章你将学习如何计算与样本估计相联系的边际误差，以及如何使用这些信息构造并解释总体均值和总体比率的置信区间估计  
在第7章，我们发现点估计量是用于估计总体参数的样本统计量。因为我们不可能期望点估计量能给出总体参数的精确值，所以经常在点估计上加减一个被称为**边际误差**的值来计算**区间估计**。下面是区间估计的一般形式  
<center>点估计±边际误差</center>

区间估计的目的在于提供基于样本得出的点估计值与总体参数值的接近程度的信息 5  
本章我们将说明如何对总体均值$\mu$和总体比率p进行区间估计。总体均值区间估计的一般形式为$$\bar{x}\pm边际误差$$  
类似地，总体比率区间估计的一般形式为$$\bar{p}\pm边际误差$$
在计算这些这些区间估计时，$\bar{x}和\bar{p}$的抽样分布起着非常重要的作用 5  
# 8.1 总体均值：$\sigma$已知情形
为了对总体均值进行区间估计，必须利用总体标准差$\sigma$或样本标准差s计算边际误差。在大多数的应用中$\sigma$是未知的，于是s用于计算边际误差  
但是在一些应用中，我们在抽样前可以根据大量有关的历史数据估计总体标准差。我们称这种情形为**$\sigma$已知**  
Lloyd百货公司每周选择100名顾客组成一个简单随机样本，目的在于了解他们每次购物的消费总额。根据历史数据，Lloyd假定总体标准差已知，为$\sigma=20$美元，并且历史数据还显示总体服从正态分布  
最近一周，Lloyd公司调查了100名顾客(n=100)，得到样本均值$\bar{x}=82$美元 。每次购物消费总额的样本均值是总体均值$\mu$的点估计  
## 8.1.1 边际误差和区间估计  
在第7章中，我们发现可以利用$\bar{x}$的抽样分布计算$\bar{x}$在$\mu$附近一定距离内的概率 5  
因此，利用第7章的知识可知，$\bar{x}$的抽样分布服从标准误差$\sigma_{\bar{x}}=\sigma/\sqrt{n}=20/\sqrt{100}=2$的正态分布，该抽样分布如图8-1所示  
因为抽样分布说明$\bar{x}$的值如何分布在总体均值$\mu$的附近，所以$\bar{x}$的抽样分布提供了关于$\bar{x}$与$\mu$之间可能存在的差别的信息  
利用标准正态概率表，我们发现，任何正态分布随机变量都有95%的值在均值附近±1.96个标准差以内  
我们利用消费额总体服从正态分布这一事实，得出$\bar{x}$的抽样分布服从正态分布的结论。如果总体不服从正态分布，则我们可以根据中心极限定理及样本容量n=100得出$\bar{x}$的抽样分布近似服从正态分布  
图8-1给出了这两种情形下$\bar{x}$的抽样分布 5  
![8-1](../syn_pic/statistics_for_business_economics/8-1.png)
<center>图8-1 100名顾客的简单随机样本消费额样本均值的抽样分布</center>

![8-2](../syn_pic/statistics_for_business_economics/8-2.png)
<center>图8-2 $\bar{x}$的抽样分布：样本均值在$\mu \pm3.92$以内的区域</center>

在前文中，总体均值$\mu$的区间估计的一般形式为$\bar{x} \pm$边际误差。在Lloyd公司的例子里，假定令边际误差等于3.92，利用$\bar{x}\pm3.92$计算$\mu$的区间估计  
![8-3](../syn_pic/statistics_for_business_economics/8-3.png)
<center>图8-3 抽取的样本均值位于$\bar{x}_1、\bar{x}_2、\bar{x}_3$</center>

在图8-3中，阴影区域内的任一样本均值$\bar{x}$所构造的区间均包含总体均值$\mu$。由于所有样本均值中有95%落在此阴影区域中，所以$\bar{x}\pm3.92$所构建的所有区间中，有95%的区间包含总体均值$\mu$ 5  
在最近一周，Lloyd的质量保证部门对100名顾客进行了调查，得到消费额的样本均值$\bar{x}=82$。利用$\bar{x}\pm3.92$构造区间估计，我们得到$82\pm3.92$  
因为，利用$\bar{x}\pm3.92$构造的所有区间中有95%包括总体均值，所以我们说：有95%的把握相信区间（78.08，85.92）包括总体均值$\mu$  
因此，称此区间在95%的**置信水平**下建立。数值0.95称作**置信系数**，区间（78.08，85.92）称作95%的**置信区间**  
边际误差由$z_{\alpha/2}(\sigma/\sqrt{n})$给出，下面是$\sigma$已知情形下总体均值区间估计的一般形式  
<hr />

**总体均值的区间估计：$\sigma$已知情形**(8-1) 5
$$\bar{x}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$
式中，$1-\alpha$是置信系数，$ z_{\alpha/2}$是标准正态概率分布上侧面积为$\alpha/2$是的z值  
<hr />

在Lloyd公司例子中，我们利用式(8-1)构造95%的置信区间

In [None]:
'''
python str s.format() f
scipy Statistical functions (scipy.stats) norm() n.ppf()
'''
def normz(val):
    '''
    数据分析 常用代码 区间估计-已知标准差-Z分数
    注意0.95的面积有两个尾部，需要计算的是0.025的面积对应的z    
    '''
    return norm.ppf((1+val)/2)

def conInt(mean,sigma,n,val=0.95):
    '''
    数据分析 常用代码 区间估计-已知标准差 5
    '''
    inter=normz(val)*sigma/np.sqrt(n)
    return mean+inter,mean-inter

def printLloyd(val):
    '''
    数据分析 常用代码 区间估计-已知标准差v1
    '''
    Lloyd_max,Lloyd_min=conInt(82,20,100,val)
    print('{:.0%}的置信区间为从{:.2f}到{:.2f}'.format(val,Lloyd_min,Lloyd_max))
    
printLloyd(0.95)

虽然95%是经常使用的置信水平，但也可以考虑其他的置信水平，比如90%和99%  

In [None]:
printLloyd(0.90)
printLloyd(0.99)

比较90%、95%和99%的置信水平的结果，我们看到：要想达到较高的置信度，必须加大边际误差和置信区间的宽度  
## 8.1.2 应用中的建议  
如果总体服从正态分布，式(8-1）所给出的置信区间是精确的。如果总体不服从正态分布，则式(8-1）所给出的置信区间是近似的。在这种情形下，近似的程度依赖于总体的分布和样本容量 5  
在大部分应用中，当利用式（8-1）建立总体均值的区间估计时，样本容量n≥30已经足够。然而，如果总体的分布不服从正态分布但是大致对称，则样本容量至少为15时才能得到一个好的置信区间的近似  
仅当分析人员坚信或者愿意假设总体的分布至少是近似正态时，才可以在更小的样本容量下利用式（8-1）  
## 注释  
1. 本节所讨论的区间估计方法是在总体标准差$\sigma$已知的假设下进行的。$\sigma$已知意味着，在估计总体均值时，我们进行抽样之前可以利用历史数据或者其他信息得到总体标准差$\sigma$的一个好的近似  
2. 在区间估计的表达式（8-1）中，样本容量n出现在分母上。于是，实际应用中当某一具体的样本容量产生的区间太宽时，我们可以考虑增大样本容量。为了达到所希望的精度，确定一个简单随机样本容量的方法将在8.3节中讨论 5   

# 8.2 总体均值：$\sigma$未知情形
在建立总体均值的区间估计时，我们通常并没有关于总体标准差的一个好的估计。在这种情形下，我们必须利用同一个样本估计$\mu和\sigma$两个未知参数  
这属于**$\sigma$未知**的情形。当利用s估计$\sigma$时，边际误差和总体均值的区间估计都是以**t分布**的概率分布为依据进行的  
虽然t分布的数学推导是以假设抽样总体服从正态分布为依据，但是研究表明，在许多总体分布显著偏离正态分布的情形下，利用t分布的效果还是相当不错的  
t分布是由一些相似的概率分布组成的分布簇，一个特定的t分布依赖于被称为**自由度**的参数  
当自由度分别为1，2，3，…时，有且仅有唯一的t分布与之相对应。随着自由度的增大，t分布与标准正态分布之间的差别变得越来越小。图8-4给出了自由度分别为10和20时的t分布与标准正态概率分布的关系 5  
![8-4](../syn_pic/statistics_for_business_economics/8-4.png)
<center>图8-4 自由度为10和20的t分布与标准正态分布的比较</center>

我们给t加上下标以表明其在t分布上侧的面积。例如，就像我们用$z_0.025$标识：该值在标准正态概率分布上侧的面积为0.025一样，我们用$t_0.025$表示：该值在t分布上侧的面积为0.025  
一般地，用记号$t_{\alpha/2}$表示该值在t分布上侧的面积为$\alpha/2$（见图8-5）  
![8-5](../syn_pic/statistics_for_business_economics/8-5.png)
<center>图8-5 在上侧面积或概率为$\alpha/2$的t分布</center>

附录A中表A-2是一个t分布表。表8-2是该表的一部分。表中的每一行分布与某一自由度的t分布相对应 5  
当自由度超过100时，自由度为无穷的那一行可以用于近似实际的t值。换句话讲，当自由度大于100时，标准正态的z值是对t值的一个好的近似  
![tb8-2](../syn_pic/statistics_for_business_economics/tb8-2.png)
<center>表8-2 t分布表的部分数值</center>


In [None]:
'''
scipy Statistical functions (scipy.stats) t() t.ppf()
scipy Statistical functions (scipy.stats) t()
'''
print('对自由度为9的t分布，t_0025={:.2f}'.format(t.ppf(1-0.025,9)))
print('对自由度为60的t分布，t_0025={:.2f}'.format(t.ppf(1-0.025,60)))
print('对自由度为100的t分布，t_0025={:.2f}'.format(t.ppf(1-0.025,100)))

## 8.2.1 边际误差和区间估计  
在8.1节，我们给出在$\sigma$已知的情形下总体均值的区间估计为$$\bar{x}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$ 5  
在$\sigma$未知的情形下，为了计算$\mu$的区间估计，用样本标准差s估计$\sigma$，用t分布$t_{\alpha/2}$的值代替$z_{\alpha/2}$。于是，边际误差为$t_{\alpha/2}s/\sqrt{n}$   
利用该边际误差，当$\sigma$未知时，总体均值区间估计的一般公式如下所示  
<hr />

**总体均值的区间估计：$\sigma$未知情形**（8-2）$$\bar{x}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}$$
式中，s为样本标准差，$1-\alpha$是置信系数。$t_{\alpha/2}$是自由度为n-1时，使t分布的上侧面积为$t_{\alpha/2}$的t值  <hr />

由于用s作为总体标准差$\sigma$的估计值，所以在式(8-2)中与t值相对应的自由度为n-1。样本标准差的公式为 5  
$$s=\sqrt{\frac{\Sigma{(x_i-\bar{x})^2}}{n-1}}$$  
自由度是计算$\Sigma{(x_i-\bar{x})^2}$时用到的信息中独立数据的个数  
为说明$\sigma$未知情形下区间估计的步骤，我们考虑一项用于估计美国家庭总体信用卡债务均值的研究。由n=70个家庭组成的样本的信用卡余额数据如表8-3所示  
在这种情况下，没有关于总体标准差$\sigma$的先验估计。因此，必须利用样本数据同时估计总体均值和总体标准差  
我们利用式（8-2）计算信用卡余额的总体均值的区间估计 5  

In [None]:
'''
pandas dataframe d.info()
'''
hcc_balance=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch08/NewBalance.csv')
hcc_balance.info()

In [None]:
'''
pandas dataframe d.mean()
pandas dataframe d.std()
scipy Statistical functions (scipy.stats) t() t.ppf()
python str s.format() %
'''
hcc_mean=hcc_balance.mean()[0]
hcc_std=hcc_balance.std()[0]
n=len(hcc_balance)
freedom=n-1

def tz(val,n):
    '''
    数据分析 常用代码 区间估计-未知标准差-Z分数
    注意0.95的面积有两个尾部，需要计算的是0.025的面积对应的z    
    '''
    return t.ppf((1+val)/2,n)

t_0025=tz(0.95,freedom)

def printConfidenceInterval(mean,sigma,n,freedom,val=0.95):
    '''
    数据分析 常用代码 区间估计-未知标准差
    '''
    inter=tz(val,freedom)*sigma/np.sqrt(n)
    print('均值在{:.0%}的置信水平下，介于{:.0f}到{:.0f}'.format(val,mean-inter,mean+inter))
        
printConfidenceInterval(hcc_mean,hcc_std,n,freedom)

## 8.2.2 应用中的建议  
如果总体服从正态分布，式（8-2）所给出的置信区间是精确的，并且适用于任何样本容量。如果总体不服从正态分布，则式（8-2）所给出的置信区间是近似的。在这种情形下，近似的程度依赖于总体的分布和样本容量  
在大部分应用中，当利用式（8-2）建立总体均值的区间估计时，样本容量n≥30已经足够大。然而，如果总体的分布是严重偏斜或者包含异常点时，大部分统计学家建议将样本容量增加到50或者更大  
如果总体的分布不是正态分布但是大致对称，则在样本容量15时便能得到好的置信区间的近似。仅当分析人员坚信或者愿意假设总体的分布至少是近似正态时，才可以在更小的样本容量下利用式（8-2） 5  
## 8.2.3 利用小样本
在下面的例子中，我们在小样本容量下考虑如何建立总体均值的区间估计。正如所强调的那样，在决定区间估计方法能否给出可以接受的结果时，对总体分布的了解成为一个因素  
Scheer Industries 正在考虑使用一种新型的计算机辅助程序来培训维修员工修理机器。为了对这种程序有一个全面的评估，生产负责人要求对维修员工完成该计算机辅助培训所需时间的总体均值进行估计  
选取20名维修员工组成一个样本，样本中每一名员工都完成了培训计划。每名员工所需培训时间的数据列在表8-4中。图8-7是样本数据的直方图  
首先，样本数据不能支持我们做出总体服从正态分布的结论，但是，我们也没有发现任何偏斜或者异常值方面的证据。因此，根据上一节的提示，我们的结论是：对于这20名员工组成的样本，以t分布为依据进行区间估计似乎是可以接受的  
样本均值和样本标准差的计算如下： 5  

In [None]:
'''
numpy Array creation routines np.arange() step
pandas General functions pd.cut() right
pandas series s.value_counts()
matplotlib Pyplot function overview plt.bar() width
matplotlib Pyplot function overview plt.xlabel()
'''
scheer=pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch08/Scheer.csv')
scheer_cut=pd.cut(scheer['Days'],np.arange(40,70,5),labels=np.arange(40,65,5),right=False)
scheer_cut.value_counts().sort_index().plot.bar(width=1,color='gray',edgecolor='black')
plt.xticks(rotation=360)
plt.xlabel('scheer time/day')
plt.ylabel('frequency')
plt.show()

In [None]:
def printDfConfidenceInterval(df,val=0.95):
    '''
    数据分析 常用代码 区间估计-未知标准差v1
    '''
    mean=df.mean()[0]
    std=df.std()[0]
    n=len(df)
    freedom=n-1
    inter=tz(val,freedom)*std/np.sqrt(n)
    print('均值在{:.0%}的置信水平下，介于{:.1f}到{:.1f}'.format(val,mean-inter,mean+inter))
    
printDfConfidenceInterval(scheer)

利用样本数据的直方图了解总体的分布时，并不总能得到令人信服的结论。通常直方图联通分析人员的部分判断来确定是否可以利用式（8-2）进行区间估计  