In [None]:
from scipy.stats import norm
import numpy as np

# 实践中的统计
Food Lion食品城创立于1957年，是美国最大的连锁超市之一。Food Lion通过高效的运作，比如标准化的存储方式、仓库的创新设计、高效能的设备以及供应商的同步数据，来保持物美价廉  
在这样一个库存密集型的企业中，公司决定采取后进先出(LIFO)的库存计价法。该方法将当期成本与当期收益相配比，从根本上降低了激烈的价格变化对利润的影响  
Food Lion为7个库存池中的每一个分别建立了LIFO指数，这7个库存池分别为：杂货、纸（家居），宠物、保健和化妆品、奶制品、烟草和酒类  
对每个库存池，LIFO指数要求对每种产品的年末库存按当年年末成本和上一年年末成本分别计价  
为避免在全部的1200个存储点中对库存逐一进行计数而浪费财力和时间，Food Lion选取50个存储点组成一个简单随机样本。年末仅对这些样本存储点中的库存进行实地盘存 5  
去年，保健品和化妆品库存池的LIFO指数的样本估计值为1.015。在95%的置信水平下，Food Lion计算得到样本估计的边际误差为0.006。于是，总体LIFO指数的95%置信水平的区间估计为(1.009,1.021)    
本章你将学习如何计算与样本估计相联系的边际误差，以及如何使用这些信息构造并解释总体均值和总体比率的置信区间估计  
在第7章，我们发现点估计量是用于估计总体参数的样本统计量。因为我们不可能期望点估计量能给出总体参数的精确值，所以经常在点估计上加减一个被称为**边际误差**的值来计算**区间估计**。下面是区间估计的一般形式  
<center>点估计±边际误差</center>

区间估计的目的在于提供基于样本得出的点估计值与总体参数值的接近程度的信息 5  
本章我们将说明如何对总体均值$\mu$和总体比率p进行区间估计。总体均值区间估计的一般形式为$$\bar{x}\pm边际误差$$  
类似地，总体比率区间估计的一般形式为$$\bar{p}\pm边际误差$$
在计算这些这些区间估计时，$\bar{x}和\bar{p}$的抽样分布起着非常重要的作用 5  
# 8.1 总体均值：$\sigma$已知情形
为了对总体均值进行区间估计，必须利用总体标准差$\sigma$或样本标准差s计算边际误差。在大多数的应用中$\sigma$是未知的，于是s用于计算边际误差  
但是在一些应用中，我们在抽样前可以根据大量有关的历史数据估计总体标准差。我们称这种情形为**$\sigma$已知**  
Lloyd百货公司每周选择100名顾客组成一个简单随机样本，目的在于了解他们每次购物的消费总额。根据历史数据，Lloyd假定总体标准差已知，为$\sigma=20$美元，并且历史数据还显示总体服从正态分布  
最近一周，Lloyd公司调查了100名顾客(n=100)，得到样本均值$\bar{x}=82$美元 。每次购物消费总额的样本均值是总体均值$\mu$的点估计  
## 8.1.1 边际误差和区间估计  
在第7章中，我们发现可以利用$\bar{x}$的抽样分布计算$\bar{x}$在$\mu$附近一定距离内的概率 5  
因此，利用第7章的知识可知，$\bar{x}$的抽样分布服从标准误差$\sigma_{\bar{x}}=\sigma/\sqrt{n}=20/\sqrt{100}=2$的正态分布，该抽样分布如图8-1所示  
因为抽样分布说明$\bar{x}$的值如何分布在总体均值$\mu$的附近，所以$\bar{x}$的抽样分布提供了关于$\bar{x}$与$\mu$之间可能存在的差别的信息  
利用标准正态概率表，我们发现，任何正态分布随机变量都有95%的值在均值附近±1.96个标准差以内  
我们利用消费额总体服从正态分布这一事实，得出$\bar{x}$的抽样分布服从正态分布的结论。如果总体不服从正态分布，则我们可以根据中心极限定理及样本容量n=100得出$\bar{x}$的抽样分布近似服从正态分布  
图8-1给出了这两种情形下$\bar{x}$的抽样分布 5  
![8-1](../syn_pic/statistics_for_business_economics/8-1.png)
<center>图8-1 100名顾客的简单随机样本消费额样本均值的抽样分布</center>

![8-2](../syn_pic/statistics_for_business_economics/8-2.png)
<center>图8-2 $\bar{x}$的抽样分布：样本均值在$\mu \pm3.92$以内的区域</center>

在前文中，总体均值$\mu$的区间估计的一般形式为$\bar{x} \pm$边际误差。在Lloyd公司的例子里，假定令边际误差等于3.92，利用$\bar{x}\pm3.92$计算$\mu$的区间估计  
![8-3](../syn_pic/statistics_for_business_economics/8-3.png)
<center>图8-3 抽取的样本均值位于$\bar{x}_1、\bar{x}_2、\bar{x}_3$</center>

在图8-3中，阴影区域内的任一样本均值$\bar{x}$所构造的区间均包含总体均值$\mu$。由于所有样本均值中有95%落在此阴影区域中，所以$\bar{x}\pm3.92$所构建的所有区间中，有95%的区间包含总体均值$\mu$ 5  
在最近一周，Lloyd的质量保证部门对100名顾客进行了调查，得到消费额的样本均值$\bar{x}=82$。利用$\bar{x}\pm3.92$构造区间估计，我们得到$82\pm3.92$  
因为，利用$\bar{x}\pm3.92$构造的所有区间中有95%包括总体均值，所以我们说：有95%的把握相信区间（78.08，85.92）包括总体均值$\mu$  
因此，称此区间在95%的**置信水平**下建立。数值0.95称作**置信系数**，区间（78.08，85.92）称作95%的**置信区间**  
边际误差由$z_{\alpha/2}(\sigma/\sqrt{n})$给出，下面是$\sigma$已知情形下总体均值区间估计的一般形式  
<hr />

**总体均值的区间估计：$\sigma$已知情形**(8-1) 5
$$\bar{x}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$
式中，$1-\alpha$是置信系数，$ z_{\alpha/2}$是标准正态概率分布上侧面积为$\alpha/2$是的z值  
<hr />

在Lloyd公司例子中，我们利用式(8-1)构造95%的置信区间

In [None]:
def normz(val):
    '''
    数据分析 常用代码 置信区间-Z分数
    注意0.95的面积有两个尾部，需要计算的是0.025的面积对应的z
    scipy Statistical functions (scipy.stats) norm() n.ppf()
    '''
    return norm.ppf((1+val)/2)

def conInt(mean,sigma,n,val=0.95):
    '''
    数据分析 常用代码 置信区间
    '''
    inter=normz(val)*sigma/np.sqrt(n)
    return mean+inter,mean-inter

Lloyd_max,Lloyd_min=conInt(82,20,100)
print('95%的置信区间为从{:.2f}到{:.2f}'.format(Lloyd_min,Lloyd_max))