In [None]:
import pandas as pd
import numpy as np

# 实践中的统计
## 美国劳工部，劳工统计局
它们包括：消费者价格指数（CPI）、生产者价格指数（PPI）以及各类工人的平均工作时间与收入等资料  
2009年3月美国劳工统计局的报告显示，2月的消费者价格指数上涨了0.5%  
几天前，劳工统计局的报告显示，经过季节调整后的生产者价格指数2月上涨了0.1%,这是在1月上涨了0.8%和上一年12月下降了1.9%后的上涨  
本章我们将介绍各种指数的计算，并对它们加以解释  
美国政府每个月都发布各类指数，编制这些指数是为了帮助居民了解当前的商业和经济状况 5  
首先，我们通过编制一些简单的指数，使我们对如何计算指数有一个更好的理解 5  
# 17.1 价比
价格指数最简单的形式，就是一个给定商品项目的报告期单价与基期的单价的简单对比  
表17-1是1990-2008年每加仑普通汽油的成本资料，为了方便与其他年份的比较，每加仑汽油的现实成本数据可转化为一个价比，即将每一个时期的单价表示为基期单价的一个百分数  
<center>表17-1 普通汽油的成本</center>

![tb17-1](../syn_pic/statistics_for_business_economics/tb17-1.png)
(17-1)
$$t期的价比=\frac{t期的价格}{基期的价格}\times100$$
根据表17-1的资料，以1990年为基期，可以计算出从1990~2008年每加仑普通汽油的价比，将它们列在表17-2中 5  

In [None]:
gasline=pd.DataFrame({'year':list(np.arange(1990,2009,1)),
                     'price':[1.3,1.1,1.09,1.07,1.08,1.11,1.22,1.2,1.03,1.14,1.48,1.42,1.34,1.56,1.85,2.27,2.57,2.8,3.25]})
gasline.tail()

In [None]:
gasline['Price_ratio']=gasline['price'].div(1.3).mul(100).round(1)
gasline.head()

通过了解价比，任何时期的价格就很容易与基期的价格进行比较。例如，1995年的价比为85.4，表明汽油价格1995年比1990年下降14.6%  
就像普通汽油等现象意义，价比在了解和解释经济与商业状况随时间的变动方面很有帮助 5  
# 17.2 综合物价指数
**综合价格指数**就是为了度量一组商品项目的综合变动这一特殊目的而编制的  
以普通汽车运行费用的一组分类商品项目为例，我们考虑综合物价指数的编制  
表17-3是1990-2008上述四个项目汽车运行费用的资料  
<center>表17-3 汽车运行费用指数的数据</center>

![tb17-3](../syn_pic/statistics_for_business_economics/tb17-3.png)
未加权综合物价指数是报告期单价之和与基期单价之和的对比。令 5  

In [None]:
car=pd.DataFrame({'年份':[1990,2008],
              '汽油':[1.3,3.25],
             '润滑油':[2.1,8.],
             '轮胎':[130,140],
             '保险费用':[820,1030]})
car

$P_{it}$——t期第i种商品的单价  
$P_{i0}$——基期第i种商品的单价  
则未加权t期的综合物价指数$I_t$为  
$$I_t=\frac{\Sigma P_{it}}{\Sigma P_{i0}}\times100$$
5  
式中，$\Sigma$是对一组商品项目中的所有项目求和  
2008年的普通汽车运行费用的未加权综合物价指数为  

In [None]:
'''
5
python	pandas	dataframe	d.sum() axis
'''
car_lv1=car.set_index('年份')
car_lv1_sum=car_lv1.sum(axis=1)
i_2008=car_lv1_sum.values[1]/car_lv1_sum.values[0]*100
print('{:.0f}'.format(i_2008))

根据未加权综合物价指数，我们看到普通汽车运行费用的价格从1990年到2008年上涨了24%。但值得注意的是，汽车运行费用的未加权综合指数近似于一个复合物价指数，它受单价高的商品项目的影响严重  
当商品项目的使用量不同时，加权综合物价指数给出了一个更好的对比方法  
**加权综合物价指数**的原理是对一组商品项目中的每一个项目，依据其重要性进行加权。在大多数情况下，商品的使用量是测量其重要性的最好尺度  
表17-4以一辆每年大约行驶15000英里的具有代表性的中型汽车为依据，给出了各项汽车运行费用的年使用量信息  

In [None]:
'''
5
python	pandas	dataframe	d.unstack()
python	pandas	series	s.reset_index()
'''
car_lv2=car.set_index('年份').unstack().reset_index()
car_lv2.columns=['项目','年份','单价']
car_lv2

In [None]:
'''
python	pandas	series	s.unique()
'''
car_project=car_lv2['项目'].unique()
car_project

In [None]:
weight=pd.DataFrame({'项目':car_project,
             '数量权重':[1000,15,2,1]})
weight

In [None]:
car_lv3=car_lv2.merge(weight,on='项目').sort_values('年份')
car_lv3

令$Q_i$表示第i个商品项目的使用量，则t期的加权综合物价指数公式为（17-3）  
$$I_t=\frac{\Sigma P_{it}Q_i}{\Sigma P_{i0}Q_i}\times100$$
5  
式中，$\Sigma$是对一组中所有商品项目求和  
令t=2008，根据表17-4中的数量权数，我们可以得出2008年汽车运行费用的加权综合物价指数为  

In [None]:
'''
python	pandas	GroupBy	g.sum()
'''
car_lv3_sum=car_lv3['单价'].mul(car_lv3['数量权重']).groupby(car_lv3['年份']).sum()
i_2008_lv3=car_lv3_sum[2008]*100/car_lv3_sum[1990]
print('{:.0f}'.format(i_2008_lv3))

从这个加权综合物价指数中，我们可以得到汽车运行费用的价格从1990年到2008年上涨了94%  
一般地，以使用量为权数的加权综合指数是比较适合于编制一组商品项目的价格指数 5  
固定权数或数量是被指数设计者指定的，其水平被人为是具有代表性的使用量。一旦$Q_i$得到确立，它们在编制指数的各个时期内保持不变  
以基期的使用量为权数是固定权数的加权综合指数的一种特殊情形。在这种情形下，$Q_i=Q_{i0}$，其中下标0表示的是基期。因此式(17-3)变为（17-4）  
$$I_t=\frac{\Sigma{P_{it}Q_{i0}}}{\Sigma{P_{i0}Q_{i0}}}\times100$$
每当以基期的使用量为固定的数量权数时，称加权综合指数为**拉斯贝尔指数**  
另一个确定数量权数的方法是每个时期修正数量权数。每年计算指数时所用的数量为$Q_{it}$。使用这些数量权数在t期的加权综合物价指数为（17-5） 5  
$$I_t=\frac{\Sigma{P_{it}Q_{it}}}{\Sigma{P_{i0}Q_{it}}}\times100$$
注意，对基期（0期）和t期使用相同的数量权数。然而，若权数是以t期而不是以基期的使用量为依据，则加权综合指数称为**派许指数**  
以报告期的使用量为权数是其优点，但这种计算综合指数的方法也有两个缺点：一是通常使用量$Q_{it}$必须每年重新缺点，一次，增加了搜集资料的时间和成本;二是每年必须重新计算前一年的指数，以反映新的数量权数的效果  
正是由于这些缺点，拉斯贝尔指数的应用更为广泛 5  
# 17.3 根据价比计算综合物价指数
