# 实验五 方差分析与统计指数

In [1]:
import pandas as pd
import numpy as np
import statsmodels as st
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd

## 1、计算例题7-2与本章案例引入。
### 1.1 例题7-2
根据 "实验5 方差分析.xls" 中的表'例7-2'中的数据，给定显著性水平 $\alpha = 0.05$ ，检验不同层次管理者的满意度评分是否存在显著性差异

In [2]:
data = pd.read_excel('实验5 方差分析.xls',None)

合并为一列并重置索引

In [3]:
manage_data = data['例7-2']
melt_manage_data = manage_data.melt().dropna().reset_index(drop=True)
melt_manage_data

Unnamed: 0,variable,value
0,高级管理者,7.0
1,高级管理者,7.0
2,高级管理者,8.0
3,高级管理者,7.0
4,高级管理者,9.0
5,中级管理者,8.0
6,中级管理者,9.0
7,中级管理者,8.0
8,中级管理者,10.0
9,中级管理者,9.0


将不同层级管理者指定号对应标签

In [4]:
admin_dict = melt_manage_data['variable'].unique().tolist()
admin_dict

['高级管理者', '中级管理者', '初级管理者']

In [5]:
melt_manage_data['group'] = melt_manage_data['variable'].apply(lambda x : (admin_dict.index(x) + 1) )
melt_manage_data

Unnamed: 0,variable,value,group
0,高级管理者,7.0,1
1,高级管理者,7.0,1
2,高级管理者,8.0,1
3,高级管理者,7.0,1
4,高级管理者,9.0,1
5,中级管理者,8.0,2
6,中级管理者,9.0,2
7,中级管理者,8.0,2
8,中级管理者,10.0,2
9,中级管理者,9.0,2


进行方差分析

In [6]:
new_data = melt_manage_data.drop('variable',axis=1)
model = ols('value ~C(group)', data=new_data).fit()
anovat = anova_lm(model)
anovat

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(group),2.0,29.609524,14.804762,11.755735,0.000849
Residual,15.0,18.890476,1.259365,,


设高中初级管理者评分的均值分别为 $\mu_1,\mu_2,\mu_3$ .<br>

**1.提出假设:** <br>

$H_0: \mu_1 = \mu_2 = \mu_3 $  <br>
$H_1:\mu_1,\mu_2,\mu_3$ 不全相等 <br>
<br>
**2.进行方差分析** <br>

| -  | df |  sum_sq | mean_sq | F | PR(>F) |
| --- | ----------- |  --- | ----------- | --- | ----------- |
| C(group)  | 2.0 | 29.609524 | 14.804762 | 11.755735 | 0.000849 |
| Residual | 15.0  | 18.890476 | 1.259365 |  |  |

组间自由度$df_A$=2,组内自由度$df_E$=15 <br>

其他分析结果如上图所示
<br>
<br>
**3.统计决策** <br>

检验统计量$F=11.7555735 > F_{0.05} (2,15) = 3.682$, 所以 **拒绝原假设** ，即认为不同层次管理的满意度评分之间是存在显著差异的 <br>
根据P值规则，由于P=0.000849< $\alpha$ = 0.05 ,故同样拒绝原假设。

### 1.2 案例引入
观察不同品种种子的产量数据，思考在显著性水平 $\alpha = 0.05$ 下，不同品种种子的产量是否存在显著性差异

In [7]:
filed_data = data['案例引入']
filed_data

Unnamed: 0,种子品种,产量数据（公斤）,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16
0,甲,58,62,70,63,52,65,56,60,59,67,63,66,55,57,59,52
1,乙,89,72,80,66,63,73,84,64,68,50,76,71,56,81,63,65
2,丙,76,73,66,78,66,69,68,62,72,67,70,63,72,76,63,67


合并为一列并按组制定标签

In [27]:
df1 = filed_data.iloc[:,1:].stack()

df2 = df1.reset_index(level=0).reset_index(drop=True)
df2.columns = ['level','value']
df2

Unnamed: 0,level,value
0,0,58
1,0,62
2,0,70
3,0,63
4,0,52
5,0,65
6,0,56
7,0,60
8,0,59
9,0,67


方差分析

In [9]:
model_2 = ols('value ~C(level)', data=df2).fit()
anovat_2 = anova_lm(model_2)
anovat_2

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(level),2.0,949.041667,474.520833,8.97604,0.000524
Residual,45.0,2378.9375,52.865278,,


设甲、乙、丙三个种子品种的产量均值分别为 $\mu_1,\mu_2,\mu_3$ .<br>
<br>
**1.提出假设：** <br>

$H_0: \mu_1 = \mu_2 = \mu_3 $  <br>
$H_1:\mu_1,\mu_2,\mu_3$ 不全相等 <br>
<br>
**2.进行方差分析** <br>

| -  | df |  sum_sq | mean_sq | F | PR(>F) |
| --- | ----------- |  --- | ----------- | --- | ----------- |
| C(group)  | 2.0 | 949.041667 | 474.520833 | 8.97604	 | 0.000524 |
| Residual | 45.0  | 2378.937500 | 52.865278 |  |  |

组间自由度$df_A$=2,组内自由度$df_E$=45 <br>

其他分析结果如上图所示
<br>
<br>
**3.统计决策**

根据P值规则，由于P=0.000524< $\alpha$ = 0.05 ,故同样拒绝原假设。即认为不同品种种子的产量是存在显著差异的

## 2、例题7-5
根据某商品不同地区不同包装方式的销售资料表格，已知包装方式为因素A，销售地区为因素B。请问：在显著性水平 $\alpha = 0.05$ 下，销售地区和包装方式是否对销售量有显著影响？

In [10]:
goods_data = data['例7-5']
goods_data

Unnamed: 0,销售地区,包装方式,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,行均值
0,,A1,A2,A3,A4,A5,
1,B1,20,12,20,10,14,15.2
2,B2,22,10,20,12,6,14.0
3,B3,24,14,18,18,10,16.8
4,B4,16,4,8,6,18,10.4
5,列均值,20.5,10,16.5,11.5,12,14.1


In [11]:
goods_columns = goods_data.iloc[0,1:-1].values
goods_index = goods_data.iloc[1:-1,0].values

goods = goods_data.iloc[1:-1,1:-1]
goods.columns = pd.Index(goods_columns,name='A')
goods.index = pd.Index(goods_index,name='B')
goods

A,A1,A2,A3,A4,A5
B,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
B1,20,12,20,10,14
B2,22,10,20,12,6
B3,24,14,18,18,10
B4,16,4,8,6,18


In [12]:
goods = goods.stack().reset_index().rename(columns={0:'value'})
goods

Unnamed: 0,B,A,value
0,B1,A1,20
1,B1,A2,12
2,B1,A3,20
3,B1,A4,10
4,B1,A5,14
5,B2,A1,22
6,B2,A2,10
7,B2,A3,20
8,B2,A4,12
9,B2,A5,6


In [13]:
goods['value'] = goods['value'].astype(int)
model_3 = ols('value ~C(A)+C(B)', goods).fit()
anovat_3 = anova_lm(model_3)
anovat_3

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(A),4.0,298.8,74.7,3.830769,0.031324
C(B),3.0,111.0,37.0,1.897436,0.183889
Residual,12.0,234.0,19.5,,


**1.提出假设:** <br>

对列因素A： <br>
$H_0: \mu_1 = \mu_2 = \mu_3 = \mu_4 = \mu_5$  <br>
$H_1:\mu_1,\mu_2,\mu_3,\mu_4,\mu_5$ 不全相等 <br>

对行因素B： <br>
$H_0: \mu_1 = \mu_2 = \mu_3 = \mu_4 $  <br>
$H_1:\mu_1,\mu_2,\mu_3,\mu_4$ 不全相等 <br>
<br>
**2.进行方差分析** <br>

| -  | df |  sum_sq | mean_sq | F | PR(>F) |
| --- | ----------- |  --- | ----------- | --- | ----------- |
| C(A)  | 4.0	 | 298.8 | 74.7|3.830769 | 0.031324 |
| C(B)  | 3.0	 |111.0| 37.0	|1.897436 | 0.183889 |
| Residual | 12.0 | 234.0| 19.5 |  |  |


**3.统计决策** <br>


对于列因素A，
根据P值规则，由于P=0.031324< $\alpha$ = 0.05 ,故拒绝原假设。即认为不同包装方式对销售量有显著影响。<br>

对于行因素B，
根据P值规则，由于P=0.183889> $\alpha$ = 0.05 ,故不拒绝原假设。即认为不同地区对销售量没有显著影响。<br>


## 3、例题8-1
某店9月和10月的销售价格和销售量的情况如下表所示。每种商品价格和销售量的变动程度不同，3中商品价格和销售量的平均变动程度为？

In [14]:
stock_data = pd.read_excel('指数-例8-1.xlsx')
stock_data

Unnamed: 0,商品种类,计量单位,销售量,Unnamed: 3,价格,Unnamed: 5
0,,,9月 q0,10月 q1,9月 p0,10月 p1
1,甲,台,220,340,750,680
2,乙,袋,3400,4270,150,120
3,丙,件,141,199,328,286
4,,,,,,
5,,,,,,
6,,,,,,
7,,,,,,
8,例8-1：,,,,,
9,,某商店从10月1日起开始为期一个月的促销活动。10月的销售统计表明，其中3种商品的销售额比9...,,,,


In [15]:
df3 = stock_data.iloc[1:4,2:7]
df3.index = stock_data.iloc[1:4,0].values
df3.columns = stock_data.iloc[0,2:7].values
df3

Unnamed: 0,9月 q0,10月 q1,9月 p0,10月 p1
甲,220,340,750,680
乙,3400,4270,150,120
丙,141,199,328,286


In [16]:
df3['p0q0'] = [df3.iloc[i,0] * df3.iloc[i,2] for i in range(len(df3))]
df3['p1q0'] = [df3.iloc[i,0] * df3.iloc[i,3] for i in range(len(df3))]
df3['p0q1'] = [df3.iloc[i,1] * df3.iloc[i,2] for i in range(len(df3))]
df3['p1q1'] = [df3.iloc[i,1] * df3.iloc[i,3] for i in range(len(df3))]
df3

Unnamed: 0,9月 q0,10月 q1,9月 p0,10月 p1,p0q0,p1q0,p0q1,p1q1
甲,220,340,750,680,165000,149600,255000,231200
乙,3400,4270,150,120,510000,408000,640500,512400
丙,141,199,328,286,46248,40326,65272,56914


In [17]:
q1 = sum(df3['p0q1']) / sum(df3['p0q0'])
q2 = sum(df3['p1q1']) / sum(df3['p1q0'])
p1 = sum(df3['p1q0']) / sum(df3['p0q0'])
p2 = sum(df3['p1q1']) / sum(df3['p0q1'])
print("拉氏销售量综合指数为{:.2f}%,帕氏销售量综合指数为{:.2f}%。\n拉氏价格综合指数为{:.2f}%,帕氏价格综合指数为{:.2f}%。 ".format(q1 * 100,q2 * 100,p1 * 100,p2 * 100))

拉氏销售量综合指数为133.21%,帕氏销售量综合指数为133.88%。
拉氏价格综合指数为82.90%,帕氏价格综合指数为83.32%。 


销售量 <br>
拉氏销售量综合指数表明，在维持基期价格价格水平$p_0$不变的前提下，10月份3中商品的销售量总体**增加了33.21%**，<br>

价格 <br>
帕氏价格综合指数表明，在报告期销售量$q_1$的水平上，10月份3种商品的价格总体**下降了16.88%**。尽管帕氏价格综合指数没有能够消除销售量自身变动对指数的影响，但从实际应用角度来看，可以用该指数来反映不同价格的综合变动程度。

## 4、计算例题8-2和8-3
以加权算术平均指数的形式计算甲、乙、丙3种商品的销售量总指数和价格总指数。

In [18]:
data4 = pd.read_excel('指数-例8-2.xlsx')
data5 = pd.read_excel('指数-例8-3.xlsx')

df4 = data4.iloc[1:4,2:4]
df5 = data5.iloc[1:4,2:4]

df4.index = data4.iloc[1:4,0].values
df4.columns = data4.iloc[0,2:4].values

df5.index = data5.iloc[1:4,0].values
df5.columns = data5.iloc[0,2:4].values
print(df4)
print(df5)

  9月 q0 10月 q1
甲   220    340
乙  3400   4270
丙   141    199
  9月 p0 10月 p1
甲   750    680
乙   150    120
丙   328    286


In [19]:
df4['q1/q0'] = [df4.iloc[i,1] / df4.iloc[i,0] for i in range(len(df4))]
df4['p0q0'] = [df5.iloc[i,0] * df4.iloc[i,0] for i in range(len(df4))]
df4['k * p0q0'] = [df4.iloc[i,2] * df4.iloc[i,3] for i in range(len(df4))]
df4

Unnamed: 0,9月 q0,10月 q1,q1/q0,p0q0,k * p0q0
甲,220,340,1.545455,165000,255000.0
乙,3400,4270,1.255882,510000,640500.0
丙,141,199,1.411348,46248,65272.0


In [20]:
df5['p1/p0'] = [df5.iloc[i,1] / df5.iloc[i,0] for i in range(len(df5))]
df5['p1q1'] = [df5.iloc[i,1] * df4.iloc[i,1] for i in range(len(df5))]
df5['1/k * p1q1'] = [df5.iloc[i,3] / df5.iloc[i,2] for i in range(len(df5))]
df5

Unnamed: 0,9月 p0,10月 p1,p1/p0,p1q1,1/k * p1q1
甲,750,680,0.906667,231200,255000.0
乙,150,120,0.8,512400,640500.0
丙,328,286,0.871951,56914,65272.0


In [21]:
Iq = sum(df4['k * p0q0']) / sum(df4['p0q0'])
Ip = sum(df5['p1q1']) / sum(df5['1/k * p1q1'])
print("销售量总指数为：{:.2f}%， 价格总指数为：{:.2f}%".format(Iq * 100,Ip * 100))

销售量总指数为：133.21%， 价格总指数为：83.32%


## 5、Makeup2007
Makeup2007中的数据，计算销售量综合指数和价格综合指数，
以及销售量指数和价格指数的平均指数。将综合指数和平均指数的结果进行对比。

In [22]:
makeup = pd.read_excel('Makeup2007.xls',skiprows=2)
makeup = makeup.iloc[:,2:]
makeup

Unnamed: 0,Transaction number,Name,Date,Product,Units,Dollars,Location
0,1,Betsy,38078,lip gloss,45,137.204558,south
1,2,Hallagan,38056,foundation,50,152.007303,midwest
2,3,Ashley,38408,lipstick,9,28.719483,midwest
3,4,Hallagan,38859,lip gloss,55,167.075323,west
4,5,Zaret,38155,lip gloss,43,130.602872,midwest
...,...,...,...,...,...,...,...
1699,1887,Ashley,38397,foundation,36,109.842599,east
1700,1888,Colleen,38661,lip gloss,46,140.408899,west
1701,1889,Zaret,38001,lipstick,72,217.835886,west
1702,1890,Hallagan,39024,eye liner,28,85.656830,south


In [23]:
date = sorted(makeup['Date'].unique())
mid_time = date[len(date) // 2]
print(mid_time) # 38540

# 将所有时间分为两段
def address_time(t):
    if t <= mid_time:
        return "0"
    else:
        return "1"

makeup['Time'] = makeup['Date'].apply(address_time)

df6 = makeup[['Time','Product','Units','Dollars']]
df6

38540


Unnamed: 0,Time,Product,Units,Dollars
0,0,lip gloss,45,137.204558
1,0,foundation,50,152.007303
2,0,lipstick,9,28.719483
3,1,lip gloss,55,167.075323
4,0,lip gloss,43,130.602872
...,...,...,...,...
1699,0,foundation,36,109.842599
1700,1,lip gloss,46,140.408899
1701,0,lipstick,72,217.835886
1702,1,eye liner,28,85.656830


In [24]:
df7 = pd.pivot_table(df6,values=['Units','Dollars'],index=['Product'],columns=['Time'],aggfunc='sum')
df7

Unnamed: 0_level_0,Dollars,Dollars,Units,Units
Time,0,1,0,1
Product,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
eye liner,30422.38557,26381.512499,9994,8675
foundation,27968.19812,27677.628859,9192,9106
lip gloss,25808.319788,24533.106539,8475,8059
lipstick,16024.297254,11100.630698,5267,3649
mascara,28148.657445,24220.511675,9253,7955


In [25]:
p0q1 = sum([p0 * q1 for p0, q1 in zip(df7['Dollars']['0'],df7['Units']['1'])])
p0q0 = sum([p0 * q0 for p0, q0 in zip(df7['Dollars']['0'],df7['Units']['0'])])

p1q1 = sum([p1 * q1 for p1, q1 in zip(df7['Dollars']['1'],df7['Units']['1'])])
p1q0 = sum([p1 * q0 for p1, q0 in zip(df7['Dollars']['1'],df7['Units']['0'])])

sell_l =  p0q1 / p0q0 # 拉氏销售量
price_p = p1q1 / p0q1 # 帕氏价格
print("拉氏销售量综合指数为{:.2f}%, 帕氏价格综合指数为{:.2f}%".format(sell_l * 100, price_p * 100))

拉氏销售量综合指数为89.71%, 帕氏价格综合指数为90.37%


In [26]:
k_p0_q0 = sum([k * p0 * q0 for k, p0, q0 in zip(df7['Units']['1'] / df7['Units']['0'],df7['Dollars']['0'],df7['Units']['0'])])
p1q1_k = sum([(1 / k) * p1 * q1 for k, p1, q1 in zip(df7['Dollars']['1'] / df7['Dollars']['0'],df7['Dollars']['1'],df7['Units']['1'])])
sell_avg = k_p0_q0 / p0q0
price_avg = p1q1 / p1q1_k
print("销售量平均指数为{:.2f}%, 价格平均指数为{:.2f}%".format(sell_avg * 100, price_avg * 100))

销售量平均指数为89.71%, 价格平均指数为90.37%


由于使用了全面的资料，故计算得到的综合指数和平均指数的结果具有一致性。