# 方差分析
## 总平方和 SST(Sum of squares total)

全部数据与总体均值之差的平方之和。它表征了观测数据总的波动程度。

对于m组，每组n个数的数据，其自由度DF=m*n-1

假设有这样3组数据
Group1: \[3, 2, 1\]，
Group2: \[5, 3, 4\]，
Group3: \[5, 6, 7\]

In [22]:
import numpy as np
from scipy import stats

In [9]:
group1=[3, 2, 1]
group2=[5, 3, 4]
group3=[5, 6, 7]
total=group1+group2+group3
m1=np.mean(group1)
m2=np.mean(group2)
m3=np.mean(group3)
m=np.mean(total)

In [13]:
sst=0
for i in range(len(total)):
    sst=sst+np.square(total[i]-m)
df=3*3-1
print("SST="+str(sst)+", DF="+str(df))

SST=30.0, DF=8


## 组内平方和 SSW(Sum of squares within)

全部数据与组内均值之差的平方和，它表征了观测数据组内波动程度。

对于m组，每组n个数的数据，其自由度DF=m*(n-1)


In [14]:
ssw1=0
for i in range(len(group1)):
    ssw1=ssw1+np.square(group1[i]-m1)
ssw2=0
for i in range(len(group2)):
    ssw2=ssw2+np.square(group2[i]-m2)
ssw3=0
for i in range(len(group3)):
    ssw3=ssw3+np.square(group3[i]-m3)
ssw=ssw1+ssw2+ssw3
df=3*(3-1)
print("SSW="+str(ssw)+"，DF="+str(df))

SSW=6.0，DF=6


## 组间平方和 SSB(Sum of squares between)

全部数据的组内均值与整体均值之差的平方和，它表征了观测数据组间波动程度。

对于m组数据，其自由度DF=m-1

In [16]:
ssb=3*np.square(m1-m)+3*np.square(m2-m)+3*np.square(m3-m)
df=3-1
print("SSB="+str(ssb)+"，DF="+str(df))

SSB=24.0，DF=2


## SST=SSW+SSB

数据的整体波动可以描述为组内波动加上组间波动

自由度也是一样，总平方和的自由度=组内平方和的自由度+组间平方和的自由度

# F统计量假设校验

假设有m组实验数据，每组中n个数，分析其波动情况

F统计量：F=(SSB/(m-1))/(SSW/(m*(n-1)))

如果F>1，代表更多的波动来自于组间波动；如果F<0，代表更多的波动来自于组内波动

## 例题1

针对前面的3组数据：

Group1: \[3, 2, 1\]，
Group2: \[5, 3, 4\]，
Group3: \[5, 6, 7\]

要检验各组均值之间是否存在差异，我们进行假设校验

设置零假设H0：3组均值之间无差异；备择假设H1：3组均值之间有差异；显著性水平$\alpha$=10%

In [24]:
# 计算试验数据的F统计量
f=(ssb/(3-1))/(ssw/(3*(3-1)))
print("F统计量="+str(f))

F统计量=12.0


In [23]:
# 本题中F统计量分子自由度DF_1=3-1=2，分母自由度DF_2=3*(3-1)=6
# 要求显著性水平为10%，我们可以通过F分布表查询分子自由度为2，分母自由度为6，显著性水平为0.1的临界值
f_c=stats.f.isf(0.1, 2, 6)
print("满足显著性水平为10%的F统计量临界值为："+str(round(f_c, 2)))

满足显著性水平为10%的F统计量临界值为：3.46


因为F统计量12远远大于临界值3.46，说明零假设成立时，数据值出现的可能性比显著性水平5%更低，所以我们可以拒绝零假设，而接受备择假设，认为3组数据均值之间有差异