# 一元配置分散分析

In [18]:
# 数値計算に使うライブラリ
import pandas as pd
import numpy as np
import scipy as sp
from scipy import stats as stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 統計モデルを推定するライブラリ
import statsmodels.formula.api as smf
import statsmodels.api as sm
import statsmodels.stats.anova as anova # 分散分析するライブラリ
from statsmodels.stats.multicomp import pairwise_tukeyhsd # Tukeyの多重比較するライブラリ

# 表示桁数の指定
%precision 3

# グラフをjupyter notebook内に表示させるための指定
%matplotlib inline

In [9]:
df = pd.read_csv("./data/05.csv")
df

Unnamed: 0,A,B,C,D
0,12.9,13.1,11.8,13.4
1,13.0,13.0,11.7,13.6
2,12.9,13.2,11.8,13.5
3,12.8,13.0,11.9,13.2
4,,12.9,11.6,
5,,13.2,,
6,,13.0,,


In [10]:
A = df.A.iloc[0:4]
A

0    12.9
1    13.0
2    12.9
3    12.8
Name: A, dtype: float64

In [11]:
B = df.B
B

0    13.1
1    13.0
2    13.2
3    13.0
4    12.9
5    13.2
6    13.0
Name: B, dtype: float64

In [13]:
C = df.C.iloc[0:5]
C

0    11.8
1    11.7
2    11.8
3    11.9
4    11.6
Name: C, dtype: float64

In [23]:
D = df.D.iloc[0:4]
D

0    13.4
1    13.6
2    13.5
3    13.2
Name: D, dtype: float64

In [24]:
df.describe()

Unnamed: 0,A,B,C,D
count,4.0,7.0,5.0,4.0
mean,12.9,13.057143,11.76,13.425
std,0.08165,0.113389,0.114018,0.170783
min,12.8,12.9,11.6,13.2
25%,12.875,13.0,11.7,13.35
50%,12.9,13.0,11.8,13.45
75%,12.925,13.15,11.8,13.525
max,13.0,13.2,11.9,13.6


## 正規性を検定する (シャピロウィルク検定)

In [25]:
stats.shapiro(A)

(0.945, 0.683)

In [26]:
stats.shapiro(B)

(0.887, 0.262)

In [27]:
stats.shapiro(C)

(0.961, 0.814)

In [28]:
stats.shapiro(D)

(0.971, 0.850)

４群とも正規分布である

## 等分散性の検定

In [30]:
st.bartlett(A, B, C, D) # Bartlett検定

BartlettResult(statistic=1.5356024510171, pvalue=0.6740780132499412)

Shapiro-Wilk検定の結果より，正規分布に従っていそうなので，Leveneの検定ではなくBartlett検定を実施

結果：等分散である

## 一元配置分散分析

In [32]:
f, p = st.f_oneway(A, B, C, D)
print("F=%f, p-value = %f"%(f,p))

F=168.148908, p-value = 0.000000


結果：有意差あり