# 一元配置分散分析
使用する場面自体は少ないが、3群以上のデータ群の平均値の比較に使う。具体的に帰無仮説は「μ1=μ2=…=μn」となり、対立仮説はどこかに「≠」が入ることになる。

## ライブラリのインポート

In [1]:
import scipy.stats as stats
import pandas as pd

## データの読み込み

In [2]:
df = pd.read_csv("iris.csv")
df.head()

Unnamed: 0,category,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0,5.1,3.5,1.4,0.2
1,0,4.9,3.0,1.4,0.2
2,0,4.7,3.2,1.3,0.2
3,0,4.6,3.1,1.5,0.2
4,0,5.0,3.6,1.4,0.2


## 各変数に対して一元配置分散分析

In [3]:
columns = df.columns
df0 = df.query("category==0")
df1 = df.query("category==1")
df2 = df.query("category==2")
for col in columns:
    if col != "category":
        f, p = stats.f_oneway(df0[col], df1[col], df2[col])
        print("%sの一元配置分散分析の結果:"%(col))
        print("F値 = %f"%(f))
        print("p値 = %f\n"%(p))

sepal length (cm)の一元配置分散分析の結果:
F値 = 119.264502
p値 = 0.000000

sepal width (cm)の一元配置分散分析の結果:
F値 = 47.364461
p値 = 0.000000

petal length (cm)の一元配置分散分析の結果:
F値 = 1179.034328
p値 = 0.000000

petal width (cm)の一元配置分散分析の結果:
F値 = 959.324406
p値 = 0.000000



この結果から最も各変数で平均値が異なる可能性が高いのは「petal length (cm)」であることが分かる。