# 一元配置分散分析(One-way ANOVA analysis)
## パッケージ・モジュールをインポートする

In [2]:
import pandas as pd
import scipy.stats as ss

import statsmodels.api as sm
from statsmodels.formula.api import ols
#dataframeをキレに表示する rich display dataframe
from IPython.core.display import display

# Rのデータセットから植物成長データ
pandasでファイルを読み込む

In [3]:
datafile = "data/plant_growth.csv"
data_frame = pd.read_csv(datafile, comment="#")
display(data_frame)

Unnamed: 0,No,weight,group
0,1,4.17,ctrl
1,2,5.58,ctrl
2,3,5.18,ctrl
3,4,6.11,ctrl
4,5,4.5,ctrl
5,6,4.61,ctrl
6,7,5.17,ctrl
7,8,4.53,ctrl
8,9,5.33,ctrl
9,10,5.14,ctrl


# グループの種類やデータの分割
"group"ヘッドの値を分割し、pythonの辞書型変数に代入する
pd.unique(): ユニークのグループ名を抽出する。

In [7]:
groups = pd.unique(data_frame.group.values)
#グループに対応するデータを分割し、pythonの辞書型変数に代入する
data = {group: data_frame["weight"][data_frame.group==group] for group in groups}

# scipyのf_oneway()関数 scipy's f_oneway() function
使用条件: Assumption

1. 各標本は独立している
2. 各標本は正規分布に従う母集団からのものです。
3. 各グループの母集団の標準偏差は全て等しい。いわゆる等分散性です。

In [8]:
f, p = ss.f_oneway(data['ctrl'], data['trt1'], data['trt2'])
print("Using f_oneway of scipy")
print("F_values: {} /p_value:{:.5f}".format(f,p))

Using f_oneway of scipy
F_values: 3.3483875849684397 /p_value:0.05293


In [9]:
model2 = ols(formula='weight ~ group', data=data_frame)# ols formulaのモデルを構築
res = model2.fit()
# see designed matrix
#display(res.model.endog)
#display(res.model.exog)
#display(re.model.exog_names)
print(res.summary()) #結果を出力する

# in a numerical way
Y = res.model.endog
x = res.model.exog
#X = sm.add_constant(x)
model = sm.OLS(Y, x)
result = model.fit()
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                 weight   R-squared:                       0.226
Model:                            OLS   Adj. R-squared:                  0.158
Method:                 Least Squares   F-statistic:                     3.348
Date:                Mon, 29 Oct 2018   Prob (F-statistic):             0.0529
Time:                        16:46:24   Log-Likelihood:                -23.926
No. Observations:                  26   AIC:                             53.85
Df Residuals:                      23   BIC:                             57.63
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept         5.0320      0.204     24.644

# 一元配置分散分析: Statsmodels' anova_lm()

In [11]:
print("-------------")
print("ANOVA table:")

#one-way anova by anova_lm()
aov_table = sm.stats.anova_lm(res, typ=2)

#aov_tableはpandasのdataframeオブジェクトです
print("------------")
print(aov_table)
print("-------------")
#F値の取得
print("F値:", aov_table.at["group", "F"])
#P値の取得
print("p値:", aov_table.at["group", "PR(>F)"])
#グループ間の自由度
print("グループ間の自由度", aov_table.at["group", "df"])

-------------
ANOVA table:
------------
            sum_sq    df         F    PR(>F)
group     2.792128   2.0  3.348388  0.052931
Residual  9.589533  23.0       NaN       NaN
-------------
F値: 3.3483875849684273
p値: 0.05293138619485971
グループ間の自由度 2.0


# 標本からの情報
pandasのdata frameの２つのクラス(group, values)を利用する。  
"group"列にあるグループの種類

In [12]:
#groupは元のファイルのヘッド
k = len(pd.unique(data_frame.group))
#データの総数
N = len(data_frame.values)
# degree of freedom between
df_between = k - 1
# degree of freedom  within
df_within = N - k
# degree of freedom in total
df_total = N - 1

# 水準間の平方和

In [13]:
ave_all = data_frame["weight"].mean()# x_bar:全てのweightの平均

n1 = data["ctrl"].size
n2 = data["trt1"].size
n3 = data["trt2"].size
ctrl_ave = data["ctrl"].mean()
trt1_ave = data["trt1"].mean()
trt2_ave = data["trt2"].mean()

# Sum of sum of squares groups: ss_between
ctrl_ssb = n1 * (ctrl_ave - ave_all)**2
trt1_ssb = n2 * (trt1_ave - ave_all)**2
trt2_ssb = n3 * (trt2_ave - ave_all)**2
ss_between = ctrl_ssb + trt1_ssb * trt2_ssb
print("ss_between:", ss_between)

ss_between: 1.8941085897924417


# 水準内の平方和

In [14]:
# sum of sum of squares within levels: ss_within
# SS_within
ctrl_ssw = sum((data["ctrl"] - ctrl_ave)**2)
trt1_ssw = sum((data["trt1"] - trt1_ave)**2)
trt2_ssw = sum((data["trt2"] - trt2_ave)**2)
ss_within = ctrl_ssw + trt1_ssw + trt2_ssw
print("ss_within:", ss_within)

ss_within: 9.589533333333335
