In [1]:
# === 平均値の差の検定　===

#2群のデータに対する検定

In [3]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%precision 3
%matplotlib inline

In [4]:
# 薬を飲む前と飲んだ後の体温データを読み込み
paired_test_data = pd.read_csv('../statistics_python/3-9-1-paired-t-test.csv')
print(paired_test_data)

  person medicine  body_temperature
0      A   before              36.2
1      B   before              36.2
2      C   before              35.3
3      D   before              36.1
4      E   before              36.1
5      A    after              36.8
6      B    after              36.1
7      C    after              36.8
8      D    after              37.1
9      E    after              36.9


In [None]:
# === 対応のあるt検定 ===

# 薬を飲む前後の体温差を計算します。また、t検定は以下の要領で行います。

# 帰無仮説：薬を飲む前と後では体温は変わらない
# 対立仮説：薬を飲む前と後で体温が異なっている

In [7]:
# シリーズ型のままだと計算がしにくいのでアレイ型に直す処理を入れています。

before = paired_test_data.query('medicine == "before"')["body_temperature"]
after = paired_test_data.query('medicine == "after"')["body_temperature"]

before = np.array(before)
after = np.array(after)

diff = after - before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

In [8]:
# あとはこの差の平均値が０と異なるかどうかを１群のt検定で調べれば良いです

# (標本, 平均値)　仮説として”体温は変わらない”なので平均に０（体温差０）を設定
stats.ttest_1samp(diff, 0) 

Ttest_1sampResult(statistic=2.9016934836205959, pvalue=0.044043109730074276)

In [9]:
# stats.test_relを使えばより簡単に検定ができます。

stats.ttest_rel(after, before)

Ttest_relResult(statistic=2.9016934836205959, pvalue=0.044043109730074276)

In [10]:
# === 考察 ===

# p値が０．０５を下回ったので「薬を飲む前と後で、体温は有意に異なる」と主張できます。

In [11]:
# === 対応のないt検定 ===

# 対応のあるt検定では「データの差」を取ってから１群のt検定をかけていました。
# 対応のないt検定では「平均値の差」に注目します。


In [13]:
# 計算式

# １群のt検定におけるt値の計算式

# t値　＝　（標本平均　−　比較対象値） / 標準偏差　÷　sqrt(サンプルサイズ)　＝　（標本平均　−　比較対象値） / 標準誤差


# 対応のないt検定のt値の計算式

# t　＝　（xの標本平均　ー　yの標本平均） / sqrt(（xの不偏分散 / xのサンプルサイズ）＋（yの不偏分散 / yのサンプルサイズ）)


In [17]:
# 対応のないt検定

#　データは「対応のあるt検定」と同じものを使用しますが、もちろんこれは勉強のためです。
#　本来はデータに合わせて最適な検定手法を選ぶ必要があるので、対応のないt検定は「対応のないデータ」に適応すべきです。

mean_bef = sp.mean(before)
mean_aft = sp.mean(after)

# 不偏分散
sigma_bef = sp.var(before, ddof = 1)
sigma_aft = sp.var(after, ddof = 1)

m = len(before)
n = len(after)

# t値
t_value = (mean_aft - mean_bef) / sp.sqrt((sigma_aft / m + sigma_bef / n))
t_value

3.156

In [18]:
# 対応のないt検定はstats.ttest_ind関数を使えば簡単に計算できます。
# (equal_var = False)は分散が異なることを仮定したt検定を行うという指定
stats.ttest_ind(after, before, equal_var = False)

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)

In [19]:
# p値の結果が０．０５を下回ったので、やはり有意差があると判断できる結果となりました。
# しかし、「対応のあるt検定」のp値の結果と異なっています。
# 当たり前ですが検定の手法が変わるとp値も変わるということです。