### 平均の差の検定

In [2]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

## 実行に無関係なエラーメッセージを消す
import warnings
warnings.filterwarnings('ignore')

from matplotlib import pyplot as plt
%matplotlib inline

## いい感じのグラフを出力する
import seaborn as sns
sns.set()

In [10]:
paired_test_data = pd.read_csv('data/3-9-1-paired-t-test.csv')
paired_test_data

Unnamed: 0,person,medicine,body_temperature
0,A,before,36.2
1,B,before,36.2
2,C,before,35.3
3,D,before,36.1
4,E,before,36.1
5,A,after,36.8
6,B,after,36.1
7,C,after,36.8
8,D,after,37.1
9,E,after,36.9


### 平均の差の検定（対応のあるt検定）

In [11]:
## 薬を飲む前と後の標本平均の差
before = paired_test_data.query('medicine == "before"')["body_temperature"]
after = paired_test_data.query('medicine == "after"')["body_temperature"]
before = np.array(before)
after = np.array(after)
diff = before - after
diff

array([-0.6,  0.1, -1.5, -1. , -0.8])

In [12]:
## 平均の差の検定（帰無仮説は0 ※平均に差がない）
stats.ttest_1samp(diff, 0)

Ttest_1sampResult(statistic=-2.901693483620596, pvalue=0.044043109730074276)

- p値が0.05を下回ったことからH0を棄却できる

### もっと簡単に平均の差の検定

In [17]:
stats.ttest_rel(after, before)

Ttest_relResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

### 対応のないt検定

In [25]:
### t値の算出

## 平均
mean_bef = sp.mean(before)
mean_aft = sp.mean(after)

## 分散
sigma_bef = sp.var(before, ddof=1)
sigma_aft = sp.var(after, ddof=1)

## サンプルサイズ
m = len(before)
n = len(after)

# t値
t_value = (mean_aft - mean_bef) / sp.sqrt((sigma_bef / m + sigma_aft / n))
t_value

3.1557282344421034

#### t値を算出した後、Welchの近似法でp値を算出するらしい…
- あとで

### もっと簡単に対応のないt検定

In [26]:
stats.ttest_ind(after, before, equal_var=False)

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)