# 第3部　Pythonによるデータ分析｜Pythonで学ぶ統計学入門

## 9章　平均値の差の検定

### t検定の実装：分析の準備

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 表示桁数の指定
%precision 3
# グラフをjupyter Notebook内に表示させるための指定
%matplotlib inline

In [2]:
# データの読み込み
paired_test_data = pd.read_csv(
    "3-9-1-paired-t-test.csv")
print(paired_test_data)

  person medicine  body_temperature
0      A   before              36.2
1      B   before              36.2
2      C   before              35.3
3      D   before              36.1
4      E   before              36.1
5      A    after              36.8
6      B    after              36.1
7      C    after              36.8
8      D    after              37.1
9      E    after              36.9


### 実装：対応のあるt検定

In [3]:
# 薬を飲む前と飲んだ後の標本平均
before = paired_test_data.query(
    'medicine == "before"')["body_temperature"]
after = paired_test_data.query(
    'medicine == "after"')["body_temperature"]
# アレイに変換
before = np.array(before)
after = np.array(after)
# 差を計算
diff = after - before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

In [4]:
# 平均値が0と異なるか検定
stats.ttest_1samp(diff, 0)

Ttest_1sampResult(statistic=2.9016934836205959, pvalue=0.044043109730074276)

In [5]:
# 対応のあるt検定
stats.ttest_rel(after, before)

Ttest_relResult(statistic=2.9016934836205959, pvalue=0.044043109730074276)

### 実装：対応の無いt検定

In [6]:
# 平均値
mean_bef = sp.mean(before)
mean_aft = sp.mean(after)

# 分散
sigma_bef = sp.var(before, ddof = 1)
sigma_aft = sp.var(after, ddof = 1)

# サンプルサイズ
m = len(before)
n = len(after)

# t値
t_value = (mean_aft - mean_bef) / \
    sp.sqrt((sigma_bef/m + sigma_aft/n))
t_value

3.156

In [7]:
stats.ttest_ind(after, before, equal_var = False)

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)