### 基本的な仮説検定（1変量データのt検定）

In [1]:
# 必要なライブラリのimport
import numpy as np
import pandas as pd
from scipy import stats

import matplotlib as mpl
from matplotlib import pyplot as plt
import seaborn as sns
sns.set_theme()

In [2]:
# CSVファイルの読み込み
data1 = pd.read_csv('./hypothesis-testing-1.csv').squeeze("columns")

In [3]:
# 標本平均の計算
mu = np.mean(data1)
mu

np.float64(51.82018326803313)

In [4]:
# 自由度の計算
df = len(data1) - 1
df

29

In [5]:
# 標準誤差の計算
sigma = np.std(data1, ddof=1)
se = sigma/np.sqrt(len(data1))
se

np.float64(0.5621633454110073)

In [6]:
# t値の計算
t_value = (mu-50)/se
t_value

np.float64(3.2378191906168468)

In [7]:
# p値を計算（両側検定：2倍して両側の確率を求める）
# t値の絶対値を取ってからcdfを計算し、上側確率を求めて2倍する
alpha = stats.t.cdf(np.abs(t_value), df=df)
p_value = (1 - alpha) * 2
p_value

np.float64(0.0030122666127776476)

In [8]:
# stats.ttest_1samp()を使ってp値を計算
stats.ttest_1samp(data1, 50)

TtestResult(statistic=np.float64(3.2378191906168468), pvalue=np.float64(0.0030122666127776216), df=np.int64(29))

In [9]:
# p値を計算（片側検定：H1: 平均 > 50）
# t_value が観測された値。この値以上になる確率を求める (右側検定)
p_value = stats.t.sf(t_value, df=df)
p_value

np.float64(0.0015061333063888108)

In [10]:
# stats.ttest_1samp()を使って片側検定のp値を計算 (H1: 平均 > 50)
stats.ttest_1samp(data1, 50, alternative='greater')

TtestResult(statistic=np.float64(3.2378191906168468), pvalue=np.float64(0.0015061333063888108), df=np.int64(29))

### 2変量データのt検定

In [11]:
# CSVファイルの読み込み
data2 = pd.read_csv('./hypothesis-testing-2.csv')

In [12]:
# データの先頭5行を表示
data2.head()

Unnamed: 0,2-years-old,3-years-old
0,16.624345,14.600841
1,14.388244,14.98422
2,14.471828,14.606675
3,13.927031,14.401233
4,15.865408,14.62738


In [13]:
# 2変量の差を計算
data2['Difference'] = data2['3-years-old'] - data2['2-years-old']
data2.head()

Unnamed: 0,2-years-old,3-years-old,Difference
0,16.624345,14.600841,-2.023504
1,14.388244,14.98422,0.595977
2,14.471828,14.606675,0.134847
3,13.927031,14.401233,0.474201
4,15.865408,14.62738,-1.238028


In [14]:
# 2歳魚と3歳魚の体長の差について「対応のある」t検定を実施し、p値を計算
stats.ttest_1samp(data2['Difference'], 0)

TtestResult(statistic=np.float64(2.2128967603399947), pvalue=np.float64(0.03493196300425279), df=np.int64(29))

In [15]:
# 2歳魚と3歳魚の体長について「対応のない」t検定を実施し、p値を計算
stats.ttest_ind(data2['2-years-old'], data2['3-years-old'], equal_var=False)

TtestResult(statistic=np.float64(-2.40380764926468), pvalue=np.float64(0.01945646990570768), df=np.float64(57.7413195813171))