In [1]:
import numpy as np
from scipy import stats

# 仮説検定の枠組み

In [2]:
dat = np.random.normal(loc=1.1, size=50)      # データ生成
Z,pval = stats.ttest_1samp(dat,1)                    # 両側 t-検定
Z                      # 検定統計量

1.9510187309551799

In [3]:
pval                   # p値

0.056784995320935401

In [4]:
dat = np.random.normal(loc=1.1, size=200)    # データ数200
Z,pval = stats.ttest_1samp(dat,1)            # 両側 t-検定
pval                  # p値

0.085206737331389379

In [5]:
dat = np.random.normal(loc=1.1, size=200)   # データ生成
Z,pval = stats.ttest_1samp(dat,1)           # 両側 t-検定

In [6]:
pval      # 両側検定のp値

0.0053962171052595251

In [7]:
pval/2   # 片側検定のp値

0.0026981085526297625

In [8]:
# データ生成
x = np.random.normal(loc=1.1, size=100)  
y = np.random.normal(loc=1,   size=500)

In [9]:
# 二標本検定：等分散を仮定
Z,pval = stats.ttest_ind(x,y)         
pval

0.43432393875235975

In [10]:
# 二標本検定：等分散を仮定しない
Z,pval = stats.ttest_ind(x,y,equal_var=False)  
pval

0.4070402630492479

In [11]:
# データ生成
x = np.random.normal(loc=1.1, scale=1,   size=1000)
y = np.random.normal(loc=1,   scale=1.1, size=1000)

In [12]:
# 二標本検定：等分散を仮定しない
Z,pval = stats.ttest_ind(x,y,equal_var=False)
pval

0.0029930796926288922

In [13]:
# 二標本検定(ペア)
Z,pval = stats.ttest_rel(x,y)
pval

0.0033461226546767646

In [14]:
# 二標本検定(ペア)：データを変換し ttest_1samp で計算
Z,pval = stats.ttest_1samp(x-y,0)
pval

0.0033461226546767646

# ノンパラメトリック検定

## U検定

In [15]:
# 例1. 同じ分布にしたがう標本．
x = np.random.normal(loc=1,size=500)
y = np.random.normal(loc=1,size=300)
r,pval = stats.mannwhitneyu(x,y,alternative='two-sided')  # 両側検定
r      # U統計量

71883.0

In [16]:
pval   # p値

0.32466903879185494

In [17]:
# 例2. 同じ期待値の分布にしたがう標本．分散は異なる．
x = np.random.normal(loc=1,scale=2,size=500)
y = np.random.normal(loc=1,scale=1,size=300)
r,pval = stats.mannwhitneyu(x,y,alternative='two-sided')  # 両側検定  
r      # U統計量

73298.0

In [18]:
pval   # p値

0.59076652326852797

In [19]:
# 例3. 異なる期待値の分布にしたがう標本．
x = np.random.normal(loc=1.2, size=500)
y = np.random.normal(loc=1  , size=300)
r,pval = stats.mannwhitneyu(x,y,alternative='two-sided')
r      # U統計量

83270.0

In [20]:
pval   # p値

0.0089642998290191123

## KS検定

In [21]:
# 同じ分布にしたがう標本
x = np.random.normal(loc=1,size=500)
y = np.random.normal(loc=1,size=300)
D,pval = stats.ks_2samp(x,y)

D      # 検定統計量

0.044666666666666688

In [22]:
pval   # p値

0.84052070576436244

In [23]:
# 同じ期待値で分散が異なる分布にしたがう標本
x = np.random.normal(loc=1,scale=2,size=500)
y = np.random.normal(loc=1,scale=1,size=300)
D,pval = stats.ks_2samp(x,y)         
D               # 検定統計量

0.21666666666666667

In [24]:
pval            # p値

3.250849195214692e-08

# 分散分析

In [25]:
# 帰無仮説が正しい：水準数は5，各水準で10データ
x1,x2,x3,x4,x5 = np.random.normal(size=50).reshape(5,10)
F,pval = stats.f_oneway(x1,x2,x3,x4,x5)
F

0.35235264597854038

In [26]:
pval

0.84102313149550112

In [27]:
# 帰無仮説は間違い：水準数は6，各水準で20データ
x1,x2,x3,x4,x5,x6 = np.r_[np.random.normal(size=100),np.random.normal(loc=0.7,size=20)].reshape(6,-1)
F,pval = stats.f_oneway(x1,x2,x3,x4,x5,x6)
F      # 検定統計量

3.9542659486002267

In [28]:
pval   # p値

0.0024137029488728525

In [29]:
from scipy import stats                 # scipy.stats モジュールを使う
from sklearn.datasets import load_iris  # sklearnデータセットから読み込み
iris = load_iris()                      # irisデータ読み込み
# 花の種類とガクの長さ(sepal length)の関係を ANOVA で調べる
x0 = iris.data[iris.target==0,0]        
x1 = iris.data[iris.target==1,0]
x2 = iris.data[iris.target==2,0]
F,pval = stats.f_oneway(x0,x1,x2)
F      # 検定統計量

119.26450218450468

In [30]:
pval   # p値

1.6696691907693826e-31