### ライブラリ、データセットの読込

In [1]:
import pandas as pd
from scipy import stats

data = pd.read_csv('examples/brain_size.csv', sep=';', na_values=".")
data.head(10)

Unnamed: 0.1,Unnamed: 0,Gender,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
0,1,Female,133,132,124,118.0,64.5,816932
1,2,Male,140,150,124,,72.5,1001121
2,3,Male,139,123,150,143.0,73.3,1038437
3,4,Male,133,129,128,172.0,68.8,965353
4,5,Female,137,132,134,147.0,65.0,951545
5,6,Female,99,90,110,146.0,69.0,928799
6,7,Female,138,136,131,138.0,64.5,991305
7,8,Female,92,90,98,175.0,66.0,854258
8,9,Male,89,93,84,134.0,66.3,904858
9,10,Male,133,114,147,172.0,68.8,955466


### 1標本t検定
母集団の平均値の違いを検定

In [2]:
"""
scipy.stats.ttest_1samp
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html#scipy.stats.ttest_1samp
"""

data_VIQ = data['VIQ']

stats.ttest_1samp(data_VIQ, 0)

Ttest_1sampResult(statistic=30.088099970849328, pvalue=1.3289196468728067e-28)

### 2標本t検定
母集団間の差異を検定

In [3]:
"""
scipy.stats.ttest_ind
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy.stats.ttest_ind
"""

female_viq = data[data['Gender']=='Female']['VIQ']
male_viq = data[data['Gender']=='Male']['VIQ']

stats.ttest_ind(female_viq, male_viq)

Ttest_indResult(statistic=-0.77261617232750113, pvalue=0.44452876778583217)

### 対応のある検定
同じ被験者に対して繰り返し測定する場合

In [4]:
"""
scipy.stats.ttest_rel
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html
"""

data_FSIQ = data['FSIQ']
data_PIQ = data['PIQ']

stats.ttest_rel(data_FSIQ, data_PIQ)

Ttest_relResult(statistic=1.7842019405859857, pvalue=0.082172638183642358)

In [5]:
# 対応のある検定は、サンプル間の差分に対する1標本検定と等価
stats.ttest_1samp(data_FSIQ - data_PIQ, 0)

Ttest_1sampResult(statistic=1.7842019405859857, pvalue=0.082172638183642358)

In [6]:
"""
t検定はバラツキが正規分布に従うことを仮定している
正規分布に従う仮定を満たせない場合は、ウィルコクソンの符号順位検定を用いる
ウィルコクソンの符号順位検定
https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%83%AB%E3%82%B3%E3%82%AF%E3%82%BD%E3%83%B3%E3%81%AE%E7%AC%A6%E5%8F%B7%E9%A0%86%E4%BD%8D%E6%A4%9C%E5%AE%9A
scipy.stats.wilcoxon
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wilcoxon.html
"""

stats.wilcoxon(data_FSIQ, data_PIQ)

WilcoxonResult(statistic=274.5, pvalue=0.10659492713506856)

悪い例:   
stats.ttest_ind(data_FSIQ, data_PIQ)  

data_FSIQ, data_PIQに対するstats.ttest_indは、同じ被験者に対するFSIQ, PIQを検定しているのに観測値同士の関連を無視することになる
その結果、被験者同士の変動によって分散が交絡する  

### 対応のない(独立な2組の標本の)検定

In [8]:
"""
独立な2組の標本の有意差検定として、マン・ホイットニーのU検定が用いられる
マン・ホイットニーのU検定
https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%B3%E3%83%BB%E3%83%9B%E3%82%A4%E3%83%83%E3%83%88%E3%83%8B%E3%83%BC%E3%81%AEU%E6%A4%9C%E5%AE%9A
scipy.stats.mannwhitneyu
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html#scipy.stats.mannwhitneyu
"""

stats.mannwhitneyu(data_FSIQ, data_PIQ)

MannwhitneyuResult(statistic=695.0, pvalue=0.15715813232063375)

### Example

In [9]:
"""
男性と女性の重さの差
"""

male_weight = data[data['Gender']=='Male']['Weight']
female_weight = data[data['Gender']=='Female']['Weight']

male_weight = male_weight.dropna(how='any')
female_weight = female_weight.dropna(how='any')

stats.mannwhitneyu(male_weight, female_weight)

MannwhitneyuResult(statistic=54.0, pvalue=0.00012116566373461089)

In [10]:
"""
ノンパラメトリック検定で男性と女性の間の VIQ の差を検定
"""

male_VIQ = data[data['Gender']=='Male']['VIQ']
female_VIQ = data[data['Gender']=='Female']['VIQ']

male_viq = male_VIQ.dropna(how='any')
female_viq = female_VIQ.dropna(how='any')

stats.mannwhitneyu(male_viq, female_viq)

MannwhitneyuResult(statistic=164.5, pvalue=0.17114434343636575)