In [23]:
import scipy.stats as ss
import numpy as np
import pandas as pd

In [2]:
data = np.array([1,2,3])

In [3]:
sample1_mean = 4500
sample1_std = 120

sample2_mean = 4450
sampe2_std = 120

 ![検定早見表](images/スクリーンショット.png)

![メソッド一覧](images/how_to_use_method_ss.png)

以下は母平均に関する検定である。(z, t検定)

# z検定
母標準偏差既知の場合

## 95%信頼区間推定
alpha=信頼区間, loc=期待値（平均）, 
scale=統計量(標準偏差/√自由度（標本サイズ）)

In [4]:
ss.norm.interval(alpha=0.95, loc=np.mean(data), scale=np.std(data)/np.sqrt(len(data)))

(1.0760641171002145, 2.9239358828997855)

## cdf(x=確率変数, loc=期待値, scale=標準偏差)
累積分布関数

In [7]:
ss.norm.cdf(ss.zscore(data))

array([0.11033568, 0.5       , 0.88966432])

## ppf(q=パーセント点, loc=期待値, scale=標準偏差)
パーセント点関数から正規分布の信頼区間の棄却点を導き出す

In [5]:
alpha = 0.05
z_critical_value = ss.norm.ppf(alpha/2)
print("z critical value: [{:.3f}, {:.3f}]".format(z_critical_value, -z_critical_value))

z critical value: [-1.960, 1.960]


## z値の算出

In [11]:
z = (sample1_mean - sample2_mean) / (sample1_std / np.sqrt(50))
print("Criticulate z value: {:.3f}".format(z))

Criticulate z value: 2.946


## p値の算出

In [12]:
p_critical = ss.norm.cdf(z)
print("P value: {:}".format(1-p_critical))

P value: 0.0016081146550637193


# F分布 等分散性検定
2つの母集団の分散の比の検定によく使われる。  
自由度(n1, n2)

In [None]:
X = []
Y = []
F = np.var(X) / np.var(Y)
df1 = len(X) - 1
df2 = len(Y) - 1
alpha = 0.05
p_value = ss.f.cdf(F, df1, df2)
print("p value: {:.3f}".format(p_value))

In [22]:
a1 = np.array([5,4,6,3,3,7,6,5,3,5])
a2 = np.array([8,4,3,3,7,9,8,7,3,4])
a3 = np.array([7,6,8,9,10,9,8,9,7,8])

res = ss.f_oneway(a1,a2,a3)
print(res)

F_onewayResult(statistic=10.04676258992806, pvalue=0.000547563645795044)


## 水準間変動、残差変動、全変動
![変動](images/図6.png)  

In [55]:
allline = np.asarray([a1,a2,a3]).reshape(-1)
all_mean = np.mean(allline)
a1_mean = np.mean(a1)
a2_mean = np.mean(a2)
a3_mean = np.mean(a3)

total_var = np.sum([(i - all_mean)**2 for i in allline])
level_var = np.sum((a1_mean - all_mean)**2 * len(a1) + (a2_mean - all_mean)**2 * len(a2) + (a3_mean - all_mean)**2 * len(a3))
residual_var = total_var - level_var

print("水準間変動: {:.2f}\n 残差変動: {:.2f}\n 全変動: {:.2f}".format(level_var, residual_var, total_var))

水準間変動: 62.07
 残差変動: 83.40
 全変動: 145.47


# t検定(t分布)
母標準偏差が未知の場合

## パーセント点算出  
ppf 累積分布関数の逆関数  
ppf(0.975, 5)  
ppf(パーセント点, 自由度(n-1))

In [6]:
ss.t.ppf(0.975, 5)

2.5705818366147395

2 つの母集団の<b>分散</b>が<b>同じとき</b>の t 検定  
t_ss, prob = ss.ttest_ind(
[データ1], [データ2], equal_var=True)  
片側検定の場合、p値を1/2する

In [13]:
t_ss, prob = ss.ttest_ind([1326,1418,1820,1516,1635,1720,1580,1452,1600], [1220,1080,980,1420,1170,1290,1116], equal_var=True)
print("t value by scipy: {}".format(t_ss))
print("p value by scipy: {}".format(prob))

t value by scipy: 5.038589040601389
p value by scipy: 0.00018109915973010061


2 つの母集団の<b>分散</b>が<b>同じでないとき</b>の t 検定
t_ss, prob = ss.ttest_ind([データ１], [データ２], equal_var=True)  
片側検定の場合、p値を1/2する

In [14]:
t_ss, prob = ss.ttest_ind([1326,1418,1820,1516,1635,1720,1580,1452,1600], [1220,1080,980,1420,1170,1290,1116], equal_var=False)
print("t value by scipy: {}".format(t_ss))
print("p value by scipy: {}".format(prob))

t value by scipy: 5.080348617271814
p value by scipy: 0.00019131443517208103


## 従属な 2 群間 t 検定  
例:ラットに薬剤を投与し、投与前と投与後の体重を測定したデータでは、それぞれのラットに対して投与前と投与後のデータがあるので、投与前と投与後のデータが対応しているといえる。  
つまり、同じ長さの配列が必要

In [4]:
t_ss, prob = ss.ttest_rel([1326,1418,1820,1516,1635,1720,1580,1452,1600], [1220,1080,980,1420,1170,1290,1116])
print("t value by scipy: {}".format(t_ss))
print("p value by scipy: {}".format(prob))

ValueError: unequal length arrays

# 二項検定

## 二項検定
p = ss.binom_test(当たり回数, 試行回数, 確率)
p = ss.binom_test(16, 20, 0.5)

In [7]:
ss.binom_test(16, 20, 0.5)

0.011817932128906248

# X^2検定

## パーセント点算出
ss.chi2.ppf(パーセント点, 自由度(n-1))
![カイニ乗検定1](images/図3.png)
![カイニ乗検定2](images/図4.png)
ss.chi2.ppf(0.95, 5)

In [None]:
ss.chi2.ppf()

二次元以上のchi2検定
> 次の表は、ある小学校の1年生と年生に好きなスポーツを質問した結果である。この結果から、1年生と2年生のスポーツの好みに関連があるかどうかを有意水準0.05で検定せよ。
![カイニ乗検定3](images/図5.png)

In [19]:
array = np.array([[10,50,25,40],[25,65,10,50]])
result = ss.chi2_contingency(array)
print("test statistic: ", result[0])
print("p-value:", result[1])

test statistic:  13.76581550494594
p-value: 0.003241884749144019


## x^2検定
理論値  
ss.stats.chisquare([適合度検定データ],f_exp=[理論値])

In [None]:
ss.stats.chisquare([],f_exp=[])

## Wilcoxonの順位和検定  
- 2グループの標本について、それぞれの母集団の中央値に差があるかどうかの検定
- 今までの様に分布を特定のものに限定しない  
- ２つの分布の形は同じそうだが、位置がずれているか？の判断に特に有効  
- 標本の値そのものではなく、順位に置き換えて検定統計量を求めるのが特徴  
ss.mannwhitneyu([data1],[data2], alternative="two-sided")  
<-alternativeパラメータ("two-sided","less","greater")
> 東京と大阪の住人を無作為に8人ずつ選んで、内閣支持に関するアンケートを行った。
5: 支持する、4:やや支持する、3:どちらとも言えない、2:やや支持しない、1:支持しない
以下の結果から、東京と大阪で内閣に対する意見は異なっているか検定せよ。  

|東京|大阪|
|:--:|:--:|
|4|3|
|3|3|
|3|1|
|2|5|
|1|2|
|3|5|
|4|1|

In [10]:
ss.mannwhitneyu([4,3,3,2,1,3,4],[3,3,1,5,2,5,1], alternative="two-sided")

MannwhitneyuResult(statistic=25.5, pvalue=0.9474797423354695)

## Wilcoxonの符号順位検定
- 対応が有る2グループの標本についての標本について、それぉれの母集団の中央値に差があるかどうかの検定
- 今までのように分布を特定のものに限定しない
- 2ツノ分布の形は同じそうだが、位置がずれているかの判断に特に有効
> n人の対象者に省エネ活動の指導を行いその前後での意識調査の結果を比較する
> ある新薬の効果を試すために被験者8名を集めた。まず8名のγ-GTP値を計測し、その後2ヶ月新薬を服用してもらい、2ヶ月後γ-GTP値を再計測した。結果は以下のとおりである。Wilcoxonの符号順位検定により、新薬に効果があるかどうかを有意水準5%で検定せよ。

|被験者番号|投薬前|投薬後|
|:--:|:--:|:--:|
|1|100|95|
|2|110|100|
|3|120|105|
|4|130|110|
|5|135|120|
|6|140|145|
|7|220|170|
|8|250|195|

In [9]:
ss.wilcoxon([100,110,120,130,135,140,220,250],[95,100,105,110,120,145,170,195])



WilcoxonResult(statistic=1.5, pvalue=0.020550301646476254)

## Fisherの正確確率検定
- 2つのカテゴリーに分類されたデータの分析(標本数が小さい場合)
- 2 x 2分割表(2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1)の2変数の間に統計学的に有意な関連があるかどうかを調べる
- 同じ状況で<b>標本の大きさが大きい場合</b>には統計量の標本分布が近似的にカイ二乗分布に等しくなるので<b>カイ二乗検定</b>が用いられる
- 標本の大きさが小さい（分割表のセルの期待値に10未満のものがある）場合や、表中の数値の偏りが大きい場合にはこの近似は不正確。この場合には正確確率検定が正確
- 逆にサンプルサイズが大きい場合や、数値の偏りが小さい場合にはカイニ検定が良い。
> 男女各5人にある政策の賛否をアンケートしたところ，以下の結果を得た．男女間で賛否に有意な差があると言えるか。

![男女表](images/図1.png)  

> 以下の様な表で、「甘いものがすきか嫌いか」と「虫歯の有無」の間に関連があるかどうかを検定せよ。
有意水準5%の両側検定を実施せよ。
![虫歯と甘いもの](images/図2.png)

In [17]:
dat_edit = np.array([[13,4],[6,14]])
odds, p = ss.fisher_exact(dat_edit)

print("odds ratio:" + str(odds))
print("p値:"+ str(p))

odds ratio:7.583333333333333
p値:0.008138143815466441


# 分散分析