# 検定の謝りと検定力
検定力：どれだけ帰無仮説を棄却した結果が本当の事象と同じなのかを表しているもの。  

第１種の誤り：本当は帰無仮説が正しいのに帰無仮説を棄却してしまう  
第２種の謝り：本当は帰無仮説は正しくないのに帰無仮説を採択してしまう。  

第1種の誤りが起こる確率  
→有意水準αと同じ。（あわてて棄却するα）  
→なぜなら、有意水準αで棄却するから、棄却する確率が第1種の誤りになる。  

第2種の誤りが起こる確率→β  

αとβの関係はトレードオフの関係である。  
→よって第1種の誤りを下げても第２種の誤りが増えてしまうという問題が発生してしまう。  
→ではどのようにすべきなのか？？→対立仮説が正しいという前提でどれだけ正しく対立仮説を成立できるかが重要になってくる。  

検定力（対立仮説が正しいというのを前提にしている。０.8ぐらいを目指すと良いよう。）  
→対立仮説が正しいという前提のもと、どれだけ対立仮説を成立できるのか？？  
→検定力(1-β)  

検定力に影響を与える３要素  
-　有意水準  
-　サンプルサイズ  
-　帰無分布と対立分布の差  


効果量    
効果量が大きいと検定力が大きくなる。  
→効果量とは帰無分布と対立分布がどれだけ離れているかを表す量のこと。  

## 検定力分析
二つのケースに分ける事ができる．  
- 検定の結果としてp値だけでなく効果量も合わせて報告する。  
→すでに標本が手元にあってそれを検定に使用するケースがあげられる。
- 想定する効果量に基づいて適切なサンプルサイズを算出する.  
→ これから標本抽出から始めるケース（検定のデザイン）  

・サンプルサイズによってp値は異なってくるので、効果量も合わせて報告する必要がある。  

効果量とは？？  
→標準偏差いくつ分離れているのか？というので測っていく。  
→$\frac{(μ_1 - μ_2)}{σ}$これをCohen's dと呼ぶ  
$μ_1 , μ_2$は標本１,2の平均を使用、$σ$は標本１と標本２を合わせた標準偏差を使用  

効果量（Cohen's d）の目安  
0.2 : 小  
0.5 : 中  
0.8 : 大  

In [9]:
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt
from statsmodels.stats.proportion import proportions_ztest
from statsmodels.api import qqplot
from statsmodels.stats.power import TTestIndPower
%matplotlib inline
df = sns.load_dataset("tips")
df["tip_rate"] = df["tip"] / df["total_bill"]

## Coend's d

In [5]:
def cohen_d(x , y):
    n1 = len(x)
    n2 = len(y)
    dof = n1 + n2 - 2
    std = np.sqrt(((n1 -1)* stats.tvar(x) + (n2 -1)* stats.tvar(y)) / dof)
    return np.abs((np.mean(x) - np.mean(y))/std)

In [8]:
# 効果量は小さい
male_tip_rate = df[df["sex"] == "Male"]["tip_rate"]
female_tip_rate = df[df["sex"] == "Female"]["tip_rate"]

In [7]:
cohen_d(male_tip_rate , female_tip_rate )

0.14480153987269248

## 適切なサンプルサイズを求める。


In [10]:
power = TTestIndPower()

In [15]:
# 検定力を求める
effect_size = cohen_d(male_tip_rate , female_tip_rate )
n1 = len(male_tip_rate)
n2 = len(female_tip_rate)
power.solve_power(effect_size=effect_size , nobs1=n1, alpha=0.05, power=None , ratio=n2/n1)

0.19038260700802212

上記の結果をみると検定力（正しく帰無仮説を棄却できる確率、0.8ぐらいが好ましい）が低い、、、  
→よってサンプルサイズを増やしていきたい。。。  
→どのくらいサンプルサイズを増やしていくべきなのか？？  

In [17]:
# どのくらいのサンプルサイズが必要なのか？？
power.solve_power(effect_size=effect_size , nobs1=None, alpha=0.05, power=0.8 , ratio=n2/n1)
# 男性のデータは1051ぐらいのサンプルが必要

1051.0959553846506

In [18]:
# 女性のサンプルサイズ
n2/n1 * 1052

582.9554140127389