## ２郡の比率の差の検定

・2郡の比率に差があるのかを検定する。
例：自社のWebサイトにおいて、新しい施策をしたことによりクリック率が上がったかどうかを確かめる。（A/Bテスト）

ここで注意すべき点！
この２郡の比率の差はあくまでも母数に差があるのかを検定している！

手順は以下
①帰無仮説と対立仮説を立てる。
帰無仮説→比率に差はない
対立仮説→比率に差がある
ここで注意、仮説によっては両側検定と片側検定を分別して仮説を立てる必要がある。
例えば、
単に差があるということを分析したい場合→両側検定
Aの方が大きい、もしくはBの方が効果があるということを分析したい場合→片側検定

②帰無仮説が正しいと仮説のもと、標本観察を行う。
→二つの標本からそれぞれ比率を計算。この比率の差がどのような標本分布になるかを考える。

・比率の差の標本分布に関して
結論：平均：p_1 - p_2 （＝０）,分散：p_1・q_1/n_1 + p_2・q_2/n_2（＝p_1とp_2は同じとして考える。）の正規分布になる。
なぜなら比率p_1/n_1は平均p_1分散p_1・q_1/n_1の正規分布に従う。それの差の標本分布なので比率の差の標本分布は上記のようになる。
↑
ここで注意、いま帰無仮説では比率には差はないとしているので、p_1 = P_2＝p となる。
よって比率の差の標本分布は平均：０、分散：p(1-p)(1/n_1 + 1/n_2) となる！

③比率差の標本分布の標準化
Z ＝　p_1 - p_2 / √p(1-p)(1/n_1 + 1/n_2)
比率の差の標本分布を標準化しないとどこが（有意水準の）５％なのかがわからない。
→標準化を行う。→正規分布を標準化するのでZ分布（標準正規分布に従う）
p_1:Aのテストを行った時のクリック率
p_2:Bのテストを行った時のクリック率
p:母集団の比率（仮説のものではp=p_1=p_2）
→この母集団の比率pは分かっていないため、この母集団の比率の推定値のp^を計算する必要がある。

母集団の比率の推定値のp^はどのようにして求めるのか？？
結論:(x_1 + x_2)/n_1 + n_2 これをpの推定値として
使用する。

④有意性の確認を行う。
p値：帰無仮説が正しいとしたときにその検定統計量が得られる確率
例：
z=-0.38という値が与えられた。この時のp値は０.35であったとする。この場合、35%の確率でこのZの結果は起こりうるという解釈をする事ができる。
→よってこれは棄却する事ができない。もしこのp値が有意水準よりも小さかった場合においては棄却する事ができる。

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt
from statsmodels.stats.proportion import proportions_ztest
%matplotlib inline

In [2]:
df = sns.load_dataset("tips")
df["tip_rate"] = df["tip"] / df["total_bill"]


## 比率の差の検定
statsmodels.stats.proportion.proportions_ztest(count,nobs,alternative)
count:標本の中で実際に観測する事ができた数
nobs:標本の大きさ
alternative:"two-sided":両側、"smaller":p1<p2,"larger":p1>p2

Returns：（Zの検定統計量、p値）

以下の例を想定する。
A:サンプル数1000,クリック数30
B:サンプル数1000,クリック数33

In [5]:
proportions_ztest([30,33],[1000,1000] , alternative="smaller")
#以下の結果を確認するとp値が０．３５となっており、有意水準の５％より大きいことから棄却する事ができない。
#よって差があるとは言えない。

(-0.3840618481549573, 0.35046630388746547)