In [34]:
%pylab inline
import numpy as np
import seaborn as sns

from scipy.stats import norm


Populating the interactive namespace from numpy and matplotlib


`%matplotlib` prevents importing * from pylab and numpy
  "\n`%matplotlib` prevents importing * from pylab and numpy"


# A/B Test Example

| Variation | Conversion | View | Conversion Rate | SE | Confidence Interval |  Change | Confidence | 
|:----------|:-----------|:-----|:----------------|:---|:--------------------|:--------|:-----------|
| Variation A (Control Group) | 330 | 1093 | 30.19% | 0.0138 | $ \pm 2.72 $ % | - | - |
| Variation B (Test Group)    | 491 | 1123 | 43.72% | 0.0148 | $ \pm 2.25 $ % | 44.82% | |

* 95% confidence level을 사용 
* 두 그룹간의 차의 z-score는 6.6663

## Conversion Rate 

각각의 variation마다 conversion rate를 다음과 같이 계산 할  수 있습니다.

$$ CR = \frac{\text{event count}}{\text{view count}} $$

위의 A/B Text를 예로 든다면..

$$ \begin{align} 
CR_A &= \frac{330}{1093} = 0.3019213174748399  \\
CR_B &= \frac{491}{1123} = 0.43722172751558325 
\end{align} $$



## Standard Error for Bernoulli Distribution

Conversion rate에 대한 confidence interval을 계산하기 위해서는 standard error를 계산해야 합니다. 

$$ SE = \sqrt{\frac{CR(1-CR)}{n}} $$

* $ p $ : conversion rate
* $ n $ : sample size (view)

위의 예를 든다면 다음과 같습니다. 

$$ \begin{align} 
SE_{A} &= \sqrt{\frac{0.3019 * (1-0.3019)}{1093}} = 0.0138 \\
SE_{B} &= \sqrt{\frac{0.4372 * (1-0.4372)}{1123}} = 0.0148 \\
\end{align} $$



### 자세한 설명

베르누이 분포는  $ P(X=1) = p $ 그리고 $ P(X=0) = (1-p) $ 와 같이 오직 두가지 가능한 결과가 일어난다고 했을때 사용되는 분포입니다.<br>

$$ X \sim \mathcal{Bernoulli} (CR) $$

여기서 p는 variation의 conversion rate를 가르킵니다.<br>
이때 mean 그리고 variance는 다음과 같습니다. 

$$ \begin{align} 
E[X] &= CR \\
Var(X) &= CR(1-CR)
\end{align} $$

Central limit theorem에 따르면 다수의 표본 평균을 계산함으로서 모평균을 추정할 수 있습니다.<br>
즉 표본평균으로 나온 $ p $ 의 분포는 정규분포를 따르며, 
standard deviation $ \sigma $는 평균의 표준오차 (the standard error of the mean, SEM) 와 동일합니다.<br>
The standard deviation of the sample mean 의 공식은 아래와 같습니다.

$$ \sigma_{\bar{x}} = \frac{s}{\sqrt{n}} = \frac{\sqrt{CR(1-CR)}}{\sqrt{n}} = \sqrt{\frac{CR(1-CR)}{n}} $$

추가적으로 p는 정규분포를 따름으로 다음과 같이 정의할수 있습니다.

$$ \hat{CR} \sim \mathcal{Normal} \left(u=CR, \sigma= \sqrt{\frac{CR(1-CR)}{n}} \right) $$

**아주쉽게 말하면, 표본 평균의 standard error는 표본이 따르는 정규분포의 1 standard deviation이라고 말할 수 있습니다.**

## Confidence Interval

standard error를 알고 있을 경우 confidence interval (신뢰구간)의 공식은 다음과 같습니다.

$$ \begin{align} CI &= CR \pm Z * \sigma_{\bar{x}} \\
&= CR \pm Z \sqrt{ \frac{CR(1-CR)}{n} } 
\end{align} $$

* CR: Conversion rate
* Z: Z-Score of the standard deviation
* n: sample size

| Confidence Level | Python                    | $ Z_a $ Value | 
|:-----------------|:--------------------------|:--------|
| 80% 신뢰수준       | norm.ppf(1 - (1-0.8)/2)   | 1.2815  |
| 85% 신뢰수준       | norm.ppf(1 - (1-0.85)/2)  | 1.4395  |
| 90% 신뢰수준       | norm.ppf(1 - (1-0.9)/2)   | 1.6448  |
| 95% 신뢰수준       | norm.ppf(1 - (1-0.95)/2)  | 1.9599  |
| 99% 신뢰수준       | norm.ppf(1 - (1-0.99)/2)  | 2.5782  |
| 99.5% 신뢰수준     | norm.ppf(1 - (1-0.995)/2) | 2.8070  | 
| 99.9% 신뢰수준     | norm.ppf(1 - (1-0.999)/2) | 3.2905  |


예를 들어서 30.19% conversion rate 그리고 95% 신뢰수준의 confidence interval은 다음과 같이 계산합니다.


$$ CL_A = 0.3019 \pm 1.9599  \sqrt{ \frac{0.3019 ( 1- 0.3019)}{1093} } = 0.02721 $$

### 자세한 설명 

* Confidence Level: "신뢰수준"으로서 설문조사에서 95% 신뢰수준, 97%신뢰수준등 percentage로 표현됨
* Confidence Interval: "신뢰구간"으로서 표본평균이 모평균과 비교해서 얼마나 오차가 있는지를 나타내며, <br> conversion rate가 30.19%라면 30.19% $ \pm 2.31 $% 처럼 표현이 됨

$ a $ 를 confidence level이라고 하였을때 $ Z_a\ $ Score 는 다음과 같이 계산을 합니다.

$$ Z_a = 1 - \frac{1-a}{2} $$

예를 들어서 95% confidence level은 다음과 같이 계산을 합니다.

$$ Z_{a} = 1 - \frac{1-0.95}{2} $$



**표본의 표준편차를 알고 있는 경우**

$$ CI = \bar{x} \pm Z_a \frac{s}{\sqrt{n}} $$

* $ \bar{x} $ :  표본의 평균
* $ s $ : 표본의 표준편차
* $ n $ : 표본의 갯수 

**평균과 표준오차(Standard Error)만 알고 있는 경우**

$$ CI = \bar{x} \pm Z_a SE $$

* $ \bar{x} $ : 표본의 평균
* $ SE  $ : 표준오차


참고할 내용들

* [Table of z-values for Confidence Intervals](http://www.ltcconline.net/greenl/courses/201/Estimation/smallConfLevelTable.htm)
* [Critical value (z*) for a given confidence level](https://www.khanacademy.org/math/ap-statistics/estimating-confidence-ap/one-sample-z-interval-proportion/v/critical-value-for-a-given-confidence-level)


## Change 

Variation A 그리고 variation B가 얼마나 변화 되었는지는 다음의 공식으로 계산 합니다.

$$ Change = \frac{CR_B - CR_A}{CR_A} $$

## Significance Test

그래서 결론적으로 A와 B 둘중에 누가 승자인지 정확하게 알고자 할때 Z-Score를 사용합니다.

$$ Z = \frac{CR_B - CR_A}{\sqrt{ SE^2_A + SE^2_B}} $$

위의 예로 든다면..

$$ Z = \frac{0.4372 - 0.3019}{0.0138^2 + 0.0148^2} = 6.6662 $$






## Calculating P-Value

Z-score값이 양수라고 가정했을때, Pp-value는 standard normal distribution에서 Z-score면접 이후의 부분입니다. 

![](images/ab-p-value.png)


In [55]:
p_value = norm.cdf(6.6662)
print('p-value:', p_value)
print('Statistical Power:', )

p-value: 0.9999999999868744


## Null Hypothesis vs Alternate Hypothesis

귀무가설(null hypothesis)는 의미있는 차이가 없는 경위 가설이며, 같은 모집단에서 뽑힌 두개의 집단인 경우 평균, 분산, 분포는 모두 같다고 가정을 합니다. 귀무가설 설정을 통해서 우연히 발생할 사건이 아닌 통계정 유의성을 갖고 있다는 것을 시험해 볼 수 있습니다.

A/B 테스트에서 귀무가설은 두 집단 A 그리고 B는 차이가 없다고 가정을 하며(평균, 분산, 분포), 다음과 같이 정의 할 수 있습니다.

> 참고사항으로 variance의 속성중에 다음이 있습니다. <br>
> $ Var(X + Y) = Var(X) + Var(Y) $ <br>
> $ Var(X - Y) = Var(X) + Var(Y) $


$$ \hat{d} = CR_B - CR_A $$

$$ \begin{align} 
Var(\hat{d}) &= Var(CR_B - CR_A)  \\
&= Var(CR_a) + Var(CR_B)  \\
&= \frac{CR_A ( 1- CR_A)}{n_A} + \frac{CR_B ( 1- CR_B)}{n_B} \\
&= \frac{s^2_A}{n_A} + \frac{s^2_B}{n_B} \\
\end{align} $$

따라서 standard deviation은 다음과 같습니다. 

$$ \begin{align} 
\sigma &= \sqrt{Var(\hat{d})} \\
&= \sqrt{\frac{CR_A ( 1- CR_A)}{n_A} + \frac{CR_B ( 1- CR_B)}{n_B}} \\
&= \sqrt{ SE_A^2 + SE_B^2}
\end{align} $$


> 참고사항으로 Bernoulli distribution의 속성은 다음과 같습니다. <br>
> - $ E[X] = p $ : expected value <br>
> - $ Var[X] = p(1-p) $ : variance <br>
> - $ Std[X] = \sqrt{p(1-p)} $ : standard deviation <br>
> - $ \sigma_{\bar{x}} = \frac{s}{\sqrt{n}} = \frac{\sqrt{p(1-p)}}{\sqrt{n}} $ : the standard deviation of the sample mean


Z score는 다음과 같습니다. 

$$ Z = \frac{CR_B - CR_A}{\sqrt{ SE^2_A + SE^2_B}} $$

즉 Z score는 control group과 test variation 평균값들 사이의 standard deviations의 갯수라고 생각하면 됩니다. 

이후 **P-value**를 계산해야 합니다.<br>
Python에서는 다음과 같이 합니다.

```
p_value = 1 - norm.cdf(z-score)
```


5%의 신뢰수준의 값과 p-value를 비교하여 p_value < 0.05 라면 test variation이 control variation보다 더 좋다는 결론을 얻을 수 있습니다.