## 가설 검정과 검정 통계량 계산 예제
- 문구 : 친환경 세제 VS 천연 세제
- 클릭률을 $P$라고 하고, A는 친환경 세제, B는 천연 세제

### 1. 가설 설정
- 대립가설 : 문구에 따른 차이가 있다(친환경이 높다)
- 귀무가설 : 문구에 따른 차이가 없다
$$
\begin{matrix}
H_0 : P_A = P_B \\
H_1 : P_A > P_B
\end{matrix}
$$

### 2. 유의수준 설정 : 0.05

### 3. 검정 방법 선택
- 두 그룹에 대한 비율 : 두 독립표본 비율 검정
- A/B 테스트 진행 
    - 사이트 이용자 중 1500명을 무작위로 추출, 친환경 세제를 노출시킴
    - 사이트 이용자 중 1500명을 무작위로 추출, 천연 세제를 노출시킴
---
- 이러한 상황에서 결과값을 얻었을 때 Z분포를 통한 검정 통계량을 계산하기

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    '버전' : ['친환경', '천연'],
    '방문자' : [1500, 1500],
    '클릭자수' : [139, 118],
})
df

Unnamed: 0,버전,방문자,클릭자수
0,친환경,1500,139
1,천연,1500,118


### 라이브러리 이용해서 계산하기
$$
\begin{matrix}
Z = \frac{\hat{p_1} - \hat{p_2}}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_1} + \frac{1}{n_2})}} \\
\bar{p} = \frac{n_1\hat{p_1} + n_2\hat{p_2}}{n_1 + n_2}
\end{matrix}
$$
- 이런 식이 쓰인다는 것만 알자 : 사실 필요할 때 구해 먹으면 될 듯
---

In [7]:
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

converted = np.array(list(df['클릭자수']))
sizes = np.array(list(df['방문자']))

# 두 독립표본 비율 검정 함수
z_score, z_score_pr = proportions_ztest(converted, sizes, alternative ='larger')
print(f"z_score = {z_score:.3f}, 확률 : {z_score_pr:.3f}")

z_score = 1.370, 확률 : 0.085


- 사전에 유의수준을 5%로 설정했다고 하자. p-value 값이 8%로 유의 수준보다 높기 때문에 **채택역**에 있으며, 이는 **귀무가설(용어에 따른 차이가 없다)을 지지**하게 된다
- 즉, **친환경 vs 천연 이라는 용어의 변화로 인한 제품의 클릭 수 변화가 유의미하지 않다**라는 결론을 내릴 수 있는 것이다. 