# 在进行AB测试之前如何选择样本量
## 1. 测试的显著值等于误报率，显著值越高误报率越高。
## 2. 增加样本量可以让预测更准确，但是需要付出更大的采集成本。
## 3. 检测两个变量之间的差异性越小，需要的样本量更大。
### 实验：假设一个购物网站要对两种样式的邮件进行是否打开测试，看看哪个打开次数更多？通过这个实验
### 我们来权衡以上三个条件，并且选择多少样本量合适。

In [14]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency

### 首先，创建好实验所需的变量

In [42]:
样本量 = 800
显著值 = 0.05
邮件A = 0.5
邮件B = 0.6
最小差异 = round((邮件B - 邮件A)/邮件A, 2)

### 编写程序代码

In [45]:
results = []
for i in range(100):
    lista = np.random.choice(['yes', 'no'], size=int(样本量/2), p=[邮件A, 1-邮件A])
    listb = np.random.choice(['yes', 'no'], size=int(样本量/2), p=[邮件B, 1-邮件B])
    email_name = ['email_a'] * int(样本量/2) + ['email_b'] * int(样本量/2)
    email_choice = list(lista) + list(listb)
    data = {'Email':email_name, 'Is_open':email_choice}
    data = pd.DataFrame(data)
    # 创建列联表
    ab_table = pd.crosstab(np.array(data.Email), np.array(data['Is_open']))
    chi2,pval,dof,expected = chi2_contingency(ab_table)
    result = ('有显著性' if pval < 显著值 else '没显著性')
    results.append(result)
# 打印结果
results = np.array(results)
print(f'样本量为{样本量},显著值为{显著值},最小差异为{最小差异}的情况下,有显著性结果的比例:')
print(np.sum(results == '有显著性') / 100)

样本量为800,显著值为0.05,最小差异为0.2的情况下,有显著性结果的比例:
0.8


### 如果检测结果确实存在显著性，大多数计算机计算有效性的比例为80%。
### 上述实验样本量为800的情况下有效性在80%左右。