# 单样本比例Z检验（One-Proportion Z-Test）

## 基本概念
**单样本比例Z检验**用于检验一个样本中某个事件发生的**比例（$\hat{p}$）是否与某个已知或假设的总体比例（$p_0$）**有显著差异。

常用于二项分布问题的正态近似检验，如：
- 投票支持率 
- 产品合格率 
- 病毒感染率 
- 满意度比例等 

## z检验的适用场景
**适用于大样本**：
- Z检验适用于样本量较大（通常大于30）的情况
- 对于小样本数据（尤其是样本量小于30的情况），Z检验的准确性较低，此时应使用 t 检验

## 零假设与备择假设
- 单尾检验：
    - 右尾检验：
        - 零假设（$H_0$）：样本比例小于等于总体比例，即 $p <= p_0$。
        - 备择假设（$H_1$）：样本比例大于总体比例，即$p > p_0$。
    - 左尾检验：
        - 零假设（$H_0$）：样本比例大于等于总体比例，即 $p >= p_0$。
        - 备择假设（$H_1$）：样本比例小于总体比例，即$p < p_0$。
- 双尾检验：
    - 零假设（$H_0$）：样本比例等于总体比例，即 $p = p_0$。
    - 备择假设（$H_1$）：样本比例不等于总体比例，即$p \ne p_0$。



## 检验统计量
检验统计量 $Z$ 的计算公式为：
$$Z = \frac{\hat{p} - p_0}{\sqrt{ \frac{p_0 (1 - p_0)}{n} }}$$
其中：
- $p_0$：总体比例
- $\hat{p}$：样本比例
- $n$：样本量

## 步骤

Z检验基于标准正态分布（均值为0，标准差为1），通过将样本比例转化为$Z$统计量，衡量样本比例偏离总体比例的程度。$Z$统计量表示的是样本比例与总体比例之间的标准差单位数，从而帮助判断样本数据是否支持假设。
假设检验的基本步骤包括：
- **提出假设**：通常包括零假设（$H_0$）和备择假设（$H_1$）。
- **计算$Z$统计量**：通过样本数据计算出$Z$统计量，$Z$统计量用来衡量样本比例与总体比例之间的差异。
- **确定P值**：根据计算得到的Z统计量，我们可以使用标准正态分布表或统计软件来确定P值。P值是在零假设为真的情况下，观察到的样本结果或更极端结果出现的概率。
- **做出决策**：
    - 如果P值小于或等于显著性水平（α），我们拒绝零假设。
    - 如果P值大于显著性水平（α），我们不能拒绝零假设。

# 单样本比例 Z 检验实际案例

## 单尾检验

### 案例背景
你是某电商平台的产品经理。你想测试新版本的“购买按钮”样式是否提高了用户点击率。
- 历史数据显示，该按钮的点击率为 5%（即总体比例$p_0 = 0.05$）。 
- 你将新按钮样式上线给 **一部分用户（B 组）**进行试验，记录了 1000 次曝光。 
- 结果发现新按钮点击了 65 次，即观察到的点击率为$\hat{p} = 0.065$。 
你希望检验新样式是否显著提升了点击率，因此使用单尾检验（右尾）。

### 确定假设
- **零假设（$H_0$）**：新按钮的点击率没有提升，即$p <= 0.05$
- **备择假设（$H_1$）**：新按钮的点击率显著更高，即$p > 0.05$

### 计算检验统计量
采用单样本比例 Z 检验：
$$Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}}$$
其中：
- $\hat{p} = 0.065$（样本点击率） 
- $p_0 = 0.05$（历史点击率） 
- $n$= 1000 

### 代码实现

#### 手工计算

In [6]:
import numpy as np
from scipy.stats import norm

# 参数设定
p_0 = 0.05        # 历史点击率
p_hat = 0.065     # 新版本点击率（65次点击 / 1000次曝光）
n = 1000          # 曝光次数

# Z 统计量计算
standard_error = np.sqrt(p_0 * (1 - p_0) / n)
z = (p_hat - p_0) / standard_error

# 单尾 p 值（右尾检验）
p_value = 1 - norm.cdf(z)

# 输出结果
print(f"Z 值: {z:.3f}")
print(f"单尾 p 值: {p_value:.4f}")

# 显著性判断
alpha = 0.05
if p_value < alpha:
    print("结论：新按钮点击率显著提升，拒绝原假设")
else:
    print("结论：点击率提升不显著，无法拒绝原假设")


Z 值: 2.176
单尾 p 值: 0.0148
结论：新按钮点击率显著提升，拒绝原假设


#### `proportions_ztest()`实现

`proportions_ztest()`
- **输入参数**
   - `count`: 成功次数
       - 单样本检验: 直接传入成功次数
       - 双样本检验: 传入数组$[count1, count2]$，分别代表两组样本的成功次数
   - `nobs`: 总实验次数
      - 单样本检验: 传入总试验次数
      - 双样本检验: 传入数组$[nobs1, nobs2]$，分别代表两组样本的总试验次数
   - `value`: 原假设的比例值或比例差异值
       - 单样本检验：原假设的比例
       - 双样本检验：两组比例的差异值
   - `alternative`: 备择假设的类型
       - `two-sided`：双尾检验（默认）
       - `larger`：右尾检验（备择假设中检验参数是否显著大于某个值）
       - `smaller`：左尾检验（备择假设中检验参数是否显著小于某个值）
   - `prop_var`: 标准误差的计算方式
       - `False (默认)`: 使用样本比例$\hat{p}$计算标准误差
       - 指定比例（如 0.05）: 使用指定值计算标准误差，一般使用原假设比例$p_0$
- **输出返回值**
    - `zstat`：Z 统计量（检验统计量）。
    - `pvalue`：P 值

In [7]:
from statsmodels.stats.proportion import proportions_ztest
from statsmodels.stats.weightstats import ztest

# 样本点击次数和样本总数
count = 65     # 点击次数
nobs = 1000    # 总曝光次数

# 单尾检验（右尾）：H1: p > 0.05
stat, pval = proportions_ztest(count, nobs, value=0.05, alternative='larger', prop_var=0.05)

print(f"Z 值: {stat:.3f}")
print(f"单尾 p 值: {pval:.4f}")

# 显著性判断
alpha = 0.05
if pval < alpha:
    print("结论：新按钮点击率显著提升，拒绝原假设")
else:
    print("结论：点击率提升不显著，无法拒绝原假设")

Z 值: 2.176
单尾 p 值: 0.0148
结论：新按钮点击率显著提升，拒绝原假设


## 双尾检验

### 案例背景

你负责的产品团队上线了一个新结账页（变体 B）。为了确认它是否对用户行为造成任何显著影响（可能提升转化率，也可能降低），你运行了一个 AB 实验，仅用新版本（B）与历史数据比较：
- 历史平均转化率：12% 
- 参与测试的用户：5000 人 
- 其中 690 人完成订单（实际转化率 13.8%） 

### 确定假设

- **零假设（$H_0$）**：新页面没有改变转化率，即$p = 0.12$
- **备择假设（$H_1$）**：新页面改变了转化率，即$p \ne 0.12$

### 计算检验统计量

采用单样本比例 Z 检验：
$$Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}}$$
其中：
- $\hat{p} = 0.138$（样本点击率） 
- $p_0 = 0.12$（历史点击率） 
- $n$= 5000

### 代码实现

#### 手工计算

In [8]:
import math
from scipy.stats import norm

# 输入数据
x = 690           # 成功数
n = 5000          # 样本数
p0 = 0.12         # 原假设比例
phat = x / n      # 样本比例

# 计算标准误差（SE）
se = math.sqrt(p0 * (1 - p0) / n)

# 计算 Z 值
z = (phat - p0) / se

# 计算 p 值（双尾）
p_value = 2 * (1 - norm.cdf(abs(z)))

# 输出结果
print(f"Z 统计量: {z:.4f}")
print(f"p 值（双尾）: {p_value:.4f}")

# 判断是否拒绝原假设
alpha = 0.05
if p_value < alpha:
    print("结论：拒绝原假设，转化率发生了显著变化")
else:
    print("结论：不能拒绝原假设，未发现显著变化")

Z 统计量: 3.9167
p 值（双尾）: 0.0001
结论：拒绝原假设，转化率发生了显著变化


#### `proportions_ztest()`实现

In [10]:
from statsmodels.stats.proportion import proportions_ztest

# 输入数据
count = 690         # 成功用户数
nobs = 5000        # 样本总数

# 执行双尾 z 检验
z_stat, p_value = proportions_ztest(
    count, 
    nobs, 
    value=0.12, 
    alternative='two-sided',   # ⬅️ 双尾
    prop_var=0.12
)

# 输出结果
print(f"Z 统计量: {z_stat:.4f}")
print(f"p 值: {p_value:.4f}")

alpha = 0.05
if p_value < alpha:
    print("结论：拒绝原假设，转化率发生了显著变化（变高或变低）")
else:
    print("结论：不能拒绝原假设，未观察到显著变化")

Z 统计量: 3.9167
p 值: 0.0001
结论：拒绝原假设，转化率发生了显著变化（变高或变低）
