# 双样本z检验

## 基本概念

**双样本Z检验**用于比较两个独立样本的均值是否存在显著差异

## 适用场景
- 样本相互独立
- 总体标准差（σ₁, σ₂）已知，或样本量足够大（每组n≥30情况下，可用样本标准差近似总体标准差）
- 数据近似服从正态分布

## 零假设与备择假设
- 单尾检验：
    - 右尾检验：
        - 零假设（$H_0$）：第一组均值小于等于第二组均值，即 $\mu_1 <= \mu_2$。
        - 备择假设（$H_1$）：第一组均值大于第二组均值，即$\mu_1 > \mu_2$。
    - 左尾检验：
        - 零假设（$H_0$）：第一组均值大于/等于第二组均值，即 $\mu_1 >= \mu_2$。
        - 备择假设（$H_1$）：第一组均值小于第二组均值，即$\mu_1 < \mu_2$。
- 双尾检验：
    - 零假设（$H_0$）：两组数据总体均值相等，即 $\mu_1 = \mu_2$。
    - 备择假设（$H_1$）：两组数据总体均值不相等，即$\mu_1 \neq \mu_2$。

## 检验统计量
检验统计量 $Z$ 的计算公式为：
$$Z = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{S_1^2}{n_1-1} + \frac{S_2^2}{n_2-1}}}$$
其中：
- $\bar{X}_1, \bar{X}_2$: 两组样本均值
- $S_1, S_2$: 两组样本标准差
- $n_1, n_2$: 两组样本量

解释：
- 分子 $\bar{X}_1 - \bar{X}_2$ 表示两样本均值的差异
- 分母 $\sqrt{\frac{S_1^2}{n_1-1} + \frac{S_2^2}{n_2-1}}$ 是差异的标准误

## 步骤
- **提出假设**：
    - 明确原假设（$H_0$）和备择假设（$H_1$）
- **计算Z值**：
    - 使用样本数据计算出$Z$值。 
- **查找临界值**：
    - 根据显著性水平$\alpha$，查找标准正态分布表中的临界值$Z_{\text{临界}}$。 
        - 单尾检验：临界值为 $Z_{\text{临界}} = Z_{\alpha}$。
        - 双尾检验：临界值为 $Z_{\text{临界}} = Z_{\alpha/2}$。
- **做出决策**：
    - 如果$|Z| > Z_{\text{临界}}$，拒绝零假设。
    - 如果$|Z| \leq Z_{\text{临界}}$，不能拒绝零假设。

# 双样本z检验实际案例

## 单尾检验

### 案例背景
某电商平台上线了一个新推荐系统，想要测试该系统是否能显著提高用户的平均消费金额。于是进行了 A/B 实验：
- A组（旧系统）消费金额：
 `[
    639.61, 563.41, 657.72, 762.76, 551.9, 551.9, 769.51, 672.09, 523.66, 645.11,
    524.39, 524.11, 609.04, 350.41, 373.01, 512.53, 458.46, 617.71, 471.04, 410.52,
    755.88, 552.91, 588.1, 409.03, 514.67, 593.31, 441.88, 625.08, 507.92, 545.0,
    507.8, 802.27, 578.38, 453.07, 678.71, 433.5, 605.06, 344.84, 420.62, 603.62
]`
 
 
- B组（新系统）消费金额：
 `[
    760.77, 675.71, 632.65, 604.83, 428.22, 542.02, 580.9, 808.57, 701.54, 385.54,
    698.61, 592.24, 548.46, 741.75, 804.65, 789.69, 524.12, 603.62, 699.69, 796.33,
    578.12, 622.15, 484.05, 470.57, 771.88, 853.44, 639.2, 800.53, 704.25, 553.23,
    704.21, 880.71, 644.63, 884.7, 257.04, 773.29, 663.06, 605.15, 663.76, 351.86
]`
 
我们需要验证：**新系统是否带来了显著提升？**

### 确定假设
- **零假设（$H_0$）**：新系统未提升消费金额，即$\mu_A >= \mu_B$
- **备择假设（$H_1$）**：新系统显著提升了消费金额，即$\mu_A < \mu_B$

### 计算检验统计量
检验统计量 $Z$ 的计算公式为：
$$Z = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{S_1^2}{n_1-1} + \frac{S_2^2}{n_2-1}}}$$
其中：
- $\bar{X}_1, \bar{X}_2$: 两组样本均值
- $S_1, S_2$: 两组样本标准差
- $n_1, n_2$: 两组样本量

解释：
- 分子 $\bar{X}_1 - \bar{X}_2$ 表示两样本均值的差异
- 分母 $\sqrt{\frac{S_1^2}{n_1-1} + \frac{S_2^2}{n_2-1}}$ 是差异的标准误

### 代码实现

In [1]:
sample_A = [
    639.61, 563.41, 657.72, 762.76, 551.9, 551.9, 769.51, 672.09, 523.66, 645.11,
    524.39, 524.11, 609.04, 350.41, 373.01, 512.53, 458.46, 617.71, 471.04, 410.52,
    755.88, 552.91, 588.1, 409.03, 514.67, 593.31, 441.88, 625.08, 507.92, 545.0,
    507.8, 802.27, 578.38, 453.07, 678.71, 433.5, 605.06, 344.84, 420.62, 603.62
]

sample_B = [
    760.77, 675.71, 632.65, 604.83, 428.22, 542.02, 580.9, 808.57, 701.54, 385.54,
    698.61, 592.24, 548.46, 741.75, 804.65, 789.69, 524.12, 603.62, 699.69, 796.33,
    578.12, 622.15, 484.05, 470.57, 771.88, 853.44, 639.2, 800.53, 704.25, 553.23,
    704.21, 880.71, 644.63, 884.7, 257.04, 773.29, 663.06, 605.15, 663.76, 351.86
]

#### 手工计算

In [8]:
import numpy as np
from scipy.stats import norm

# 输入参数
x1, x2 = np.mean(sample_A), np.mean(sample_B)         # 样本均值
sigma1, sigma2 = np.std(sample_A), np.std(sample_B)         # 样本标准差
n1, n2 = len(sample_A), len(sample_B)                  # 样本量

# 计算Z统计量（左尾检验）
z_score = (x1 - x2) / np.sqrt(sigma1**2/(n1-1) + sigma2**2/(n2-1))

# 计算单尾P值（左尾）
p_value = 1 - norm.sf(z_score)

# 输出结果
print(f"A组（旧系统）样本均值: {x1:.4f}")
print(f"B组（新系统）样本均值: {x2:.4f}")
print(f"Z统计量: {z_score:.4f}")
print(f"P值: {p_value:.4f}")

# 显著性判断（α=0.05）
alpha = 0.05
if p_value < alpha:
    print("结论：新策略消费显著更高（拒绝H₀）")
else:
    print("结论：无显著提升（无法拒绝H₀）")

A组（旧系统）样本均值: 172.4740
B组（新系统）样本均值: 203.9413
Z统计量: -2.9287
P值: 0.0017
结论：新策略消费显著更高（拒绝H₀）


#### `ztest`实现

`ztest()`
   - `x1`: 第一个样本的数据
       - 如果是单样本检验，只需提供 x1
   - `x2`: 第二个样本的数据(用于双样本检验)
   - `value`: 检验的假设值
       - 单样本检验：检验均值是否等于 value
       - 双样本检验：检验 x1均值 - x2均值 是否等于 value
   - `alternative`: 备择假设的类型
       - `two-sided`：双尾检验（默认）
       - `larger`：右尾检验（备择假设中检验参数是否显著大于某个值）
       - `smaller`：左尾检验（备择假设中检验参数是否显著小于某个值）
   - `usevar`: 如何计算方差
       - `pooled (默认)`: 使用合并方差
       - `unequal`: 使用不等方差
   - `ddof`: 自由度的调整值。默认值1.0(样本标准差的无偏估计)
       

In [9]:
from statsmodels.stats.weightstats import ztest
import numpy as np

# 双样本Z检验（左尾：alternative='smaller'）
z_stat, p_value = ztest(sample_A, sample_B, alternative='smaller', ddof=1)

print(f"Z统计量: {z_stat:.4f}")
print(f"P值: {p_value:.4f}")

if p_value < 0.05:
    print("结论：新策略显著提升消费（拒绝H₀）")
else:
    print("结论：无显著差异")

Z统计量: -2.9287
P值: 0.0017
结论：新策略显著提升消费（拒绝H₀）


## 双尾检验

### 案例背景
某社交APP对信息流页面进行了两种设计改版（A组：旧版卡片式，B组：新版列表式），希望验证两种设计的用户平均停留时间是否存在显著差异（双尾检验）。
- A组（旧版卡片式）：`[
    199.87, 174.47, 205.91, 240.92, 170.63, 170.63, 243.17, 210.7, 161.22, 201.7,
    161.46, 161.37, 189.68, 103.47, 111.0, 157.51, 139.49, 192.57, 143.68, 123.51,
    238.63, 170.97, 182.7, 123.01, 158.22, 184.44, 133.96, 195.03, 155.97, 168.33
]`


- B组（新版列表式）：`[
    179.91, 302.61, 209.33, 157.11, 251.13, 148.96, 220.44, 112.02, 143.59, 219.84,
    246.92, 218.57, 204.22, 194.94, 136.07, 174.01, 186.97, 262.86, 227.18, 121.85,
    226.2, 190.75, 176.15, 240.58, 261.55, 256.56, 168.04, 194.54, 226.56, 258.78
]`

### 确定假设
- **零假设（$H_0$）**：两种设计的用户平均停留时间不存在显著差异，即$\mu_A = \mu_B $
- **备择假设（$H_1$）**：两种设计的用户平均停留时间存在显著差异，即$\mu_A \ne \mu_B$

### 计算检验统计量

### 代码实现

In [4]:
sample_A = [
    199.87, 174.47, 205.91, 240.92, 170.63, 170.63, 243.17, 210.7, 161.22, 201.7,
    161.46, 161.37, 189.68, 103.47, 111.0, 157.51, 139.49, 192.57, 143.68, 123.51,
    238.63, 170.97, 182.7, 123.01, 158.22, 184.44, 133.96, 195.03, 155.97, 168.33
]

sample_B = [
    179.91, 302.61, 209.33, 157.11, 251.13, 148.96, 220.44, 112.02, 143.59, 219.84,
    246.92, 218.57, 204.22, 194.94, 136.07, 174.01, 186.97, 262.86, 227.18, 121.85,
    226.2, 190.75, 176.15, 240.58, 261.55, 256.56, 168.04, 194.54, 226.56, 258.78
]

#### 手工计算

In [11]:
import numpy as np
from scipy.stats import norm

# 输入参数
x1, x2 = np.mean(sample_A), np.mean(sample_B)         # 样本均值
sigma1, sigma2 = np.std(sample_A), np.std(sample_B)         # 样本标准差
n1, n2 = len(sample_A), len(sample_B)                  # 样本量

# 计算Z统计量（双尾检验）
z_score = (x1 - x2) / np.sqrt(sigma1**2/(n1-1) + sigma2**2/(n2-1))

# 计算双尾P值
p_value = 2 * norm.sf(np.abs(z_score))  # 双侧需乘以2

# 输出结果
print(f"A组均值: {x1}秒  B组均值: {x2}秒")
print(f"Z统计量: {z_score:.4f}")
print(f"P值: {p_value:.4f}")

# 显著性判断（α=0.05）
alpha = 0.05
if p_value < alpha:
    print("结论：两组停留时间差异显著（拒绝H₀）")
else:
    print("结论：无显著差异（无法拒绝H₀）")

A组均值: 172.47400000000002秒  B组均值: 203.94133333333335秒
Z统计量: -2.9287
P值: 0.0034
结论：两组停留时间差异显著（拒绝H₀）


#### `ztest`实现

In [15]:
from statsmodels.stats.weightstats import ztest
import numpy as np

# 双样本Z检验（双尾：alternative='two-sided'）
z_stat, p_value = ztest(sample_A, sample_B, alternative='two-sided', ddof=1)

# 输出结果
print(f"A组实际均值: {np.mean(sample_A):.1f}秒")
print(f"B组实际均值: {np.mean(sample_B):.1f}秒")
print(f"Z统计量: {z_stat:.4f}")
print(f"P值: {p_value:.4f}")

if p_value < 0.05:
    print("结论：设计差异显著影响停留时间（拒绝H₀）")
else:
    print("结论：设计差异无显著影响")

A组实际均值: 172.5秒
B组实际均值: 203.9秒
Z统计量: -2.9287
P值: 0.0034
结论：设计差异显著影响停留时间（拒绝H₀）
