# 单样本t检验(One-Sample t-test)

## 基本概念
**单样本t检验**用于判断单个样本的均值是否与某个已知值（通常是理论值、历史值、目标值等）存在显著差异。

## t检验的适用场景
- 总体标准差σ未知
- 样本量较小（n < 30）

## 零假设与备择假设
- 单尾检验：
    - 右尾检验：
        - 零假设（$H_0$）：样本均值小于等于总体均值，即 $\mu <= \mu_0$。
        - 备择假设（$H_1$）：样本均值大于总体均值，即$\mu > \mu_0$。
    - 左尾检验：
        - 零假设（$H_0$）：样本均值大于等于总体均值，即 $\mu >= \mu_0$。
        - 备择假设（$H_1$）：样本均值小于总体均值，即$\mu < \mu_0$。
- 双尾检验：
    - 零假设（$H_0$）：样本均值等于总体均值，即 $\mu = \mu_0$。
    - 备择假设（$H_1$）：样本均值不等于总体均值，即$\mu \ne \mu_0$。

## 检验统计量
检验统计量 $t$ 的计算公式为：
$$t = \frac{\bar{X} - \mu_0}{s / \sqrt{n-1}}$$
其中：
- $\bar{X}$：样本均值
- $\mu_0$：总体均值
- $s$：样本标准差
- $n$：样本量

## 步骤
假设检验的基本步骤包括：
- **提出假设**：零假设（$H_0$）和备择假设（$H_1$）。
- **计算$t$统计量**：通过样本数据计算出$t$统计量。
- **确定P值**：根据计算得到的t统计量，根据t值和自由度查t分布表来确定P值。P值是在零假设为真的情况下，观察到的样本结果或更极端结果出现的概率。
- **做出决策**：
    - 如果P值小于或等于显著性水平（α），我们拒绝零假设。
    - 如果P值大于显著性水平（α），我们不能拒绝零假设。

# 单样本t检验实际案例

## 单尾检验

### 案例背景
你是某在线教育平台的数据分析师，产品团队发布了一个新功能：学习激励机制，目的是提高用户每次学习的时间。
现在需要验证这个功能是否显著提高了用户的学习时长。
- 历史平均学习时长（μ₀）：30分钟
- 实验组采样了 20 名用户，样本数据如下：
    - `[32, 35, 31, 28, 36, 29, 30, 34, 38, 31, 33, 30, 29, 37, 35, 33, 34, 36, 31, 32]`

### 确定假设
- **零假设（$H_0$）**：新功能无提升，即$\mu <= 30$
- **备择假设（$H_1$）**：新功能显著提升了学习时长，即$\mu > 30$

### 计算检验统计量
$$t = \frac{\bar{X} - \mu_0}{s / \sqrt{n-1}}$$
其中：
- $\bar{X}$：样本均值
- $\mu_0$：总体均值
- $s$：样本标准差
- $n$：样本量

### 代码实现

#### 手工计算

In [5]:
import numpy as np
from scipy.stats import t

# 样本数据
data = np.array([32, 35, 31, 28, 36, 29, 30, 34, 38, 31,
                 33, 30, 29, 37, 35, 33, 34, 36, 31, 32])

# 样本统计
n = len(data)
x_bar = np.mean(data)        # 样本均值
s = np.std(data)     # 样本标准差
mu_0 = 30                    # 历史平均值

# t 统计量计算
t_stat = (x_bar - mu_0) / (s / np.sqrt(n-1))

# 自由度
df = n - 1

# 单尾 P 值（右尾）
p_value = 1 - t.cdf(t_stat, df)

# 输出结果
print(f"样本均值: {x_bar:.4f}")
print(f"样本标准差: {s:.4f}")
print(f"t 统计量: {t_stat:.4f}")
print(f"自由度: {df}")
print(f"单尾 P 值: {p_value:.4f}")

# 结论判断
alpha = 0.05
if p_value < alpha:
    print("✅ 拒绝零假设：新功能显著提升了学习时长")
else:
    print("🚫 不能拒绝零假设：新功能效果不显著")


样本均值: 32.7000
样本标准差: 2.7946
t 统计量: 4.2113
自由度: 19
单尾 P 值: 0.0002
✅ 拒绝零假设：新功能显著提升了学习时长


#### `ttest_1samp`实现

`ttest_1samp()`
   - `a`: 样本数据
   - `popmean`: 要检验的总体均值
   - `nan_policy`: 如何处理 NaN 值：
        - `propagate`：结果为 NaN
        - `omit`：忽略 NaN
        - `raise`：抛出错误
   - `alternative`: 备择假设的类型
       - `two-sided`：双尾检验（默认）
       - `greater`：右尾检验（备择假设中检验参数是否显著大于某个值）
       - `less`：左尾检验（备择假设中检验参数是否显著小于某个值）

In [6]:
import numpy as np
from scipy.stats import ttest_1samp

# 用户学习时长样本（单位：分钟）
data = [32, 35, 31, 28, 36, 29, 30, 34, 38, 31,
        33, 30, 29, 37, 35, 33, 34, 36, 31, 32]

# 假设历史平均值为 30 分钟
mu_0 = 30

# 执行单样本 t 检验（默认双尾）
t_stat, p_value = ttest_1samp(data, popmean=mu_0, alternative='greater')

# 显著性水平
alpha = 0.05

# 输出结果
print(f"t 统计量: {t_stat:.4f}")
print(f"单尾 P 值: {p_value:.4f}")

# 结论
if p_value < alpha:
    print("✅ 拒绝零假设：新功能显著提升了学习时长")
else:
    print("🚫 不能拒绝零假设：新功能提升不显著")

t 统计量: 4.2113
单尾 P 值: 0.0002
✅ 拒绝零假设：新功能显著提升了学习时长


## 双尾检验

### 案例背景
你在某电商平台工作，团队最近优化了商品详情页的加载逻辑，声称此优化不会改变用户平均浏览时长。

你希望检验该优化是否真的没有影响用户的单次页面浏览时长。
- 历史平均页面浏览时长：μ₀ = 45 秒
- 你采集了实验组 20 位用户的数据，记录如下（单位：秒）：

`[47, 42, 46, 45, 43, 49, 40, 44, 48, 46, 41, 45, 47, 42, 43, 44, 46, 47, 45, 43]`

### 确定假设
- **零假设（$H_0$）**：新加载逻辑无影响，即$\mu = 45$
- **备择假设（$H_1$）**：新加载逻辑有影响，即$\mu \ne 45$

### 计算检验统计量
$$t = \frac{\bar{X} - \mu_0}{s / \sqrt{n-1}}$$
其中：
- $\bar{X}$：样本均值
- $\mu_0$：总体均值
- $s$：样本标准差
- $n$：样本量

### 代码实现

#### 手工计算

In [7]:
import numpy as np
from scipy.stats import t

# 数据
data = np.array([47, 42, 46, 45, 43, 49, 40, 44, 48, 46,
                 41, 45, 47, 42, 43, 44, 46, 47, 45, 43])

# 参数
mu_0 = 45
n = len(data)
x_bar = np.mean(data)
s = np.std(data)  # 样本标准差（无偏）

# t 值
t_stat = (x_bar - mu_0) / (s / np.sqrt(n-1))
df = n - 1

# 双尾 P 值
p_value = 2 * (1 - t.cdf(np.abs(t_stat), df))

# 输出
print(f"样本均值: {x_bar:.2f}")
print(f"样本标准差: {s:.4f}")
print(f"t 值: {t_stat:.4f}")
print(f"P 值（双尾）: {p_value:.4f}")

# 显著性判断
alpha = 0.05
if p_value < alpha:
    print("🚨 页面加载优化有显著影响（拒绝 H₀）")
else:
    print("✅ 页面加载优化无显著影响（不拒绝 H₀）")

样本均值: 44.65
样本标准差: 2.3511
t 值: -0.6489
P 值（双尾）: 0.5242
✅ 页面加载优化无显著影响（不拒绝 H₀）


#### `ttest_1samp`实现

In [11]:
import numpy as np
from scipy.stats import ttest_1samp

# 实验组数据（秒）
data = [47, 42, 46, 45, 43, 49, 40, 44, 48, 46,
        41, 45, 47, 42, 43, 44, 46, 47, 45, 43]

# 零假设：μ = 45 秒
mu_0 = 45

# 执行双尾单样本 t 检验
result = ttest_1samp(data, popmean=mu_0, alternative='two-sided')

# 输出结果
print(f"样本均值: {np.mean(data):.2f}")
print(f"t 值: {result.statistic:.4f}")
print(f"P 值（双尾）: {result.pvalue:.4f}")

# 显著性水平
alpha = 0.05
if result.pvalue < alpha:
    print("🚨 页面加载优化有显著影响（拒绝 H₀）")
else:
    print("✅ 页面加载优化无显著影响（不拒绝 H₀）")


样本均值: 44.65
t 值: -0.6489
P 值（双尾）: 0.5242
✅ 页面加载优化无显著影响（不拒绝 H₀）


In [9]:
result

TtestResult(statistic=-0.6489040268035117, pvalue=0.5241671704701256, df=19)