# 第6章 假设检验

## 初始化

In [35]:
# 本章需要用到的库
import numpy as np # 导入numpy库
import pandas as pd # 导入pandas库
from scipy.stats import ttest_1samp, ttest_rel, norm # 导入假设检验函数: 单样本t检验、配对样本t检验、正态分布
from statsmodels.stats.weightstats import ztest, ttest_ind # 导入假设检验函数: z检验和独立样本t检验

## 6.1 假设检验的原理

### 6.1.1 提出假设

### 6.1.2 做出决策

### 6.1.3 表述结果

### 6.1.4 效应量分析

## 6.2 总体均值的检验

### 6.2.1 一个总体均值的检验

In [3]:
# 大样本
example6_3 = pd.read_csv('./pydata/chap06/example6_3.csv', encoding='gbk') # 读取数据
example6_3.head() # 显示前5行数据

Unnamed: 0,PM2.5值
0,82.6
1,68.5
2,85.1
3,97.6
4,93.5


$H_0: \mu \ge 81; H_1: \mu < 81$

In [20]:
z, p_value = ztest(x1=example6_3['PM2.5值'], value=81, alternative='smaller') # 计算z值和p值
pd.DataFrame({
    '样本均值': [example6_3['PM2.5值'].mean()],
    'z统计量': [z],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,样本均值,z统计量,p值
0,79.55,-1.185558,0.117899


由于P>0.05，所以不能拒绝原假设。

In [13]:
# 小样本
example6_4 = pd.read_csv('./pydata/chap06/example6_4.csv', encoding='gbk') # 读取数据
example6_4.head() # 显示前5行数据

Unnamed: 0,厚度
0,4.7
1,4.9
2,4.9
3,4.8
4,4.7


$H_0: \mu = 5; H_1: \mu \ne 5$

In [19]:
t, p_value = ttest_1samp(a=example6_4['厚度'], popmean=5) # 计算t值和p值
pd.DataFrame({
    '样本均值': [example6_4['厚度'].mean()],
    't统计量': [t],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,样本均值,t统计量,p值
0,4.8,-5.627314,2e-05


由于P<0.05，所以拒绝原假设。

In [21]:
# 单样本t检验的效应量
# Cohen的d统计量
mu = 5
xbar = example6_4['厚度'].mean()
sd = example6_4['厚度'].std()
d = abs(xbar - mu) / sd
print(f'效应量 d = {d:.4f}')

效应量 d = 1.2583


### 6.2.2 两个总体均值差的检验

In [22]:
# 独立大样本
example6_5 = pd.read_csv('./pydata/chap06/example6_5.csv', encoding='gbk') # 读取数据
example6_5.head() # 显示前5行数据

Unnamed: 0,男生上网时间,女生上网时间
0,4.1,2.8
1,3.0,2.6
2,3.5,3.6
3,2.4,0.9
4,3.8,2.3


$H_0: \mu_1 - \mu_2 = 0; H_1: \mu_1 - \mu_2 \ne 0$

In [26]:
z, p_value = ztest(
    x1=example6_5['男生上网时间'], x2=example6_5['女生上网时间'], 
    alternative='two-sided'
) # 计算z值和p值
pd.DataFrame({
    '男生样本均值': [example6_5['男生上网时间'].mean()],
    '女生样本均值': [example6_5['女生上网时间'].mean()],
    'z统计量': [z],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,男生样本均值,女生样本均值,z统计量,p值
0,3.058333,2.830556,1.118825,0.263215


由于P>0.05，所以不能拒绝原假设。

In [24]:
# 独立小样本
example6_6 = pd.read_csv('./pydata/chap06/example6_6.csv', encoding='gbk') # 读取数据
example6_6.head() # 显示前5行数据

Unnamed: 0,甲企业,乙企业
0,8522,8428
1,9071,8298
2,8257,8317
3,8458,8761
4,8700,8058


$H_0: \mu_1 - \mu_2 = 0; H_1: \mu_1 - \mu_2 \ne 0$

In [27]:
xbar1 = example6_6['甲企业'].mean()
xbar2 = example6_6['乙企业'].mean()
# 假设总体方差相等
t, p_value, df = ttest_ind(
    x1=example6_6['甲企业'], x2=example6_6['乙企业'],
    alternative='two-sided', usevar='pooled'
) # 计算t值和p值
pd.DataFrame({
    '甲企业样本均值': [xbar1],
    '乙企业样本均值': [xbar2],
    't统计量': [t],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,甲企业样本均值,乙企业样本均值,t统计量,p值
0,8487.5,8166.0,3.49427,0.001225


In [28]:
# 假设总体方差不相等
t, p_value, df = ttest_ind(
    x1=example6_6['甲企业'], x2=example6_6['乙企业'],
    alternative='two-sided', usevar='unequal'
) # 计算t值和p值
pd.DataFrame({
    '甲企业样本均值': [xbar1],
    '乙企业样本均值': [xbar2],
    't统计量': [t],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,甲企业样本均值,乙企业样本均值,t统计量,p值
0,8487.5,8166.0,3.49427,0.001353


由于P<0.05，所以拒绝原假设。

In [30]:
# 单样本t检验的效应量
t = 3.49427
n1 = len(example6_6['甲企业'])
n2 = len(example6_6['乙企业'])
d = abs(t) * np.sqrt((n1 + n2) / (n1 * n2))
print(f'效应量 d = {d:.6f}')

效应量 d = 1.104985


效应量 d = 1.104985 表示两个总体均值差1.104985个标准差，属于大的效应量。

In [31]:
# 配对样本
example6_7 = pd.read_csv('./pydata/chap06/example6_7.csv', encoding='gbk') # 读取数据
example6_7.head() # 显示前5行数据

Unnamed: 0,旧款饮料,新款饮料
0,7,8
1,8,10
2,6,9
3,7,9
4,8,9


$H_0: \mu_1 - \mu_2 = 0; H_1: \mu_1 - \mu_2 \ne 0$

In [33]:
dbar = (example6_7['旧款饮料'] - example6_7['新款饮料']).mean()
t, p_value = ttest_rel(a=example6_7['旧款饮料'], b=example6_7['新款饮料'])
pd.DataFrame({
    '旧款饮料样本均值': [example6_7['旧款饮料'].mean()],
    '新款饮料样本均值': [example6_7['新款饮料'].mean()],
    '配对样本差值的均值': [dbar],
    't统计量': [t],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,旧款饮料样本均值,新款饮料样本均值,配对样本差值的均值,t统计量,p值
0,7.5,8.8,-1.3,-2.750848,0.022446


由于P<0.05，所以拒绝原假设。

In [34]:
# 配对样本的效应量
t = -2.750848
n = example6_7.shape[0]
d = abs(t) / np.sqrt(n)
print(f'效应量 d = {d:.6f}')

效应量 d = 0.869895


效应量 d = 0.869895 表示两个总体均值差0.869895个标准差，属于大的效应量。

## 6.3 总体比例的检验

### 6.3.1 一个总体比例的检验

In [36]:
n = 2000
p = 450 / n
pi0 = 0.25
z = (p - pi0) / np.sqrt(pi0 * (1 - pi0) / n)
p_value = 1 - norm.cdf(z)
pd.DataFrame({
    '样本比例': [p],
    '原假设比例': [pi0],
    'z统计量': [z],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,样本比例,原假设比例,z统计量,p值
0,0.225,0.25,-2.581989,0.995088


由于P>0.05，所以不能拒绝原假设。

### 6.3.2 两个总体比例差的检验

$H_0: \pi_1 - \pi_2 = 0; H_1: \pi_1 - \pi_2 \ne 0$

In [38]:
n1 = 200
n2 = 200
p1 = 0.27
p2 = 0.35
p = (p1 * n1 + p2 * n2) / (n1 + n2)
z = (p1 - p2) / np.sqrt(p * (1 - p) * (1 / n1 + 1 / n2))
p_value = norm.cdf(z)
pd.DataFrame({
    '样本比例1': [p1],
    '样本比例2': [p2],
    'z统计量': [z],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,样本比例1,样本比例2,z统计量,p值
0,0.27,0.35,-1.729755,0.041837


由于P<0.05，所以拒绝原假设。

$H_0: \pi_1 - \pi_2 \ge 8\%; H_1: \pi_1 - \pi_2 < 8\%$

In [39]:
n1 = 300
n2 = 300
p1 = 33/300
p2 = 84/300
d0 = 0.08
z = (p1 - p2 - d0) / np.sqrt(p1 * (1 - p1) / n1 + p2 * (1 - p2) / n2)
p_value = norm.cdf(z)
pd.DataFrame({
    '样本比例1': [p1],
    '样本比例2': [p2],
    'z统计量': [z],
    'p值': [p_value]
}) # 显示计算结果

Unnamed: 0,样本比例1,样本比例2,z统计量,p值
0,0.11,0.28,-7.91229,1.26348e-15


由于P<0.01，所以拒绝原假设。

## 6.4 总体方差的检验

### 6.4.1 一个总体方差的检验

### 6.4.2 两个总体方差比的检验

## 6.5 正态性检验

### 6.5.1 正态概率图

### 6.5.2 S-W检验和K-S检验

## 习题