# 单样本均值推断概况

## 检验、估计: 单样本均值推断的两种方法
* 单样本均值的检验, 假设检验
    * 使用样本数据, 推断总体参数是否为某值(或≥某值, 或≤某值)
    * 检验, 假设检验, 回答总体参数的推断是否正确
    * 涉及的问题
        * z分数检验、t分数检验
        * 双尾检验、单尾检验
        * 检验的误差: 第一类错误、第二类错误
        * 检验的统计效能
        * 检验的效应大小
* 单样本均值的估计, 参数估计
    * 使用样本数据, 推断总体参数的取值(点估计)和取值区间(区间估计)
    * 估计, 参数估计, 回答总体参数取什么值
    * 假设检验与参数估计的逻辑是一致的, 结论可相互验证

## 单样本均值推断的条件
* 独立随机样本 
    * 样本数据是随机、独立抽取的
    * 例如, 调查人员为省事, 直接搜集了一个家庭中3个儿童的看电视时长, 则不满足独立随机样本的条件
* 样本均值服从正态分布
    * 总体服从正态分布, 或者, 样本容量≥30 (中心极限定理)
    * 注意: 不要求某一样本自身服从正态分布, 而要求样本均值(这是一随机变量)服从正态分布
* 目标总体的标准差σ已知
    * 例如, 需要已知"经过特殊管理婴儿体重的标准差"为2千克
    * 实际研究中, 往往已知的是"正常状态婴儿体重的标准差", 经过特殊管理后, 婴儿体重的标准差会发生变化吗?往往没有把握.
    * 若总体标准差σ未知, 在满足前两个条件的基础上, 可用t分数(t分布)替代z分数(z分布)

# 单样本的z分数检验(双尾)

## z分数双尾检验的原理
* z分数双尾检验的目标: 
    * 检验研究对象(总体)的均值是否等于某个值
* z分数双尾检验的逻辑: 
    * **假设总体均值为μ** 
    * 在满足3条推断条件时, 可得两个统计量(随机变量M、z)
        * 样本均值M, 服从正态分布, 记为$M\sim N(μ,σ^2 /n)$
        * z分数, 服从标准正态分布, 记为$z=\frac{M-μ}{\sqrt{σ^2 /n}}\sim N(0,1)$
    * 获得某独立随机样本后, 可计算该样本统计量(样本均值M或z分数)的值
    * 上述样本均值M本应靠近μ(z分数本应靠近0)
    * 若样本均值M取值很极端、远远偏离μ(z分数远远偏离0)、属小概率事件, 则拒绝"总体均值为μ"的假设
    * 具体做法为: 设定显著水平α(临界值、临界区域(拒绝域)), 观察样本z分数是否在双尾的拒绝域

![image.png](attachment:image.png)

## z分数双尾检验的步骤

### 陈述假设
* 原假设$H_0$: 
    * 也叫虚无假设、零假设
    * 双尾检验时, 一般是在研究中没有改变、没有差异、没有相关的陈述
* 备择假设$H_1$: 
    * 双尾检验时, 一般是在研究中存在改变、存在差异、存在相关的陈述
* 例子: 
    * 问题: 婴儿平均体重12千克, 在对婴儿做特殊管理后, 体重是否发生变化
    * 总体(研究对象): 经过特殊管理的全部婴儿的体重
    * 样本: 总体之一部分, 实际是随机抽取正常婴儿、进行特殊管理
    * 原假设$H_0:μ_{特殊管理的婴儿}=12千克,特殊管理婴儿的平均体重为12千克,$
    * 备择假设$H_1:μ_{特殊管理的婴儿}≠12千克,特殊管理婴儿的平均体重不为12千克$

* 假想的研究情况
![image.png](attachment:image.png)

* 真实的研究情况
![image.png](attachment:image.png)

### 设定判定标准
* 样本平均数在哪个区间, 应该接受原假设? 
* 样本平均数在哪个区间, 应该拒绝原假设?

* 原假设为真, 意味着样本平均数服从μ=12的z分布 
![image-3.png](attachment:image-3.png)

* 临界值: 
    * 统计量z(或M)在双尾的特定取值
    * 当所得样本z值(或样本均值M)比**临界值**更极端(比左尾临界值小,或比右尾临界值大)时, 就拒绝原假设 
* 临界区域(拒绝域): 
    * 统计量z(或M)比临界值更极端的取值区域
    * 双尾检验时, 有左右两个临界区域: 小于左尾临界值, 大于右尾临界值 
* 显著水平α: 
    * 原假设正确时, 统计量z(或M)比临界值更极端的概率
    * 原假设正确时, 统计量z(或M)落在临界区域(拒绝域)的概率

* 应用
    * 实际研究时, 先设定显著水平α, 就有了相应的临界值、临界区域(拒绝域)
    * 例如, 选定显著水平α=0.05、双尾检验, z分数(服从标准正态分布)的临界值为±1.96, 临界区域(拒绝域)如图:
 ![image.png](attachment:image.png)

In [None]:
# 假定显著水平α=0.05后,计算临界值与临界区域(基于z分数)
from scipy import stats
# 使用ppf函数返回分位数, 也即, 随机变量z小于该分位数的概率为p
z_left = stats.norm.ppf(0.025)  # 左侧临界值，z小于该分位数的概率为0.025
z_right = stats.norm.ppf(1-0.025)  # 右侧临界值，z小于该分位数的概率为1-0.025，z大于该分位数的概率为0.025
print('临界值为：%.2f 和 %.2f'%(z_left,z_right))
print('临界区域（拒绝域）为：z<%.2f 和 z>%.2f'%(z_left,z_right))

### 计算样本统计量
* 收集数据, 产生一个样本(含n个被试、个体、观测、记录), 计算样本的两个统计量: 样本平均数M和z分数
$$z=\frac{M-\mu}{\sigma_{M}}\ \ \ \ \ \ 其中,标准误\sigma_{M}=\sqrt{\frac{\sigma^{2}}{n}}=\frac{\sigma}{\sqrt{n}} $$ 
* z分数的结构与含义:
$$z=\frac{M-\mu}{\sigma_{M}}=\frac{样本平均数-假设的平均数}{样本平均数的标准误}=\frac{样本平均数M与假设平均数μ的实际差异}{样本平均数M与假设平均数μ的预计差异(偶然差异)}$$ 
* 例子:
    * 假设特殊管理的婴儿平均体重μ=12千克
    * 已知特殊管理的婴儿体重的标准差σ=2千克
    * 所得样本的容量n=16, 样本平均数M=14千克
    * 则均值的标准误(样本均值的标准差)$\sigma_{M}=\frac{\sigma}{\sqrt{n}}=\frac{2}{\sqrt{16}}=0.5$
    * 样本的z分数是:$$z=\frac{M-\mu}{\sigma_{M}}=\frac{14-12}{0.5}=4.00$$

###  做出推断
* 若某一样本的z分数(统计量)超出临界值、处在临界区域(拒绝域) (z=4.00>1.96)
    * 则认为小概率事件发生、原假设不正确、拒绝原假设、接受备择假设:
    * 特殊管理婴儿的平均体重不为12千克
* 若某一样本的z分数不在临界区域(拒绝域)
    * 则接受原假设, 谨慎的表述为: 不拒绝原假设、无法拒绝原假设
    * 特殊管理婴儿的平均体重为12千克, 不拒绝"特殊管理婴儿的平均体重为12千克"

* 补充说明:
    * 上述统计推断基于z分数的拒绝域
    * 统计推断也可**直接基于样本均值M**的拒绝域, 如下:

In [None]:
# 假定显著水平α=0.05后,计算临界值与临界区域(基于样本均值M)
from scipy import stats
# 使用ppf函数返回分位数, 也即, 随机变量M小于该分位数的概率为p
M_left = stats.norm.ppf(0.025,loc=12,scale=0.5)  # 左侧临界值，M小于该分位数的概率为0.025
M_right = stats.norm.ppf(1-0.025,loc=12,scale=0.5)  # 右侧临界值，M小于该分位数的概率为1-0.025，M大于该分位数的概率为0.025
print('临界值为：%.2f 和 %.2f'%(M_left,M_right))
print('临界区域（拒绝域）为：M<%.2f 和 M>%.2f'%(M_left,M_right))

* 结论: 样本平均数M=14千克处在拒绝域, 应拒绝原假设、接受备择假设

##  基于p值的推断
* p值(双尾)：
    * 样本均值M(随机变量)比某一样本的均值(统计量)更极端的概率
    * 或者, z分数(随机变量)比某一样本的z分数(统计量)更极端的概率
        * 原假设为μ=某值, 拒绝域在两侧, p值是越过样本z分数的两侧概率和:
        * $p值 = P(z<-|样本z分数|) + P(z>|样本z分数|)$ $\ \ $ (在z分数检验下)

* 例子
    * 原假设为μ=12, 拒绝域在两侧, 样本z分数=4
    * p值=随机变量z"小于-4、大于4"的概率$P(z<-4)+P(z>4)$
    * p值=随机变量z落在双尾的概率(双尾阴影部分)
![image.png](attachment:image.png)

In [None]:
# 已知z分数为4.00, 计算p值
from scipy import stats
stats.norm.cdf(x= -4.00)  # 小于z分数-4.00的概率（左尾）

In [None]:
stats.norm.cdf(x= -4.00) * 2  # p值：比z分数更极端的概率（双尾）

* 基于p值的推断标准 
    * 基于某一样本的统计量(z分数)计算出p值后, 不再需要根据显著水平α计算临界值和临界区域(拒绝域)
    * 某一样本的p值<事先设定的显著水平α, 说明统计量在拒绝域, 可拒绝原假设
    * 某一样本的p值≥事先设定的显著水平α, 说明统计量在接受域, 可接受原假设(不拒绝原假设)

* 若某一样本的p值小于显著水平α=0.05
    * 则认为小概率事件发生、原假设不正确、拒绝原假设、接受备择假设:
    * 特殊管理婴儿的平均体重不为12千克
* 若某一样本的p值大于等于显著水平α=0.05
    * 则接受原假设, 谨慎的表述为: 不拒绝原假设
    * 特殊管理婴儿的平均体重为12千克, 不拒绝"特殊管理婴儿的平均体重为12千克"

# 单样本的z分数检验(单尾)

## z分数单尾检验的原理
* z分数单尾检验的目标
    * 检验研究对象(总体)的均值是否大于(小于)某个值
* z分数单尾检验的逻辑
    * 设定显著水平α(临界值、临界区域(拒绝域)), 观察样本z分数是否在单尾的拒绝域
    

## z分数单尾检验的步骤

### 陈述假设
* 原假设$H_0$: 
    * 单尾检验时, 通常是希望否定的陈述
* 备择假设$H_1$: 
    * 单尾检验时, 通常是希望肯定的陈述
* 例子: 
    * 问题: 婴儿平均体重12千克, 在对婴儿做特殊管理后, 平均体重增加了吗?
    * 总体(研究对象): 经过特殊管理的全部婴儿的体重
    * 样本: 总体之一部分, 实际是随机抽取正常婴儿, 进行特殊管理
    * 原假设$H_0:μ_{特殊管理的婴儿}≤12千克$ ,特殊管理婴儿的平均体重, 小于等于12千克(平均体重没增加)(注意,等号在原假设上)
    * 备择假设$H_1:μ_{特殊管理的婴儿}>12千克$,特殊管理婴儿的平均体重, 大于12千克(平均体重增加)

### 设定判定标准

* 若原假设μ≤12为真
    * 意味着样本平均数服从μ=12(至少)的z分布, 设定拒绝域在右侧(与原假设方向相反、备择假设方向相同)
    * 当样本平均数服从μ小于12的z分布时, 原假设也为真, 此时概率密度函数、临界值、临界区域(拒绝域)左移, 拒绝域会变大
    * 因此, 取μ=12时的拒绝域(z>临界值)作为判定标准(拒绝域最小、最谨慎)

* 临界值: 
    * 统计量z(或M)的特定取值
    * 当所得样本z值(或样本均值M)比**临界值**更极端时, 就拒绝原假设 
    * 注意, 双尾检验时, 有左右两个临界值; 单尾检验时, 只有1个临界值 
* 临界区域(拒绝域): 
    * 统计量z(或M)比临界值更极端的取值区域
    * 备择假设为>号时, 是统计量z(或M)>临界值的取值区域(拒绝域在右尾)
    * 备择假设为<号时, 是统计量z(或M)<临界值的取值区域(拒绝域在左尾)
    * 注意, 双尾检验时, 有左右两个临界区域; 单尾检验时, 只有1个临界区域 
* 显著水平α: 
    * 原假设正确时, 统计量z(或M)比临界值更极端的概率
    * 原假设正确时, 统计量z(或M)落在临界区域(拒绝域)的概率
    * 注意, 双尾检验时, α是比两侧临界值更极端的概率; 单尾检验时, α是比一侧临界值更极端的概率 

* 单尾检验
![image-5.png](attachment:image-5.png)
* 双尾检验
![image-6.png](attachment:image-6.png)

In [None]:
# 假定显著水平α=0.05后,计算临界值与临界区域
from scipy import stats
z_singal_tail = stats.norm.ppf(1-0.05)  
# 右尾临界值，z小于该分位数的概率为1-0.05，z大于该分位数的概率为0.05
print('临界值为：%.2f'% z_singal_tail)
print('临界区域（拒绝域）为：z>%.2f,拒绝域在右尾(与原假设相反,与备择假设一致)'% z_singal_tail)

### 计算样本统计量
* 单尾检验时, z分数的计算与双尾检验时一致
* 例子:
    * 假设特殊管理的婴儿平均体重μ=12千克
    * 已知特殊管理的婴儿体重的标准差σ=2千克
    * 所得样本的容量n=16, 样本平均数M=14千克
    * 则样本的标准误(样本平均数的标准差)$\sigma_{M}=\frac{\sigma}{\sqrt{n}}=\frac{2}{\sqrt{16}}=0.5$
    * 样本的z分数是:$$z=\frac{M-\mu}{\sigma_{M}}=\frac{14-12}{0.5}=4.00$$

###  做出推断
* 若**某一样本的z分数**超出临界值、处在临界区域(拒绝域) (z=4.00>1.64)
    * 则认为小概率事件发生、原假设不正确、拒绝原假设、接受备择假设:
    * 特殊管理婴儿的平均体重大于12千克
* 若**某一样本的z分数**不在临界区域(拒绝域)
    * 则接受原假设, 谨慎的表述为: 不拒绝原假设
    * 特殊管理婴儿的平均体重小于等于12千克, 不拒绝"特殊管理婴儿的平均体重小于等于12千克"

##  基于p值的推断
* p值(双尾)：
    * 样本均值M(随机变量)比某一样本的均值(统计量)更极端的概率
    * 或者, z分数(随机变量)比某一样本的z分数(统计量)更极端的概率
        * 原假设为μ=某值, 拒绝域在两侧, p值是越过样本z分数的两侧概率和:
        * $p值 = P(z<-|样本z分数|) + P(z>|样本z分数|)$ $\ \ $ (在z分数检验下)
* p值(单尾)：    
    * 原假设为μ≤某值, 拒绝域在右侧, p值是越过样本z分数的右尾概率: $p值 = P(z>样本z分数)$
    * 原假设为μ≥某值, 拒绝域在左侧, p值是越过样本z分数的左尾概率: $p值 = P(z<样本z分数)$
* 基于某一样本的统计量(z分数)计算出p值后, 不需要根据显著水平α计算临界值和临界区域(拒绝域)
    * 某一样本的p值<事先设定的显著水平α, 说明样本z分数在拒绝域, 可拒绝原假设
    * 某一样本的p值≥事先设定的显著水平α, 说明样本z分数在接受域, 可接受原假设(不拒绝原假设)

* 例子
    * 原假设为μ≤12, 拒绝域在右侧, 样本z分数=4
    * p值=随机变量z"大于样本z分数4"的概率$ P(z>4)$
    * p值=随机变量z落在右尾的概率(右尾阴影部分)
![image-2.png](attachment:image-2.png)

In [None]:
# 已知z分数为4.00, 计算p值
from scipy import stats
1- stats.norm.cdf(x=4.00)  # p值：比t分数更极端的概率（单尾、右尾）

* 若某一样本的p值小于显著水平α=0.05
    * 则认为小概率事件发生、原假设不正确、拒绝原假设、接受备择假设:
    * 特殊管理婴儿的平均体重大于12千克
* 若某一样本的p值大于等于显著水平α=0.05
    * 则接受原假设, 谨慎的表述为: 不拒绝原假设
    * 特殊管理婴儿的平均体重小于等于(不大于)12千克

## 单尾与双尾检验的比较
* 单尾检验
![image-5.png](attachment:image-5.png)
* 双尾检验
![image-6.png](attachment:image-6.png)

* 单尾检验与双尾检验的相同点
    * 某一样本的统计量的计算(样本z分数), 单尾检验与双尾检验一致
* 单尾检验与双尾检验的不同点( 给定相同显著水平α)
    * 临界值的绝对值, 单尾检验时比双尾检验时小(单尾检验时临界值更靠近中心点)
    * 临界区域(拒绝域), 单尾检验时通常比双尾检验时(单侧)大
    * 单尾检验时的p值通常是双尾检验时的一半(注意,样本p值只与样本z分数有关,与显著水平、临界值、拒绝域无关)
    * 综上, 单尾检验比双尾检验更容易拒绝原假设. 双尾检验无法拒绝原假设时, 换成单尾检验后可能将拒绝原假设.

# 单样本的t分数检验(双尾,单尾)

## t分数检验的原理

* z分数:
$$z=\frac{M-\mu}{\sigma_{M}}=\frac{样本平均数-假设的平均数}{样本平均数的标准误}=\frac{样本平均数M与假设平均数μ的实际差异}{样本平均数M与假设平均数μ的预计差异(偶然差异)}$$ 
$$ 其中,标准误\sigma_{M}=\frac{\sigma}{\sqrt{n}}=\sqrt{\frac{\sigma^{2}}{n}} $$ 
* 总体的标准差未知时, 使用t分数:
$$t=\frac{M-\mu}{s_{M}}$$ 
$$ 其中,估计标准误s_{M}=\frac{s}{\sqrt{n}}=\sqrt{\frac{s^{2}}{n}}=\sqrt{\frac{SS/(n-1)}{n}} $$ 

* 若总体服从正态分布(或样本容量≥30), 则统计量t分数服从(近似服从)自由度为n-1的t分布:
![image.png](attachment:image.png)

## t分数检验的步骤

### 陈述假设
* 例子: 
    * 问题: 婴儿平均体重12千克, 在对婴儿做特殊管理后, 体重是否发生变化
    * 总体(研究对象): 经过特殊管理的全部婴儿的体重
    * 样本: 总体之一部分, 实际是随机抽取正常婴儿, 进行特殊管理
    * 原假设$H_0:μ_{特殊管理的婴儿}=12千克,特殊管理婴儿的平均体重为12千克,$
    * 备择假设$H_1:μ_{特殊管理的婴儿}≠12千克,特殊管理婴儿的平均体重不为12千克$

### 设定判定标准

* 原假设为真, 意味着样本平均数服从自由度df=16-1=15的t分布
![image-4.png](attachment:image-4.png)

In [None]:
# 假定显著水平α=0.05后,计算临界值与临界区域
n = 16  # 样本的容量
df = n-1    # 样本的自由度
from scipy import stats
# 使用ppf函数返回分位数, 也即, 随机变量t小于该分位数的概率为p
t_left = stats.t.ppf(0.025,df=df)  # 左侧临界值，t小于该分位数的概率为0.025
t_right = stats.t.ppf(1-0.025,df=df)  # 右侧临界值，t小于该分位数的概率为1-0.025，t大于该分位数的概率为0.025
print('临界值为：%.2f 和 %.2f'%(t_left,t_right))
print('临界区域（拒绝域）为：t<%.2f 和 t>%.2f'%(t_left,t_right))

In [None]:
#  随机变量t分数的接受域(临界值), 使用scipy函数计算, 参照本章区间估计部分
stats.t.interval(0.95,df=df)  # 均值、标准差的默认值为loc=0,scale=1

In [None]:
# 假定显著水平α=0.05后,计算临界值与临界区域(基于样本均值M)
n = 16  # 样本的容量
df = n-1    # 样本的自由度
from scipy import stats
# 使用ppf函数返回分位数, 也即, 随机变量M小于该分位数的概率为p
M_left = stats.t.ppf(0.025,loc=12,scale=0.5, df=df)  # 左侧临界值，M小于该分位数的概率为0.025
M_right = stats.t.ppf(1-0.025,loc=12,scale=0.5,df=df)  # 右侧临界值，M小于该分位数的概率为1-0.025，M大于该分位数的概率为0.025
print('临界值为：%.2f 和 %.2f'%(M_left,M_right))
print('临界区域（拒绝域）为：M<%.2f 和 M>%.2f'%(M_left,M_right))

In [None]:
#  样本均值M的接受域(临界值), 使用scipy函数计算
stats.t.interval(0.95,loc=12,scale=0.5, df=df)

### 计算样本统计量
* 例子:
    * 假设特殊管理的婴儿平均体重μ=12千克, 标准差σ未知
    * 所得样本的容量n=16, 样本平均数M=14千克, 样本标准差$s=2.2$千克
    * 则样本的估计标准误(样本平均数的估计标准差)$s_{M}=\frac{s}{\sqrt{n}}=\frac{2.2}{\sqrt{16}}=0.55$
    * 样本的t分数是:$t=\frac{M-\mu}{s_{M}}=\frac{14-12}{0.55}=3.64$

###  做出推断
* 若某一样本的t分数(统计量)超出临界值、处在临界区域(拒绝域) (t=3.64>2.13)
    * 则认为小概率事件发生、原假设不正确、拒绝原假设、接受备择假设:
    * 特殊管理婴儿的平均体重不为12千克
* 若某一样本的t分数不在临界区域(拒绝域)
    * 则接受原假设, 谨慎的表述为: 不拒绝原假设
    * 特殊管理婴儿的平均体重为12千克, 不拒绝"特殊管理婴儿的平均体重为12千克"

##  基于p值的推断
* p值(双尾)：
    * 样本均值M(随机变量)比某一样本的均值(统计量)更极端的概率
    * 或者, t分数(随机变量)比某一样本的t分数(统计量)更极端的概率
        * 原假设为μ=某值, 拒绝域在两侧, p值是越过样本t分数的两侧概率和:
        * $p值 = P(t<-|样本t分数|) + P(t>|样本t分数|)$ $\ \ $ (在t分数检验下)
* p值(单尾)：    
    * 原假设为μ≤某值, 拒绝域在右侧, p值是越过样本t分数的右尾概率: $p值 = P(t>样本t分数)$
    * 原假设为μ≥某值, 拒绝域在左侧, p值是越过样本t分数的左尾概率: $p值 = P(t<样本t分数)$
* 基于某一样本的统计量(t分数)计算出p值后: 
    * 不需要根据显著水平α计算临界值和临界区域(拒绝域)
    * 某一样本的p值<事先设定的显著水平α, 说明样本t分数在拒绝域, 可拒绝原假设
    * 某一样本的p值≥事先设定的显著水平α, 说明样本t分数在接受域, 可接受原假设(不拒绝原假设)

* p值: 原假设正确时, 随机变量t越过"样本t分数±3.64"、落在两端阴影部分的概率（双尾, 样本的t分数=3.64）
![image-2.png](attachment:image-2.png)

In [None]:
# 已知t分数为4.00, 计算p值
from scipy import stats
1- stats.t.cdf(x=3.64,df=df)  # 比t分数3.64更极端的右尾概率

In [None]:
(1- stats.t.cdf(x=3.64,df=df))*2  # p值：比t分数更极端的概率（双尾）

* 若某一样本的p值<事先设定的显著水平α=0.05
    * 则认为小概率事件发生、原假设不正确、拒绝原假设、接受备择假设:
    * 特殊管理婴儿的平均体重不为12千克
* 若某一样本的p值≥事先设定的显著水平α=0.05
    * 则接受原假设, 谨慎的表述为: 不拒绝原假设
    * 特殊管理婴儿的平均体重为12千克, 不拒绝"特殊管理婴儿的平均体重为12千克"

## 小结
![image-3.png](attachment:image-3.png)

# python应用: 单样本的t分数检验

In [1]:
# 假设某样本数据来自正态总体, 总体标准差σ未知, 样本容量为9
# 因而, 样本t分数服从自由度为8的t分布
import pandas as pd
data = pd.read_excel('5 单个样本均值推断.xlsx', sheet_name='data1')
score = data['score']
score

0    31
1    32
2    35
3    36
4    36
5    37
6    38
7    39
8    40
Name: score, dtype: int64

In [2]:
score.mean()   # 样本均值

36.0

## 双尾t检验
* 样本对应总体的均值=30吗?
* 原假设: 样本对应总体的均值=30
* 备择假设: 样本对应总体的均值≠30

In [3]:
n = score.count()   # 样本的容量
df = n-1   # 样本的自由度
M = score.mean()    # 样本的均值
SS = ((score-M)**2).sum()   # 样本的离差平方和
s_2 = SS/df  # 样本的方差
s_M = (s_2/n)**0.5  # 估计标准误(样本均值标准差的估计值)
t =  (M-30)/s_M    # 样本的t分数
from scipy import stats
pvalue = stats.t.cdf(x=(-t), df=df) *2  # t分数对应的p值(双尾), 左尾概率*2
print('t值为:%.6f ,p值为:%.6f'%(t,pvalue))
print('p值小于0.05,拒绝原假设')

t值为:6.000000 ,p值为:0.000323
p值小于0.05,拒绝原假设


In [4]:
# 使用scipy.stats包完成t检验, 原假设:  a.mean() - popmean= 0
from scipy import stats
stats.ttest_1samp(a=score,popmean=30) # 双尾检验

Ttest_1sampResult(statistic=6.0, pvalue=0.0003233932218851488)

In [5]:
# 使用statsmodels包完成t检验, 原假设:  score.mean() - value= 0
import statsmodels.api as sm
sm.stats.DescrStatsW(score).ttest_mean(value=30)

(6.0, 0.0003233932218851488, 8.0)

## 右尾t检验(拒绝域在右尾)
* 样本对应总体的均值大于30吗?
* 原假设: 样本对应总体的均值≤30
* 备择假设: 样本对应总体的均值>30

In [6]:
pvalue = 1- stats.t.cdf(x=t,df=df)   # t分数对应的p值(右尾)
print('t值为:%.6f ,p值为:%.6f'%(t,pvalue))
print('p值小于0.05,拒绝原假设')

t值为:6.000000 ,p值为:0.000162
p值小于0.05,拒绝原假设


In [7]:
# 使用scipy.stats包完成t检验, 原假设:  a.mean() - popmean ≤ 0
from scipy import stats
stats.ttest_1samp(a=score, popmean=30, alternative='greater') 
# alternative='greater' 指定右尾检验，注意: 低版本scipy无法指定alternative参数

Ttest_1sampResult(statistic=6.0, pvalue=0.0001616966109425744)

In [8]:
#使用statsmodels包完成t检验, 原假设:  score.mean() - value ≤ 0
import statsmodels.api as sm
sm.stats.DescrStatsW(score).ttest_mean(value=30,alternative='larger')
# alternative='two-sided'双尾检验, 默认值
# alternative='larger' 右尾检验
# alternative='smaller' 左尾检验

(6.0, 0.0001616966109425744, 8.0)

## 左尾t检验(拒绝域在左尾)
* 样本对应总体的均值小于30吗?
* 原假设: 样本对应总体的均值≥30
* 备择假设: 样本对应总体的均值<30

In [9]:
pvalue = stats.t.cdf(x=t,df=df)   # t分数对应的p值(左尾)
print('t值为:%.6f p值为:%.6f'%(t,pvalue))
print('p值远大于0.05,接受原假设')

t值为:6.000000 p值为:0.999838
p值远大于0.05,接受原假设


In [10]:
# 使用scipy.stats包完成t检验, 原假设:  a.mean() - popmean ≥ 0
from scipy import stats
stats.ttest_1samp(a=score,popmean=30, alternative='less') 
# alternative='less' 指定左尾检验，注意: 低版本scipy无法指定alternative参数

Ttest_1sampResult(statistic=6.0, pvalue=0.9998383033890574)

In [11]:
#使用statsmodels包完成t检验, 原假设:  score.mean() - value ≥ 0
import statsmodels.api as sm
sm.stats.DescrStatsW(score).ttest_mean(value=30,alternative='smaller')
# alternative='two-sided'双尾检验, 默认值
# alternative='larger' 右尾检验
# alternative='smaller' 左尾检验

(6.0, 0.9998383033890574, 8.0)

# 单样本均值检验的进一步讨论

## 检验的误差

### 第一类错误、第二类错误
* 第一类错误
    * 原假设正确时,会以1-α的概率接受原假设,会以α的概率拒绝原假设(双尾检验时)
    * 也即, "原假设正确时, 拒绝原假设"被称为**第一类错误**(弃真), 其概率P(negative|H0=True)为α
    * 注意, 显著水平α由研究者自行设定, 与某样本统计量的取值无关
* 第二类错误
    * 原假设错误时,会以β的概率接受原假设,会以1-β的概率拒绝原假设
    * 也即, "原假设错误时, 接受原假设"被称为**第二类错误**(纳伪), 其概率P(positive|H0=False)为β
    * 注意, 原假设错误时, 总体均值是未知的(只知道μ≠12千克, 不知道μ等于12.5、13.1、还是11.8千克), 因而第二类错误的概率β通常无法计算
* 总结
    * 纵向来看
        * 原假设正确(备择假设错误)时, 可能犯第一类错误, 其概率P(negative|H0=True)为α
        * 原假设错误(备择假设正确)时, 可能犯第二类错误, 其概率P(positive|H0=False)为β, 往往未知
    * 横向来看
        * 拒绝原假设(接受备择假设)时, 可能犯错误, 其概率P(H0=True|negative)与α有关(可能会比α高很多)
        * 接受原假设(拒绝备择假设)时, 可能犯错误, 其概率P(H0=False|positive)与β有关

![image.png](attachment:image.png)

### 例子
* z分数双尾检验, 设定原假设μ=12, 显著水平α=0.05
* 可得: 基于样本均值M的接受域为11.02<M<12.98, 拒绝域为M<11.02和M>12.98

In [12]:
# 计算 接受域、拒绝域
from scipy import stats
M_left = stats.norm.ppf(0.025,loc=12,scale=0.5)  # 左侧临界值，M小于该分位数的概率为0.025
M_right = stats.norm.ppf(1-0.025,loc=12,scale=0.5)  # 右侧临界值，M小于该分位数的概率为1-0.025，M大于该分位数的概率为0.025
print('临界值为：%.2f 和 %.2f'%(M_left,M_right))
print('临界区域（拒绝域）为：M<%.2f 和 M>%.2f'%(M_left,M_right))

临界值为：11.02 和 12.98
临界区域（拒绝域）为：M<11.02 和 M>12.98


* 第一类错误
    * 当原假设μ=12正确、备择假设μ≠12错误时, 
    * 统计量M在接受域11.02<M<12.98的概率(接受正确的原假设、拒绝错误的备择假设的概率)为0.95
    * 统计量M在拒绝域M<11.02 和 M>12.98的概率(拒绝正确的原假设、接受错误的备择假设的概率)为0.05, 第一类错误的概率α为0.05

In [13]:
# 当原假设μ=12正确、备择假设μ≠12错误时,
# 统计量M在接受域11.02<M<12.98的概率(接受正确的原假设、拒绝错误的备择假设的概率)
# 1-α
stats.norm.cdf(12.98,loc=12,scale=0.5) - stats.norm.cdf(11.02,loc=12,scale=0.5) 

0.9500042097035593

In [14]:
# 当原假设μ=12正确、备择假设μ≠12错误时,
# 统计量M在拒绝域M<11.02 和 M>12.98的概率(拒绝正确的原假设、接受错误的备择假设的概率)
# 第一类错误的概率, α
stats.norm.cdf(11.02,loc=12,scale=0.5) + (1-stats.norm.cdf(12.98,loc=12,scale=0.5))

0.049995790296440745

* 第二类错误
    * 当原假设μ=12错误、备择假设μ≠12正确时(假设μ=14)
    * 统计量M在拒绝域M<11.02和M>12.98的概率(拒绝错误的原假设、接受正确的备择假设的概率)为0.98
    * 统计量M在接受域11.02<M<12.98的概率(接受错误的原假设、拒绝正确的备择假设的概率)为0.02, 第二类错误的概率β为0.02
    * 注意, 备择假设正确时, μ也可能等于12.5、13.1、11.8, 第二类错误的概率β并不为0.02、是未知的

In [15]:
# 原假设错误、备择假设正确时(假设μ=14)时, 
# 统计量M在拒绝域M<11.02和M>12.98的概率(拒绝错误的原假设、接受正确的备择假设的概率)
# 1-β
stats.norm.cdf(11.02,loc=14,scale=0.5) + (1-stats.norm.cdf(12.98,loc=14,scale=0.5))

0.9793248383951196

In [19]:
# 原假设错误、备择假设正确时(假设μ=14)时, 
# 统计量M在接受域11.02<M<12.98的概率(接受错误的原假设、拒绝正确的备择假设的概率)
# 第二类错误的概率, β
stats.norm.cdf(12.98,loc=14,scale=0.5) - stats.norm.cdf(11.02,loc=14,scale=0.5) 

0.020675161604880418

### 第一类错误的概率α与原假设
* 根据p值设定第一类错误的概率α
    * 假设, 根据某一样本计算得到统计量为:6.000000、p值为:0.000323
    * 当显著水平α设为0.000323时, 仍可拒绝原假设, 此时第一类错误概率为0.000323
    * 此时, 可将第一类错误控制得非常小
* 思考
    * 新冠病毒检测, 原假设H0为"存在新冠病毒", 为什么?
        * 原假设正确(存在新冠病毒)时, 
        * 接受(positive)正确的原假设(推定存在病毒、检出感染新冠的个体)的概率为1-α
        * 拒绝(negative)正确的原假设(推定不存在病毒、漏掉感染新冠的个体)的概率为α
        * 注意, 漏掉感染新冠的个体、犯第一类错误的概率α是可控的
    * 对法官而言, 原假设H0应设置为"嫌疑人杀人"还是"**嫌疑人未杀人**"?
    * 对检察官而言, 原假设H0应设置为"**嫌疑人杀人**"还是"嫌疑人未杀人"?
* 小结
    * 若**某种状态**为真时、推断出错(拒绝该状态)会造成巨大损失, 宜将**该种状态**设置为原假设
    * 此时, 原假设(该种状态)的推断出错、造成巨大损失的概率α, 是可控的

## 检验的统计效能(statistical power)
* 显著水平α、p值
    * **原假设正确时**, 拒绝原假设的概率(第一类错误概率)
    * 因而可知, 原假设正确时, 接受原假设的概率为1-α(也可调整为1-p)
* 统计效能的定义
    * 表述1: **原假设错误时**, 统计检验拒绝原假设的概率(原假设错误时统计量在拒绝域的概率, =1-β)
    * 表述2: 备择假设正确时, 统计检验接受备择假设的概率(=1-β, 与表述1等价)
    * 应有预计的处理效应, 也即, 需要已知备择假设正确时μ的取值(一般用所得样本的均值, 来修正备择假设)

In [22]:
# z分数双尾检验, 设定原假设μ=12, 显著水平α=0.05
# 可得, 基于样本均值M的接受域11.02<M<12.98, 拒绝域M<11.02和M>12.98
# 若预计的处理效应为2, 备择假设修正为μ=14(往往通过所得样本均值, 来修正备择假设)
# 当原假设错误、备择假设μ=14正确时, 统计量M在拒绝域M<11.02和M>12.98的概率(拒绝错误原假设的概率)1-β:
from scipy import stats
stats.norm.cdf(11.02,loc=14,scale=0.5) + (1-stats.norm.cdf(12.98,loc=14,scale=0.5))
# 上述概率1-β, 就是检验的统计效能

0.9793248383951196

* 影响统计效能的因素
    * 处理效应越大、真实值离原假设H0越远, 统计效能越大
    * 显著水平α越大(例如从0.01增加到0.05), 第二类错误概率β越小, 1-β越大, 统计效能越大
    * 样本容量n越大, 样本标准误$\sigma_M$(样本均值的标准差)就越小, 统计效能越大
    * 总体标准差σ越小, 样本标准误$\sigma_M$就越小(如图从5减小到2), 统计效能越大    

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## 检验的效应大小(effect size)
* 检验推断: 样本均值与假设的差异, 相对于样本均值的标准误$s_σ=σ/\sqrt{n}$ (或估计标准误$s_M=s/\sqrt{n}$), 是显著的吗?
* 效应大小: 样本均值与假设的差异, 相对于总体的标准差σ(或样本的标准差s)的,是大的吗?

### 科恩d值
* 科恩d值: $d=\frac{样本均值与假设的差异}{总体的标准差\sigma}=\frac{M-\mu}{\sigma}$
* 科恩d值的估计: $d=\frac{样本均值与假设的差异}{样本的标准差s}=\frac{M-\mu}{s}$, 往往直接称为科恩d值
![image.png](attachment:image.png)

In [23]:
# 前述例子
M_mu = score.mean()-30  #样本均值与假设的差异
s = score.std(ddof=1)   # 样本的标准差
d = M_mu/s              # 科恩d值的估计
print(M_mu, s, d )

6.0 3.0 2.0


* 例子:$$科恩d估计值=\frac{6}{3}=2$$

### $r^2$
* 样本数据相对于总体均值30的变异性(离差平方和), 有多大比例由偶然因素造成? 有多大比例由处理引致(如使用了新教学方法)? 
$$r^{2}=\frac{处理引致的变异性}{总的变异性}=\frac{总的变异性-偶然的变异性}{总的变异性}=\frac{t^{2}}{t^{2}+df}$$
* 参见excel表格
* 例子:
$$\ r^{2}=\frac{6^{2}}{6^{2}+8}=0.818$$

In [None]:
t**2 / (t**2+df)  # r2值

# 单样本均值的估计
* 单样本均值的检验, 假设检验
    * 使用样本数据, 推断总体参数是否为某值(或≥某值, 或≤某值)
    * 检验, 假设检验, 回答总体参数的推断是否正确
* 单样本均值的估计, 参数估计
    * 使用样本数据, 推断总体参数的取值(点估计)和取值区间(区间估计)
    * 估计, 参数估计, 回答总体参数取什么值
    * 假设检验与参数估计的逻辑是一致的, 结论可相互验证

## 点估计
* 总体均值的点估计为: 样本均值

## 区间估计
* 总体均值的区间估计为:
    * (样本均值 - |$z分布临界值_{α/2}$|×标准误 ,  样本均值 + |$z分布临界值_{α/2}$|×标准误)   
    * (样本均值 - |$t分布临界值_{α/2}$|×估计标准误 , 样本均值 + |$t分布临界值_{α/2}$|×估计标准误)  
* 相关的符号
    * 显著水平α, 是估计区间不包括真实值的概率
    * 置信水平(置信度、置信系数)1-α, 是估计区间包括真实值的概率

* 例子
* 置信水平80%的置信区间, 对应的显著水平α=20%, 其$t分布临界值_{0.10}$为 ±1.296(自由度60)
* 80%置信区间的含义: 
    * 生成100个样本、产生100个置信区间(样本均值、估计标准误会变化), 有80个置信区间包含总体均值
    * 该区间有80%可能性包含总体均值(通俗但不精确的理解)
![image-2.png](attachment:image-2.png)

In [24]:
# 显著水平α=20%对应的t分布临界值
from scipy import stats
alpha = 0.20
stats.t.ppf(q=alpha/2,df=60)  
# 左侧临界值，X小于该分位数的概率为alpha/2=0.10

-1.2958210934294947

##  python应用: 估计

In [25]:
# 假设某样本数据来自正态总体, 总体标准差σ未知, 样本容量为9
# 因而, 样本t分数服从自由度为8的t分布
import pandas as pd
data = pd.read_excel('5 单个样本均值推断.xlsx', sheet_name='data1')
score = data['score']
score.mean()   # 样本均值就是对总体均值的点估计

36.0

In [26]:
# 计算估计标准误(样本均值标准差的估计值)
n = score.count()   # 样本的容量
df = n-1   # 样本的自由度
M = score.mean()    # 样本的均值
SS = ((score-M)**2).sum()   # 样本的离差平方和
s_2 = SS/df  # 样本的方差
s_M = (s_2/n)**0.5  # 估计标准误(样本均值的估计标准差)

In [27]:
# 计算总体均值的95%置信区间
from scipy import stats
alpha = 0.05 # 显著水平α=0.05,对应置信水平95%的置信区间 
t_left = stats.t.ppf(q=alpha/2,df=df)  # 左侧临界值，X小于该分位数的概率为alpha/2=0.025
M_left = M - abs(t_left) * s_M  # 置信区间的左界
M_right = M + abs(t_left) * s_M  # 置信区间的右界
print('总体均值的95%%置信区间为(%.4f,%.4f)'%(M_left,M_right))

总体均值的95%置信区间为(33.6940,38.3060)


* 结论
    * 总体均值位于置信区间(33.6940,38.3060)的概率为0.95
* 假设检验与区间估计的结论一致
    * 在假设检验中, 若显著水平为α
    * 原假设在置信水平1-α的置信区间, 则假设检验将接受原假设
    * 原假设不在置信水平1-α的置信区间, 则假设检验将拒绝原假设 
* 例如
    * 在假设检验中, 若显著水平α=0.05  
    * 原假设"总体均值=30", 不在置信水平0.95的置信区间(33.6940,38.3060)中, 假设检验也会拒绝原假设
    * 区间(33.6940,38.3060), 也是假设检验中样本均值M的接受域

In [28]:
# 使用scipy.stats包直接得到区间估计(方法1)
from scipy import stats
stats.t.interval(alpha=0.95,  # 95%的置信区间
                 loc=score.mean(),
                 scale=score.std(ddof=1)/score.count()**0.5,  # 样本均值的标准差(估计标准误)
                 df=score.count()-1
                )

(33.69399586496663, 38.30600413503337)

In [29]:
# 使用scipy.stats包直接得到区间估计(方法2)
from scipy import stats
stats.bayes_mvs(data=score, alpha=0.95)  
# alpha=0.95, 置信水平0.95
# 返回结果第1项是总体均值的点估计、区间估计

(Mean(statistic=36.0, minmax=(33.69399586496663, 38.30600413503337)),
 Variance(statistic=12.0, minmax=(4.106179847898597, 33.03160268338159)),
 Std_dev(statistic=3.3233509704478426, minmax=(2.026371103203606, 5.747312648828284)))

In [30]:
#使用statsmodels包直接得到区间估计(方法3)
import statsmodels.api as sm
sm.stats.DescrStatsW(score).tconfint_mean(alpha=0.05)  
# alpha=0.05, 显著水平0.05、置信水平0.95, alpha参数与scipy中的定义相反

(33.69399586496663, 38.30600413503337)

##  小结与对照

In [31]:
import pandas as pd
data = pd.read_excel('5 单个样本均值推断.xlsx', sheet_name='data1')
score = data['score']

In [None]:
#  使用pingouin进行统计分析
#  应先自行安装pingouin包
!pip install pingouin  -i https://mirrors.aliyun.com/pypi/simple/

In [32]:
# 使用pingouin进行假设检验(总体均值=30)、区间估计CI95%、cohen-d、统计效能power(备择假设修正为样本均值)
import pingouin as pg
pg.ttest(x=score, y=30, alternative='two-sided', confidence=0.95)

Unnamed: 0,T,dof,alternative,p-val,CI95%,cohen-d,BF10,power
T-test,6.0,8,two-sided,0.000323,"[33.69, 38.31]",2.0,105.007,0.999372


In [33]:
# 单样本均值推断与回归分析(对截距的区间估计)一致
import statsmodels.formula.api as smf
model = smf.ols(formula='score ~ 1 ', data=data).fit()
model.summary()



0,1,2,3
Dep. Variable:,score,R-squared:,0.0
Model:,OLS,Adj. R-squared:,0.0
Method:,Least Squares,F-statistic:,
Date:,"Mon, 16 May 2022",Prob (F-statistic):,
Time:,15:22:13,Log-Likelihood:,-22.128
No. Observations:,9,AIC:,46.26
Df Residuals:,8,BIC:,46.45
Df Model:,0,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,36.0000,1.000,36.000,0.000,33.694,38.306

0,1,2,3
Omnibus:,0.625,Durbin-Watson:,0.208
Prob(Omnibus):,0.732,Jarque-Bera (JB):,0.567
Skew:,-0.442,Prob(JB):,0.753
Kurtosis:,2.146,Cond. No.,1.0
