假设检验的核心是通过样本数据来推断总体数据的特征

假设检验一般都是对总体参数或分布做出一个假设，然后通过抽样研究的统计推论，来判断这个假设是否能够被接受

假设检验通常两种：
1. 接受原假设，认为样本和总体没有本质差异，这种差异是由抽样误差引起的
2. 拒绝原假设，认为样本和总体存在本质差异，这种差异不是由抽样误差引起的，而是由总体所决定的


假设检验的步骤：

+ 提出假设：
+ 确定样本统计量
+ 确定显著性水平
+ 计算样本统计量的值
+ 做出推断


In [3]:
import pandas as pd
import numpy as np

from scipy import stats

#生成随机数据
data=np.random.normal(0,1,1000)
#提出假设
mu0=0 #原假设
mu1=1 #备择假设

#确定样本统计量
statistic=np.mean(data)

#计算P值
p_value=stats.ttest_1samp(data,mu0)[1]

#做出推断
if p_value<0.05:
    print("拒绝原假设")
else:
    print("无法拒绝原假设")



无法拒绝原假设


In [2]:
import pandas as pd
import numpy as np
from scipy import stats
# 假设的30年年份、GDP和就业率数据  
data = {  
    '年份': list(range(1991, 2021)),  # 从1991年到2020年  
    'GDP(万亿元)': [  3.14, 3.56, 4.01, 4.50, 5.05, 5.67, 6.36, 7.14, 8.03, 8.99,  
        10.02, 11.15, 12.39, 13.74, 15.22, 16.83, 18.58, 20.48, 22.54,  
        24.78, 27.21, 29.84, 32.69, 35.76, 39.07, 42.63, 46.45, 50.54,  
        54.92, 59.60  
    ],  # 这里是随意生成的GDP数据，实际数据会有很大不同  
    '就业率(%)': [   92.0, 92.2, 92.4, 92.6, 92.8, 93.0, 93.2, 93.4, 93.6, 93.8,  
        94.0, 94.2, 94.4, 94.6, 94.8, 95.0, 95.2, 95.4, 95.6, 95.8,  
        96.0, 96.2, 96.4, 96.6, 96.8, 97.0, 97.2, 97.4, 97.6, 97.8  
    ]  # 这里是随意生成的就业率数据，实际数据会基于真实情况 
}  
#将数据集分为两组，一组为GDP，一组为就业率
group1=data['GDP(万亿元)']
group2=data['就业率(%)']

#为了进行t检验，需要确保数据均为浮点型
group1=np.array(group1)
group1=group1.astype(float)

group2=np.array(group2)
group2=group2.astype(float)

#进行t检验，得到t的统计量和P值
t_statistic,p_value=stats.ttest_ind(group1,group2)

print('t-statistic:',t_statistic)
print('p-value:',p_value)

alpha=0.05
if p_value<alpha:
    print('拒绝原假设')
else:
    print('无法拒绝原假设')

t-statistic: -23.775642431152352
p-value: 1.3564377286278415e-31
拒绝原假设


# 方差分析（ANOVA）
用于比较一个或两个以上样本均数差异的方法
分析两个或多个研究因素的交互作用以及回归方程的线性假设检验等

方差分析的基本思想是将全部观察值间的变异（总变异）按设计和需要分解成两个或多个组成部分，再比较每个部分的平均变异（均方）。

通过比较不同组之间的方差，可以判断各组之间是否存在显著差异。

如果各组之间的方差差异显著，则可以认为这些因素对实验结果产生了影响。


In [3]:
import numpy as np
from scipy import stats

# 创建一些样本数据  
group1 = np.array([2.3, 3.1, 2.8, 4.2, 3.5])  
group2 = np.array([6.7, 6.8, 5.6, 7.1, 6.9])  
group3 = np.array([9.8, 9.5, 10.1, 10.4, 9.9])   

#将数据组合成一个数组，创建一个表示组的数组
data=np.concatenate((group1,group2,group3))
groups=np.array([1]*len(group1)+[2]*len(group2)+[3]*len(group3))
#使用scipy进行方差分析
f_val,p_val=stats.f_oneway(group1,group2,group3)
print("F-statistic:",f_val)
print("P-value:",p_val)
if p_val<0.05:
    print("拒绝原假设")
else:
    print("无法拒绝原假设")

F-statistic: 175.41862845445172
P-value: 1.30862805440011e-09
拒绝原假设


In [8]:
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 创建一个数据框  
data = pd.DataFrame({  
    'value': [2.3, 3.1, 2.8, 4.2, 3.5, 6.7, 6.8, 5.6, 7.1, 6.9, 9.8, 9.5, 10.1, 10.4, 9.9],  
    'group': [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3]  
})  
#使用statsmodels 进行方差分析
model=ols('value ~ C(group)',data=data).fit()
anova_table=sm.stats.anova_lm(model,typ=2)
print(anova_table)


           sum_sq    df           F        PR(>F)
C(group)  114.256   2.0  175.418628  1.308628e-09
Residual    3.908  12.0         NaN           NaN


In [5]:
!pip install statsmodels 

Collecting statsmodels
  Downloading statsmodels-0.14.2-cp312-cp312-win_amd64.whl.metadata (9.5 kB)
Collecting patsy>=0.5.6 (from statsmodels)
  Downloading patsy-0.5.6-py2.py3-none-any.whl.metadata (3.5 kB)
Downloading statsmodels-0.14.2-cp312-cp312-win_amd64.whl (9.8 MB)
   ---------------------------------------- 0.0/9.8 MB ? eta -:--:--
   ---------------------------------------- 0.1/9.8 MB 1.7 MB/s eta 0:00:06
   -- ------------------------------------- 0.7/9.8 MB 8.5 MB/s eta 0:00:02
   -------- ------------------------------- 2.1/9.8 MB 18.8 MB/s eta 0:00:01
   -------- ------------------------------- 2.1/9.8 MB 18.8 MB/s eta 0:00:01
   -------- ------------------------------- 2.1/9.8 MB 18.8 MB/s eta 0:00:01
   --------------------- ------------------ 5.3/9.8 MB 21.0 MB/s eta 0:00:01
   --------------------------------- ------ 8.2/9.8 MB 26.1 MB/s eta 0:00:01
   ---------------------------------------- 9.8/9.8 MB 28.6 MB/s eta 0:00:00
Downloading patsy-0.5.6-py2.py3-none-any.wh

# 多重比较检验的基本概念和方法
多重比较检验是在方差分析之后，对各组均值间的差异进行进一步的检验

目的是确定哪些组之间存在显著差异，哪些组之间没有显著差异

Tukey HSD检验是最常用的多重检验方法

Tukey　HSD检验的基本步骤包括：
1. 计算各组均值之间的差异（差值）
2. 计算每个差值的置信区间（95%置信区间）
3. 一个差值的置信区间不包含0，则认为该差值是显著的，即对应的组间存在显著差值
4. 如果所有差值的置信区间都包含0，则认为所有组间均无显著差异


In [9]:
import numpy as np
from statsmodels.stats.multicomp import pairwise_tukeyhsd

#生成随机数据
group1=np.random.normal(0,1,50)
group2=np.random.normal(1,1,50)
group3=np.random.normal(2,1,50)
data=np.concatenate([group1,group2,group3])
#进行tukey hsd检验
tukey_results=pairwise_tukeyhsd(endog=data,
                                groups=np.arange(len(data))%3,#分组
                                alpha=0.05)#显著水平
print(tukey_results.summary())

Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
     0      1   0.2323 0.6652  -0.406 0.8706  False
     0      2   0.1195 0.8974 -0.5188 0.7578  False
     1      2  -0.1128  0.908 -0.7511 0.5255  False
---------------------------------------------------
