# 分类数据的非参数检验(比例检验)
* 参数检验与非参数检验
    * 参数检验是对均值、标准差等总体参数的检验
    * 非参数检验不计算均值、标准差等参数, 通常计算中位数、秩(排位) 
* 不满足参数检验(均值推断)条件时, 则可使用非参数检验, 例如:
    * 是分类数据、有序数据
    * 有极端值、有缺失数据
    * 总体是非正态、方差不齐的, 且样本容量较小
* 条件满足时, 参数检验优于非参数检验

## 二项检验(拟合度检验)
* 两个类别的比例, 符合预期吗?
* 例子
    * 从该地大学生群体中随机抽取1000人，发现63人感染新冠病毒
    * 该地大学生感染率等于0.08(该地整体感染率)吗？

In [1]:
from scipy import stats
stats.binomtest(63,n=1000,p=0.08) # 默认为双尾检验

BinomTestResult(k=63, n=1000, alternative='two-sided', proportion_estimate=0.063, pvalue=0.047384261558837196)

* 当n足够大(确保n×p和n×(1-p)都≥10)时, 随机变量X(事件发生次数)近似服均值为n×p、方差为n×p×(1-p)的从正态分布

## 单因素卡方检验(拟合度检验)
* 多个类别的比例, 符合预期吗?
* 单因素卡方检验, Chi2-oneway-test, 也叫: 拟合度的卡方检验
* 原假设: 观察值符合预计值, 各类别比例符合预期

### 两个类别的比例, 符合预期吗?
* 对两个类别比例做卡方检验, 与二项检验等价
* 案例
    * 参见excel表格
    * 原假设: 观察值等于期望数

In [2]:
from scipy import stats
stats.chisquare(f_obs=[63,937], f_exp=[80,920])

Power_divergenceResult(statistic=3.9266304347826084, pvalue=0.04752708320015089)

* p值小于0.05, 拒绝原假设, 观察值不符合预计值
* 注意, 卡方检验必然为单尾检验(拒绝域在右尾), p值是统计量大于样本卡方值的概率

### 多个类别的比例, 符合预期吗?
* 超过2个类别时, 只能做卡方检验, 不能做二项检验
* 案例
    * 参见excel表格
    * 原假设: 4个类别的比例都相等(=0.25)

In [3]:
stats.chisquare(f_obs=[18,17,7,8])   #f_exp=默认值为等概率

Power_divergenceResult(statistic=8.08, pvalue=0.044386959367383204)

## 双因素卡方检验(独立性检验)
* 双因素卡方检验, 也叫: 双因素的独立性卡方检验，列联表卡方检验
* 多个类别的比例, 符合预期吗? 
* 两因素(两个分类变量), 对各类别的比例有影响吗?

### 例子: 双因素卡方检验
* 问题: 是否少数族裔, 与成为公司经理相关吗?
* 参见excel表格
* 原假设: 两因素没有影响, 是否少数族裔与成为公司经理**不相关**

In [4]:
import pandas as pd
data = pd.read_excel('10 非参数统计检验.xlsx',sheet_name='双因素卡方检验-数据',index_col=0)  
# 指定第一列为行索引
data

Unnamed: 0,0否-少数族裔,1是-少数族裔
0否-经理,290,100
1是-经理,80,4


In [5]:
from scipy import stats
stats.chi2_contingency(data, correction=False)  
#卡方检验, 不对卡方值做修正,与excel保持一致

(17.591853053391514,
 2.7375863373913508e-05,
 1,
 array([[304.43037975,  85.56962025],
        [ 65.56962025,  18.43037975]]))

* p值远小于0.05, 拒绝原假设, 是否少数族裔与成为公司经理**相关**

### 改进: Fisher精确检验
* 卡方检验基于近似分布(n很大的二项分布近似正态分布)计算概率, 手工计算较方便
* 现在, 用软件计算2*2列联表(四格表)的精确概率已十分方便, 称之为Fisher精确检验
    * 对2*2列联表, 若不满足80%单元格期望值至少为5的要求，应使用Fisher精确检验
    * 对2*2列联表, 若采用卡方检验得到的P值在0.05附近时，应使用Fisher精确检验
    * 有文献认为，对于未进行配对的2*2列联表，任何时候都应使用Fisher精确检验

In [6]:
from scipy import stats
stats.fisher_exact(data)

(0.145, 4.343269259230122e-06)

* 第2个参数为p值, 远小于0.05, 拒绝原假设, 是否少数族裔与成为公司经理**相关**

## 案例应用: 基于原始数据
### 常见的原始数据组织形式
* subj列为编号, 共60个被试
* ge_gender列为性别
* pa_political_affiliation列为政党属性

In [7]:
import pandas as pd
data = pd.read_excel('9 回归分析.xlsx', sheet_name='student-survey')
data

Unnamed: 0,subj,co_college_GPA,co_college_GPA_100,hi_high_school_GPA,ge_gender,pa_political_affiliation,ag_age,dh_distance_of_campus_from_home,religion,dr,tv,sp,ne,ah,ve,pi,re,ab,aa,ld
0,1,3.5,87.5,2.2,m,r,32,0,1.0,5.0,3.0,5,0,0,n,6,2,n,n,y
1,2,3.5,87.5,2.1,f,d,23,1200,,0.3,15.0,7,5,6,y,2,1,y,y,u
2,3,3.0,75.0,3.3,f,d,27,1300,,1.5,0.0,4,3,0,y,2,2,y,y,u
3,4,3.2,80.0,3.5,f,i,35,1500,0.0,8.0,5.0,5,6,3,n,4,1,y,y,n
4,5,3.5,87.5,3.1,m,i,23,1600,0.0,10.0,6.0,6,3,0,n,1,0,y,n,n
5,6,3.5,87.5,3.5,m,d,39,350,,3.0,4.0,5,7,0,y,2,1,y,y,u
6,7,3.7,92.5,3.6,m,i,24,0,1.0,0.2,5.0,12,4,2,n,2,1,y,y,y
7,8,3.0,75.0,3.0,f,i,31,5000,1.0,1.5,5.0,3,3,1,n,2,1,y,y,y
8,9,3.0,75.0,3.0,m,i,34,5000,,2.0,7.0,5,3,0,n,1,1,y,y,u
9,10,3.1,77.5,4.0,m,i,28,900,1.0,2.0,1.0,1,2,1,y,3,0,n,y,y


In [8]:
# 修改数据标识, 方便识别
data.loc[data.ge_gender=='f','ge_gender'] = '1_female' 
data.loc[data.ge_gender=='m','ge_gender'] = '0_male' 
data.loc[data.pa_political_affiliation=='d','pa_political_affiliation'] = 'Democrat' 
data.loc[data.pa_political_affiliation=='r','pa_political_affiliation'] = 'Republican' 
data.loc[data.pa_political_affiliation=='i','pa_political_affiliation'] = 'Independent' 
data

Unnamed: 0,subj,co_college_GPA,co_college_GPA_100,hi_high_school_GPA,ge_gender,pa_political_affiliation,ag_age,dh_distance_of_campus_from_home,religion,dr,tv,sp,ne,ah,ve,pi,re,ab,aa,ld
0,1,3.5,87.5,2.2,0_male,Republican,32,0,1.0,5.0,3.0,5,0,0,n,6,2,n,n,y
1,2,3.5,87.5,2.1,1_female,Democrat,23,1200,,0.3,15.0,7,5,6,y,2,1,y,y,u
2,3,3.0,75.0,3.3,1_female,Democrat,27,1300,,1.5,0.0,4,3,0,y,2,2,y,y,u
3,4,3.2,80.0,3.5,1_female,Independent,35,1500,0.0,8.0,5.0,5,6,3,n,4,1,y,y,n
4,5,3.5,87.5,3.1,0_male,Independent,23,1600,0.0,10.0,6.0,6,3,0,n,1,0,y,n,n
5,6,3.5,87.5,3.5,0_male,Democrat,39,350,,3.0,4.0,5,7,0,y,2,1,y,y,u
6,7,3.7,92.5,3.6,0_male,Independent,24,0,1.0,0.2,5.0,12,4,2,n,2,1,y,y,y
7,8,3.0,75.0,3.0,1_female,Independent,31,5000,1.0,1.5,5.0,3,3,1,n,2,1,y,y,y
8,9,3.0,75.0,3.0,0_male,Independent,34,5000,,2.0,7.0,5,3,0,n,1,1,y,y,u
9,10,3.1,77.5,4.0,0_male,Independent,28,900,1.0,2.0,1.0,1,2,1,y,3,0,n,y,y


### 单因素卡方检验
* 原假设: Democrat占40%, Republican占40%, Independent占20%

In [9]:
data1 = data[['subj', 'pa_political_affiliation']]
data1 

Unnamed: 0,subj,pa_political_affiliation
0,1,Republican
1,2,Democrat
2,3,Democrat
3,4,Independent
4,5,Independent
5,6,Democrat
6,7,Independent
7,8,Independent
8,9,Independent
9,10,Independent


In [10]:
data1.groupby('pa_political_affiliation').count()

Unnamed: 0_level_0,subj
pa_political_affiliation,Unnamed: 1_level_1
Democrat,21
Independent,24
Republican,15


In [11]:
from scipy import stats
stats.chisquare(f_obs=[21,15,24], f_exp=[60*0.40, 60*0.40, 60*0.20])

Power_divergenceResult(statistic=15.75, pvalue=0.0003801289578694638)

* p值远小于0.05, 拒绝原假设

### 双因素卡方检验
* 性别和政党归属相关吗?
* 原假设: 性别和政党归属不相关(两个因素相互独立)


In [12]:
data2 = data[['subj', 'ge_gender','pa_political_affiliation']]
data2

Unnamed: 0,subj,ge_gender,pa_political_affiliation
0,1,0_male,Republican
1,2,1_female,Democrat
2,3,1_female,Democrat
3,4,1_female,Independent
4,5,0_male,Independent
5,6,0_male,Democrat
6,7,0_male,Independent
7,8,1_female,Independent
8,9,0_male,Independent
9,10,0_male,Independent


In [13]:
#  第一步, 创建交叉报表
#  进行双因素卡方检验前，需要将频数分类别统计好, 一般可用pd.crosstab() 完成
table = pd.crosstab(index=data2.ge_gender, columns=data2.pa_political_affiliation) 
# 按类别计数
table

pa_political_affiliation,Democrat,Independent,Republican
ge_gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0_male,9,11,9
1_female,12,13,6


In [14]:
#  第二步, 双因素卡方检验
stats.chi2_contingency(table)  

(1.1298267916732878,
 0.5684093712440272,
 2,
 array([[10.15, 11.6 ,  7.25],
        [10.85, 12.4 ,  7.75]]))

* 输出结果: 卡方值, p值, 自由度, 预期的数量
* p值大于0.05, 接受原假设, 性别和政党归属不相关

### 双因素卡方检验-使用pingouin
* 不需要手动创建交叉报表
* pearson卡方检验与stats.chi2_contingency()一致

In [15]:
import pingouin as pg
pg.chi2_independence(data2, x='ge_gender',  y='pa_political_affiliation')  

(pa_political_affiliation  Democrat  Independent  Republican
 ge_gender                                                  
 0_male                       10.15         11.6        7.25
 1_female                     10.85         12.4        7.75,
 pa_political_affiliation  Democrat  Independent  Republican
 ge_gender                                                  
 0_male                           9           11           9
 1_female                        12           13           6,
                  test    lambda      chi2  dof      pval    cramer     power
 0             pearson  1.000000  1.129827  2.0  0.568409  0.137224  0.144357
 1        cressie-read  0.666667  1.130416  2.0  0.568242  0.137260  0.144410
 2      log-likelihood  0.000000  1.134288  2.0  0.567143  0.137495  0.144760
 3       freeman-tukey -0.500000  1.139583  2.0  0.565643  0.137815  0.145238
 4  mod-log-likelihood -1.000000  1.146974  2.0  0.563557  0.138261  0.145906
 5              neyman -2.000000  1.168267

# 有序数据的非参数检验 

## 单样本的总体分布检验
* 单样本符号检验
    * 原理类似符号检验(见下文)
    * 分数大于假定数时记为+, 分数小于假定数时记为-
    * 原假设(假定数是中位数)正确时, 符合+与-的比例各占50%, 可用二项检验推断原假设
* 单样本Wilcoxon检验: 
    * 原理类似Wilcoxon符号秩检验
    * 差异等级 = 个体的|观测值-总体中位数|的等级
* 游程检验(run test)
* Kolmogorov—Smirnov检验(单样本K-S检验)

In [None]:
data=[44.21,45.30,46.39,49.47,51.05,53.16,53.26,54.37,57.16,67.37,71.05,87.37]
# 样本对应总体的中位数是否等于45.30?
# 原假设: 样本对应总体的中位数=45.30
from scipy import stats
import numpy as np
stats.wilcoxon(np.array(data)-45.30,correction=True) 

In [None]:
import pingouin as pg   # 另一选择,可输出效应大小
pg.wilcoxon(np.array(data)-45.30)

## 两独立样本的差异性检验
* Mann-Whitney U 检验: 
    * 也叫: Mann-Whitney-Wilcoxon检验, Wilcoxon秩和检验(Wilcoxon rank-sum test) 
    * 原理: 两总体无差异时, 两样本数据(大小排序后)均匀混合在一起; 两总体极端不同时, 两样本(大小排序后)分散在两端(较小U值)
    * 统计量U值=min(样本A的U, 样本B的U), 样本A的U = 样本A中个体大于样本B中个体的总次数
    * 较小的U值(接近零)证明原假设(两总体无差异)不成立   
* Wald-Wolfowitz Runs 检验
* Kolmogorov—Smirnov 检验
* Moses Extreme Reactions 检验	

In [16]:
# 原假设: 两独立样本对应总体无差异
from scipy import stats
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stats.mannwhitneyu(data1, data2)

MannwhitneyuResult(statistic=40.0, pvalue=0.47267559351158717)

## 两配对样本的差异性检验(重复测量样本)
* 符号检验(sign test): 
    * 场景: 对每一被试, 只知道样本1与样本2谁大、不知道大多少时, 可用于替代"两配对样本t检验"
    * 对每一被试, 样本2大于样本1得分时记为+, 样本2小于样本1得分时记为-
    * 原假设(两总体无差异)正确时, 符合+与-的比例各占50%, 可用二项检验推断原假设
* Wilcoxon符号秩检验(Wilcoxon signed-rank test): 
    * 场景: 差异分数可按大小排序时(但差异分数不是等距数据) 
    * 差异等级 = 个体|样本1-样本2|的等级, 根据符号(正负号)分成正差异、负差异,  统计量T值=min(正差异等级的累积,负差异等级的累积)
    * 较小的T值(接近零)证明原假设(两总体无差异)不成立
    * Wilcoxon符号秩检验可用时, 优于符号检验 
* McNemar检验
* Marginal Homogeneity检验（边际同质性检验）	

In [None]:
# 原假设: 两配对样本对应总体无差异
from scipy import stats
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
stats.wilcoxon(data1, data2)

## 多个独立样本的差异性检验
* Kruskal-Wallis H 检验: 
    * Kruskal-Wallis单因素秩次方差分析(Kruskal-Wallis one-way analysis of variance by ranks), 是对Mann-Whitney检验的扩展
    * 将所有样本(处理)的个体混合、排列等级
    * 计算每个样本的等级总和T, 根据每个样本的T, 计算统计量H值
    * H值(近似卡方分布)较大, 证明原假设(多个总体无差异)不成立
* 中位数检验
* Jonckheere-Terpstra检验	

### scipy.stats.kruskal()
* 原始数据为宽型数据

In [None]:
# 原假设: 多个独立样本对应总体无差异
from scipy import stats
x = [1, 0, 1]
y = [2, 1, 2]
z = [2, 2, 3, 4]
stats.kruskal(x, y, z)

In [None]:
import pandas as pd
data = pd.DataFrame.from_dict({'x':x, 'y':y, 'z':z}, orient='index')
# orient='index' 每个键值对为1行、允许不等长
data = data.transpose()  # 行列转置
data  

In [None]:
# 基于pandas的数据集
stats.kruskal(data['x'].dropna(), data['y'].dropna(),data['z'].dropna())

### pingouin.kruskal()
* 原始数据为长型数据

In [None]:
# 将宽型数据转换为长型数据
data1 = data.melt()
data1  # 长型数据, variable是分类, value是取值

In [None]:
# 原假设: 多个独立样本对应总体无差异
import pingouin as pg
pg.kruskal(data=data1, dv='value', between='variable')

## 多个配对样本的差异性检验
* Friedman检验: 
    * 计算每个被试对应样本(处理)的等级, 例如对被试A, 排出在三个样本下的等级: 1、2、3
    * 计算每个样本的等级总和R, 根据每个样本的R, 计算统计量$x^2_r$值
    * $x^2_r$值(近似卡方分布)较大, 证明原假设(多个总体无差异)不成立
* Cochran Q 检验	
* Kendall协和系数检验


In [None]:
# 原假设: 多个配对样本对应总体无差异
from scipy import stats
data1 = [0.873, 2.817, 0.121, -0.945, -0.055, -1.436, 0.360, -1.478, -1.637, -1.869]
data2 = [1.142, -0.432, -0.938, -0.729, -0.846, -0.157, 0.500, 1.183, -1.075, -0.169]
data3 = [-0.208, 0.696, 0.928, -1.148, -0.213, 0.229, 0.137, 0.269, -0.870, -1.204]
stats.friedmanchisquare(data1, data2, data3)

In [None]:
# 原假设: 多个配对样本对应总体无差异
import pandas as pd
data = pd.DataFrame({'data1':data1, 'data2':data2, 'data3':data3})
import pingouin as pg
pg.friedman(data)  # 此处使用宽型数据, 也可使用长型数据