In [29]:
import pandas as pd
import numpy as np
import math
np.random.seed(1)

import matplotlib.pyplot as plt
import seaborn as sns
import seaborn.objects as so

import warnings
warnings.filterwarnings('ignore')

from scipy import stats
import pingouin as pg
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Chap 14. 비모수검정
- 추론통계 : 표본데이터를 바탕으로 모집단에 대한 추론 수행
    - 모수통계 : 표본데이터가 정규분포를 따른다는 가정 하에서 모집단 모수와 신뢰구간에 대한 추정
    - 비모수통계 : 표본데이터에 대한 엄격한 가정을 요규하지 않음. 모집단의 분포에 대해 잘 모르거나 표본 데이터가 정규분포를 따른다고 가정하기 어렵거나(편향), 표본 크기가 작거나, 이상점이 문제가 되거나, 전통적 통계적 검정방법이 존재하지 않을 경우 사용
- 비모수 검정 :  표본 데이터가 특정 분포를 가질것 요구하지 않음, 모수통계 가정(정규변환, 이상치제거, 데이터 증가) 충족 가능 시 모수통계 이용 바람직
    1) 순위검정 : 데이터의 순위 이용
    2) 퍼뮤테이션 검정 & 부트스트래핑 : 데이터 표본의 재추출을 통해 생성한 경험적 분포 이용
## 14.1 순위검정
### 독립표본 평균검정 : 
- 윌콕슨 순위합 검정 : 두 집단 간 차이 검정(두 집단이 동일한 분포의 모집단으로부터 생성되었는가, 중위수 기반), **모수 통계의 독립표본 T검정에 해당**
1) 순위부여 : 두 집단의 관측값을 통합하고 작은 값에서부터 큰 값 순으로 순위부여
2) 집단별 순위합 평균 계산
3) 두 집단의 순위합 평균이 같은지 검정 : 중위수가 동일하다는 귀무가설이 사실이면, 두 집단 순위합 평균이 비슷할 것 기대
- 크루스칼-월리스 검정 : 세 개 이상의 집단간 차이 검정, **모수통계 일원분산분석**
1) 순위부여 : 두 집단의 관측값을 통합하고 작은 값에서부터 큰 값 순으로 순위부여
2) 집단별 순위합 평균 계산
3) 두 집단의 순위합 평균이 같은지 검정 : 모든 집단 순위합 평균의 차이가 0인지 검정

### 대응표본 평균검정 
- 윌콕슨 부호순위 검정 : 서로다른 집단에 속한 관측값이 짝을 이루고 있는 경우 or 관측값이 반복적으로 측정된 경우의 두 집단 간 차이 검정, **모수통계 대응표본 T검정**
1) 짝을 이룬 값 간 차이 계산
2) 차이에 대한 순위 부여 : 차이가 0이 아닌 모든 케이스에 대해 절대값 기준으로 작은 값에서부터 큰 값의 순서로 순위 부여
3) +/-의 차이를 갖는 케이스에 대해 각각 평균 순위 계산
4) 두 집단의 평균 순위가 같은 지 검정 : 대응표본 각 쌍의 짝을 이룬 값 간 차이의 중위수가 0이라는 귀무가설 검정
- 프리드먼 검정 : 반복측정된 세 개 이상의 집단간 차이 검정, **모수통계의 반복측정 분산분석**
1) 각 케이스 별/집단 별 순위 부여 : 각 케이스를 대상으로 반복측정된 변수(집단)에 대한 순위 부여
2) 집단별 평균 순위 계산
3) 모든 집단간 평균 순위가 같은지 검정 : 모든 집단의 평균 순위의 차이가 0인지 검정

In [12]:
# 수감률이 지역별로 다른가
crime = pd.read_csv('../data/kwak/UScrime.csv').drop('rownames', axis=1)
print(crime.loc[crime['So']==1,'Prob'].median(), crime.loc[crime['So']==0,'Prob'].median())
print(stats.ranksums(crime.loc[crime['So']==1,'Prob'], crime.loc[crime['So']==0,'Prob']))

0.055552000000000004 0.038201
RanksumsResult(statistic=3.7492606798089265, pvalue=0.00017735665596242502)


In [28]:
# 변수 여러개
airqual = pd.read_csv("../data/kwak/airquality.csv").drop('rownames', axis=1).dropna()
print(airqual[['Month','Ozone']].groupby('Month').median())
print(stats.kruskal(airqual.loc[airqual['Month']==5, 'Ozone'], airqual.loc[airqual['Month']==6, 'Ozone'], airqual.loc[airqual['Month']==7, 'Ozone'], airqual.loc[airqual['Month']==8, 'Ozone'], airqual.loc[airqual['Month']==9, 'Ozone']))

       Ozone
Month       
5       18.0
6       23.0
7       60.0
8       45.0
9       23.0
KruskalResult(statistic=26.308626792507006, pvalue=2.741846175019204e-05)


In [27]:
# 수확량 Y1, Y2는 연속된 년도 이므로 독립이라 보기 어려움
immer = pd.read_csv("../data/kwak/immer.csv").drop('rownames', axis=1)
print(immer[['Y1', 'Y2']].median())
print(stats.wilcoxon(immer['Y1'], immer['Y2']))

Y1    102.95
Y2     92.95
dtype: float64
WilcoxonResult(statistic=96.5, pvalue=0.0051520795710785945)


In [34]:
# 3조건에 대한 짝 데이터
data = {
    "cond1" : np.random.normal(loc=5, scale=1, size=10),
    "cond2" : np.random.normal(loc=6, scale=1, size=10),
    "cond3" : np.random.normal(loc=7, scale=1, size=10),
}

print(stats.friedmanchisquare(data['cond1'], data['cond2'], data['cond3']))

FriedmanchisquareResult(statistic=15.0, pvalue=0.0005530843701478337)
