### 비모수적 방법
: 독립변수가 범주형 변수, 종속변수가 연속형 변수일 때 사용하는 방법이다.

t-검정과 다르게 표본이 정규성을 만족하지 않는 경우에 사용하는 방법이다.

- Wilcoxon signed rank test
- Wilcoxon rank sum test
- Mann-Whitney U test 
- Kruskal-Wallis test



#### Wilcoxon signed rank test (>> 단일 t-검정)<br>(윌콕슨 부호 순위 검정)
: 표본의 중앙값이 어떤 특정값과 차이가 있는지 검증하는 방법이다.<br>
각 측정값에 특정값을 빼고 부호를 무시하고 절대값으로 순위를 구한 후, 그 다음 순위에 부호를 붙여 구한다.

- 귀무가설 : 표본의 중앙값은 특정 값과 차이가 없다.
- 대립가설 : 표본의 중앙값은 특정 값과 차이가 있다.

In [467]:
from scipy.stats import shapiro

data = [165, 178, 174, 177, 184, 169, 166, 180, 181, 182, 130, 172, 171, 170, 185]

print("정규성:", shapiro(data)[1])

정규성: 0.0007947800913825631


In [468]:
from numpy import array
from scipy.stats import wilcoxon

data2 = array(data)

print(wilcoxon(data2 - 174)[1])

0.8015886069293002


<br><br>

#### Wilcoxon signed rank test (>> 대응 T-검정)
: 동일한 사람 또는 물건에 대한 표본이 두 개인 경우에 순위 차이가 있는지 검증하는 방법이다.<br>
시간 전 후의 개념이기 때문에 독립된 두 집단일 필요가 없다.

- 귀무가설 : 특정 사건 전과 후의 순위 차이가 없다.
- 대립가설 : 특정 사건 전과 후의 순위 차이가 있다.

In [492]:
before = [8, 5, 7, 6, 7, 8, 6, 5, 8, 17]
after = [10, 9, 7, 8, 9, 10, 10, 8, 9, 18]

print("before 정규성:", shapiro(before)[1], "\nafter 정규성:", shapiro(after)[1])

before 정규성: 0.0004462270298972726 
after 정규성: 0.00045770188444294035


In [493]:
print(wilcoxon(before, after)[1])

0.0070583320485281004


<br><br>

#### Mann-Whitney U test (>> 독립 t-검정)<br>(맨 휘트니 U 검정)
#### Wilcoxon rank sum test (>> 독립 t-검정)<br>(윌콕슨 순위 합 검정)
: 표본이 정규성을 만족하지 못할 때 표본간 순위 차이가 있는지 검증하는 방법이다.

- 귀무가설 : 두 표본의 순위 차이가 없다.
- 대립가설 : 두 표본의 순위 차이가 있다.

In [496]:
a_group = [85, 87, 86, 88, 89, 85, 86, 87, 88, 89]
b_group = [94, 98, 97, 95, 96, 95, 98, 97, 98, 1]

print("a_group 정규성:", shapiro(a_group)[1], "\nb_group 정규성:", shapiro(b_group)[1])

a_group 정규성: 0.34113210439682007 
b_group 정규성: 3.0795149541518185e-07


In [497]:
from scipy.stats import mannwhitneyu

print(mannwhitneyu(a_group, b_group)[1])

0.0013572543223486374


<br>

#### Wilcoxon rank sum test

In [499]:
from scipy.stats import ranksums

print(ranksums(a_group, b_group)[1])

0.002496908915141548


<br><br>

#### Kruskal-Wallis test (>> 분산분석)<br>(크루스칼 왈리스 검정)
: 세 개 이상의 표본을 비교할 때 사용하는 검정 방법으로 표본이 정규성을 만족하지 못할 때<br>
평균 차이가 있는지가 아닌 순위 차이가 있는지 검증하는 방법이다.

- 귀무가설 : 표본들의 순위가 차이가 없다.
- 대립가설 : 표본들의 순위가 적어도 하나 차이가 있다.

In [475]:
import pandas as pd

file_path = 'data_kruskal.xlsx'
df = pd.read_excel(file_path)
df.head()

Unnamed: 0,group,value
0,a_group,44
1,a_group,43
2,a_group,45
3,a_group,48
4,a_group,50


In [476]:
a_group = df[df.group == 'a_group'].value
b_group = df[df.group == 'b_group'].value
c_group = df[df.group == 'c_group'].value

In [477]:
from scipy.stats import shapiro

print("a_group 정규성:", shapiro(a_group)[1], 
      "\nb_group 정규성:", shapiro(b_group)[1], 
      "\nc_group 정규성:", shapiro(c_group)[1])

a_group 정규성: 0.0033940616995096207 
b_group 정규성: 0.9135605096817017 
c_group 정규성: 0.02067885734140873


In [478]:
from scipy.stats import kruskal

print(kruskal(a_group, b_group, c_group)[1])

0.03486673158209628


In [479]:
from statsmodels.sandbox.stats.multicomp import MultiComparison

comp = MultiComparison(df['value'], df['group'])

result = comp.allpairtest(mannwhitneyu, method='bonf')
result[0]

group1,group2,stat,pval,pval_corr,reject
a_group,b_group,35.5,0.3453,1.0,False
a_group,c_group,18.5,0.0288,0.0863,False
b_group,c_group,13.0,0.0084,0.0253,True


<br><br>

<br><br>

#### 장점
- t-검정과 같이 표본에 대한 가정이 필요없기 때문에 쉽게 사용할 수 있다.
- 순위에 따라 결정되기 때문에 이상치에 영향을 받지 않는다.
- 표본 수가 적어도 사용이 가능하다.

#### 단점
- t-검정에 비해 검정력이 떨어진다.
- 순위로만 결정되기 때문에 크기 차이에 대해선 알 수 없다.

<br>

<br><br><br>

<br>

### 카이제곱검정
: 독립변수와 종속변수 모두 범주형일 때 사용하는 방법이다.

두 범주형 변수들 간에 비율 차이가 있는지 검증하는 방법<br>
(두 변수가 관련성이 있는지 검증하는 방법)

<br>

- 빈도가 5 이하인 셀이 전체의 20% 이하여야 한다.

<br>

귀무가설 : 두 변수들 간에는 비율의 차이가 없다.<br>
대립가설 : 두 변수들 간에는 비율의 차이가 있다.<br>


In [480]:
import pandas as pd

file_path = 'data_heart.csv'
df = pd.read_csv(file_path)
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [481]:
df.sex = df.sex.replace({1:'male', 0:'female'})
df.target = df.target.replace({1:'1', 0:'0'})

In [482]:
df2 = pd.crosstab(df.sex, df.target)
df2

target,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,24,72
male,114,93


In [483]:
from scipy.stats import chi2_contingency

print(chi2_contingency(df2)[1])

1.8767776216941503e-06


<br><br>

#### Fisher's Exact test(피셔의 정확 검정)
: 빈도가 5보다 작은 셀이 20% 이상인 경우에 사용(테이블이 2* 2일 때)

In [484]:
file_path2 = 'data_fisher.xlsx'
df3 = pd.read_excel(file_path2)
df3.head()

Unnamed: 0,sex,method
0,male,b
1,female,b
2,female,a
3,male,a
4,female,b


In [485]:
df4 = pd.crosstab(df3.sex, df3.method)
df4

method,a,b
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,4,20
male,3,23


In [486]:
from scipy.stats import fisher_exact

print(fisher_exact(df4)[1])

0.6970618034447817


<br><br>

#### McNemar's test(맥니마 검정)
: 시간 전 후의 측정 표본일 경우에 사용(테이블이 2* 2일 때)

In [487]:
file_path3 = 'data_mcnemar.xlsx'
df5 = pd.read_excel(file_path3)
df5.head()

Unnamed: 0,before,after
0,A,A
1,B,A
2,A,A
3,A,A
4,A,A


In [488]:
df6 = pd.crosstab(df5.before, df5.after)
df6

after,A,B
before,Unnamed: 1_level_1,Unnamed: 2_level_1
A,24,11
B,34,17


In [489]:
from statsmodels.sandbox.stats.runs import mcnemar

print(mcnemar(df6)[1])

0.0008240823595997424


<br><br>

#### 장점
- 어떠한 범주형 변수든 사용이 가능하다.
- 연속형 변수일 때도 그룹화를 통해 범주형으로 변환하여 사용이 가능하다.

#### 단점
- 사후검증을 할 수 없기 때문에 어느 집단에서 차이가 있는지는 알 수 없다.