## 맨 휘트니 검정
집단 내에서는 순위 차이의 분포가 같다는 검정<br>
두 개의 독립적인 집단 간에 순위 차이가 있는지 검정한다. 이 때 집단 내에서는 순위 차이의 분포가 같다는 가정이 필요하다. 이는 두 집단의 관측치가 서로 독립적이고, 두 집단 내에서 순위 차이의 분포가 동일하다는 것을 의미한다. 즉, 각 집단 내에서 관측치의 분포가 다를 수는 있지만, 두 집단의 순위 차이의 분포가 동일하다는 가정이다. 이 가정이 만족되어야만 맨 휘트니 검정을 신뢰할 수 있다.

- H0 : 두 집단의 중앙값이 같다.
- H1 : 두 집단의 중앙값이 다르다.

즉, 검정 결과 p-value가 유의수준보다 작으면 귀무 가설을 기각하고 대립 가설을 채택한다. 반대로, p-value가 유의 수준보다 크면 귀무 가설을 채택한다. 이는 두 집단의 분포가 동일하다는 것을 의미

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import mannwhitneyu

group1 = [3,2,5,1,4,2,6,7,9,8]
group2 = [6,4,7,2,6,3,7,9,10,11]

st, p = mannwhitneyu(group1, group2)

print(st, p)

32.5 0.19622288836173518


In [2]:
import numpy as np 
import pandas as pd
from scipy.stats import mannwhitneyu
from scipy import stats

# 데이터 불러오기 
data = pd.read_csv("./data/mannwhitneyu_sample_data.csv")

# 두 집단 간의 차이 검정 
st, p = mannwhitneyu(data['group1'], data['group2'])

print(st, p)

# 두 집단의 크기 계산 # len()
n1, n2 = len(data['group1']), len(data['group2'])
print(n1, n2)

# U 값이 클 때는 U 값 대신 (n1 * n2 - U) 값을 사용
if st > n1 * n2 / 2 : 
    st = n1 * n2 - st
    
# p-value 계산 
p_val = 2 * stats.norm.cdf(-abs(st) / np.sqrt(n1 * n2 * (n1 + n2 +1)/12))

print(st)
print(p_val)

32.5 0.19622288836173518
10 10
32.5
0.014019277113959953


맨 휘트니 검정에서 p-value는 U 통계량을 이용하여 계산된다. U 통계량은 각 그룹에서 다른 그룹의 값보다 높은 순위의 개수를 합산한 것으로 계산된다.
<br>U값을 계산할 때, 두 그룹의 크기가 같은 경우 다음과 같은 식을 사용한다.
- U = n1 * n2 + (n1 *(n1+1)) / 2 - R1
n1, n2 : 각각 두 그룹의 크기, R1 : 두 번째 그룹의 순위 합
<br>
p-value는 U값을 기반으로 하여 정규분포를 이용하여 근사치를 계산한다. 이 때, p-value는 양측 검정에서 각각의 꼬리 부분의 확률을 더한 값이다. 따라서, 검정 결과를 해석할 때는 검정의 방향성에 따라 적절한 꼬리 확률을 사용하여 해석해야 한다.