In [1]:
import numpy as np 
import pandas as pd 
from scipy.stats import mannwhitneyu

가설 설정 : 두 집단 간에 수면시간에 차이가 있는가?

In [2]:
# 랜덤 데이터 생성 
np.random.seed(42)
group1 = np.random.normal(loc=6, scale = 1.5, size=100)
group2 = np.random.normal(loc=7, scale = 1.5, size=100)

# csv 저장 
data = pd.DataFrame({
    'group1' : group1,
    'group2' : group2
})

data.to_csv('./data/sleep_data.csv', index=False, encoding='utf-8')

In [3]:
# csv 읽기 
sleep_data = pd.read_csv("./data/sleep_data.csv")
print(sleep_data)

      group1    group2
0   6.745071  4.876944
1   5.792604  6.369032
2   6.971533  6.485928
3   8.284545  5.796584
4   5.648770  6.758071
..       ...       ...
95  3.804728  7.577976
96  6.444180  5.674214
97  6.391583  7.230588
98  6.007670  7.087313
99  5.648119  5.285545

[100 rows x 2 columns]


In [4]:
group1_data = data['group1']
group2_data = data['group2']

print(group1_data)
print(group2_data)

0     6.745071
1     5.792604
2     6.971533
3     8.284545
4     5.648770
        ...   
95    3.804728
96    6.444180
97    6.391583
98    6.007670
99    5.648119
Name: group1, Length: 100, dtype: float64
0     4.876944
1     6.369032
2     6.485928
3     5.796584
4     6.758071
        ...   
95    7.577976
96    5.674214
97    7.230588
98    7.087313
99    5.285545
Name: group2, Length: 100, dtype: float64


In [5]:
# 멘-휘트니 검정 수행 
st, p_val = mannwhitneyu(group1_data, group2_data, alternative='two-sided')
print(st, p_val)

2834.0 1.2154388166891524e-07


In [6]:
# 유의수준 0.05로 가설 점정 
if p_val < 0.05 : 
    print("두 집단 간에는 유의한 차이가 있음")
    
else : 
    print("두 집단 간에는 유의한 차이가 없음")

두 집단 간에는 유의한 차이가 있음


### 맨 휘트니 검정의 한계
- 샘플의 크기가 작을 때는 검정력이 낮아진다. 또한, 두 그룹 간의 차이만 확인할 수 있으므로, 여러 그룹이 있는 경우에는 다른 방법을 고려해야 한다.
- 모집단의 분포가 완전히 다를 때는 검정력이 떨어진다.
- 대응 표본에 대해서는 사용할 수 없다.