#### 비모수 검정

1. 모집단의 분포 형태나 모수가 정확히 알려져 있지 않은 경우에 사용
2. 모집단의 분포가 정규분포를 따르지 않는 경우에 사용
3. 모수 검정보다 유연성은 높지만, 검정력이 낮을 수 있다는 한계가 있음
4. 데이터 순위에만 의존하여 정보 손실이 발생할 수 있음
5. 이상치 등의 영향을 덜 받음

- 모수 검정 : t 검정, F 검정, Chi-Square 검정
- 모집단의 분포 형태를 가정하지 않고, 자료 순위나 부호를 이용하여 검정함. (분포형태 불명 or 정규성 가정불가)

- 비모수 검정은 적은 가정만을 하기 때문에 자료의 분포 형태나 변동성 등을 정확하게 반영하기 어려움
- 샘플의 크기, 분포, 목적 등을 고려하여 적절한 검정 방법을 먼저 시행해야함

In [1]:
import numpy as np
from scipy import stats

In [2]:
# 두 집단의 데이터를 생성. 랜덤하게 생성된 정규분포 데이터 사용
np.random.seed(42)

In [9]:
# 모수 검정용 데이터 생성
n = 100
mu1, mu2 = 0, 0.5

sigma = 1   # 표준편차 : 분포의 폭을 결정하는 값
data1 = np.random.normal(mu1,sigma,n) # 중심값 0, 분산 1, 100개
data2 = np.random.normal(mu2,sigma,n)

In [10]:
# 비모수 검정용 데이터 생성
m = 30

data3 = np.random.uniform(0,1,m)    # 0-1 사이 /30개
data4 = np.random.uniform(0.5,1.5,m)    # 0.5-1.5 사이

In [11]:
# 데이터 생성 후, 모수 검정 실시

# 모수 검정
t_stat, p_val = stats.ttest_ind(data1,data2)
print("t-statistic : {:.3f}, p-value : {:.3f}".format(t_stat,p_val))

t-statistic : -5.015, p-value : 0.000


- t-value : 두 집단 간 평균 차이 / 표준오차 -> 작을 수록 두 집단 간 차이가 작음
- p-value : 검정 결과가 우연히 발생할 확률 -> 0.05 이하일 때 가설 기각

- 결과는 유의미

In [12]:
# 비모수 검정

u_stat,p_val = stats.mannwhitneyu(data3,data4)
print("U statistic : {:.3f}, p-value : {:.3f}".format(u_stat,p_val))

U statistic : 119.000, p-value : 0.000


- U statistic : 두개의 독립적인 그룹 간의차이에 대한 가설점정

- p-value를 통해 유의미함을 알 수 있음