# 두 독립표본의 평균, 중앙값 차이 검정

- 두 데이터 그룹이 정규분포를 따를 때: t-test
- 두 데이터 그룹이 정규분포를  따르지 않을 때: Mann-Whitney U

In [None]:
import numpy as np
from scipy import stats as st

In [None]:
# 두 독립표본데이터
sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]

# t-검정 수행
t_statistic,p_value = st.ttest_ind(sample1,sample2)

# 각 샘플의 평균
sample1_mean = np.mean(sample1)
sample2_mean = np.mean(sample2)

# 결과 출력
alpha = 0.05
print('t-검정통계량:',t_statistic) # 검정통계량이 양수이므로 1그룹이 2그룹보다 평균이 더 크다.
print("Sample1_mean",sample1_mean)
print("Sample2_mean",sample2_mean)
print("p_value",p_value)

if p_value > alpha :
  print("귀무가설을 기각하지 못합니다. 둘의 평균이 유의미한 차이가 없습니다.")
else:
  print("귀무가설을 기각합니다. 둘의 평균이 유의미한 차이가 있습니다")

t-검정통계량: 1.5778641172210597
Sample1_mean 27.6
Sample2_mean 23.8
p_value 0.15324889402868613
귀무가설을 기각하지 못합니다. 둘의 평균이 유의미한 차이가 없습니다.


## Mann-Whitney U: 비모수적인 두 표본차이

- 소표본의 모집단의 분산이 알려지지 않은 경우사용.
- 두 그룹의 중앙값이 서로 다른지 여부를 평가.
- 정규분포를 따르지 않는 데이터 또는 등분산성을 가정하기 어려운 데이터에 사용.

In [None]:
# 두 독립적인 표본 간의 중앙값 차이 검정 예제

sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]

# Mann-Whitney U 검정실행
u_statistic,p_value = st.mannwhitneyu(sample1,sample2)

# 각 샘플의 평균
sample1_mean = np.mean(sample1)
sample2_mean = np.mean(sample2)

# 결과 출력
alpha = 0.05
print(sample1_mean, sample2_mean)
if p_value > alpha :
  print('귀무가설을 기각하지 못합니다. 두 그룹의 중앙값은 유의미하게 다르지 않습니다')
else:
  print("귀무가설을 기각합니다. 두 그룹의 중앙값은 유의미하게 다릅니다")


27.6 23.8
귀무가설을 기각하지 못합니다. 두 그룹의 중앙값은 유의미하게 다르지 않습니다


# 정규성 검점: 정규분포를 따르는지에 대한 여부

- 일반적인 방법으로는 샤피로-월크 정규성 검정
- 샤피로 월크 정규성검정은 데이터의 크기에 따라서 임계값이 달라진다.

In [None]:
data = [2.4,2.7,3.1,3.2,3.5,3.7,3.9,4.1,4.2]

statistic,p_vaiue = st.shapiro(data)

if p_value > alpha :
  print('귀무가설을 기각하지 못합니다. 데이터는 정규분포를 따를 가능성이 높습니다.')
else:
  print("귀무가설을 기각합니다. 데이터는 정규분포를 따르지 않을 가능성이 높습니다.")


귀무가설을 기각하지 못합니다. 데이터는 정규분포를 따를 가능성이 높습니다.


# 실습 따라하기

다음 데이터는 초등학교 취학 전 남자와 여자의 키를 추출한 데이터이다.

남자 [117,108,105,89,101,93,96,108,108,94,93,112,92,21,100,96,120,86,96,95]

여자 [121,101,102,114,103,1005,101,131,96,109,109,113,115,94,108,96,110,112,120,100]

In [3]:
# (1)각 샘플에 대한 평균을 구하시오.
import numpy as np

men_data = [117,108,105,89,101,93,96,108,108,94,93,112,92,91,100,96,120,86,96,95]
women_data = [121,101,102,114,103,105,101,131,96,109,109,113,115,94,108,96,110,112,120,100]
men_mean = np.mean(men_data)
women_mean = np.mean(women_data)

print(men_mean,women_mean)

100.0 108.0


In [6]:
# (2) 각 샘픙에 대한 정규성 테스트를 수행하시오.

from scipy import stats
m_statistic,mp_value = stats.shapiro(men_data)
w_statistic,wp_value = stats.shapiro(women_data)

if mp_value > 0.05 :
  print("유의수준 0.05에서 남자의 데이터는 정규분포를 따를 가능성이 있다.")
else:
  print("유의수준 0.05에서 남자의 데이터는 정규분포를 따르지 않을 가능성이 있다.")

if wp_value > 0.05 :
  print("유의수준 0.05에서 여자의 데이터는 정규분포를 따를 가능성이 있다.")
else:
  print("유의수준 0.05에서 여자의 데이터는 정규분포를 따르지 않을 가능성이 있다.")

유의수준 0.05에서 남자의 데이터는 정규분포를 따를 가능성이 있다.
유의수준 0.05에서 여자의 데이터는 정규분포를 따를 가능성이 있다.


In [7]:
# (3) 샘플 2의 결과를 바탕으로 적절한 검정 방법을 선택하여 평균에 대한 차이가 있는지 검정을 수행하시오.(유의수준:0.05)

# 둘 다 정규분포를 따르므로 t검정을 실시
# 가설:두 그룹의 평균차이가 나지않는다./ 난다.

t_statistic,p_value = stats.ttest_ind(women_data,men_data)

print(t_statistic,p_value)

if p_value > 0.05 :
  print("두 그룹사이에 유의미한 차이가 없을 가능성이 있다.")
else:
  print('두 그룹사이에 유의미한 차이가 있을 가능성이 있다.')

2.670573872669349 0.011082895240510138
두 그룹사이에 유의미한 차이가 있을 가능성이 있다.
