# 두 독립표본의 평균, 중앙값 차이 검정

## T-검정 : 정규분포를 따를 때

In [6]:
import pandas as pd
import numpy as np
from scipy import stats 

sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]

t_statistic,p_value = stats.ttest_ind(sample1,sample2)

mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

print('검정 통계량 : ',t_statistic)
print('p_value : ',p_value)
if p_value < 0.05:
    print(' 두 그룹의 평균은 유의미하게 다릅니다.')
else:
    print('두 그룹의 평균은 유의미하게 다르지 않습니다.')

검정 통계량 :  1.5778641172210597
p_value :  0.15324889402868613
두 그룹의 평균은 유의미하게 다르지 않습니다.


## mann-whitney U 검정 : 정규분포를 따르지 않을 때 

In [8]:
import pandas as pd
import numpy as np
from scipy import stats 

sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]


t_statistic,p_value = stats.mannwhitneyu(sample1,sample2)
print('검정 통계량 : ',t_statistic)
print('p_value : ',p_value)
if p_value < 0.05:
    print(' 두 그룹의 평균은 유의미하게 다릅니다.')
else:
    print('두 그룹의 평균은 유의미하게 다르지 않습니다.')

검정 통계량 :  19.0
p_value :  0.2222222222222222
두 그룹의 평균은 유의미하게 다르지 않습니다.


# 정규성 검정

In [10]:
import pandas as pd
import numpy as np
from scipy import stats 

data = [2.4,2.7,3.1,3.2,3.5,3.7,3.9,4.1,4.2]

statistic,p_value = stats.shapiro(data)
print('검정 통계량 : ',t_statistic)
print('p_value : ',p_value)
if p_value < 0.05:
    print('귀무가설을 기각하지 못하며, 데이터는 정규분포를 따를 가능성이 높습니다.')
else:
    print('귀무가설을 기각하며, 데이터는 정규분포를 따르지 않을 가능성이 있습니다.')


검정 통계량 :  19.0
p_value :  0.7484769348718906
귀무가설을 기각하며, 데이터는 정규분포를 따르지 않을 가능성이 있습니다.


## 연습하기
- ### 각각의 샘플의 평균을 구하시오.
- ### 각 샘플에 대해서 정규성 테스트를 수행하시오.
- ### 샘플에 대한 (2)의 결과를 바탕으로 적절한 검정 방법을 선택하여 평균에 대한 차이가 있는지 검정을 수행하시오(유의수준은 0.05)

In [18]:
import pandas as pd
import numpy as np
from scipy import stats 

data_m = [117,108,105,89,101,93,96,108,108,94,93,112,92,91,100,96,120,86,96,95]
data_f = [121,101,102,114,103,105,101,131,96,109,109,113,115,94,108,96,110,112,120,100]

# 각각의 샘플의 평균을 구하시오.
print('남성 평균 : ',np.mean(data_m))
print('여성 평균 : ',np.mean(data_f))
# 각 샘플에 대해서 정규성 테스트를 수행하시오.
m_statistic,m_p_value = stats.shapiro(data_m)
f_statistic,f_p_value = stats.shapiro(data_f)
print(m_statistic)
print(m_p_value)
if m_p_value > 0.05:
    print('귀무가설을 기각하지 못하며, 남성 데이터는 정규분포를 따를 가능성이 높습니다.')
else:
    print('귀무가설을 기각하며, 남성 데이터는 정규분포를 따르지 않을 가능성이 있습니다.')

if f_p_value > 0.05:
    print('귀무가설을 기각하지 못하며, 여성 데이터는 정규분포를 따를 가능성이 높습니다.')
else:
    print('귀무가설을 기각하며, 여성 데이터는 정규분포를 따르지 않을 가능성이 있습니다.')

# 샘플에 대한 (2)의 결과를 바탕으로 적절한 검정 방법을 선택하여 평균에 대한 차이가 있는지 검정을 수행하시오(유의수준은 0.05)

statistic,p_value = stats.ttest_ind(data_m,data_f)
print('검정 통계량 : ',statistic)
print('p_value : ',p_value)
if p_value > 0.05:
    print('두 그룹의 평균은 유의미하게 다르지 않습니다.')
else:
    print(' 두 그룹의 평균은 유의미하게 다릅니다.')


남성 평균 :  100.0
여성 평균 :  108.0
0.9326357614973092
0.17352612045868016
귀무가설을 기각하지 못하며, 남성 데이터는 정규분포를 따를 가능성이 높습니다.
귀무가설을 기각하지 못하며, 여성 데이터는 정규분포를 따를 가능성이 높습니다.
검정 통계량 :  -2.670573872669349
p_value :  0.011082895240510138
 두 그룹의 평균은 유의미하게 다릅니다.
