## Case 2) 독립표본 t검정(2sample t-test)

문제 2-1
다음은 A그룹과 B그룹 인원의 혈압 데이터이다.

두 그룹의 혈압평균이 다르다고 할 수 있는지 독립표본 t검정을 실시하시오.

(유의수준 5%)

- A: A그룹 인원의 혈압, B: B그룹 인원의 혈압
- H0(귀무가설) : A = B
- H1(대립가설) : A != B

In [4]:
import pandas as pd
import numpy as np

In [5]:
#	데이터	만들기
df = pd.DataFrame({
				'A': [120,	135,	122,	124,	135,	122,	145,	160,	155,	142,	144,	135,	167],
				'B'	: [110,	132,	123,	119,	123,	115,	140,	162,	142,	138,	135,	142,	160]})
print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [6]:
# 1. 가설설정
# H0 : A그룹과 B그룹의 혈압 평균은 같다. (A = B)
# H1 : A그룹과 B그룹의 혈압 평균은 같지 않다. (A != B)

In [7]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [8]:
import scipy.stats as stats
from scipy.stats import shapiro

In [9]:
# 3. 정규성 검정
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.

statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA,4), round(pvalueA,4))
print(round(statisticB,4), round(pvalueB,4))

0.9314 0.3558
0.9498 0.5956


- p-value값이 유의수준(0.05)보다 크다. 귀무가설(H0) 채택
- 만약 하나라도 정규분포를 따르지 않는다면 비모수 검정방법을 써야 함 (윌콕슨의 순위합 검정 ranksums)

In [10]:
# 4. 등분산성 검정
# H0(귀무가설) : 등분산 한다.
# H1(대립가설) : 등분산 하지 않는다.
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic,4), round(pvalue,4))

0.0279 0.8673


- p-value 값이 유의수준(0.05) 보다 크다.
- 귀무가설(H0) 채택 => 등분산성을 따른다고 할 수 있다.

In [11]:
# 5.1 (정규성 O, 등분산성 O/X) t검정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'],
                                    equal_var = True,
                                    alternative = 'two-sided')
# 만약 등분산 하지 않으면 False로 설정
print(round(statistic,4), round(pvalue,4))

0.8192 0.4207


In [12]:
# 5.2 (정규성 X) 윌콕슨의 순위합 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

0.8462 0.3975


In [13]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설을 채택한다.
# 즉, A그룹과 B그룹의 혈압 평균은 같다고 할 수 있다.

# 답 : 채택

In [14]:
# (참고) 평균데이터 확인
print(round(df['A'].mean(), 4))
print(round(df['B'].mean(), 4))

138.9231
133.9231


문제 2-2
다음은 A그룹과 B그룹 인원의 혈압 데이터이다.

A그룹의 혈압 평균이 B그룹보다 크다고 할 수 있는지 독립표본 t검정을 실시하시오.

(유의수준 5%)

- A : A그룹 인원의 혈압, B : B그룹 인원의 혈압
- H0(귀무가설) : A - B <= 0 (or A<=B)
- H1(대립가설) : A - B > 0 (or A>B)

In [15]:
# 1. 가설설정
# H0 : A그룹의 혈압 평균이 B그룹보다 작거나 같다. (A <= B)
# H1 : A그룹의 혈압 평균이 B그룹보다 크다. (A > B)

In [16]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [17]:
# 3. 정규성 검정
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.

statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA,4), round(pvalueA,4))
print(round(statisticB,4), round(pvalueB,4))

0.9314 0.3558
0.9498 0.5956


In [18]:
# 4. 등분산성 검정
# H0(귀무가설) : 등분산 한다.
# H1(대립가설) : 등분산 하지 않는다.
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic,4), round(pvalue,4))

0.0279 0.8673


In [19]:
# 5.1 (정규성 O, 등분산성 O/X) t검정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var = True, alternative='greater')
# 만약 등분산 하지 않으면 False로 설정
print(round(statistic,4), round(pvalue,4))

0.8192 0.2104


In [20]:
# 5.2 (정규성 X) 윌콕슨의 순위합 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='greater')
print(round(statistic,4), round(pvalue,4))

0.8462 0.1987


In [21]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설을 채택한다.
# 즉, A그룹의 혈압 평균이 B그룹보다 작거나 같다고 할 수 있다.
# (A그룹의 혈압 평균이 B그룹보다 크다고 할 수 없다)

# 답 : 채택

In [22]:
# (참고) 평균데이터 확인
print(round(df['A'].mean(), 4))
print(round(df['B'].mean(), 4))

138.9231
133.9231
