## 제3 유형 모집단 1개(집단의 평균 vs 특정값)

### 검정방법
1) 정규성 O -> 단일표본 t검정(1sample t-test)
2) 정규성 X -> 윌콕슨 부호순위 검정

### 가설검정 순서(중요)
1. 가설설정 : 귀무, 대립
2. 유의수준 확인 : 보통 5%. 
3. 정규성 검정 : 현재 예시문제엔 없음
4. 검정실시 : 통계량, p-value 확인. p-value가 유의수준보다 크면 귀무, 작으면 대립
5. 귀무가설 채택/기각

데이터 불러오기

In [1]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv("mtcars.csv")
df.head(3)

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


예제문제

1. mtcars 데이터셋의 mpg 열 데이터의 평균이 20과 같다고 할 수 있는지 검정하시오 (유의수준5%)

In [4]:
import scipy.stats as stats
from scipy.stats import shapiro

In [5]:
# 1. 가설설정
# H0 : mpg 열의 평균이 20과 같다.
# H1 : mpg 열의 평균이 20과 같지 않다.

In [6]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [7]:
# 3. 정규성 검정
# 단일표본 t-test를 하라는 지시가 있으면 안 해도 된다.
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

result = stats.shapiro(df['mpg'])
print(result)

0.9476 0.1229
ShapiroResult(statistic=0.9475648403167725, pvalue=0.1228824257850647)


* p-value 값이 유의수준(0.05)보다 크다. 0.1229
-> 귀무가설 (H0) 채택
* 만약 정규분포를 따르지 않는다면 비모수 검정방법을 써야 함(윌콕슨의 부호순위 검정)

In [8]:
# 4.1 (정규성만족 O) t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=20, alternative='two-sided') 
print(round(statistic,4), round(pvalue, 4))
# popmean : 평균이 얼마라고 할 것인가. 여기선 20
# alternative (대립가설 H1) 옵션 : 'two-sided' : 양측검정(default), 'greater', 'less'

0.0851 0.9328


In [9]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-20, alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

249.0 0.7891


In [10]:
# 5. 귀무가설 채택/기각
# p-value 값이 0.05보다 크기 때문에(0.9328) 귀무가설을 채택한다
# 즉,  mpg열의 평균이 20과 같다고 할 수 있다.

# 답 : 채택

In [11]:
# 실제 평균
df['mpg'].mean()

20.090625000000003

2. mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 크다고 할 수 있는지 겸정하시오.(유의수준 5%)

In [13]:
# 1. 가설설정
# H0 : mpg 열의 평균이 17보다 작거나 같다.
# H1 : mpg 열의 평균이 17보다 크다.

In [14]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [12]:
# 3. 정규성 검정
# 단일표본 t-test를 하라는 지시가 있으면 안 해도 된다.
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

0.9476 0.1229


In [15]:
# 4.1 정규성 O t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='greater') # 보다 크다.
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.0034


In [17]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='greater')
print(round(statistic,4), round(pvalue,4))

395.5 0.0066


In [18]:
# 5. 귀무가설 채택/기각
# p-value 값이 0.05보다 작기 때문에(0.0034) 귀무가설을 채택한다
# 즉,  mpg열의 평균이 17보다 크다고 할 수 없다.

# 답 : 기각

3. mtcars 데이터셋의 mpg 열 데이터의 평균이 17보다 작다고 할 수 있는지 검정하시오.(유의수준 5%)

In [19]:
# 1. 가설설정
# H0 : mpg 열의 평균이 17보다 크거나 같다.
# H1 : mpg 열의 평균이 17보다 작다.

In [20]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [21]:
# 3. 정규성 검정
# 단일표본 t-test를 하라는 지시가 있으면 안 해도 된다.
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

0.9476 0.1229


In [22]:
# 4.1 정규성 O t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='less') # 왼쪽값이 오른쪽 값보다 작다.
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.9966


In [23]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='less')
print(round(statistic,4), round(pvalue,4))

395.5 0.9938


In [None]:
# 5. 귀무가설 채택/기각
# p-value 값이 0.05보다 크기 때문에(0.9966) 귀무가설을 채택한다
# 즉,  mpg열의 평균이 17보다 작다고 할 수 없다.

# 답 : 채택

## 제3 유형 모집단 2개

### 검정방법

1. 대응표본(쌍체) : 동일한 객체의 전 vs 후 평균비교
1) 정규성 O -> 대응표본 t검정(paired t-test) : 동일한 객체의 전 vs 후 평균비교
2) 정규성 X -> 윌콕슨 부호순위 검정(wilcoxon)

2. 독립표본 : A집단의 평균 vs B집단의 평균
1) 정규성 O -> 독립표본 t검정(2sample t-test)
2) 정규성 X -> 윌콕슨의 순위합 검정(ranksums)

### 가설검정 순서(중요)

#### 1. 대응표본 t검정(paried t-test)
1. 가설설정 : 귀무, 대립
2. 유의수준 확인 : 보통 5%. 
3. 정규성 검정 : (주의) 차이값에 대한 정규성
4. 검정실시 : 통계량, p-value 확인. p-value가 유의수준보다 크면 귀무, 작으면 대립
5. 귀무가설 채택/기각

#### 2. 독립표본 t검정(2sample t-test)
1. 가설설정 : 귀무, 대립
2. 유의수준 확인 : 보통 5%. 
3. 정규성 검정 : (주의) 두 집단 모두 정규성을 따를 경우
4. 등분산 검정
5. 검정실시 : 통계량, p-value 확인. (주의) 등분산여부 확인
6. 귀무가설 채택/기각

### 예제문제

#### Case 1) 대응표본 검정(paired t-test)
문제 1-1 
다음은 혈압약을 먹은 전, 후의 혈압 데이터이다.

혈압약을 먹기 전, 후의 차이가 있는지 쌍체 t 검정을 실시하시오.

(유의수준 5%)
* before : 혈압약을 먹기 전 혈압, after : 혈압약을 먹은 후의 혈압
* H0(귀무가설) : after - before == 0
* H1(대립가설) : after - before =/=0

In [24]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

In [30]:
# 데이터 만들기
df = pd.DataFrame({
    'before': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'after' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160]
})
print(df.head(3))

   before  after
0     120    110
1     135    132
2     122    123


In [31]:
# 1. 가설설정
# H0 : 약을 먹기 전과 먹은 후의 혈압 평균은 같다.(효과없음)
# H1 : 약을 먹기 전과 먹은 후의 혈압 평균은 같지 않다.(효과있음)

In [32]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [33]:
# 3. 정규성 검정
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))
# p-value가 유의수준(0.05)보다 크니 귀무가설 채택(정규분포를 따른다.)

0.9589 0.7363


In [35]:
# 4.1 정규성 O t-검정 실시
statistic, pvalue = stats.ttest_rel(df['after'], df['before'], alternative='two-sided') # 왼쪽값이 오른쪽 값보다 작다.
print(round(statistic, 4), round(pvalue, 4))

-3.1382 0.0086


In [36]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'], alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

11.0 0.0134


In [37]:
# 5. 귀무가설 채택/기각
# p-value 값이 0.05보다 작기 때문에(0.0086) 귀무가설을 기각한다.
# 즉, 약을 먹기 전과 먹은 후의 혈압 평균은 같지 않다(효과가 있다)

# 답 : 기각

문제 1-2
다음은 혈압약을 먹은 전, 후의 데이터이다.
혈압약을 먹은 후 혈압이 감소했는지 확인하기 위해 쌍체 t검정을 실시하시오.

(유의수준 5%)
* before : 혈압약을 먹기 전 혈압, after : 혈압약을 먹은 후의 혈압
* H0(귀무가설) : after - before >= 0
* H1(대립가설) : after - before < 0

In [38]:
# 데이터 만들기
df = pd.DataFrame({
    'before': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'after' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160]
})
print(df.head(3))

   before  after
0     120    110
1     135    132
2     122    123


In [39]:
# 1. 가설설정
# H0 : 약을 먹기 전보다 먹은 후의 혈압이 같거나 증가했다.(효과없음)
# H1 : 약을 먹기 전보다 먹은 후의 혈압이 작다.(효과있음)

In [40]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [41]:
# 3. 정규성 검정
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))
# p-value가 유의수준(0.05)보다 크니 귀무가설 채택(정규분포를 따른다.)

0.9589 0.7363


In [42]:
# 4.1 정규성 O t-검정 실시
statistic, pvalue = stats.ttest_rel(df['after'], df['before'], alternative='less') # 왼쪽값이 오른쪽 값보다 작다.
print(round(statistic, 4), round(pvalue, 4))

-3.1382 0.0043


In [43]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'], alternative='less')
print(round(statistic,4), round(pvalue,4))

11.0 0.0067


In [None]:
# 5. 귀무가설 채택/기각
# p-value 값이 0.05보다 작기 때문에(0.0043) 귀무가설을 기각한다.
# 즉, 약을 먹은 후의 혈압이 감소했다고 할 수 없다.

# 답 : 기각

#### 독립표본 t검정(2sample t-test)

문제 2-1
다음은 A그룹과 B그룹 인원의 혈압데이터이다.

두 그룹의 혈압 평균이 다르다고 할 수 있는지 독립표본 t검정을 실시하시오.

(유의수준5%)
* A : A그룹 인원의 혈압
* B : B그룹 인원의 혈압
* H0 : A == B
* H1 : A =/= B

In [57]:
# 데이터 만들기
df = pd.DataFrame({
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160]
})
print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [58]:
# 1. 가설설정
# H0 : A그룹과 B그룹의 혈압 평균은 같다.(A == B)
# H1 : A그룹과 B그룹의 혈압 평균은 다르다.(A =/= B)

In [59]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [60]:
# 3. 정규성 검정
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.
statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])

print(round(statisticA,4), round(pvalueA,4))
print(round(statisticB,4), round(pvalueB,4))
# p-value가 유의수준(0.05)보다 크니 귀무가설 채택(정규분포를 따른다.)
# 둘 중 하나라도 따르지 않는다면 윌콕슨을 써야 함

0.9314 0.3559
0.9498 0.5956


In [61]:
# 4. 등분산성 검정
# H0 : 등분산한다.
# H1 : 등분산하지 않는다.
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic,4), round(pvalue,4))
# p-value가 유의수준(0.05)보다 크니 귀무가설 채택(등분산성을 따른다.)

0.0279 0.8673


In [63]:
# 5.1 정규성 O t-검정 실시
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True, alternative='two-sided') # 등분산하지 않으면 False.
print(round(statistic, 4), round(pvalue, 4))

0.8192 0.4207


In [64]:
# 5.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

0.8462 0.3975


In [65]:
# 6. 귀무가설 채택/기각
# p-value 값이 0.05보다 크기 때문에(0.4207) 귀무가설을 채택한다.
# 즉, A그룹과 B그룹의 혈압 평균은 같다고 할 수 있다.

# 답 : 채택

In [66]:
# (참고) 평균 확인
print(round(df['A'].mean(),4))
print(round(df['B'].mean(),4))

138.9231
133.9231


문제 2-2
다음은 A그룹과 B그룹 인원의 혈압데이터이다.

A 그룹의 혈압 평균이 B그룹보다 크다고 할 수 있는지 독립표본 t검정을 실시하시오.

(유의수준5%)
* A : A그룹 인원의 혈압
* B : B그룹 인원의 혈압
* H0 : A - B <= 0
* H1 : A - B > 0

In [67]:
# 데이터 만들기
df = pd.DataFrame({
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160]
})
print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [70]:
# 1. 가설설정
# H0 : A그룹의 혈압 평균이 B그룹보다 작거나 같다.(A <= B)
# H1 : A그룹의 혈압 평균이 B그룹보다 크다.(A > B)

In [71]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [72]:
# 3. 정규성 검정
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.
statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])

print(round(statisticA,4), round(pvalueA,4))
print(round(statisticB,4), round(pvalueB,4))
# p-value가 유의수준(0.05)보다 크니 귀무가설 채택(정규분포를 따른다.)
# 둘 중 하나라도 따르지 않는다면 윌콕슨을 써야 함

0.9314 0.3559
0.9498 0.5956


In [73]:
# 4. 등분산성 검정
# H0 : 등분산한다.
# H1 : 등분산하지 않는다.
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic,4), round(pvalue,4))
# p-value가 유의수준(0.05)보다 크니 귀무가설 채택(등분산성을 따른다.)

0.0279 0.8673


In [74]:
# 5.1 정규성 O t-검정 실시
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True, alternative='greater') # 등분산하지 않으면 False.
print(round(statistic, 4), round(pvalue, 4))

0.8192 0.2104


In [75]:
# 5.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='greater')
print(round(statistic,4), round(pvalue,4))

0.8462 0.1987


In [76]:
# 6. 귀무가설 채택/기각
# p-value 값이 0.05보다 크기 때문에(0.2104) 귀무가설을 채택한다.
# 즉, A그룹의 혈압 평균이 B그룹보다 작거나 같다고 할 수 있다.

# 답 : 채택

In [77]:
# (참고) 평균 확인
print(round(df['A'].mean(),4))
print(round(df['B'].mean(),4))

138.9231
133.9231
