
## 제 3유형 - 모집단 1개 (집단의 평균 VS 특정값)

### 검정방법
#### 1) (정규성 O) 단일표본 t 검정 (1 sample t test) **
#### 2) (정규성 X) 윌콕슨 부호순위 검정 - 비모수 검정

### 가설 검정 순서  **
#### 1. 가설 설정
#### 2. 유의수준 확인
#### 3. 정규성 검정
###### - 원래는 정규성 검정을 해야하는데,
#### 4. 검정 실시(통계량, p-value 확인)
#### 5. 귀무가설 기각 여부 결정(채택 / 기각)

### 데이터 불러오기

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 데이터 불러오기
df = pd.read_csv('mtcars.csv')
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## 예제 문제
### 1. mtcars 데이터셋의 mpg 열 데이터의 평균이 20과 같다고 할 수 있는지 검정하시오. (유의수준 5%)

In [3]:
import scipy.stats as stats  # 사이파이의 스탯츠
from scipy.stats import shapiro  # 사피로 - 정규성 검증

In [None]:
# 1. 가설 검정
## H0 : mpg 열의 평균이 20과 같다.
## H1 : mpg 열의 평균이 20과 같지 않다.

In [None]:
# 2. 유의수준 확인 : 5%

In [5]:
# 3. 정규성 검정
## H0(귀무가설) : 정규분포를 따른다.
## H1(대립가설) : 정규분포를 따르지 않는다.

statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

result = stats.shapiro(df['mpg'])
print(result)

0.9476 0.1229
ShapiroResult(statistic=0.9475648403167725, pvalue=0.1228824257850647)


##### - p-value 값이 유의수준 0.05 보다 크다. = 귀무가설 H0 채택
##### - 만약 정규분포를 따르지 않는다면, 비모수 검정방법을 써야함(윌콕슨의 부호순위 검정)

In [7]:
# 4.1 (정규성 만족) - t 검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=20, alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))
# 비교 데이터(mpg 데이터), popmean(어떤 값이랑 비교할것인지), alternative(대립가설, 20과 같지 않다 = 양측검정을 할거다(default 값))
# H1 : 왼쪽값과 오른쪽 값이 같지 않다.
# alternative (대립가설 H1 옵션) : 'two-sided', 'greater', 'less'
# 유의수준보다 p-value가 더 클 경우 귀무 가설 채택 !!

0.0851 0.9328


In [9]:
# 4.2 (정규성 만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-20, alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

249.0 0.7891


In [10]:
# 귀무가설 기각여부 결정 (채택, 기각)
# pvalue rkqtdl 0.05보다 크기 때문에, 귀무가설을 채택한다.
# 즉, mpg 열의 평균이 20과 같다고 할 수 있다.

# 답: 채택

# 실제로 mpg 열의 평균을 구해보면
print(df['mpg'].mean())

20.090625000000003


### 2. mtcars 데이터셋의 mpg 열 데이터의 평균이 17보다 크다고 할 수 있는지 검정하시오. (유의수준 5%)

#### *** 단측검정 - 문제의 의미를 잘 파악해야 함.

In [17]:
# 1. 귀무가설, 대립가설 확인
## H0 : mpg 열 데이터 평균이 17보다 작거나 같다. (mpg_mean <= 17)
## H1 : mpg 열 데이터 평균이 17보다 크다. (mpg_mean > 17)

In [None]:
# 2. 유의수준 확인 : 5%

In [12]:
# 3. 정규성 검증

import scipy.stats as stats

statistic, pvalue = stats.shapiro(df['mpg'])
print(statistic, pvalue)

# pvalue 값이 0.05보다 크기 때문에 데이터는 정규분포를 따른다.

0.9475648403167725 0.1228824257850647


In [18]:
# 4.1 정규성 검정 - 1 sample t test
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean = 17, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.0034


In [19]:
# 4.2 정규성 검정 X - wilcoxon
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

395.5 0.0066


In [None]:
# 5. 귀무가설 채택, 기각 여부
## 귀무가설 기각, pvalue 0.05보다 작음.
## 즉, mpg 값의 평균이 17보다 크다고 할 수 있음

### 3. mtcars 데이터셋의 mpg 열 데이터 평균이 17보다 작다고 할 수 있는지 검정하시오. (유의수준 5%)

In [None]:
# 1. 귀무가설, 대립가설 확인
## H0 : mpg 열 데이터 평균이 17보다 크거나 같다.
## H1 : mpg 열 데이터 평균이 17보다 작다.

In [None]:
# 2. 유의수준 확인 : 5%

In [20]:
# 3. 정규성 검정 - 정규분포를 따르는지
import scipy.stats as stats
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

# pvalue가 0.05가 넘기 때문에 정규분포를 따른다고 볼 수 있음.

0.9476 0.1229


In [22]:
# 4.1 정규성 만족 - 1 sample t test
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='less')
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.9966


In [23]:
# 4.2 정규성 만족 X - wilcoxon
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='less')
print(round(statistic, 4), round(pvalue, 4))

395.5 0.9938


In [None]:
# 귀무가설 채택 / 기각 : pvalue 값이 0.05보다 크기 때문에 귀무가설 채택

# 제 3유형 - 모집단 2개

## 검정 방법
### 1. 대응표본(쌍체) : 동일한 객체의 전 vs 후 평균 비교
##### - (정규성 O) 대응표본(쌍체) t 검정 (paired t-test) : 동일한 객체의 전 vs 후 평균 비교
##### - (정규성 X) 윌콕슨 부호 순위 검정(wilcoxon)

### 2. 독립표본 : A 집단의 평균 vs B 집단의 평균
##### - (정규성 O) 독립표본 t 검정 (2sample test)
##### - (정규성 X) 윌콕슨의 순위합 검정(ranksums)

## 가설 검정 순서 **

### (1) 대응표본(쌍체) t 검정 (paired t-test)
#### 1. 가설 설정
#### 2. 유의수준 확인
#### 3. 정규성 검정 **(주의) 차이값에 대한 정규성
##### - 전 데이터(before) / 후 데이터(after)), before - after 인지 after - before인지는 문제에서 주어짐 !
#### 4. 검정 실시 (통계량, pvalue 확인)
#### 5. 귀무가설 기각 여부 결정 (채택/기각)

### (2) 독립표본 t 검정 (2 sample t test)
#### 1. 가설 설정
#### 2. 유의수준 확인
#### 3. 정규성 검정 ** (주의) 두 집단 모두 정규성을 따를 경우 !!
#### 4. 등분산 검정
#### 5. 검정 실시(통계량, pvalue 확인) **(주의) 등분산 여부 확인
#### 6. 귀무가설 기각 여부 결정 (채택/기각)

## 예제 문제

### Case 1) 대응 표본(쌍체) t 검정 (paired t-test)

문제 1-1
다음은 혈압약을 먹은 전 / 후의 혈압 데이터이다.
혈압약을 먹기 전, 후의 차이가 있는지 쌍체 t 검정을 실시하시오.

(유의수준 5%)
- before : 혈압약을 먹기 전 혈압, after : 혈압약을 먹은 후의 혈압
- H0(귀무가설) : after - before = 0
- H1(대립가설) : after - before != 0

In [26]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

In [27]:
# 데이터 만들기
df = pd.DataFrame( {
'before': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
'after' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] })
print(df.head(3))

   before  after
0     120    110
1     135    132
2     122    123


In [None]:
# 1. 가설 검정
# H0 : 약을 먹기 전과 먹은 후의 혈압 평균은 같다. (효과가 없다)
# H1 : 약을 먹기 전과 먹은 후의 혈압 평균은 같지 않다. (효과가 있다)

In [None]:
# 2. 유의수준 확인 : 5%

In [28]:
# 3. 정규성 검정
# p value의 값이 유의수준 0.05보다 크다, 귀무가설 H0 채택
# (정규성 검정의 H0 : 정규분포를 따른다.)
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))

0.9589 0.7363


In [29]:
# 4.1 (정규성 O) 대응표본 (쌍체) t 검정 (paired t test)
statistic, pvalue = stats.ttest_rel(df['after'], df['before'],alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

-3.1382 0.0086


In [30]:
# 4.2 (정규성 X) wilcoxon 부호 순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))

11.0 0.0134


In [None]:
# 5. 귀무가설 기각 여부 결정 (채택 / 기각)
# p-value 값이 0.05 미만이므로 귀무가설을 기각함.
# 즉, 약을 먹기 전과 먹은 후의 혈압 평균은 같지 않다. (효과가 있다)
# 답: 기각

문제 1-2
다음은 혈압약을 먹은 전, 후의 혈압 데이터이다.
혈압약을 먹은 후 혈압이 감소했는지 확인하기 위해 쌍체 t 검정을 실시하시오.

(유의수준 5%)
- before : 혈압약을 먹기 전 혈압, after : 혈압약을 먹은 후의 혈압
- H0 (귀무가설) : after - before >= 0
- H1 (대립가설) : after - before < 0

In [31]:
# 데이터 만들기
df = pd.DataFrame( {
'before': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
'after' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] })
print(df.head(3))

   before  after
0     120    110
1     135    132
2     122    123


In [None]:
# 1. 가설정리
## H0 : 혈압약을 먹은 후 혈압은 같거나 증가했다.
## H1 : 혈압약을 먹은 후 혈압은 감소했다.

In [None]:
# 2. 유의수준 확인 : 5%

In [33]:
# 3. 정규성 검정
import scipy.stats as stats
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))

0.9589 0.7363


In [34]:
# 4.1 (정규성 만족)
statistic, pvalue = stats.ttest_rel(df['after'], df['before'], alternative='less')
print(round(statistic, 4), round(pvalue, 4))

-3.1382 0.0043


In [35]:
# 4.2 (정규성 만족 X)
statistic, pvalue = stats.wilcoxon(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))

11.0 0.0134


In [None]:
# 5. 귀무가설 채택여부 결정
# pvalue 값이 0.05보다 작기 때문에 귀무가설 기각.

### Case 2) 독립표본 t 검정 (2 sample t-test)

문제 2-1
다음은 A 그룹과 B그룹 인원의 혈압 데이터이다.
두 그룹의 혈압 평균이 다르다고 할 수 있는지 독립표본 t 검정을 실시하시오.

(유의수준 5%)
- A: A 그룹의 인원의 혈압, B: B 그룹 인원의 혈압
- H0: 귀무가설, A = B
- H1: 대립가설, A != B

In [36]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

# 데이터 만들기
df = pd.DataFrame( {
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] })
print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [None]:
# 1. 가설 설정
## H0 : A 집단과 B 집단의 혈압은 같다.
## H1 : A 집단과 B 집단의 혈압은 같지 않다.

In [None]:
# 2. 유의수준 확인 : 5%

In [37]:
# 3. 정규성 검정
statisticA, pvalueA = stats.shapiro(df['A'])
print(round(statisticA, 4), round(pvalueA, 4))

0.9314 0.3559


In [38]:
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticB, 4), round(pvalueB, 4))

0.9498 0.5956


In [None]:
# pvalue 값이 유의수준보다 크다.
# 만약 하나라도 정규분포를 따르지 않는다면, 비모수 검정 방법을 써야함 (윌콕슨의 순위합 검정 ranksums)

In [39]:
# 4. 등분산성 검정
## H0 : 등분산 한다.
## H1 : 등분산 하지 않는다.
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic, 4), round(pvalue, 4))

0.0279 0.8673


In [None]:
# pvalue 값이 유의수준 0.05보다 크다.
# 대립가설 채택 -> 등분산성을 따른다고 할 수 있다.

In [42]:
# 5.1 정규성 O, 등분산성 O/X -> t 검정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True)
# 만약 등분산 하지 않으면 equal_var=False로 설정
print(round(statistic, 4), round(pvalue, 4))

0.8192 0.4207


In [43]:
# 5.2 정규성 X, 윌콕슨의 순위합 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative="two-sided")
print(round(statistic, 4), round(pvalue, 4))

0.8462 0.3975


In [None]:
# 6. 귀무가설 채댁/기각 여부 결정
# p-value 값이 0.05보다 크기 때문에 귀무가설 채택
# 즉, A 그룹과 B 그룹의 혈압 평균은 같다고 할 수 있다.

# 답: 채택

문제 2-2
다음은 A그룹과 B그룹 인원의 혈압 데이터이다.
A그룹의 혈압 평균이 B그룹보다 크다고 할 수 있는지 독립표본 t검정을 실시하시오.

(유의수준 5%)
- A: A 그룹 인원의 혈압, B: B 그룹 인원이 혈압
- H0(귀무가설) : A - B <= 0 ( or A <= B)
- H1(대립가설) : A - B > 0 ( or A > B)

In [44]:
df = pd.DataFrame( {
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160] })
print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [None]:
# 1. 가설 설정
## H0: A 그룹의 혈압이 B 그룹 혈압보다 작거나 같다.
## H1: A 그룳의 혈압이 B 그룹의 혈압보다 크다.

In [None]:
# 2. 유의수준 확인 : 5%

In [45]:
# 3. 정규성 검증
import scipy.stats as stats
statisticA, pvalueA = stats.shapiro(df['A'])
print(round(statisticA, 4), round(pvalueA, 4))

statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticB, 4), round(pvalueB, 4))

0.9314 0.3559
0.9498 0.5956


In [None]:
# 둘 다 0.05 유의수준 이상이므로 정규분포 따른다고 볼 수 있음

In [46]:
# 4. 등분산 검증 - H0 (등분산 따른다) / H1 (등분산 따르지 않는다)
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic, 4), round(pvalue, 4))

0.0279 0.8673


In [47]:
# 5. 정규성 만족 + 등분산 만족
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

0.8192 0.2104


In [48]:
# 5. 정규성 만족 X
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

0.8462 0.1987
