# 검정방법

 ### 1) (정규성 O) 단일표본 t검정(1sample-test)
 ### 2) (정규성 X) 윌콕슨 부호순위 검정

# 가설검정 순서

### 1. 가설설정 (문제에서 주어질 확률 높음)
### 2. 유의수준 확인 (문제에서 주어짐)
### 3. 정규성 검정 (정규성을 따를 확률 높음)
### 4. 검정실시 (통계량, pvalue 확인)
### 5. 귀무가설 기각여부 결정 (채택/기각)

## 1. mtcars 데이터셋의 평균이 20과 같다고 할 수 있는지 검정하시오 (유의수준 5%)

In [30]:
import pandas as pd
import numpy as np

In [16]:
df = pd.read_csv("mtcars.csv")
df.head(3)

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


In [17]:
# 1. mtcars 데이터셋의 mpg열의 데이터의 평균이 
# 20과 같다고 할 수 있는지 검정하시오.(유의수준 5%)

In [18]:
import scipy.stats as stats
from scipy.stats import shapiro

In [19]:
# 1. 가설검정
# H0 : mpg 열의 평균이 20과 같다.
# H1 : mpg 열의 평균이 20과 같지 않다.

In [20]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [21]:
# 3, 정규성 검정
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.

statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic,4), round(pvalue,4))

result = stats.shapiro(df['mpg'])
print(result)

0.9476 0.1229
ShapiroResult(statistic=0.9475648403167725, pvalue=0.1228824257850647)


In [22]:
# p-value 값이 유의수준(0.05)보다 크다. 귀무가설 채택(H0)
# (만약 정규분포를 따르지 않는다면 비모수 검정방법을 써야 함)(윌콕슨의 부호순위 검정))

In [25]:
# 4.1 (정규성만족0) t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean = 20, alternative = 'two-sided') # popmean : 비교할 값(20)
                                                                                          # alternative : 대립가설관련, 디폴트 'two-sided'
                                                                                          # H1 : 왼쪽값이 오른쪽값과 같지 않다.
print(round(statistic,4), round(pvalue,4))
# alternative (대립가설 H1) 옵션 : 'two-sided', 'greator', 'less'

0.0851 0.9328


In [26]:
# p-value가 0.05보다 크므로 귀무가설 채택(H0)

In [27]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-20, alternative = 'two-sided')
print(round(statistic,4), round(pvalue,4))

249.0 0.7891


In [28]:
# 5. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에(0.9328) 귀무가설을 채택한다.
# 즉, mpg열의 평균이 20과 같다고 할 수 있다.

# 답 : 채택

In [29]:
# 실제로 평균을 구해보면
df['mpg'].mean()

20.090625000000003

## 2. mtcars 데이터셋의 mpg열의 평균이 17보다 크다고 할 수 있는지 검정하시오.(유의수준 5%)

In [32]:
# 1.가설검정
# H0 : mpg 열의 평균이 17보다 작거나 같다.(mpg mean <= 17)
# H1 : mpg 열의 평균이 17보다 크다.(mpg mean > 17)

In [33]:
# 2. 유의수준 확인 : 유의수준 5% 확인

In [34]:
# 3. 정규성 검정
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic,4), round(pvalue,4))

0.9476 0.1229


In [36]:
# 4.1 (정규성만족 O) t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean = 17, alternative='greater')
print(round(statistic,4), round(pvalue,4))

2.9008 0.0034


In [40]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative = 'greater')
print(round(statistic,4), round(pvalue,4))

395.5 0.0066


In [41]:
# 5. 귀무가설 기각여부(채택/기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다(대립가설 채택)
# 즉, mpg 열의 평균이 17보다 크다고 할 수 있다.

# 답 : 기각

### 3. mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 작다고 할 수 있는지 검정하시오.(유의수준 5%)

In [42]:
# 1. 가설설정
# H0 : mpg 열의 평균이 17보다 크거나 같다.(mpg mean >= 17)
# H1 : mpg 열의 평균이 17보다 작다.

In [43]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [44]:
# 3. 정규성 검정
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic,4), round(pvalue, 4))

0.9476 0.1229


In [45]:
# 4.1 (정규성만족 O) t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean = 17, alternative='less')
print(round(statistic,4), round(pvalue,4))

2.9008 0.9966


In [46]:
# 4.2 (정규성만족 X) willcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative = 'less')
print(round(statistic,4), round(pvalue,4))

395.5 0.9938


In [None]:
# 5. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설을 채택한다.
# 즉, mpg 열의 평균이 17보다 작다고 할 수 없다.

# 답 : 채택