# 표본의 평균 검정

## z-test(양측) : 모집단의 분산을 알고 있은 경우

In [2]:
import pandas as pd
import numpy as np
from scipy.stats import norm

# 예제 데이터 생성
data = np.array([23,25,28,30,26,27,29,32,31,28])

# 모집단의 평균과 분산 (표준편차)
population_mean = 28
population_variance = 4 

# 유의수준 설정
alpha = 0.05

# 단측 또는 양측 검정 선택
alternative = 'two.sided'

# 표본평균 계산
sample_mean = np.mean(data)

# 표본 크기
n = len(data)

# 검정통계량 계산( Z-검정)
test_statistic = (sample_mean - population_mean) / (np.sqrt(population_variance)/ np.sqrt(n))

# 임계값 계산 (Z-검정, 양측 검정)
critical_value = norm.ppf(1-alpha/2)

# p-값 계산(양측 검정)
p_value = 2*(1-norm.cdf(abs(test_statistic)))

# 결과 출력
print('표본평균 : ',sample_mean)
print('검정통계량 : ',test_statistic)
print('임계값 : ', critical_value)
print('p-값 : ',p_value)

# 결과 해석
if abs(test_statistic) > critical_value:
    print('귀무가설을 기각합니다. 표본평균이 평균과 다릅니다.')
else: 
    print('귀무가설을 기각하지 못합니다. 표본평균이 모집단 평균과 차이가 없을 가능성이 있습니다.')

표본평균 :  27.9
검정통계량 :  -0.15811388300842122
임계값 :  1.959963984540054
p-값 :  0.87436706116289
귀무가설을 기각하지 못합니다. 표본평균이 모집단 평균과 차이가 없을 가능성이 있습니다.


## t-test(양측) : 모집단의 분산(표준편차)를 모르는 경우

In [4]:
import pandas as pd
import numpy as np
from scipy import stats 

# 예제 데이터 생성
data = np.array([23,25,28,30,26,27,29,32,31,28])

# 유의수준 설정
alpha = 0.05

# 단측 또는 양측 검정 선택
alternative = 'two-sided'

# t-검정 수행
t_statistic,p_value= stats.ttest_1samp(data,popmean=0, alternative=alternative)

# 95% 신뢰구간 계산
confidence_interval = stats.t.interval(1-alpha,len(data)-1,loc=np.mean(data),scale=stats.sem(data))

# 결과 출력
print('t-통계량 : ',t_statistic)
print('p-값 : ',p_value)
print('95% 신뢰구간 : ', confidence_interval)

# 결과 해석
if p_value < alpha:
    print('귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.')
else:
    print('귀무가설을 기각하지 못합니다. 표본평균이 모집단 평균과 차이가 없을 가능성이 있습니다.')


t-통계량 :  31.887160448233363
p-값 :  1.4410218033665443e-10
95% 신뢰구간 :  (25.920702252679696, 29.8792977473203)
귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.


## 연습하기
### mpg 데이터에 대한 표본평균을 구하시오.(반올림하여 소수 넷쨰자리까지 계산)
### mpg 데이터에 대한 표본분산을 구하시오.(반올림하여 소수 넷째자리까지 계산)
### mpg의 평균이 20이라는 가설에 대해서 검정을 하시오. 
### mpg의 평균이 95% 신뢰구간을 구하시오. 

In [16]:
import pandas as pd
import numpy as np
from scipy import stats 
mtcars = pd.read_csv('http://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv')
# mpg 데이터에 대한 표본평균을 구하시오.(반올림하여 소수 넷쨰자리까지 계산)
means = round(mtcars['mpg'].mean(),4)
print('표본평균 : ',means)
# mpg 데이터에 대한 표본분산을 구하시오.(반올림하여 소수 넷째자리까지 계산)
variance = round(np.var(mtcars['mpg'],ddof=1),4)
print('표본분산 : ',variance)
# mpg의 평균이 20이라는 가설에 대해서 검정을 하시오. 
t_statistic,p_value = stats.ttest_1samp(mtcars['mpg'],20)
print('검정 통계량 : ',t_statistic)
print('p-value : ',p_value)
# mpg의 평균이 95% 신뢰구간을 구하시오. 

confidence_interval = stats.t.interval(0.95, len(mtcars['mpg'])-1,loc=np.mean(mtcars['mpg']),scale = stats.sem(mtcars['mpg']))
print('95% 신뢰구간 : ',confidence_interval[0],'-', confidence_interval[1])

표본평균 :  20.0906
표본분산 :  36.3241
검정 통계량 :  0.08506003568133688
p-value :  0.9327606409093872
95% 신뢰구간 :  17.91767850874625 - 22.263571491253757


In [27]:
import pandas as pd
import numpy as np
from scipy import stats 
mtcars = pd.read_csv('http://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv')
# mpg 데이터에 대한 표본평균을 구하시오.(반올림하여 소수 넷쨰자리까지 계산)
print('표본평균 : ',round(np.mean(mtcars['mpg']),4))

# mpg 데이터에 대한 표본분산을 구하시오.(반올림하여 소수 넷째자리까지 계산)
print('표본분산: ',round(np.var(mtcars['mpg'],ddof=1),4))

# mpg의 평균이 20이라는 가설에 대해서 검정을 하시오. 
t_statistic, p_value = stats.ttest_1samp(mtcars['mpg'],20)
print('검정통계량 : ',t_statistic)
print('p-value : ',p_value)
print('귀무가설을 기각할 수 없음, 평균이 20가 다르다고 할 수 없음')

# mpg의 평균이 95% 신뢰구간을 구하시오. 
confidence_interval = stats.t.interval(0.95,len(mtcars['mpg'])-1, loc = np.mean(mtcars['mpg']),scale = stats.sem(mtcars['mpg']))
print('95% 신뢰구간 : ',confidence_interval[0],'-',confidence_interval[1])

표본평균 :  20.0906
표본분산:  36.3241
검정통계량 :  0.08506003568133688
p-value :  0.9327606409093872
귀무가설을 기각할 수 없음, 평균이 20가 다르다고 할 수 없음
95% 신뢰구간 :  17.91767850874625 - 22.263571491253757
