# 표본의 평균 가설 검정

## 모집단의 분산(표본편차)을 알고 있을 경우: Z-test

In [9]:
import numpy as np
from scipy.stats import norm

# 표본 평균 예제 데이터
data = np.array([23,25,28,30,26,27,29,32,31,28])

# 모집단의 평균과 분산
population_mean = 28
population_var = 4

# 유의수준 설정
alpha = 0.05

# 단측 또는 양측 검정 선택
alternative = "two.sided"

# 표본 평균 계산
sample_mean = np.mean(data)

# 표본의 크기
n = len(data)

# 검정통계량 계산(Z-test)
test_statistic = (sample_mean - population_mean) / (np.sqrt(population_var)/np.sqrt(n))

# 임계값 계산
critical_value = norm.ppf(1 - alpha/2) # 상위 1 - aloha/2 값 위치 반환

# p-값 계산
p_value = 2 * (1 - norm.cdf(abs(test_statistic))) # p_value(귀무가설 입증확률) < alpha(귀무가설 기각 확률) : 기각

# 결과출력
print(f"검정동계량{test_statistic}")
print(f'임계값{critical_value}')
print(f'p-값:{p_value}')

if abs(test_statistic) > critical_value :
  print("귀무가설을 기각합니다.& 표본평균이 모집단 평균과 다릅니다.")
else:
  print("귀무가설을 기각하지 못합니다.(채택) & 표본평균이 모딥단과 같습니다.")

검정동계량-0.15811388300842122
임계값1.959963984540054
p-값:0.87436706116289
귀무가설을 기각하지 못합니다.(채택) & 표본평균이 모딥단과 같습니다.


## 모집단의 분산(표준편차)를 모르는 경우: T-test

In [20]:
import numpy as np
from scipy import stats

data = np.array([23,25,28,30,26,27,29,32,31,28])

alpha = 0.05

alternative = "two-sided"

# t-검점 수행
t_statistic,p_value = stats.ttest_1samp(data,popmean=0,alternative=alternative) # 단일 표본검정 & popmean+0: 가설검정에서 비교할 모집단의 평균

# 95% 신뢰구간
confidence_interval = stats.t.interval(1-alpha , len(data)-1, loc= np.mean(data), scale= stats.sem(data)) # sem(data): 표준오차, 상한 하한의 신뢰구간 정리

# 결과 출력
print("t-통계량:",t_statistic)
print("p_값:",p_value)
print("95% 신뢰구간:",confidence_interval)

# 결과 해석
if p_value < alpha :
  print("귀무가설을 기각합니다. 표본평균이 모집단의 평균과 다릅니다.") #1. 통계량이 신뢰구간 밖에 위치하므로 기각. 2. p_값이 유의수준보다 작으므로 기각.
else:
  print("귀무가설을 기각하지 못합니다. 표본평균이 모집단의 평균과 같습니다.")

t-통계량: 31.887160448233363
p_값: 1.4410218033665443e-10
95% 신뢰구간: (np.float64(25.920702252679696), np.float64(29.8792977473203))
귀무가설을 기각합니다. 표본평균이 모집단의 평균과 다릅니다.


# 실습 따라하기

mtcars data를 활용하여 다음 아래에 물음에 답하시오.

1. mpg 데이터에 대한 표본평균을 구하시오.(반올림하여 소숫점 넷째자리까지)
2. mpg 데이터에 대한 표본분산을 구하시오.(반올림하여 소숮점 넷째자리까지)
3. mpg 평균이 20이라는 가설에 대해서 검정하시오.
4. mpg 펼균의 95% 신뢰구간을 구하시오.

데이터: https://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv

In [23]:
import pandas as pd
import numpy as np
from scipy import stats

In [24]:
 df_car = pd.read_csv("https://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv")

 df_car

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [33]:
sample_mean = np.mean(df_car['mpg'])
sam_mean = round(sample_mean,4)
sam_mean

np.float64(20.0906)

In [38]:
sample_var = np.var(df_car['mpg'],ddof = 1) # ddof는 표본분산을 뜻함.
sam_var = round(sample_var,4)
sam_var

36.3241

In [41]:
# 모집단의 분산이 나와있지 않아서 t검정수행
t_statistic,p_value = stats.ttest_1samp(df_car['mpg'],popmean=20,alternative="two-sided")

alpha = 0.05

print(p_value)

if p_value > alpha :
  print("귀무가설을 기각하지 못합니다.따라서 평균이 20이라고 할 수 있습니다")
else:
  print("귀무가설을 기각합니다. 따라서 평균이 20이라고 할 수 없습니다.")

0.9327606409093872
귀무가설을 기각하지 못합니다.따라서 평균이 20이라고 할 수 있습니다


In [42]:
confidence_interval = stats.t.interval(0.95, len(df_car["mpg"])-1,loc = sam_mean,scale=stats.sem(df_car['mpg'])) # 1-유의수준, 자유도, 표본평균, 표본오차
confidence_interval # 신뢰구간이 95% 구간임. 유의수준은 5% 구간.

(np.float64(17.91765350874624), np.float64(22.263546491253756))

In [43]:
t_statistic

np.float64(0.08506003568133688)

### 헷갈린 포인트

❗신뢰구간과 통계량은 다른 비교값이다.
-> 즉, 신뢰구간은 실제 모평균의 가능한 값의 범위이다.

예) 17-22 사이 신뢰구간은 실제 모평균이 17-22 사이 값과 같다고 할 수 있다.

따라서 현재 모평균이 20이라는 가설을 가지고 있고 신뢰구간 사이에 있으므로 귀무가설을 기각할 수 없다.= 모평균은 20이라고 할 수 있다.

❗통계량은 임계값과 비교하는 것
여기서 임계값은? 자유도가 n-1, 유의수준이 0.05인 t분포표에서 찾을 수 있고

이와 비교하여 통계값이 높으면 기각하지 못함.

❗p_value와 유의수준을 비교
p < alpha : 기각