### 3.8 통계적 가설검정 Statistical Hypothesis Test

In [1]:
import numpy as np
import pandas as pd
import scipy as sp

import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [2]:
junk_food = pd.Series([58.529819, 52.353038, 74.446169, 52.983263, 55.876878,
                       67.659848, 47.726140, 50.266906, 56.500825, 52.361040,
                       45.457883, 53.360987, 52.129368, 59.827772, 41.681691,
                       49.398567, 64.211128, 69.858648, 42.910563, 60.158780])
junk_food

0     58.529819
1     52.353038
2     74.446169
3     52.983263
4     55.876878
5     67.659848
6     47.726140
7     50.266906
8     56.500825
9     52.361040
10    45.457883
11    53.360987
12    52.129368
13    59.827772
14    41.681691
15    49.398567
16    64.211128
17    69.858648
18    42.910563
19    60.158780
dtype: float64

$H_{0}$ : 평균은 "50" 이다.\
$H_{1}$ : 평균은 "50" 이 아니다.

### 3.8.14 t값 계산
$t 값 = \frac{표본평균 - 비교대상값}{표준오차}$

In [3]:
# mean
mu = np.mean(junk_food).round(4)
mu

55.385

In [4]:
# dgree of freedom
df = len(junk_food)-1
df

19

In [5]:
# standard error
sigma = np.std(junk_food, ddof=1)
se = sigma / np.sqrt(len(junk_food))
sigma, se


(8.756118825186366, 1.957927691218231)

In [6]:
# t-value
t_value = (mu - 50) / se
t_value

2.7503569330741873

### t검정의 구현: p-value 계산
모집단을 정규분포라고 가정, t-value는 t-distribution을 따른다고 생각 할 수 있으므로 t분포의 누적분포함수 사용\
p-value 는 t분포의 누적분포함수(cdf) 를 사용하면 t값이 $t_{표본}$보다 작을 확률을 계산할 수 있다.\
이 확률을 $\alpha$ 라고 하면\
$p$값 $= (1-\alpha)\times 2$\
$\times$ 2 는 양측검정을 하기 위함이다. (단측검정시는 1-$\alpha$)

In [7]:
alpha = sp.stats.t.cdf(t_value, df = df)
(1-alpha) * 2

0.012725114076853172

one sample t-test

In [8]:
sp.stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.7503393890146453, pvalue=0.012725598128639918)

### 3.8.16 시뮬레이션에 의한 p값 계산
시뮬레이션으로 t값을 50000번 계산해보자.

In [9]:
# 샘플크기
size = len(junk_food)
# 표준편차
sigma = np.std(junk_food, ddof=1)

In [16]:
# 시뮬레이션 50000회를 저장할  t_value_array 준비
t_value_array = np.zeros(50000)

In [17]:
np.random.seed(1)
norm_dist = sp.stats.norm(loc=50, scale=sigma)
for i in range(50000):
    sample = norm_dist.rvs(size=size)
    sample_mean = np.mean(sample)
    sample_std = np.std(sample, ddof=1)
    sample_se = sample_std / np.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [19]:
(sum(t_value_array > t_value) / 50000) * 2

0.01324