In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
%precision 3

'%.3f'

In [2]:
junk_food = pd.read_csv("./sample/3-8-1-junk-food-weight.csv")["weight"]
junk_food

0     58.529820
1     52.353039
2     74.446169
3     52.983263
4     55.876879
5     67.659849
6     47.726141
7     50.266907
8     56.500826
9     52.361040
10    45.457883
11    53.360988
12    52.129368
13    59.827773
14    41.681692
15    49.398568
16    64.211128
17    69.858648
18    42.910564
19    60.158780
Name: weight, dtype: float64

### t검정의 구현
- 귀무가설 : 봉지과자의 평균중량은 50g이다.
- 대립가설 : 봉지과자의 평균중량은 50g이 아니다.

In [3]:
mu = np.mean(junk_food)
mu

55.38496619666667

In [4]:
df = len(junk_food) - 1
df

19

In [5]:
sigma = np.std(junk_food, ddof=1)
se = sigma / np.sqrt(len(junk_food))
se

1.9579276805755885

In [6]:
t_value = (mu - 50) / se
t_value

2.7503396831713434

### p값 계산
- 모집단을 정규분포로 가정했을 때, t값은 t분포를 따른다고 할 수 있다.
- t분포의 누적분포함수를 활용할 수 있다.
- p값의 계산은 t분포의 누적분포함수에 모평균을 50이라고 가정하고 t값이 t표본보다 작을 확률을 계산
- 이 확률을 'Alpha'라고 합니다. (1 - Alpha)를 구하면 t값이 t표본보다 클 확률을 계산할 수 있습니다.

In [7]:
alpha = stats.t.cdf(t_value, df=df)
(1 - alpha) * 2

0.012725590012524268

In [8]:
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)

### 시뮬레이션에 의한 p값 계산
- p값은 귀무가설이 옳다고 가정한 뒤 몇 번이고 표본추출을 하고 t값을 계산반복했을 때
- t표본과 그보다 큰 t값을 얻는 비율이라고 해석할 수 있습니다.

In [9]:
size = len(junk_food)
sigma = np.std(junk_food, ddof=1)

In [10]:
t_value_array = np.zeros(50000)

In [11]:
np.random.seed(1)
norm_dist = stats.norm(loc=50, scale=sigma)
for i in range(0, 50000):
    sample = norm_dist.rvs(size=size)
    sample_mean = np.mean(sample)
    sample_std = np.std(sample, ddof=1)
    sample_se = sample_std / np.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [12]:
(sum(t_value_array > t_value) / 50000) * 2

0.01324