# Chapter 3. 파이썬을 이용한 데이터 분석

## 3.8 통계적가설검정

### 13. t검정의 구현

In [2]:
# 수치 계산에 사용하는 라이브러리
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리기 위한 라이브러리
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 표시자릿수 지정
%precision 3
# 그래프를 주피터 노트북에 그리기 위한 설정
%matplotlib inline

In [3]:
# 데이터로드
junk_food = pd.read_csv(
    "3-8-1-junk-food-weight.csv")["weight"]
junk_food.head()

0    58.529820
1    52.353039
2    74.446169
3    52.983263
4    55.876879
Name: weight, dtype: float64

### 14. t검정의 구현: t값 계산

In [10]:
# 표본평균
mu = np.mean(junk_food)
mu

55.385

In [11]:
# 자유도 = 샘플사이즈 - 1
df = len(junk_food) - 1
df

19

In [12]:
# 표준오차
sigma = np.std(junk_food, ddof = 1)
se = sigma / np.sqrt(len(junk_food))
se

1.957927680575589

In [13]:
# t값
t_value = (mu - 50) / se
t_value

2.750339683171343

### 15. t검정의 구현: p값 계산

In [14]:
# p값
alpha = stats.t.cdf(t_value, df = df)
(1 - alpha) * 2

0.012725590012524046

In [10]:
# t検定
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.7503396831713429, pvalue=0.012725590012524182)

### 16. 시뮬레이션에 의한 p 값 계산

In [19]:
# 표본 정보 (일부 재사용)
size = len(junk_food)
sigma = np.std(junk_food, ddof = 1)

In [20]:
# t 값을 저장하는 변수
t_value_array = np.zeros(50000)

In [None]:
# 모평균 50, 귀무 가설이 옳다고 가정하고, 표본추출과 t 값 계산을 50,000 회 반복
np.random.seed(1)
norm_dist = stats.norm(loc = 50, scale = sigma)
for i in range(0, 50000):
    sample = norm_dist.rvs(size = size)
    sample_mean = np.mean(sample)
    sample_std = np.std(sample, ddof = 1)
    sample_se = sample_std / np.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [None]:
(sum(t_value_array > t_value) / 50000) * 2