# Chapter 3. 파이썬을 이용한 데이터 분석

## 3.8 통계적가설검정(=검정)

- 표본을 사용해서 모집단에 관한 통계적인 판단을 내리는 방법


- t값
    - (표본평균 - 비교대상값) / 표준오차
    
    
- p값
    - 표본과 귀무가설간의 모순을 나타내는 지표
    - p값이 작을수룩 귀무가설과 표본이 모순됨

----------
1. 가설설정
     - 귀무가설: 봉지과자의 평균중량은 50g인다
     - 대립가설: 봉지과자의 평균중량은 50g이 아니다
 
 
 2. 유의수준 설정
     - 5%
     - p값이 0.05보다 낮으면 귀무가설 기각, 대립가설 채택
     
     
 3. 검정 통계량(t) 및 유의확률(p-value) 계산
 
 
 4. 기각 여부 판단 및 의사결정 
     - p값 < 유의수준: 대랍가설 채택
     - p값 > 유의수준: 귀무가설 채택
 
 ----------


### 3.8.13. t검정의 구현

In [1]:
# 수치 계산에 사용하는 라이브러리
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리기 위한 라이브러리
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 표시자릿수 지정
%precision 3
# 그래프를 주피터 노트북에 그리기 위한 설정
%matplotlib inline

In [2]:
# 데이터로드
junk_food = pd.read_csv(
    "3-8-1-junk-food-weight.csv")["weight"]
junk_food.head()

0    58.529820
1    52.353039
2    74.446169
3    52.983263
4    55.876879
Name: weight, dtype: float64

### 3.8.14. t검정의 구현: t값 계산

In [4]:
# 표본평균
mu = np.mean(junk_food)
mu

55.385

In [5]:
# 자유도 = 샘플사이즈 - 1
df = len(junk_food) - 1
df

19

In [6]:
# 표준오차
sigma = np.std(junk_food, ddof = 1)
se = sigma / np.sqrt(len(junk_food))
se

1.957927680575589

In [7]:
# t값
t_value = (mu - 50) / se
t_value

2.750339683171343

### 3.8.15. t검정의 구현: p값 계산

In [8]:
# p값
alpha = stats.t.cdf(t_value, df = df)
(1 - alpha) * 2

0.012725590012524046

In [9]:
# t검정
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)

### 3.8.16. 시뮬레이션에 의한 p 값 계산

In [10]:
# 표본 정보 (일부 재사용)
size = len(junk_food)
sigma = np.std(junk_food, ddof = 1)

In [11]:
# t 값을 저장하는 변수
t_value_array = np.zeros(50000)

In [12]:
# 모평균 50, 귀무 가설이 옳다고 가정하고, 표본추출과 t 값 계산을 50,000 회 반복
np.random.seed(1)
norm_dist = stats.norm(loc = 50, scale = sigma)
for i in range(0, 50000):
    sample = norm_dist.rvs(size = size)
    sample_mean = np.mean(sample)
    sample_std = np.std(sample, ddof = 1)
    sample_se = sample_std / np.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [13]:
(sum(t_value_array > t_value) / 50000) * 2

0.01324

## [정리]


1. 가설설정
   - 귀무가설: 봉지과자의 평균중량은 50g인다
   - 대립가설: 봉지과자의 평균중량은 50g이 아니다


2. 유의수준 설정
   - 5%
   - p값이 0.05보다 낮으면 귀무가설 기각, 대립가설 채택  


3. 검정 통계량(t) 및 유의확률(p-value) 계산
    - t 검정: stats.**ttest_1samp**(junk_food, 50)
    

4. 기각 여부 판단 및 의사결정
   - p값 < 유의수준: 대랍가설 채택
   - p값 > 유의수준: 귀무가설 채택