# ch.3　Python을 이용한 데이터 분석

## 3.8 통계적 가설검정

### 3.8.1 통계적가설검정
통계적가설검정: 표본을 사용해서 모집단에 대한 통계적인 판단을 내리는 방법.

### 3.8.2 1변량 데이터의 t검정
첫번째 추정방법.  
t검정의 특징:  
- 대상: 평균값
- 판단하는것: 평균값이 어떤 값과 다른지 얘기할 수 있는지 여부

t검정은 1변량 데이터 이외에도 사용가능하지만 이 장에서는 1변량 데이터만을 대상으로 한다.

### 3.8.3 유의미한 차이

### 3.8.4 t검정: 직관적인 생각
t검정에서의 유의미한 차이
1. 큰 샘플에서 조사했다: 샘플의 사이즈가 크다
2. 정밀한 저울로 측정했다: 데이터의 흩어짐(분산)이 작다.
3. 중량의 평균값이 50g에서 크게 벗어난다: 평균값의 차이가 크다.
  
이 3가지 조건이 충족되었을 때 t분산의 평균값이 어떠한 값과의 유의미한 차이를 보였다고 할 수 있다.

### 3.8.5 평균값의 차이가 큰 것 만으로는 유의미한 차이를 얻을 수 있다.

샘플사이즈와 흔터짐 정도(분산)이 없는 평균값의 차이 비교는 결코 의미있는 차이라고 할 수 없다.

### 3.8.6 t값
결국 다음의 3가지 조건을 모두 만족한 지표만을 t값이라고 부를 수 있다.
1. 큰 샘플에서 조사했다: 샘플의 사이즈가 크다
2. 정밀한 저울로 측정했다: 데이터의 흩어짐(분산)이 작다.
3. 중량의 평균값이 50g에서 크게 벗어난다: 평균값의 차이가 크다.
  
t값의 계산은 아래와 같다.  
t값 = (표본평균 - 비교대상값) / (표준편차 / 샘플사이즈의 제곱근) = (표본평균 - 비교대상값) / 표준오차

### 3.8.7 통계적 가설검정의 틀: 귀무가설 대립가설

통계적 가설검정은 가설을 세워서 그 가설이 기각되는지 판단함으로써 데이터에 대한 객관적인 판단을 시도한다.  
귀무가설: 기각대상이 되는 첫번째 가설  
대립가설: 귀무가설과 대립되는 가설. 귀무가설의 여집합이라고 볼 수 있겠다.

### 3.8.8 p값
p값: 표본과 귀무가설 간의 모순을 나타내는 지표. p값이 작을수록 귀무가설과 표본이 모순된다고 생각할 수 있다.

### 3.8.9 유의수준
p값이 유의수준을 밑돌면 귀무가설을 기각한다.  
즉, 유의수준은 귀무가설을 기각하는 기준이 될 수 있는 값이라고 할 수 있다.  
유의수준은 주로 5%를 사용한다.  
다른말로 유의수준을 위험률이라고도 한다.

### 3.8.10 t검정과 t분포의 관계
t검정을 통한 비교대상값이 모평균과 같고 모집단이 정규분포라고 가정한다면, 표본의 t값은 t분포를 따르는 것이 된다.  
이때 표본에서 계산한 t값의 절대값 = t_{표본}
t_{표본}보다 t값이 작을 확률을 a라 하면
1-a는 모평균을 50이라 가정했을 때 t값이 t_표본보다 클 확률을 계산할 수 있다.
1-a가 작아지면 t값이 t_{표본}보다 클 확률이 낮다(즉, t_표본이 충분히 크다)는 말이되어 유의미한 차이를 얻을 수 있다.


  
  
    
    
    이거 무슨말인지 좀 알려줄 사람~

### 3.8.11 단측검정과 양측검정
단측검정: 주로 어떠한 값(주로 평균)이 일정한 값보다 작다는 것, 혹은 크다는 것을 알아보기 위해 사용된다.  
양측검정: 내가 구한 값이 일정한 상수 값과 '다르다'는 것을 알아보기 위한 검정 방법이다.  
주로, 통계적 가설에선 양측검정을 쓴다.

### 3.8.12 p값 계산 방법
p값=(1-a)x2

### 3.8.13 t검정의 구현: 분석 준비

In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%precision 3

%matplotlib inline

In [2]:
# 데이터 불러오기
junk_food = pd.read_csv(
    "3-8-1-junk-food-weight.csv")["weight"]
junk_food.head()

0    58.529820
1    52.353039
2    74.446169
3    52.983263
4    55.876879
Name: weight, dtype: float64

귀무가설: 봉지과자의 평균 중량은 50g이다.  
대립가설: 봉지과자의 평균 중량은 50g이 아니다.

### 3.8.14 t검정의 구현: t값 계산

In [3]:
# 표본평균
mu = np.mean(junk_food)
mu

55.385

In [4]:
# 자유도
df = len(junk_food) - 1
df

19

In [5]:
# 표준오차
sigma = np.std(junk_food, ddof = 1)
se = sigma / np.sqrt(len(junk_food))
se

1.957927680575589

In [6]:
# t값 계산
t_value = (mu - 50) / se
t_value

2.750339683171343

### 3.8.15 t검정의 구현: p값 계산

In [7]:
# p값
alpha = stats.t.cdf(t_value, df = df)
(1 - alpha) * 2

0.012725590012524046

In [8]:
# t검정
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)

statistic=2.750339683171343이 t 값, pvalue=0.012725590012524182가 p값이다.

### 3.8.16 시뮬레이션에 의한 p값 계산

In [9]:
# 샘플사이즈, 표준편차
size = len(junk_food)
sigma = np.std(junk_food, ddof = 1)

In [10]:
# 50000번 t값 계산 
t_value_array = np.zeros(50000)

In [11]:
# 평균값 50으로 설정하여 귀무가설이 옳다고 가정하고, 표본추출과 t값 계산 반복
np.random.seed(1)
norm_dist = stats.norm(loc = 50, scale = sigma)
for i in range(0, 50000):
    sample = norm_dist.rvs(size = size)
    sample_mean = np.mean(sample)
    sample_std = np.std(sample, ddof = 1)
    sample_se = sample_std / np.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [12]:
(sum(t_value_array > t_value) / 50000) * 2

0.01324

이론으로 계산한 값과 거의 일치한다.