- 통계적 가설검정은 표본을 사용해서 모집단에 대한 통계적인 판단을 내리는 방법
- 판단의 기준으로 통계적인 표현을 사용하며 간단히 검정이라고 부름
- 평균값의 차이만으로 유의미한 차이를 얻을 수 없으며 샘플사이즈와 데이터의 흩어짐 크기를 가미하는 것이 필요
- 1변량 데이터의 t검정
    - 샘플사이즈가 크고 데이터의 분산이 작고 평균값의 차이가 크다는 세가지 조건을 만족하는 지표를 t값이라고 함
    - t값 = (표본평균 - 모평균) / 표준오차
    - t값이 크면 유의미한 차이가 있다고 판단
- 귀무가설 대립가설
    - 기각 대상이 되는 첫번째 가설을 귀무가설, 귀무가설과 대립되는 가설을 대립가설이라고 함
    - 귀무가설이 기각된다면 즉 귀무가설이 틀렸다고 판단을 하면 유의미한 차이가 있다는 것임
- p값(유의확률): 표본과 귀무가설 간의 모순을 나타내는 지표
    - p값이 작을수록 귀무가설과 표본이 모순된다고 판단
- 유의수준: 귀무가설을 기각하는 기준이 되는 값
    - 유의수준은 위험률이라고 하며 5%를 사용하는 경우가 많음.


### T 검정 >> 귀무가설(영가설) : 과자의 무게는 50g이다. 

In [1]:
import pandas as pd
junk_food=pd.read_csv('../Data/5_8_jfw.csv')
jfood = junk_food['weight']

In [2]:
#표본 평균
import numpy as np
mu = np.mean(jfood)
mu

55.38496619666667

In [3]:
#자유도
df = len(jfood)-1
df

19

In [4]:
#표준 편차
sig = np.std(jfood,ddof=1)
sig

8.756118777591022

In [5]:
#표준 오차
se = sig / np.sqrt(len(jfood))
se

1.9579276805755885

In [6]:
#t value
t_value = (mu-50)/se
t_value

2.7503396831713434

In [7]:
#P value (유의확률)이 유의수준 0.05보다 작으면 귀무가설(영가설) 기각.
#현재는 양측검정. 
# (1-alpha ) * 2
from scipy import stats
alpha = stats.t.cdf(t_value, df=df)
p_value = (1-alpha)*2
p_value
# 0.012725590012524268 . 
#따라서 귀무가설 기각.
# '과자의 무게는 50g이 아니다.' 라고 할 수 있다. 

0.012725590012524268

In [8]:
# t검정 -- stats.ttest_1samp(t_value, p_value}
# 1표본 T검정.
#P value (유의확률)이 유의수준 0.05보다 작으므로 귀무가설(영가설)이 기각된다.
# '과자의 무게는 50g이 아니다.' 라고 할 수 있다. 
stats.ttest_1samp(jfood,50)

Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)

- 대응표본 t 검정 : 약을 먹기 전과 후의 체온의 차이를 보는 경우 사용
- 독립표본 t 검정 : 큰 바늘로 낚은 물고기의 길이와 작은 바늘로 낚은 물고기의 길이의 차이를 보는 경우 사용. "Welch 근사법'이라고 불리는 방법을 이용하여 p_value 를 계산. (Welch 검정)

In [9]:
pt_data = pd.read_csv("../Data/5_9_ptt.csv")
pt_data

Unnamed: 0,person,medicine,body_temperature
0,A,before,36.2
1,B,before,36.2
2,C,before,35.3
3,D,before,36.1
4,E,before,36.1
5,A,after,36.8
6,B,after,36.1
7,C,after,36.8
8,D,after,37.1
9,E,after,36.9


In [10]:
before = pt_data.query('medicine == "before"')['body_temperature']
after = pt_data.query('medicine == "after"')['body_temperature']
#배열로 변환
before = np.array(before)
after = np.array(after)
diff = after - before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

### 대응표본 t 검정

In [11]:
#평균값이 0과 다른지 검정
stats.ttest_1samp(diff,0)

#p_value = 0.044043109730074276 
#따라서 귀무가설(영가설)을 기각. 유의미한 차이가 있다고 주장할 수 있음.
#약 복용후 체온의 차이가 존재한다고 봄.

Ttest_1sampResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

### 독립표본 t 검정

In [12]:
#평균치
mean_bf = np.mean(before)
mean_af = np.mean(after)

In [13]:
#분산
sig_bf = np.var(before,ddof=1)
sig_af = np.var(after,ddof=1)

In [14]:
#sample size
m = len(before)
n = len(after)

In [15]:
#t_value
t_value = (mean_af - mean_bf) / np.sqrt((sig_bf/m+sig_af/n))

In [16]:
#p_value
# equal_var = False : 분산이 다르다고 가정한  t검정 (Welch 검정)
stats.ttest_ind(after,before,equal_var=False) #independent

#귀무가설(영가설)을 기각하고 유의미한 차이가 있다고 판단됨.

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)

- 카이제곱 검정 : 독립성 검정의 분할표 및 가설 설정 
- 귀무가설(영가설) >> 두 범주형 변수 사이에 연관이 없다. (독립)
- 대립가설 >> 두 범주형 변수 사이에 연관이 있다. (종속)



### 카이제곱 검정


In [19]:
# 두 범주형 사이의 연관성을 알아볼때 사용한다 (독립성 검정)
click_data = pd.read_csv('../Data/5_10_cd.csv')
click_data

Unnamed: 0,color,click,freq
0,blue,click,20
1,blue,not,230
2,red,click,10
3,red,not,40


In [20]:
# 분할표
cross = pd.pivot_table(data=click_data,values='freq',aggfunc='sum',index='color',columns='click')
cross

click,click,not
color,Unnamed: 1_level_1,Unnamed: 2_level_1
blue,20,230
red,10,40


In [None]:
#카이스퀘어 통계량, p_value, 자유도, 기대도수표
stats.chi2_contingency(closs,correction=False) #고정하지 않은다.