In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

%precision 3

# t-검정

### 가설 검정단계

- 1단계. 가설 설정
- 2단계. 유의수준을 설정(α=0.05)
- 3단계. 검정 통계량 및 p-value 계산
- 4단계. 귀무가설 기각 여부 판단 => p-value < α 이면 귀무가설 기각

#### p-value란?

- 검정과정에서 밝혀진 유의수준

## 1. 단일표본과 모집단의 평균차이 검정

- 양측검정
    - 귀무가설($H_0$) : $ \mu = \mu_0 $
    - 대립가설($H_1$) : $ \mu \ne \mu_0 $
    
- 좌측검정
    - 귀무가설($H_0$) : $ \mu = \mu_0 $
    - 대립가설($H_1$) : $ \mu < \mu_0 $
    
- 우측검정
    - 귀무가설($H_0$) : $ \mu = \mu_0 $
    - 대립가설($H_1$) : $ \mu > \mu_0 $

### 1) one sample Z-test

- 모분산을 아는 경우
- 표본데이터가 충분히 많은 경우
- 검정통계량 : $ Z = {{\bar X - \mu} \over {\sigma \over \sqrt n }} \sim N(0,1) $ 

#### 예제.
A교수는 지난 20년 동안 1000명의 학생들을 대상으로 통계학개론을 강의하였다. 올해도 36명을 대상으로 통계학개론을 강의하고 있다고 한다. 이번 학기 학생들이 지난 과거의 학생들과 다른지 알고 싶다. 과거 1000명 학생들의 통계학
개론 평균점수는 99점이고 표준편차는 2.5이고, 이번 학기 학생들의 평균은 100, 표준편차는 5라고 한다. 이번 학기 학생들은 지난 과거 학생들과 다르다고 말할 수 있을까?

#### 가설검정 단계
1. 가설설정
- 귀무가설($H_0$) : $ \mu = 99 $
- 대립가설($H_1$) : $ \mu \ne 99 $


2. 유의수준 $\alpha = 0.05$


3. 검정통계량 계산 


4. p값 계산하여 유의수준과 비교 후 귀무가설 기각여부 판단

### 2) one sample t-test

- 모분산을 모르는 경우
- 검정통계량 : $ t = {{\bar X - \mu} \over {S \over \sqrt n }} \sim t(n-1) $ 
- 표본의 크기 커질수록 t-분포는 정규분포로 근사하므로 모분산대신에 표본분산을 사용한 one sample Z-검정과 같은 결과가 나옴

### scipy.stats의 ttest_1samp() 함수

- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html#scipy.stats.ttest_1samp

#### 문제. 초등학생 신체데이터

2018년 초등학생 키와 몸무게 자료이다. 초등학교 6학년 남학생의 평균키는 152.5라고 한다. 2018년에 표본조사된 6학년 남학생의 키는 152.5보다 큰가? 유의수준 5%에서 가설검정을 수행하시오.

## 2. 두 집단의 평균차이 검정

- 대응표본(종속관계) t-검정 
- 독립표본 t-검정

### 1) 대응표본(paired) t-test

짝지은 두 그룹의 차이값에 대한 단일표본 t-test 적용

#### 가설검정 단계

1. 데이터를 건강식품 복용전과 후의 몸무게 차이를 계산한 데이터로 변환


2. 일표본 t-test 과정으로 검정 수행
    - **scipy.stats.ttest_rel()**

#### 예제

A제약회사에서 개발한 건강식품이 체중 조절에 효과가 있는지 실험하기 위해 20명을 대상으로 건강식품 복용 전과 후의 몸무게를 측정하였다. 이 건강식품이 체중 조절에 효과가 있는가(체중이 감소되었는가)? 유의수준을 5%, 1%로 두었을 때 가설검정을 수행하시오.

In [None]:
data = np.array([[75, 73],[74, 74],[75, 76],[75, 71],[83, 76],
                 [77, 68],[82, 75],[62, 61],[77, 68],[82, 75],
                 [72, 70],[75, 71],[78, 71],[71, 70],[68, 67],
                 [76, 73],[71, 74],[54, 50],[75, 76],[77, 68]])

### 2) 독립표본 t-test

독립된 두 모집단의 평균차이 검정

#### 가설검정 단계

1. 데이터 시각화(분포분석)


2. 정규성 검정
    - shapiro-wilk test
    - 정규성 만족하지 않는 경우 비모수적 평균차이 검정 : Mann Whiteny U test
    

3. 등분산성 검정
    - Levene test


4. 검정통계량과 p값 계산하여 기각여부 판단
    - stats.ttest_ind()

#### 예제
어느 학교에서 학생들을 두 가지 교육방식 (A, B)에 의해 교육을 한 뒤 각 그룹에서 무작위로 10명씩 시험성적 표본을 얻었다. 학생들의 시험성적은 정규분포를 따르며 분산이 252으로 알려져 있다고 한다. 두 교육방식에 의한 성적 차이에 대한 95% 신뢰구간을 구하고, 두 집단 간 성적에 차이가 있는지 양측검정을 수행하시오.

In [None]:
groupA = [215, 258, 248, 270, 291, 299, 244, 265, 250, 260]
groupB = [257, 284, 305, 308, 320, 240, 248, 278, 280, 280]