# [ PART 03. 통계분석 ] - 2장. T-검정(T-test)

## T-test 의 단계

(0-1) 정규성 검정  
(0-2) 등분산 검정 (독립표본 T-test 일 경우)  
.  
(1) 가설 설정  
(2) 유의수준 설정  
(3) 검정통계량의 값 및 유의확률 계산  
(4) 귀무가설의 기각여부 판단 및 의사결정

## 1. 단일표본 T-검정 (One Sample T-Test)

- 단일 모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자 할 때 사용하는 검정방법

### 1.1. 정규성 검정
< 가설 설정 - 정규성 검정 >
- 귀무가설(H0) : 데이터가 정규분포를 따른다.
- 대립가설(H1) : 데이터가 정규분포를 따르지 않는다.

< 유의수준은 0.05 로 설정 >

In [1]:
## 1) cats 데이터 확인 및 Bwt변수에 대한 정규성 검정 수행

# cats데이터를 사용하기 위해 MASS 패키지 로드
library(MASS)

# cats데이터의 구조 확인
str(cats)

'data.frame':	144 obs. of  3 variables:
 $ Sex: Factor w/ 2 levels "F","M": 1 1 1 1 1 1 1 1 1 1 ...
 $ Bwt: num  2 2 2 2.1 2.1 2.1 2.1 2.1 2.1 2.1 ...
 $ Hwt: num  7 7.4 9.5 7.2 7.3 7.6 8.1 8.2 8.3 8.5 ...


In [2]:
# Bwt(고양이 몸무게) 변수에 대한 정규성 검정 수행
shapiro.test(cats$Bwt)


	Shapiro-Wilk normality test

data:  cats$Bwt
W = 0.95188, p-value = 6.731e-05


### 1.2. 단일표본 T-검정
< 가설 설정 - T-검정 >
- 귀무가설(H0) : 고양이들의 평균 몸무게는 2.6 (kg)이다.
- 대립가설(H1) : 고양이들의 평균 몸무게는 2.6 (kg)이 아니다.

< 유의수준은 0.05 로 설정 >

In [3]:
## 2) cats 데이터에 대한 일표본 T-검정 수행
# 일표본 T-검정 수행
wilcox.test(cats$Bwt, mu=2.6, alternative="two.sided")


	Wilcoxon signed rank test with continuity correction

data:  cats$Bwt
V = 5607, p-value = 0.02532
alternative hypothesis: true location is not equal to 2.6


## 2. 대응표본 T-검정 (Paired Sample T-Test)
- 단일 모집단에 대해 두번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때 사용하는 검정방법
- 하나의 모집단에서 크기가 n개인 하나의 표본을 추출한 후, 표본 내의 개체들에 대해서 두 번의 측정을 실시
- 관측값들은 서로 독립적이지 않고 쌍으로 이루어져 있다.

In [4]:
# 데이터 입력
data <- data.frame(before = c(7, 3, 4, 5, 2, 1, 6, 6, 5, 4),
                   after = c(8, 4, 5, 6, 2, 3, 6, 8, 6, 5))
data

before,after
7,8
3,4
4,5
5,6
2,2
1,3
6,6
6,8
5,6
4,5


### 2.2. 대응표본 T-검정
< 가설 설정 - T-검정 >
- 귀무가설(H0) : ( 복용 후 평균수면시간 - 복용 전 평균 수면시간 ) = 0
- 대립가설(H1) : ( 복용 후 평균수면시간 - 복용 전 평균 수면시간 ) > 0   --> 우단측검정에 해당

< 유의수준은 0.05 로 설정 >

In [5]:
# 대응표본 T-검정 수행
t.test(data$before, data$after, alternative="less", paired = TRUE)


	Paired t-test

data:  data$before and data$after
t = -4.7434, df = 9, p-value = 0.0005269
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
       -Inf -0.6135459
sample estimates:
mean of the differences 
                     -1 


## 3. 독립표본 T-검정 (Independent Sample T-Test)
- 두 개의 독립된 모집단의 평균을 비교하고자 할 때 사용하는 검정방법

In [6]:
# 데이터 불러오기
library(MASS)
data("cats")

### 3.2. 등분산 검정
< 가설 설정 - 등분산성 검정 >
- 귀무가설(H0) : 두 집단의 분산이 동일하다.
- 대립가설(H1) : 두 집단의 분산이 동일하지 않다.

< 유의수준은 0.05 로 설정 >

In [7]:
## 1) 독립 t검정을 수행하기에 앞서, 범주별 데이터값의 등분산성 검정 수행

# 등분산 검정 수행
var.test(Bwt~Sex, data=cats) 


	F test to compare two variances

data:  Bwt by Sex
F = 0.3435, num df = 46, denom df = 96, p-value = 0.0001157
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2126277 0.5803475
sample estimates:
ratio of variances 
         0.3435015 


### 3.3. 독립표본 T-검정
< 가설 설정 - T-검정 >
- 귀무가설(H0) : 고양이의 성별에 따른 평균 몸무게에는 통계적으로 유의한 차이가 없다.
- 대립가설(H1) : 고양이의 성별에 따른 평균 몸무게에는 통계적으로 유의한 차이가 있다.

< 유의수준은 0.05 로 설정 >

In [9]:
## 2) 성별에 따른 몸무게가 등분산성을 만족하지 않는다는 조건 하에 독립 t검정을 수행
t.test(Bwt~Sex, data=cats, alternative="two.sided", var.equal=FALSE)


	Welch Two Sample t-test

data:  Bwt by Sex
t = -8.7095, df = 136.84, p-value = 8.831e-15
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.6631268 -0.4177242
sample estimates:
mean in group F mean in group M 
       2.359574        2.900000 
