# 카이제곱 검정
: 두 범주형 변수가 서로 상관이 있는지 판단하는 통계적 검정 방법.
예) 학력, 성별, 직업의 만족도.

### 아동별 장난감 보유 현황 
- 귀무가설 : child1과 child2의 장난감 보유수에 대한 만족도는 차이가 없다.
- 대립가설 : child1과 child2의 장난감 보유수에 대한 만족도는 차이가 있다.

In [1]:
# child별 장난감 보유 현황
child1 <- c(5, 11, 1)
child2 <- c(4, 7, 3)

In [2]:
# 분석을 위해 데이터 합치기
toy <- cbind(child1, child2)

In [3]:
# 장난감 종류
rownames(toy) <- c('car','truck','doll')
toy

Unnamed: 0,child1,child2
car,5,4
truck,11,7
doll,1,3


In [4]:
# 카이제곱 검정 실시
chisq.test(toy)

# p-value : 유의수준

"Chi-squared approximation may be incorrect"


	Pearson's Chi-squared test

data:  toy
X-squared = 1.7258, df = 2, p-value = 0.4219


### 결론
p-value = 0.4219 > 0.05(95% 신뢰구간) -> 귀무가설 채택
> child1과 child2의 데이터는 통계적으로 큰 차이가 없다.

p-value는 0에 가까울수록 좋다. 미리 정해진 유의수준(일반적으로 0.05) 보다 작으면 대립가설
을 채택하고 유의수준보다 크면 귀무가설을 채택.

In [5]:
cor(child1, child2)

### 메세지 : 카이제곱의 근사값이 정확하지 않을수도 있다.
- 데이터량이 적은 경우 발생

# 피셔검정

In [6]:
fisher.test(toy)
# 데이터가 적을 때 사용**
# alternative hypothesis: two.sided -> 95% 유의수준 양쪽에 각 2.5%씩 분포


	Fisher's Exact Test for Count Data

data:  toy
p-value = 0.5165
alternative hypothesis: two.sided


p-value = 0.5165 > 0.05 --> 귀무가설

---
# t-검정


In [7]:
# 귀무가설 : 건전지의 수명은 1000시간이다. 
# 대립가설 : 건전지의 수명은 1000시간이 아니다.

In [8]:
bat <- c(980, 1008, 968, 1032, 1012, 1002, 996, 1017)

In [9]:
# 데이터의 분포가 정규분포인지 확인 --> Shapiro-Wilk 검정을 실시
# 귀무가설 : 자료가 정규분포를 따른다.
# 대립가설 : 자료가 정규분포를 따르지 않는다.

In [10]:
shapiro.test(bat)


	Shapiro-Wilk normality test

data:  bat
W = 0.97706, p-value = 0.9469


p-value = 0.9469 > 0.05 --> 귀무가설

In [11]:
# t-검정 실시
t.test(bat, mu=1000, alternative = "two.sided")

# mu : 비교하는 대상의 평균
# alternative
# - two.sided : 데이터가 평균과 다르다
# - greater : 데이터가 평균보다 크다
# - less : 데이터가 평균보다 적다.


	One Sample t-test

data:  bat
t = 0.25891, df = 7, p-value = 0.8032
alternative hypothesis: true mean is not equal to 1000
95 percent confidence interval:
  984.7508 1018.9992
sample estimates:
mean of x 
 1001.875 


p-value = 0.8032 > 0.05 --> 귀무가설 : 건전지의 수명은 1000시간이다.

In [13]:
exam <- read.csv("../Data//exam.csv")
exam

no,score
1,58
2,49
3,39
4,99
5,32
6,88
7,62
8,30
9,55
10,65


In [None]:
str(exam)

In [None]:
summary(exam)

In [None]:
# 어떤 학급의 수학 점수 평균 : 55점
# 0교시 수업을 한 후에 학생들의 성적이 올랐을까?
# 귀무가설 : 성적은 오르지 않았다.
# 대립가설 : 성적이 올랐다.

# 정규 분포 확인
shapiro.test(exam$score)

# p-value = 0.1058 > 0.05 이므로 정규분포를 따른다.

In [None]:
# t-test
t.test(exam[,2], mu = 55, alternative = "greater")

p-value = 0.4046 > 0.05 --> 귀무가설 성적은 오르지 않았다.

In [None]:
boxplot(exam$score)

In [None]:
# 표본이 2개인 t검정
# 귀무가설 : 복용 전후의 차이가 없다.
# 대립가설 : 복용 전후의 차이가 있다.

# 통계데이터는 순서를 바꾸면 안됨..

postMedicine <- read.csv("../Data/postMedicine.csv")
preMedicine <- read.csv("../Data/preMedicine.csv")

In [None]:
pre <- preMedicine$data
post <- postMedicine$data

In [None]:
t.test(pre, post, alternative = "two.sided")

p-value = 0.7165 > 0.05 --> 귀무가설 

---
## 상관계수

In [None]:
y <- c(1,2,3,4)
z <- c(0,7,5,9)

cor(y,z)

In [None]:
# 피어슨 상관계수
cor(y,z,method = "pearson") # method의 디폴트 : pearson

In [None]:
# 스피어맨 상관계수
cor(y,z,method = "spearman") # 적합한 값 : 데이터가 5개가 넘지 않으면 spearman이 적합 

----

## 콜모고로프-스미노프 검정(KS Test)
: 주어진 2개의 데이터가 같은 분포를 이루는지 검정하는 것

In [None]:
# 귀무가설 : 두개의 데이터의 분포가 다르다.
# 대립가설 : 두개의 데이터의 분포가 같다.

In [None]:
options(scipen = 100)

x <- rnorm(50) # 정규분포 구하는 데이터 함수
y <- runif(50)

ks.test(x, y)

p-value = 0.00000004048 < 0.05 --> 대립가설

## 부호검정
: 2개의 데이터 사이에 차이가 있는지 검정하는 것

In [None]:
# 식사 전과 식사 후의 음료수 맛에 대한 평가
x <- c(4, 1, 1, 4, 3, 3, 2, 5, 3, 3) # 식사전의 음료수 맛에 대한 평가 점수
y <- c(1, 1, 3, 2, 5, 1, 4, 4, 3, 1) # 식사후의 음료수 맛에 대한 평가 점수

In [None]:
# 귀무가설 : 유의한 차이가 없다.
# 대립가설 : 유의한 차이가 있다.

In [None]:
binom.test(c(length(x[x>y]), length(x[x<y])))

p-value = 0.7266 > 0.05 --> 귀무가설

---
## 비율 검정
: 2개의 데이터 사이에 비율의 차이가 있는지에 대한 것을 검정

In [None]:
# 맥주를 좋아하시나요? 라는 질문에 서울에서는 400명 중에 360명, 부산에서는 200명중 136명 좋아한다고 답했다면
# 둘의 비율 차이가 있다고 할 수 있는가?

# 귀무가설 : 유의한 차이가 없다.
# 대립가설 : 유의한 차이가 있다.

hite <- c(360, 136)
sample <- c(400, 200)

prop.test(hite, sample)

p-value = 0.00000000004207 < 0.05 --> 대립가설 : 유의한 차이가 있다.