# 카이제곱 검정
: 두 범주형 변수가(ex:남/여) 서로 상관이 있는지 판단하는 통계적 검정방법.<br>
예) 학력, 성별, 직업의 만족도(1~5)

### 아동별 장난감 보유 현황
- 귀무가설 : child1과 child2의 장난감 보유수에 대한 만족도는 차이가 없다.
- 대립가설 : child1과 child2의 장난감 보유수에 대한 만족도는 차이가 있다.

In [20]:
# child별 장난감 보유 현황
child1 <- c(5,11,1)
child2 <- c(4,7,3)

In [21]:
# 분석을 위해 데이터 합치기
toy <- cbind(child1,child2)
toy

child1,child2
5,4
11,7
1,3


In [22]:
# 장난감 종류
rownames(toy) <- c('car','truck','doll')
toy

Unnamed: 0,child1,child2
car,5,4
truck,11,7
doll,1,3


In [23]:
# 카이제곱 검정 실시
chisq.test(toy)

“Chi-squared approximation may be incorrect”


	Pearson's Chi-squared test

data:  toy
X-squared = 1.7258, df = 2, p-value = 0.4219


### 결론
p-value = 0.4219 > 0.05(95% 신뢰구간) : 귀무가설 채택(분석할 필요가 없다.)
> child1과 child2의 데이터는 통계적으로 큰 차이가 없다!

p-value는 0에 가까울수록 좋다. 신뢰도가 높다.
> if 미리 정해진 유의수준(보통 0.05)보다 작으면 대립가설을 채택하고, else 귀무가설을 채택한다.

In [24]:
cor(child1,child2) # 98 프로면 쌍둥이 데이터이므로 분석할 필요가 없다.

### warn 메세지 : 카이제곱의 근사값이 정확하지 않을수도 있다.
- 데이터량이 적은 경우 발생!

> 그럴 때 피셔검정을 사용한다

In [25]:
fisher.test(toy)


	Fisher's Exact Test for Count Data

data:  toy
p-value = 0.5165
alternative hypothesis: two.sided


### fisher : two.sided
> p-value = 0.5165 > 0.05 : 귀무가설 채택, 오히려 더 신뢰도가 낮아졌다.


---
### t-검정
- 평균값이 의심갈 때 사용한다.

In [26]:
# 귀무가설 : 건전지의 수명은 1000시간이다.
# 대립가설 : 건전지의 수명은 1000시간이 아니다. > 공지한 1000시간에 대한 의문

In [27]:
bat <- c(980,1008,968,1032,1012,1002,996,1017)

In [28]:
# 정규분포로 유의미한 데이터인지 확인 >> Shapiro-Wilk 검정을 실시 
# 귀무가설 : 자료가 정규분포를 따른다.
# 대립가설 : 자료가 정규분포를 따르지 않는다.

In [29]:
shapiro.test(bat)


	Shapiro-Wilk normality test

data:  bat
W = 0.97706, p-value = 0.9469


### Shapiro-Wilk test
> p-value = 0.9469 > 0.05 : 귀무가설

In [30]:
# t-검정 실시
t.test(bat, mu=1000, alternative='two.sided')

# mu : 비교하는 대상의 평균
# alternative : (alternative hypothesis: true mean is ~)
#='two.sided' : 데이터가 평균과 다르다.
#='greater' : 데이터가 평균보다 크다.
#='less' : 데이터가 평균보다 작다.


	One Sample t-test

data:  bat
t = 0.25891, df = 7, p-value = 0.8032
alternative hypothesis: true mean is not equal to 1000
95 percent confidence interval:
  984.7508 1018.9992
sample estimates:
mean of x 
 1001.875 


> p-value = 0.8032 > 0.05 : 귀무가설, 건전지의 수명은 1000시간이다.

In [31]:
exam <- read.csv('../data/exam.csv')

# 어떤 학급의 수학 점수 평균

##### 어떤 학급의 수학점수 평균 : 55점
##### 0교시 수업을 한 후에 학생들의 성적이 올랐을까?
##### 귀무가설 : 성적은 오르지 않았다.
##### 대립가설 : 성적이 올랐다.

In [35]:
exam <-read.csv("../data/exam.csv")
head(exam)
tail(exam)

no,score
1,58
2,49
3,39
4,99
5,32
6,88


Unnamed: 0,no,score
12,12,55
13,13,57
14,14,53
15,15,88
16,16,42
17,17,39


In [36]:
str(exam)
summary(exam)

'data.frame':	17 obs. of  2 variables:
 $ no   : int  1 2 3 4 5 6 7 8 9 10 ...
 $ score: int  58 49 39 99 32 88 62 30 55 65 ...


       no         score      
 Min.   : 1   Min.   :30.00  
 1st Qu.: 5   1st Qu.:42.00  
 Median : 9   Median :55.00  
 Mean   : 9   Mean   :56.18  
 3rd Qu.:13   3rd Qu.:62.00  
 Max.   :17   Max.   :99.00  

In [39]:
summary(exam$score)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  30.00   42.00   55.00   56.18   62.00   99.00 

In [41]:
shapiro.test(exam$score)
mean(exam$score)


	Shapiro-Wilk normality test

data:  exam$score
W = 0.91143, p-value = 0.1058


In [42]:
t.test(exam$score, mu=55, alternative = "greater")


	One Sample t-test

data:  exam$score
t = 0.24546, df = 16, p-value = 0.4046
alternative hypothesis: true mean is greater than 55
95 percent confidence interval:
 47.80855      Inf
sample estimates:
mean of x 
 56.17647 


> p-value = 0.4046 > 0.05 귀무가설 --> 성적은 오르지 않았다<br>
> 하지만 평균은 올랐다<br>
> 이상치가 있지 않을까?

---
### 상관계수

In [None]:
y <- c(1,2,3,4)
z <- c(0,5,7,9)

cor(y,z)

In [None]:
# 피어슨 상관계수
cor(y,z,method='pearson')

In [None]:
# 스피어맨 상관계수
cor(y,z,method='spearman')