# 카이제곱 검정 
: 두 범주형 변수가 서로 상관이 있는지 판단하는 통꼐적 검정방법
예) 학력, 성별, 직업의 만족도

### 아동별 장남감 보유 현황 
- 귀무가설 : 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설
- child1과 child2의 장난감 보유수에 대한 만족도는 차이가 없다.
- 대립가설 : 귀무가설이 기각될 때 받아들여지는 가설
- child1과 child2의 장난감 보유수에 대한 만족도는 차이가 있다.

In [1]:
# 장난감 보유 현황
child1 <- c(5,11,1)
child2 <- c(4,7,3)

In [3]:
# 분석을 위한 데이터 합치기 
Toy <- cbind(child1,child2)
Toy

child1,child2
5,4
11,7
1,3


In [5]:
# 장난감 종류
rownames(Toy) <- c("car","truck","doll")
Toy

Unnamed: 0,child1,child2
car,5,4
truck,11,7
doll,1,3


In [6]:
# 카이제고 검정 실시
# p-value:유의 수준 
chisq.test(Toy)

“Chi-squared approximation may be incorrect”


	Pearson's Chi-squared test

data:  Toy
X-squared = 1.7258, df = 2, p-value = 0.4219


### 결론
p-value = 0.4219 > 0.05 (95% 신뢰구간) -> 귀무가설 채택 
> child1과 child2의 데이터는 통계적으로 큰 차이가 없다.

p-value는 0에 가까울수록 신뢰도가 높다. 미리 정해진 유의수준(일반적으로 0.05)보다 작으면 대립가설을 채택하고 유의수준보다 크면 귀무가설을 채택.

In [7]:
#상관계수
#쌍둥이 데이터로 굉장히 비슷해서 분석의 의미 없다. 
cor(child1,child2)

### 메세지 : 카이제곱의 근사값이 정확하지 않을수도 있다.
- 데이터량이 적은 경우 발생

---
# 피셔검정

In [8]:
#데이터양이 적을 때
fisher.test(Toy)


	Fisher's Exact Test for Count Data

data:  Toy
p-value = 0.5165
alternative hypothesis: two.sided


In [None]:
p-value = 0.5165 > 0.05 -> 귀무가설

---
# t- 검정

- 모집단의 분산이나 표준편차를 알지 못할 때
모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로
“두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법이다.

In [None]:
# 귀무가설 : 건전지의 수명은 1000시간이다(분석 필요 X)
# 대립가설 : 건전지의 수명은 1000시간이 아니다.(분석 O)

In [9]:
bat <- c(980,1000,968,1032,1012,1002,996,1017)

In [None]:
# 데이터의 분포가 정규분표인지 확인 -> Shapiro-wilk 검정
# 귀무가설: 자료가 정규분포를 따른다. 
# 대립가설: 자료가 정규분포를 따르지 않는다. 

In [10]:
shapiro.test(bat)


	Shapiro-Wilk normality test

data:  bat
W = 0.98289, p-value = 0.9758


In [None]:
 p-value = 0.9758 > 0.05 -> 귀무가설

In [13]:
# t- 검정실시
t.test(bat, mu=1000,alternative="two.sided")

# mu : 비교하는 대상의 평균 
# alternattive 
# - two.sided : 데이터가 평균과 다르다. 
# - greater : 데이터가 평균과 크다. 
# - less : 데이터가 평균과 적다.



	One Sample t-test

data:  bat
t = 0.1217, df = 7, p-value = 0.9066
alternative hypothesis: true mean is not equal to 1000
95 percent confidence interval:
  983.8737 1017.8763
sample estimates:
mean of x 
 1000.875 


In [None]:
p-value = 0.9066 > 0.05 --> 귀무가설 :건전지의 수명은 1000시간이다