# 8장 Tabular data

- 이장의 학습목표
    - 데이블형식으로 주어지는 데이터에 대한 분석 방법
    - prop.test(), binom.test(), chisq.test(), fisher.test()
    - 범주형 데이터에서 사용됨.

## 8.1 Single proportions

- Single proportions( 단일비율 ) 검정은 시행 N 이고, 확률이 p인 이항분포을 기반으로 함.
- N 이 크면(시행을 많이하면),  평균이 Np이고 분산이 Np(1-p)인 정규분포로 근사함. 
- 이항분포와 정규분포의 관계에 대한 실험 => [Galton Board  동영상](https://www.youtube.com/watch?v=AUSKTk9ENzg), [이미지](http://opfocus.org/index.php?topic=picture&v=13&s=2&p=2)

- 표기법
    - x : 시행을 N번 했을때 성공 횟수,    동전 던지기를 100번했을때 앞면이 나오는 횟수
    - $ p_0 $ : 가설 검정할때의 성공확률
- 평균이 0 이고, 분산이 1인 표준정규분포와  자유도가 1인 $ x^2 $ 분포로 근사적으로 변경 가능함.
$$ u  =  \frac{x - Np_0 } {  \sqrt{ Np_0( 1 - p_0 ) }  }   $$

#### prop.test()을 이용한 비율 검정
- 램덤하게 뽑은 215명의 환자중에서 39명이 천식을 가지고 있다면, random patient는 천식을 가질 수 있는 확률이 0.15 인지 검정을 해보자.

In [3]:
prop.test( 39, 215, .15 )
39 / 215


	1-sample proportions test with continuity correction

data:  39 out of 215, null probability 0.15
X-squared = 1.425, df = 1, p-value = 0.2326
alternative hypothesis: true p is not equal to 0.15
95 percent confidence interval:
 0.1335937 0.2408799
sample estimates:
        p 
0.1813953 


- 검증 결과에 대한 해석을 해보자.~~

#### binom.test()을 이용한 검정
- 이항분포를 이용해서 검정하므로 정확한 검정결과를 얻을 수 있음.
- 그러나, prop.test()가 단일비율 검정에 더 많이 사용함.

In [4]:
binom.test(39,215,.15)


	Exact binomial test

data:  39 and 215
number of successes = 39, number of trials = 215, p-value = 0.2135
alternative hypothesis: true probability of success is not equal to 0.15
95 percent confidence interval:
 0.1322842 0.2395223
sample estimates:
probability of success 
             0.1813953 


- p-value가 prop.test()의 결과와 좀 다름.

## 8.2 Two independent proportions

- 2개 이상의 비율을 비교할때는 prop.test()함수를 사용함.
- 이때, 2개의 vector를 인자로 주고, 첫번째는 성공횟수 vector, 두번째는 시행회수 vector임.
- Number of positive outcomes = (𝒙𝟏,𝒙𝟐) , 
  total number = (𝑵𝟏,𝑵𝟐) 
  Hypothesis 𝑷𝟏=𝑷𝟐

- 표준정규분포와 카이제곱분포로 근사하는 방법
![](https://upload.wikimedia.org/math/0/b/7/0b7491a8614d7808364b5a3fec9e8033.png)
![](https://upload.wikimedia.org/math/b/6/b/b6b322a96b890d51c23efb952a74d1a7.png)

In [6]:
lewitt.machin.success <- c(9,4)
lewitt.machin.total <- c(12,13)
prop.test(lewitt.machin.success,lewitt.machin.total)


	2-sample test for equality of proportions with continuity correction

data:  lewitt.machin.success out of lewitt.machin.total
X-squared = 3.2793, df = 1, p-value = 0.07016
alternative hypothesis: two.sided
95 percent confidence interval:
 0.01151032 0.87310506
sample estimates:
   prop 1    prop 2 
0.7500000 0.3076923 


- 검증 결과에 대한 해석을 해보자.~~
- 결과로 나오는 confidence interval은 비율들의 차이에 대한 값임.

#### chisq.test() 
- prop.test()와 으로 p-value이 정확히 일치함.
- 2 × 2 table 데이터를 주어줌.

In [7]:
matrix(c(9,4,3,9),2)

0,1
9,3
4,9


In [1]:
lewitt.machin <- matrix(c(9,4,3,9),2)
chisq.test(lewitt.machin)


	Pearson's Chi-squared test with Yates' continuity correction

data:  lewitt.machin
X-squared = 3.2793, df = 1, p-value = 0.07016


## 8.4 𝑟 × 𝑐 tables

- 2그룹 이상에서 2가지 경우에 대해서는 chisq.test()으로 검정이 가능
- 3그룹 이상에서 3가지 경우 이상일때는 ??

![](chap08_01.png)

$$  E_{ij} = \frac{n_{i.} × n_{.j} }  {  n_{..} } $$ 


- 결혼 상태에 따른 카페인 소비에 영향이 있는지 검정해보자.

In [2]:
caff.marital <- matrix(c(652,1537,598,242,36,46,38,21,218 ,327,106,67), nrow=3,byrow=T)
colnames(caff.marital) <- c("0","1-150","151-300",">300")
rownames(caff.marital) <- c("Married","Prev.married","Single")
caff.marital

Unnamed: 0,0,1-150,151-300,>300
Married,652,1537,598,242
Prev.married,36,46,38,21
Single,218,327,106,67


In [3]:
chisq.test(caff.marital)


	Pearson's Chi-squared test

data:  caff.marital
X-squared = 51.656, df = 6, p-value = 2.187e-09


- 검정결과 매우 유의하다고 나와서 독립이다는 가정이 모순된다고 결론을 내릴 수 있음.
- 결혼 상태에 따라서 카페인 소비량이 같다는 귀무가설을 기각하고, 결혼 상태에 따라서 카페인 소비량이 다름.

In [11]:
chisq.test(caff.marital)$expected
chisq.test(caff.marital)$observed

Unnamed: 0,0,1-150,151-300,>300
Married,705.8318,1488.0118,578.0653,257.091
Prev.married,32.85648,69.26698,26.90895,11.96759
Single,167.31173,352.72119,137.02572,60.94136


Unnamed: 0,0,1-150,151-300,>300
Married,652,1537,598,242
Prev.married,36,46,38,21
Single,218,327,106,67


In [7]:
E <- chisq.test(caff.marital)$expected
O <- chisq.test(caff.marital)$observed
(O-E)^2/E

Unnamed: 0,0,1-150,151-300,>300
Married,4.1055981,1.6127833,0.6874502,0.8858331
Prev.married,0.3007537,7.8154436,4.5713926,6.817109
Single,15.3563704,1.8756451,7.0249243,0.6023355


- 여기에서 결혼전에는 커피를 안 마시는 사람이 많다가 결혼하면 낮아지고, 이혼하면 더 낮아지는 것을 확인할 수 있음.
- 결혼하면 스트레스가 쌓이고, 이혼하면 더 스트레스 ???


#### chisq.test()함수는 raw (untabulated) 데이터를 바로 사용할 수 있음.

In [10]:
library(ISwR)
attach(juul)
summary( juul )
head ( juul )
chisq.test(tanner,sex)

The following objects are masked from juul (pos = 3):

    age, igf1, menarche, sex, tanner, testvol



      age            menarche          sex             igf1      
 Min.   : 0.170   Min.   :1.000   Min.   :1.000   Min.   : 25.0  
 1st Qu.: 9.053   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:202.2  
 Median :12.560   Median :1.000   Median :2.000   Median :313.5  
 Mean   :15.095   Mean   :1.476   Mean   :1.534   Mean   :340.2  
 3rd Qu.:16.855   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:462.8  
 Max.   :83.000   Max.   :2.000   Max.   :2.000   Max.   :915.0  
 NA's   :5        NA's   :635     NA's   :5       NA's   :321    
     tanner        testvol      
 Min.   :1.00   Min.   : 1.000  
 1st Qu.:1.00   1st Qu.: 1.000  
 Median :2.00   Median : 3.000  
 Mean   :2.64   Mean   : 7.896  
 3rd Qu.:5.00   3rd Qu.:15.000  
 Max.   :5.00   Max.   :30.000  
 NA's   :240    NA's   :859     

Unnamed: 0,age,menarche,sex,igf1,tanner,testvol
1,,,,90,,
2,,,,88,,
3,,,,164,,
4,,,,166,,
5,,,,131,,
6,0.17,,1.0,101,1.0,



	Pearson's Chi-squared test

data:  tanner and sex
X-squared = 28.867, df = 4, p-value = 8.318e-06
