# 👩‍💻 양적 변수의 통계와 두 변수 간의 연관
## ✔️ R의 반올림
```summary```에서의 평균이 ```mean```을 사용한 결과와 다른 경우가 있다.
R은 5를 반올림할 때 **가장 가까운 짝수값**을 취한다.
예를 들어, ```1992.5```를 R애서 소수 첫째 자리에서 반올림하면 ```1993```이 아니라 ```1992```로 반올림된다.

## ✔️ 양적 변수의 기초 통계

In [1]:
setwd("C:/Users/eunee/khu_sda_2019/data")
load("demog_5var.RData")
attach(ndemog)

작업 디렉토리를 먼저 변경한 다음, ```demog_5var.RData```를 불러온다.     
이후 작업의 편의를 위해 ```ndemog```를 ```attach```한다

### ◽ ```summary```

In [2]:
summary(year)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1970    1982    1994    1994    2006    2018 

최솟값, 1분위, 2분위(중간값), 평균, 3분위, 최댓값에 대한 정보를 제공한다.

### ◽ ```quantile()```

In [3]:
quantile(year)

```quantile```로 5개 요약 값을 확인할 수 있다. 만약 특정 비율에 있는 값을 보고 싶다면 어떻게 해야 할까?

In [4]:
quantile(year, probs = 0.5)

In [5]:
quantile(year, probs = 0.6)

```quntile``` 함수에 ```probs``` 옵션을 주면 쉽게 특정 비율에 있는 값을 볼 수 있다. 이를 응용해서 10분위 수 모두를 확인할 수 있는 방법이 있을까?

In [6]:
quantile(year, probs = 1:10*0.1)

R과 다른 통계 패키지(SAS 등) 통계값을 구하는 방식이 다를 수 있다. 이럴 때에는 함수의 초기값을 ```?```을 통해 확인한 다음, 적절하게 사용할 필요가 있다.

### ◽ ```quantile```에서 결측값이 있을 때

In [7]:
quantile(le0)

ERROR: Error in quantile.default(le0): missing values and NaN's not allowed if 'na.rm' is FALSE


In [8]:
le0

```le0```의 맨 마지막 값이 ```NA```, 즉 결측값이기 때문에 ```quantile```에서 오류가 나타난다. 이런 경우에는 ```na.rm = TRUE``` 명령어를 적용하여 결측값을 제거하고 분석할 필요가 있다.

In [9]:
quantile(le0, na.rm = TRUE)

정상적으로 ```quantile```이 출력된다.

### ◽ 평균과 표준편차
특히 표준편차를 구할 때, 사례 수(n)가 아니라 사례 수에서 1을 뺀 값(n-1)로 나누어 준다는 점에 유의하자. 우리가 다루고 있는 자료는 모집단 자료가 아니라 표본 자료이기 때문이다.

## ✔️ 두 변수의 관계에 관한 기초 통계

|  <center> </center> |  <center>범주형 종속 변수</center> |  <center> 양적 종속 변수 </center> | <center>  </center>|
|:--------|:--------:|--------:|--------:|
|<center>범주형 설명 변수</center> | <center> 집단별 비율 비교 </center> | <center> 집단별 평균 비교 </center>|
|<center>양적 설명 변수</center> | <center> 설명 변수를 범주화한 후 집단별 비율 비교 </center> | <center>설명 변수를 범주화한 후 집단별 평균 비교 / 상관계수 / 최소제곱법 단순 회귀 계수</center> |


### ◽ 집단별 평균 비교 (범주형 설명 변수 & 양적 종속 변수) - ```tapply``` 이용

In [10]:
t(tapply(tfr, year, mean))

1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,...,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
4.53,4.54,4.12,4.07,3.77,3.43,3,2.99,2.64,2.9,...,1.149,1.226,1.244,1.297,1.187,1.205,1.239,1.172,1.052,0.977


In [11]:
args(tapply)

```tapply```는 ```양적 종속 변수```, ```범주형 설명 변수```, ```사용하고자 하는 함수``` 순으로 작성한다.         
위 사례에서, ```tapply```는 ```mean``` 함수를 ```year```에 따라 ```tfr```에 적용한 것이다.

### ◽ 상관계수 (양적 설명 변수 & 양적 종속 변수) - ```cor``` 이용

In [12]:
cor(cdr, tfr)

In [13]:
args(cor)

```cor```는 ```양적 설명 변수```, ```양적 종속 변수``` 순으로 작성한다.     
상관계수는 -1과 1 사이의 값을 가지며, 절댓값이 클수록 두 변수 사이의 **선형 관계**가 뚜렷하다는 것을 의미한다. 따라서 두 양적 변수에 관한 통계에 관해서는 **산점도**를 그리는 습관을 들여야 한다.

In [14]:
cor(cbind(cdr, tfr, le0), use = "complete.obs")

Unnamed: 0,cdr,tfr,le0
cdr,1.0,0.9075706,-0.8462066
tfr,0.9075706,1.0,-0.8659856
le0,-0.8462066,-0.8659856,1.0


여러 변수의 상관계수를 보기 위해서는 ```cbind``` 명령어를 함께 사용한다.         
```use = "complete.obs"``` :  마지막 결측값을 제거하고 상관관계를 구한다. (여기서는 ```le0```의 마지막 변수)           
```use = "pairwise.complete.obs"``` : 결측값이 있는 변수와 상관관계를 구할 때는 결측값을 제거하고 상관관계를 구하되, 그 외 변수끼리 상관관계를 구할 때에는 모든 사례를 사용한다.

## ✔️ 두 변수의 관계에 관한 가설 검정

|  <center> </center> |  <center>범주형 종속 변수</center> |  <center> 양적 종속 변수 </center> | <center>  </center>|
|:--------|:--------:|--------:|--------:|
|<center>범주형 설명 변수</center> | <center> Z 검정, 카이제곱 검정 </center> | <center> t 검정, F 검정 </center>|
|<center>양적 설명 변수</center> | <center> 설명 변수 범주화 후 Z 검정, 카이제곱 검정 </center> | <center> 설명 변수 범주화 후 t 검정, F 검정 / 두 변수 모두 범주화 후 Z 검정, 카이제곱 검정</center> |

### ◽ 카이제곱 검정
집단간 비율을 비교하는 검정 방법으로, **영가설**은 설명 변수나 종속 변수의 범주 수에 제한 없이 두 변수가 **독립**.        
Z 검정은 설명 변수와 종속 변수의 범주가 모두 두 개인 경우의 카이제곱 검정이므로, *Z검정은 카이제곱 검정의 특수한 경우*라고 할 수 있다. R에서는 ```prop.test``` 명령어를 활용하여 두 집단 간 비율 비교를 수행할 수 있다. 

#### ◽ 두 이항 변수의 생성

In [15]:
detach(ndemog)
ndemog$year_c2 <- ifelse(ndemog$year <= 2000, 0, 1)
ndemog$cdr_c2 <- ifelse(ndemog$cdr <= 5.3, 0, 1)
attach(ndemog)

```attach```되어 있는 ```ndemog```를 ```detach```한 다음, ```ifelse```를 활용해 새로운 이항변수 ```year_c2```와 ```cdr_c2```를 생성한다.

In [16]:
args(ifelse)

```ifelse```문의 용례는 위와 같은데, ```특정 조건```, ```조건 충족 시 줄 값```, ```조건 미충족 시 줄 값``` 순으로 작성한다. 따라서 이렇게 만들어진 ```year_c2```와 ```cdr_c2```는 모두 0 또는 1의 값만 갖는 이항 변수이다.

#### ◽ 연도별 조사망률 범주의 비율 비교

In [17]:
prop.test(table(year_c2, cdr_c2), correct = FALSE)


	2-sample test for equality of proportions without continuity
	correction

data:  table(year_c2, cdr_c2)
X-squared = 14.167, df = 1, p-value = 0.0001673
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.7939414 -0.3100012
sample estimates:
   prop 1    prop 2 
0.2258065 0.7777778 


```prop.test``` 명령어는 분할표를 필요로 하기 때문에 ```table``` 명령어로 표를 만들어 준다. ```correct = FALSE```을 통해 통계값의 수정을 하지 않도록 명령한다.    
분석 결과 ```p```값은 ```0.0001673```으로 매우 작기 때문에 영가설을 기각한다. (즉, 연도별에 따라 조사망률이 5.3일 확률에 차이가 있다는 결론)

#### ◽ 카이제곱 검정 이용
그러나, ```prop.test``` 명령어는 단지 **두 집단 간 비율 비교**만 가능하다는 단점이 있다. 일반적인 분할표의 카이제곱 검정을 위해  ```chisq.test```를 사용한다.

In [18]:
chisq.test(table(year_c, cdr_c), correct = FALSE)

ERROR: Error in table(year_c, cdr_c): 객체 'year_c'를 찾을 수 없습니다


카이제곱 검정을 할 때에는 모든 분할표 칸의 기대 빈도가 5 이상이어야 한다. 그렇지 않을 때, R은 경고 문구를 표시한다.

In [19]:
chisq.test(table(year_c2, cdr_c2), correct = FALSE)


	Pearson's Chi-squared test

data:  table(year_c2, cdr_c2)
X-squared = 14.167, df = 1, p-value = 0.0001673


```year_c2```와 ```cdr_c2``` 의 독립에 대한 영가설을 검정한 결과가 ```prop.test```를 통해 검정한 결과와 같다.

### ◽ t 검정

In [20]:
t.test(tfr ~ year_c2)


	Welch Two Sample t-test

data:  tfr by year_c2
t = 6.4522, df = 30.704, p-value = 3.566e-07
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.8007496 1.5413794
sample estimates:
mean in group 0 mean in group 1 
       2.352065        1.181000 


```t.test``` 명령어에서 ```종속 변수```가 먼저 온 다음 ```설명 변수```가 온다. (formula)    
```t.test``` 명령어의 초기 설정은 두 집단 간 **이분산**을 가정한다. 만약 **동분산**을 가정하고 싶다면 ```var.equal = TRUE``` 옵션을 사용해야 한다.

### ◽ F 검정
F 검정은 ANOVA(analysis of variance)라고도 하며, **모든 집단의 평균이 같다**는 **영가설**을 검정하며,, 설명 변수가 셋 이상의 범주로 이루어져 있을 때에도 사용할 수 있다. 따라서 **두 집단 간 평균을 비교**하는 t 검정보다 *일반화된 검정*이다.

In [21]:
summary(aov(tfr ~ year_c2))

            Df Sum Sq Mean Sq F value   Pr(>F)    
year_c2      1  15.62  15.617   24.15 1.12e-05 ***
Residuals   47  30.40   0.647                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

```t.test``` 명령어를 수행했을 때처럼 ```종속 변수```가 먼저 오고, 그 다음 ```설명 변수```가 온다.    
결과를 보면 ```p```값이 ```1.12e-05***```로 ```year_c2```의 두 범주의 합계출산율 **평균이 동일하다는 영가설**을 기각하게 된다.      
그러나 ```t.test```의 ```p```값과 ```aov```의 ```p```값이 다르다. 이는 ```t.test```의 초기 설정이 **이분산**을 가정하는 반면, ```aov```의 초기 설정이 **동분산**을 가정하기 때문이다. t 검정에서 ```var.equal = TRUE```를 실행해 보면

In [22]:
t.test(tfr ~ year_c2, var.equal = TRUE)


	Two Sample t-test

data:  tfr by year_c2
t = 4.914, df = 47, p-value = 1.124e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.6916439 1.6504851
sample estimates:
mean in group 0 mean in group 1 
       2.352065        1.181000 


F 검정과 같은 ```p``` 값을 가진다.

In [23]:
summary(ndemog)

      year           cdr             tfr             marn       
 Min.   :1970   Min.   :5.000   Min.   :0.977   Min.   :239457  
 1st Qu.:1982   1st Qu.:5.200   1st Qu.:1.226   1st Qu.:303156  
 Median :1994   Median :5.500   Median :1.560   Median :330634  
 Mean   :1994   Mean   :5.814   Mean   :1.922   Mean   :341759  
 3rd Qu.:2006   3rd Qu.:6.200   3rd Qu.:2.390   3rd Qu.:390276  
 Max.   :2018   Max.   :8.000   Max.   :4.540   Max.   :434911  
                                                                
      le0           year_c2           cdr_c2      
 Min.   :62.30   Min.   :0.0000   Min.   :0.0000  
 1st Qu.:67.08   1st Qu.:0.0000   1st Qu.:0.0000  
 Median :73.30   Median :0.0000   Median :1.0000  
 Mean   :72.82   Mean   :0.3673   Mean   :0.5714  
 3rd Qu.:78.35   3rd Qu.:1.0000   3rd Qu.:1.0000  
 Max.   :82.70   Max.   :1.0000   Max.   :1.0000  
 NA's   :1                                        