# 근로소득에 따른 의료 접근성 - 한국과 핀란드를 중심으로

## 데이터 정보
ISSP 2011 : Health
한국 : 한국종합사회조사(KGSS) 누적데이터    
핀란드 : Finnish Social Science Data Archive

누적데이터는 기존 공개된 연도별 데이터 중 오류를 수정한 내용을 포함하고 있습니다. 또한, 모든 연도에 적용할 가중치 변수가 포함되어 있습니다. 누적데이터 이용을 추천합니다.

## 패키지 설치

In [6]:
install.packages("foreign")
library(foreign)

"unable to access index for repository http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5:
  URL 'http://www.stats.ox.ac.uk/pub/RWin/bin/windows/contrib/3.5/PACKAGES'를 열 수 없습니다"

package 'foreign' successfully unpacked and MD5 sums checked


"cannot remove prior installation of package 'foreign'"


The downloaded binary packages are in
	C:\Users\eunee\AppData\Local\Temp\RtmpSwHnmH\downloaded_packages


ERROR: Error in library(foreign): there is no package called 'foreign'


## 파일 불러오기

In [None]:
kordata <- read.spss("C:/Users/eunee/khu_project_2019/data/kor.sav", reencode = 'utf-8', use.value.labels = FALSE, to.data.frame = TRUE)
findata <- read.spss("C:/Users/eunee/khu_project_2019/data/fin.por", use.value.labels = FALSE, to.data.frame = TRUE)

한글 인코딩을 위해 ```reencode = 'utf-8'``` 코드를 추가

## 한국 데이터 클리닝

KGSS 누적 데이터를 다운받아 그중 2011년 자료를 ```subset```해서 사용한다.

In [None]:
kor_2011 <- subset(kordata, YEAR == 2011)

필요한 변수를 ```subset```한다.

In [None]:
kor <- subset(kor_2011, select = c("SEX", "AGE", "MARITAL", "RINCOME", "TRTWHY1", "TRTWHY2", "TRTWHY3", "TRTWHY4"))

In [None]:
names(kor)[4] <- "INCOME"

### ```SEX```

```SEX```를 ```0```(남성), ```1```(여성)으로 바꾼다.

In [None]:
kor$SEX <- ifelse(kor$SEX == 1, 0, kor$SEX)
kor$SEX <- ifelse(kor$SEX == 2, 1, kor$SEX)

### ```MARITAL```

동거에 ```1```, 비동거에 ```2```, 미혼에 ```3```의 새로운 값을 부여한다. 
- 동거 : 기혼, 동거    
- 비동거 : 사별, 이혼 별거    
- 미혼

In [None]:
kor$MARITAL <- ifelse(kor$MARITAL == 6, 1, kor$MARITAL)
kor$MARITAL <- ifelse(kor$MARITAL == 3, 2, kor$MARITAL)
kor$MARITAL <- ifelse(kor$MARITAL == 4, 2, kor$MARITAL)
kor$MARITAL <- ifelse(kor$MARITAL == 5, 3, kor$MARITAL)

### ```INCOME```

응답에서 '모르겠다/무응답', '비해당'을 ```ifelse```문을 이용해 ```NA```처리한다.

In [None]:
kor$INCOME <- ifelse(kor$INCOME==-8, NA, kor$INCOME)
kor$INCOME <- ifelse(kor$INCOME==-1, NA, kor$INCOME)

### ```TRTWHY```

특정 사건을 '겪는' 경우를 ```1```, 그렇지 않은 경우 ```0```으로 처리한다.

In [None]:
kor$TRTWHY1 <- ifelse(kor$TRTWHY1 == 2, 0, kor$TRTWHY1)
kor$TRTWHY2 <- ifelse(kor$TRTWHY2 == 2, 0, kor$TRTWHY2)
kor$TRTWHY3 <- ifelse(kor$TRTWHY3 == 2, 0, kor$TRTWHY3)
kor$TRTWHY4 <- ifelse(kor$TRTWHY4 == 2, 0, kor$TRTWHY4)

응답에서 '모르겠다/무응답', '비해당'을 ```ifelse```문을 이용해 ```NA```처리한다.

In [None]:
kor$TRTWHY1 <- ifelse(kor$TRTWHY1==-1, NA, kor$TRTWHY1)
kor$TRTWHY2 <- ifelse(kor$TRTWHY2==-1, NA, kor$TRTWHY2)
kor$TRTWHY3 <- ifelse(kor$TRTWHY3==-1, NA, kor$TRTWHY3)
kor$TRTWHY4 <- ifelse(kor$TRTWHY4==-1, NA, kor$TRTWHY4)

### ```NA``` 제거

```kor```에 있는 ```NA```를 제거한다.

In [None]:
kor <- kor[complete.cases(kor), ]

### 변수 범주화

In [None]:
kor$SEX <- as.factor(kor$SEX)
kor$MARITAL <- as.factor(kor$MARITAL)
kor$TRTWHY1 <- as.factor(kor$TRTWHY1)
kor$TRTWHY2 <- as.factor(kor$TRTWHY2)
kor$TRTWHY3 <- as.factor(kor$TRTWHY3)
kor$TRTWHY4 <- as.factor(kor$TRTWHY4)

## ```kor```

- ```SEX``` : 성별
    - ```0``` : 남자
    - ```1``` : 여자

    
- ```AGE``` : 연령(만 나이)


- ```MARITAL``` : 동거
    - ```1``` : 동거
    - ```2``` : 비동거
    - ```3``` : 미혼
    
    
- ```INCOME``` : 월 평균 근로소득 (세전)
    - ```0``` : 소득 없음
    - ```1``` : 50만원 미만
    - ```2``` : 50만원 ~ 99만원
    - ```3``` : 100만원 ~ 149만원
    - ```4``` : 150만원 ~ 199만원
    - ```5``` : 200만원 ~ 249만원
    - ```6``` : 250만원 ~ 299만원
    - ```7``` : 300만원 ~ 349만원
    - ```8``` : 350만원 ~ 399만원
    - ```9``` : 400만원 ~ 449만원
    - ```10``` : 450만원 ~ 499만원
    - ```11``` : 500만원 이상

    
    
- 치료 못 받았던 경험  
    ```TRTWHY1``` : 비용을 지불할 능력이 없어서
    - ```0``` : 없었다
    - ```1``` : 있었다
    
 ```TRTWHY2``` : 직장을 빠지고 갈 시간이 없거나 다른 일로 바빠서  
    - ```0``` : 없었다
    - ```1``` : 있었다

 ```TRTWHY3``` : 거주하는 동네나 인근에서는 필요한 치료를 받을 수 없어서   
    - ```0``` : 없었다
    - ```1``` : 있었다
  
 ```TRTWHY4``` : 치료를 기다리는 사람들이 너무 많아서   
    - ```0``` : 없었다
    - ```1``` : 있었다

In [None]:
summary(kor)

## 핀란드 데이터 클리닝

필요한 데이터를 ```subset```한다.

In [None]:
fin <- subset(findata, select = c("K1", "K2", "K13", "K59", "K38A", "K38B", "K38C", "K38D"))

한국의 경우 연령 정보가 나이로 되어 있는 반면, 핀란드의 데이터에서는 태어난 연도로 되어 있다. 이를 모두 연령 단위로 통일해 ```age``` 변수로 만든다.

In [None]:
fin$age <- 2011-fin$K2

'비해당' 응답은 ```NA```로 처리한다.

In [None]:
fin$k38a <- ifelse(fin$K38A == 8, NA, fin$K38A)
fin$k38b <- ifelse(fin$K38B == 8, NA, fin$K38B)
fin$k38c <- ifelse(fin$K38C == 8, NA, fin$K38C)
fin$k38d <- ifelse(fin$K38D == 8, NA, fin$K38D)

In [None]:
fin <- subset(fin, select = c("K1", "age", "K13", "K59", "k38a", "k38b", "k38c", "k38d"))

In [None]:
names(fin) <- c("SEX", "AGE", "MARTIAL", "INCOME", "TRTWHY1", "TRTWHY2", "TRTWHY3", "TRTWHY4")

남성을 0, 여성을 1로 코딩한다.

In [None]:
fin$SEX <- ifelse(fin$SEX == 1, 0, fin$SEX)
fin$SEX <- ifelse(fin$SEX == 2, 1, fin$SEX)

```TRTWHY```에서 특정 사건을 '겪는' 경우를 1로 코딩한다.

In [None]:
fin$TRTWHY1 <- ifelse(fin$TRTWHY1 == 2, 0, fin$TRTWHY1)
fin$TRTWHY2 <- ifelse(fin$TRTWHY2 == 2, 0, fin$TRTWHY2)
fin$TRTWHY3 <- ifelse(fin$TRTWHY3 == 2, 0, fin$TRTWHY3)
fin$TRTWHY4 <- ifelse(fin$TRTWHY4 == 2, 0, fin$TRTWHY4)

```NA```를 제거한다.

In [None]:
fin <- fin[complete.cases(fin), ]

변수들을 범주화한다.

In [None]:
fin$SEX <- factor(fin$SEX)
fin$MARTIAL <- factor(fin$MARTIAL)
fin$TRTWHY1 <- factor(fin$TRTWHY1)
fin$TRTWHY2 <- factor(fin$TRTWHY2)
fin$TRTWHY3 <- factor(fin$TRTWHY3)
fin$TRTWHY4 <- factor(fin$TRTWHY4)

In [None]:
summary(fin)

히스토그램을 이용해 임금의 분포를 살펴보자.

In [None]:
hist(fin$INCOME)

임금 변수의 왜도가 심하므로 올바른 분석을 하기 어렵다. 따라서 로그를 취해 왜도를 줄인다.

In [None]:
fin$INCOME <- log(fin$INCOME)
hist(fin$INCOME)

In [None]:
summary(fin)

- ```SEX``` : 성별
    - ```0``` : 남자
    - ```1``` : 여자

    
- ```AGE``` : 출생년도


- ```MARTIAL``` : 동거
    - ```1``` : 동거
    - ```2``` : 비동거
    - ```3``` : 해당 없음(미혼)
    
    
- ```INCOME``` : 로그를 취한 월 평균 총 소득 (세전, 근로외 소득 포함)
    
    
- 치료 못 받았던 경험  
    ```TRTWHY1``` : 비용을 지불할 능력이 없어서
    - ```0``` : 없었다
    - ```1``` : 있었다
    
 ```TRTWHY2``` : 직장을 빠지고 갈 시간이 없거나 다른 일로 바빠서  
    - ```0``` : 없었다
    - ```1``` : 있었다

 ```TRTWHY3``` : 거주하는 동네나 인근에서는 필요한 치료를 받을 수 없어서   
    - ```0``` : 없었다
    - ```1``` : 있었다
  
 ```TRTWHY4``` : 치료를 기다리는 사람들이 너무 많아서   
    - ```0``` : 없었다
    - ```1``` : 있었다

## 작업 공간 저장

In [None]:
save.image(file = "C:/Users/eunee/khu_project_2019/data_cleaning.RData")