# (R) tidy data

In [20]:
library('tidyverse')

## pivot

- 어떤 항목은 행으로 어떤 항목은 열로 보고자 다룰 때 사용

`-` table4a 예제

In [2]:
table4a

Unnamed: 0_level_0,country,1999,2000
Unnamed: 0_level_1,<chr>,<int>,<int>
1,Afghanistan,745,2666
2,Brazil,37737,80488
3,China,212258,213766


`pivot_longer` : 행을 항목으로 추가

In [3]:
table4a %>%
pivot_longer(c('1999', '2000'), names_to = "year", values_to = "cases")

country,year,cases
<chr>,<chr>,<int>
Afghanistan,1999,745
Afghanistan,2000,2666
Brazil,1999,37737
Brazil,2000,80488
China,1999,212258
China,2000,213766


In [4]:
table4a %>%
pivot_longer(c('1999','2000'), names_to = 'year', values_to = 'population')

country,year,population
<chr>,<chr>,<int>
Afghanistan,1999,745
Afghanistan,2000,2666
Brazil,1999,37737
Brazil,2000,80488
China,1999,212258
China,2000,213766


`-` 위의 두개 합쳐서 보기(merge랑 비슷한 기능인듯)

In [5]:
tidy4a <- table4a %>%
pivot_longer(c('1999', '2000'), names_to = 'year', values_to = 'cases')
tidy4b <- table4b %>%
pivot_longer(c('1999', '2000'), names_to = 'year', values_to = 'population')
left_join(tidy4a, tidy4b)

[1m[22mJoining, by = c("country", "year")


country,year,cases,population
<chr>,<chr>,<int>,<int>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


`-` table2 예제

In [6]:
table2

country,year,type,count
<chr>,<int>,<chr>,<int>
Afghanistan,1999,cases,745
Afghanistan,1999,population,19987071
Afghanistan,2000,cases,2666
Afghanistan,2000,population,20595360
Brazil,1999,cases,37737
Brazil,1999,population,172006362
Brazil,2000,cases,80488
Brazil,2000,population,174504898
China,1999,cases,212258
China,1999,population,1272915272


`pivot_wider` : `pivot_longer`랑 반대로 항목을 행으로 보내기

In [7]:
table2 %>%
pivot_wider(names_from = type, values_from = count)

country,year,cases,population
<chr>,<int>,<int>,<int>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


> 결과적으로 `pivot_longer`은 넒은 테이블을 더 좁고 길게 만들고<br>
`pivot_wider`는 긴 테이블을 더 짧고 넓게 만든다.

`-` table3 예제

In [8]:
table3

Unnamed: 0_level_0,country,year,rate
Unnamed: 0_level_1,<chr>,<int>,<chr>
1,Afghanistan,1999,745/19987071
2,Afghanistan,2000,2666/20595360
3,Brazil,1999,37737/172006362
4,Brazil,2000,80488/174504898
5,China,1999,212258/1272915272
6,China,2000,213766/1280428583


`separate` : 구분 문자가 나타나는 곳마다 쪼개서 하나의 열을 여러 열로 분리<br>
기본적으로 `separate`는 숫자나 글자가 아닌 문자를 볼 때마다 값을 쪼갠다.<br>
열을 구분하는 특정 문자를 코드에 나타내려면 `sep`을 사용한다.

In [9]:
table3 %>%
separate(rate, into = c("cases", "population"))

country,year,cases,population
<chr>,<int>,<chr>,<chr>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


In [10]:
table3 %>%
separate(rate, into = c("cases", "population"), sep = "/")

country,year,cases,population
<chr>,<int>,<chr>,<chr>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


- 근데 cases, population 문자형 보면 알 수 있듯이 결과가 character로 나온다<br>
이 때 `convert` 사용하면 적합한 열의 유형을 변형해준다.

In [11]:
table3 %>%
separate(
    rate,
    into = c("cases", "population"),
    convert = TRUE
    )

country,year,cases,population
<chr>,<int>,<int>,<int>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


- `sep`에 숫자 입력하면 앞에서부터 그 개수만큼 잘라서 분리한다.(음수는 뒤에서부터 자름)

In [12]:
table3 %>%
separate(year, into = c("century", "year"), sep = 2)

country,century,year,rate
<chr>,<chr>,<chr>,<chr>
Afghanistan,19,99,745/19987071
Afghanistan,20,0,2666/20595360
Brazil,19,99,37737/172006362
Brazil,20,0,80488/174504898
China,19,99,212258/1272915272
China,20,0,213766/1280428583


`-` table5 예제

In [13]:
table5

Unnamed: 0_level_0,country,century,year,rate
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>
1,Afghanistan,19,99,745/19987071
2,Afghanistan,20,0,2666/20595360
3,Brazil,19,99,37737/172006362
4,Brazil,20,0,80488/174504898
5,China,19,99,212258/1272915272
6,China,20,0,213766/1280428583


`unite` : `separate`과 반대로 여러 열을 하나의 열로 결합한다

In [14]:
table5 %>%
unite(new, century, year)

country,new,rate
<chr>,<chr>,<chr>
Afghanistan,19_99,745/19987071
Afghanistan,20_00,2666/20595360
Brazil,19_99,37737/172006362
Brazil,20_00,80488/174504898
China,19_99,212258/1272915272
China,20_00,213766/1280428583


- sep 사용해서 분리기호 변경( `_` -> 공백)

In [15]:
table5 %>%
unite(new, century, year, sep = "")

country,new,rate
<chr>,<chr>,<chr>
Afghanistan,1999,745/19987071
Afghanistan,2000,2666/20595360
Brazil,1999,37737/172006362
Brazil,2000,80488/174504898
China,1999,212258/1272915272
China,2000,213766/1280428583


## 결측값

> - 데이터값은 두 가지 방식으로 결측될 수 있다.<br>
> 1) 명시적으로, 즉 NA로 표시된다.<br>
> 2) 암묵적으로, 즉 단순히 데이터에 존재하지 않는다.(이런거 단순히 0으로 놓고가면 문제 생김)

`-` 예시 만들기

In [16]:
stocks <- tibble(
    year = c(2015, 2015, 2015, 2015, 2016, 2016, 2016),
    qtr = c(1, 2, 3, 4, 2, 3, 4),
    return = c(1.88, 0.59, 0.35, NA, 0.92, 0.17, 2.66)
    )

In [17]:
stocks

year,qtr,return
<dbl>,<dbl>,<dbl>
2015,1,1.88
2015,2,0.59
2015,3,0.35
2015,4,
2016,2,0.92
2016,3,0.17
2016,4,2.66


- NA뿐만 아니라 2016년 1분기도 결측값임<br>
아래는 데이터 셋 표현법으로 암묵적 결측값을 명시적 결측값(NA)로 나타내준 모습

In [18]:
stocks %>%
pivot_wider(names_from = year, values_from = return)

qtr,2015,2016
<dbl>,<dbl>,<dbl>
1,1.88,
2,0.59,0.92
3,0.35,0.17
4,,2.66


`values_drop_na = TRUE` : `pivot_longer`에서 명시적 결측값을 암묵적 결측값으로 전환(위에서는 표시해줬는데 오히려 필요가 없는 경우는 이렇게)

In [19]:
stocks %>%
pivot_wider(names_from = year, values_from = return) %>%
pivot_longer(
    col = c('2015', '2016'),
    names_to = "year",
    values_to = "return",
    values_drop_na = TRUE
    )

qtr,year,return
<dbl>,<chr>,<dbl>
1,2015,1.88
2,2015,0.59
2,2016,0.92
3,2015,0.35
3,2016,0.17
4,2016,2.66


`complete` : 열 집합을 입력으로 하여 거기에 맞는 조합행을 쭉 나열, 이때 비어 있는 데이터의 경우 NA로 표시

In [21]:
stocks %>%
complete(year, qtr)

year,qtr,return
<dbl>,<dbl>,<dbl>
2015,1,1.88
2015,2,0.59
2015,3,0.35
2015,4,
2016,1,
2016,2,0.92
2016,3,0.17
2016,4,2.66


In [22]:
treatment <- tribble(
    ~person,           ~treatment, ~response,
    "Derrick Whitmore",1,          7,
    NA,                2,          10,
    NA,                3,          9,
    "Katherine Burke", 1,          4
    )

In [23]:
treatment

person,treatment,response
<chr>,<dbl>,<dbl>
Derrick Whitmore,1,7
,2,10
,3,9
Katherine Burke,1,4


`fill` : 결측값을 가장 최근의 비결측값으로 채움

In [24]:
treatment %>%
fill(person)

person,treatment,response
<chr>,<dbl>,<dbl>
Derrick Whitmore,1,7
Derrick Whitmore,2,10
Derrick Whitmore,3,9
Katherine Burke,1,4


#### 결핵사례 연구

`-` who데이터 사용

In [35]:
who %>% head

country,iso2,iso3,year,new_sp_m014,new_sp_m1524,new_sp_m2534,new_sp_m3544,new_sp_m4554,new_sp_m5564,⋯,newrel_m4554,newrel_m5564,newrel_m65,newrel_f014,newrel_f1524,newrel_f2534,newrel_f3544,newrel_f4554,newrel_f5564,newrel_f65
<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,⋯,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
Afghanistan,AF,AFG,1980,,,,,,,⋯,,,,,,,,,,
Afghanistan,AF,AFG,1981,,,,,,,⋯,,,,,,,,,,
Afghanistan,AF,AFG,1982,,,,,,,⋯,,,,,,,,,,
Afghanistan,AF,AFG,1983,,,,,,,⋯,,,,,,,,,,
Afghanistan,AF,AFG,1984,,,,,,,⋯,,,,,,,,,,
Afghanistan,AF,AFG,1985,,,,,,,⋯,,,,,,,,,,


- 데이터셋이 굉장히 복잡하다<br>
보통 이럴 때에는 변수가 아닌 열을 모으는 것부터 시작하는 것이 좋다.<br>
country, iso2, iso3는 국가를 중복해서 지정하는 세개의 변수이다.<br>
year 또 분명히 변수이다.<br>
다른 모든 열은 아직 무엇인지 알 수 없지만 변수 이름(new_sp_m014등등)의 구조를 보면 이들은 변수가 아니라 값인 것 같다.<br>
그래서 new_sp_m014들은 값으로 취급하여 묶어서 행으로 보내고 확실한 변수들을 열에 둔다.

In [33]:
who1 <- who %>%
pivot_longer(
    cols = new_sp_m014:newrel_f65,
    names_to = "key",
    values_to = "cases",
    values_drop_na = TRUE
    )
who1 %>% head

country,iso2,iso3,year,key,cases
<chr>,<chr>,<chr>,<int>,<chr>,<int>
Afghanistan,AF,AFG,1997,new_sp_m014,0
Afghanistan,AF,AFG,1997,new_sp_m1524,10
Afghanistan,AF,AFG,1997,new_sp_m2534,6
Afghanistan,AF,AFG,1997,new_sp_m3544,3
Afghanistan,AF,AFG,1997,new_sp_m4554,5
Afghanistan,AF,AFG,1997,new_sp_m5564,2


`-` 새로운 key열의 값을 세어서 구조에 대한 힌트를 얻을 수 있다

In [37]:
who1 %>%
count(key) 

key,n
<chr>,<int>
new_ep_f014,1032
new_ep_f1524,1021
new_ep_f2534,1021
new_ep_f3544,1021
new_ep_f4554,1017
new_ep_f5564,1017
new_ep_f65,1014
new_ep_m014,1038
new_ep_m1524,1026
new_ep_m2534,1020


아래는 데이터 사전(?)을 사용하면 알려준다는데..?

> rel은 재발 사례를 의미<br>
ep는 폐외 결핵 사례를 의미<br>
sn은 폐 얼룩으로 보이지 않는 폐결핵의 사례를 의미<br>
sp는 폐 얼룩으로 보이는 폐결핵 사례를 의미<br>
<br>
여섯 번째는 성별<br>
나머지 숫자는 연령대를 나타낸다.<br>
014 -> 0~14세<br>
.<br>
.<br>
.<br>
65 -> 65세 이상

따라서 열 이름의 형식을 수정해야 한다<br>
new_rel이 아니라 newrel 이런식이기에<br>
`str_replace`는 차후에 자세히 설명함

In [39]:
who2 <- who1 %>%
mutate(key = stringr::str_replace(key, "newrel", "new_rel"))
who2 %>% head

country,iso2,iso3,year,key,cases
<chr>,<chr>,<chr>,<int>,<chr>,<int>
Afghanistan,AF,AFG,1997,new_sp_m014,0
Afghanistan,AF,AFG,1997,new_sp_m1524,10
Afghanistan,AF,AFG,1997,new_sp_m2534,6
Afghanistan,AF,AFG,1997,new_sp_m3544,3
Afghanistan,AF,AFG,1997,new_sp_m4554,5
Afghanistan,AF,AFG,1997,new_sp_m5564,2


- 위에서 이름 사이에 `_`를 넣었던 것은 분리하기 위함이였다.

In [42]:
who3 <- who2 %>%
separate(key, c("new", "type", "sexage"), sep = "_")
who3 %>% head

country,iso2,iso3,year,new,type,sexage,cases
<chr>,<chr>,<chr>,<int>,<chr>,<chr>,<chr>,<int>
Afghanistan,AF,AFG,1997,new,sp,m014,0
Afghanistan,AF,AFG,1997,new,sp,m1524,10
Afghanistan,AF,AFG,1997,new,sp,m2534,6
Afghanistan,AF,AFG,1997,new,sp,m3544,3
Afghanistan,AF,AFG,1997,new,sp,m4554,5
Afghanistan,AF,AFG,1997,new,sp,m5564,2


- new열은 상수이므로 제거한다, iso2, iso3도 중복이므로 제거한다.

`select` : -로 하면 그거 빼고 출력해준다

In [44]:
who4 <- who3 %>%
select(-new, -iso2, -iso3)

In [46]:
who4 %>% head

country,year,type,sexage,cases
<chr>,<int>,<chr>,<chr>,<int>
Afghanistan,1997,sp,m014,0
Afghanistan,1997,sp,m1524,10
Afghanistan,1997,sp,m2534,6
Afghanistan,1997,sp,m3544,3
Afghanistan,1997,sp,m4554,5
Afghanistan,1997,sp,m5564,2


In [47]:
who5 <- who4 %>%
separate(sexage, c("sex", "age"), sep = 1)

In [48]:
who5

country,year,type,sex,age,cases
<chr>,<int>,<chr>,<chr>,<chr>,<int>
Afghanistan,1997,sp,m,014,0
Afghanistan,1997,sp,m,1524,10
Afghanistan,1997,sp,m,2534,6
Afghanistan,1997,sp,m,3544,3
Afghanistan,1997,sp,m,4554,5
Afghanistan,1997,sp,m,5564,2
Afghanistan,1997,sp,m,65,0
Afghanistan,1997,sp,f,014,5
Afghanistan,1997,sp,f,1524,38
Afghanistan,1997,sp,f,2534,36
