# (R) tidy data

In [41]:
library('tidyverse')

## pivot

- 어떤 항목은 행으로 어떤 항목은 열로 보고자 다룰 때 사용

`-` table4a 예제

In [7]:
table4a

Unnamed: 0_level_0,country,1999,2000
Unnamed: 0_level_1,<chr>,<int>,<int>
1,Afghanistan,745,2666
2,Brazil,37737,80488
3,China,212258,213766


`pivot_longer` : 행을 항목으로 추가

In [2]:
table4a %>%
pivot_longer(c('1999', '2000'), names_to = "year", values_to = "cases")

country,year,cases
<chr>,<chr>,<int>
Afghanistan,1999,745
Afghanistan,2000,2666
Brazil,1999,37737
Brazil,2000,80488
China,1999,212258
China,2000,213766


In [3]:
table4a %>%
pivot_longer(c('1999','2000'), names_to = 'year', values_to = 'population')

country,year,population
<chr>,<chr>,<int>
Afghanistan,1999,745
Afghanistan,2000,2666
Brazil,1999,37737
Brazil,2000,80488
China,1999,212258
China,2000,213766


`-` 위의 두개 합쳐서 보기(merge랑 비슷한 기능인듯)

In [5]:
tidy4a <- table4a %>%
pivot_longer(c('1999', '2000'), names_to = 'year', values_to = 'cases')
tidy4b <- table4b %>%
pivot_longer(c('1999', '2000'), names_to = 'year', values_to = 'population')
left_join(tidy4a, tidy4b)

[1m[22mJoining, by = c("country", "year")


country,year,cases,population
<chr>,<chr>,<int>,<int>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


`-` table2 예제

In [8]:
table2

country,year,type,count
<chr>,<int>,<chr>,<int>
Afghanistan,1999,cases,745
Afghanistan,1999,population,19987071
Afghanistan,2000,cases,2666
Afghanistan,2000,population,20595360
Brazil,1999,cases,37737
Brazil,1999,population,172006362
Brazil,2000,cases,80488
Brazil,2000,population,174504898
China,1999,cases,212258
China,1999,population,1272915272


`pivot_wider` : `pivot_longer`랑 반대로 항목을 행으로 보내기

In [9]:
table2 %>%
pivot_wider(names_from = type, values_from = count)

country,year,cases,population
<chr>,<int>,<int>,<int>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


> 결과적으로 `pivot_longer`은 넒은 테이블을 더 좁고 길게 만들고<br>
`pivot_wider`는 긴 테이블을 더 짧고 넓게 만든다.

`-` table3 예제

In [10]:
table3

Unnamed: 0_level_0,country,year,rate
Unnamed: 0_level_1,<chr>,<int>,<chr>
1,Afghanistan,1999,745/19987071
2,Afghanistan,2000,2666/20595360
3,Brazil,1999,37737/172006362
4,Brazil,2000,80488/174504898
5,China,1999,212258/1272915272
6,China,2000,213766/1280428583


`separate` : 구분 문자가 나타나는 곳마다 쪼개서 하나의 열을 여러 열로 분리<br>
기본적으로 `separate`는 숫자나 글자가 아닌 문자를 볼 때마다 값을 쪼갠다.<br>
열을 구분하는 특정 문자를 코드에 나타내려면 `sep`을 사용한다.

In [11]:
table3 %>%
separate(rate, into = c("cases", "population"))

country,year,cases,population
<chr>,<int>,<chr>,<chr>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


In [28]:
table3 %>%
separate(rate, into = c("cases", "population"), sep = "/")

country,year,cases,population
<chr>,<int>,<chr>,<chr>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


- 근데 cases, population 문자형 보면 알 수 있듯이 결과가 character로 나온다<br>
이 때 `convert` 사용하면 적합한 열의 유형을 변형해준다.

In [29]:
table3 %>%
separate(
    rate,
    into = c("cases", "population"),
    convert = TRUE
    )

country,year,cases,population
<chr>,<int>,<int>,<int>
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


- `sep`에 숫자 입력하면 앞에서부터 그 개수만큼 잘라서 분리한다.(음수는 뒤에서부터 자름)

In [34]:
table3 %>%
separate(year, into = c("century", "year"), sep = 2)

country,century,year,rate
<chr>,<chr>,<chr>,<chr>
Afghanistan,19,99,745/19987071
Afghanistan,20,0,2666/20595360
Brazil,19,99,37737/172006362
Brazil,20,0,80488/174504898
China,19,99,212258/1272915272
China,20,0,213766/1280428583


`-` table5 예제

In [38]:
table5

Unnamed: 0_level_0,country,century,year,rate
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>
1,Afghanistan,19,99,745/19987071
2,Afghanistan,20,0,2666/20595360
3,Brazil,19,99,37737/172006362
4,Brazil,20,0,80488/174504898
5,China,19,99,212258/1272915272
6,China,20,0,213766/1280428583


`unite` : `separate`과 반대로 여러 열을 하나의 열로 결합한다

In [37]:
table5 %>%
unite(new, century, year)

country,new,rate
<chr>,<chr>,<chr>
Afghanistan,19_99,745/19987071
Afghanistan,20_00,2666/20595360
Brazil,19_99,37737/172006362
Brazil,20_00,80488/174504898
China,19_99,212258/1272915272
China,20_00,213766/1280428583


- sep 사용해서 분리기호 변경( `_` -> 공백)

In [39]:
table5 %>%
unite(new, century, year, sep = "")

country,new,rate
<chr>,<chr>,<chr>
Afghanistan,1999,745/19987071
Afghanistan,2000,2666/20595360
Brazil,1999,37737/172006362
Brazil,2000,80488/174504898
China,1999,212258/1272915272
China,2000,213766/1280428583


## 결측값

> - 데이터값은 두 가지 방식으로 결측될 수 있다.<br>
> 1) 명시적으로, 즉 NA로 표시된다.<br>
> 2) 암묵적으로, 즉 단순히 데이터에 존재하지 않는다.(이런거 단순히 0으로 놓고가면 문제 생김)

`-` 예시 만들기

In [43]:
stocks <- tibble(
    year = c(2015, 2015, 2015, 2015, 2016, 2016, 2016),
    qtr = c(1, 2, 3, 4, 2, 3, 4),
    return = c(1.88, 0.59, 0.35, NA, 0.92, 0.17, 2.66)
    )

In [44]:
stocks

year,qtr,return
<dbl>,<dbl>,<dbl>
2015,1,1.88
2015,2,0.59
2015,3,0.35
2015,4,
2016,2,0.92
2016,3,0.17
2016,4,2.66


- NA뿐만 아니라 2016년 1분기도 결측값임<br>
아래는 데이터 셋 표현법으로 암묵적 결측값을 명시적 결측값(NA)로 나타내준 모습

In [45]:
stocks %>%
pivot_wider(names_from = year, values_from = return)

qtr,2015,2016
<dbl>,<dbl>,<dbl>
1,1.88,
2,0.59,0.92
3,0.35,0.17
4,,2.66


`values_drop_na = TRUE` : `pivot_longer`에서 명시적 결측값을 암묵적 결측값으로 전환(위에서는 표시해줬는데 오히려 필요가 없는 경우는 이렇게)

In [46]:
stocks %>%
pivot_wider(names_from = year, values_from = return) %>%
pivot_longer(
    col = c('2015', '2016'),
    names_to = "year",
    values_to = "return",
    values_drop_na = TRUE
    )

qtr,year,return
<dbl>,<chr>,<dbl>
1,2015,1.88
2,2015,0.59
2,2016,0.92
3,2015,0.35
3,2016,0.17
4,2016,2.66


## 154부터