# tibble, parsing [R]

In [7]:
library('tidyverse')

`-` 데이터프레임을 티블로 변형하기 

In [2]:
as_tibble(iris) %>% head

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<fct>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [3]:
tibble(
    x = 1:5,
    y = 1,
    z = x^2 + y
    )

x,y,z
<int>,<dbl>,<dbl>
1,1,2
2,1,5
3,1,10
4,1,17
5,1,26


> tibble과 데이터프레임의 차이점<br>
> 1) 입력 유형을 절대로 변경하지 않는다 ex) 문자열 > factor<br>
> 2) 변수의 이름을 바꾸거나 행 이름을 생성하지 않는다<br>
> 3) 티블은 R변수명으로 유효하지 않은 이름도 열 이름으로 가질 수 있다 ex) 공백<br>다만, 이런 변수들을 참조하려면 역따옴표(`)로 감싸야한다고 하는데 안써도 되는데? 

In [4]:
tb <- tibble(
    `apple` = "근본",
    ' ' = "스페이스",
    '1000' = "숫자")

In [5]:
tb

apple,Unnamed: 1_level_0,1000
<chr>,<chr>,<chr>
근본,스페이스,숫자


### tribble

> 티블을 만드는 또 다른 방법(적은 양의 데이터를 빠르게 읽기 쉬운형태로 만드는)<br>
열 헤더는 공식으로 정의(~로 시작), 입력은 쉼표로 구분)

In [6]:
tribble(
    ~x, ~y, ~z,
    "c" ,  3, 4.0,
    "a", 2, 3.6,
    "b", 1, 8.5
    )

x,y,z
<chr>,<dbl>,<dbl>
c,3,4.0
a,2,3.6
b,1,8.5


In [16]:
tibble(
    a = lubridate::now() + runif(1e3) * 86400,
    b = lubridate::today() + runif(1e3) * 30,
    c = 1:1e3,
    d = runif(1e3),
    e = sample(letters, 1e3, replace = TRUE)
    ) %>% head

a,b,c,d,e
<dttm>,<date>,<int>,<dbl>,<chr>
2022-07-23 18:36:53,2022-07-28,1,0.00343761,k
2022-07-23 13:49:37,2022-07-22,2,0.45199147,h
2022-07-22 21:11:33,2022-08-11,3,0.0770521,i
2022-07-22 22:44:18,2022-07-22,4,0.01277533,w
2022-07-23 03:04:22,2022-08-07,5,0.54975539,w
2022-07-23 02:53:20,2022-08-20,6,0.06460381,o


- 참고) 1e3 = 1000이다

`runif` : 평균=0, 표준편차=1의 무작위 난수 추출

`print(n=)` : 보여주는 행의수 제어<br>
`width = Inf` : 열 모두 보이기

In [27]:
nycflights13::flights %>%
print(n = 10, width = Inf)

[90m# A tibble: 336,776 × 19[39m
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
   [3m[90m<int>[39m[23m [3m[90m<int>[39m[23m [3m[90m<int>[39m[23m    [3m[90m<int>[39m[23m          [3m[90m<int>[39m[23m     [3m[90m<dbl>[39m[23m    [3m[90m<int>[39m[23m          [3m[90m<int>[39m[23m
[90m 1[39m  [4m2[24m013     1     1      517            515         2      830            819
[90m 2[39m  [4m2[24m013     1     1      533            529         4      850            830
[90m 3[39m  [4m2[24m013     1     1      542            540         2      923            850
[90m 4[39m  [4m2[24m013     1     1      544            545        -[31m1[39m     [4m1[24m004           [4m1[24m022
[90m 5[39m  [4m2[24m013     1     1      554            600        -[31m6[39m      812            837
[90m 6[39m  [4m2[24m013     1     1      554            558        -[31m4[39m      740            728
[90m 7[39m  [4m2

### 서브셋

In [30]:
df <- tibble(
    x = runif(5),
    y = rnorm(5)
    )
df

x,y
<dbl>,<dbl>
0.9973514,-1.1163051
0.2167404,0.6167982
0.5017351,-0.7638092
0.4860576,-0.253293
0.3348231,-0.9161202


In [32]:
df$x

In [33]:
df[["x"]]

In [34]:
df[[1]]

`-` pipe에서의 서브셋<br>
. 찍어줘야한다

In [35]:
df %>% .$x

In [36]:
df %>% .[["x"]]

`-` 일부 오래된 함수의 경우 tibble에서 동작하지 않기에 이 경우 dataframe으로 변환후 사용한다

In [37]:
class(as.data.frame(tb))

### read_csv

- option만 넣음

`skip = n` : 첫 n줄 건너 뛰기<br>
`comment = #` : #으로 시작하는 모든 줄 무시<br>
`col_names = FALSE` : 첫 행을 헤드로 취급하지 않고 x1 ~ xn으로 이름 붙임(데이터에 열 이름 없을 때 사용)

## parsing

- (뜻)parse -> 분석하다

`parse_무언가()` : 문자형 벡터를 입력으로 하여 논리형, 정수형 또는 날짜형과 같은 좀 더 특수화된 벡터를 반환

 `-` parsing 실패<br>
> 실패하면 경고문과 함께 NA로 표기<br>
> 이 경우 `problems()`사용하면 문제점 알려줌

In [56]:
x <- parse_integer(c("123","345","abc","123.45"))

“2 parsing failures.
row col               expected actual
  3  -- no trailing characters abc   
  4  -- no trailing characters 123.45
”


In [57]:
x

In [58]:
problems(x)

row,col,expected,actual
<int>,<int>,<chr>,<chr>
3,,no trailing characters,abc
4,,no trailing characters,123.45


`parse` 종류<br>
>parse_logical : 논리형<br> 
parse_integer : 정수형<br>
parse_double : 엄격한 수치형(★★★)<br>
parse_number : 유연한 수치형(★★) -> 각자 다른 방식의 숫자 표현을 써버리기에<br>
parse_character : 문자형 -> 단순하지만 문자 인코딩에서 중요<br>
parse_factor : 팩터형(R이 미리 정해지고 알려진 값으로 범주형 변수를 나타내기 위해 사용하는 데이터 구조)<br>
parse_datetime : 날짜/시각(★★★★) -> 날짜를 쓰는 방법은 다양하기에 이들이 제일 복잡<br>
parse_date : 날짜/시각(★★★★)<br>
parse_time : 날짜/시각(★★★★)

### 숫자 parsing

>숫자 파싱이 문제가 되는 3가지<br>
1) 소수점 구별기호 ex) `.` or `,`<br>
2) 단위 ex) $ %<br>
3) 간혹 읽기 편하라고 ' ' 사용 


`-` 첫 번째 문제 해결<br>
지역에 따라 파싱 옵션을 지정하는 객체인 `locale`사용<br>
변경이 필요할 경우 새로운 `locale`을 생성하고 `decimal_mark`인수를 설정하여 기본값인 .을 다른 값으로 재정의 

In [62]:
parse_double("1.23")

`-` 변경 예시

In [63]:
parse_double("1,23", locale = locale(decimal_mark = ","))

`-`두 번째 문제 해결<br>
`parse_number`는 숫자 앞뒤의 비수치 문자(non-numeric character)를 모두 무시<br>
통화 및 백분율에 특히 유용하고 텍스트에 포함된 숫자를 추출하는 데도 효과적 

In [49]:
parse_number("$100")

In [50]:
parse_number("20%")

`-` 비수치 문자 무시 예

In [51]:
parse_number("It cost $123.45")

`-` 미국식 처리법

In [52]:
parse_number("$123,456,789")

`-` 유럽식 처리법

In [64]:
parse_number(
    "123.456.789",
    locale = locale(grouping_mark = "."))

`-` factor형 처리<br>
R은 팩터형을 사용하기에, 가질 수 있는 값을 미리 알고 있는 범주형 변수를 나타낸다

In [68]:
fruit <- c("apple", "banana")
parse_factor(c("apple", "banana", "bananana"), levels = fruit)

“1 parsing failure.
row col           expected   actual
  3  -- value in level set bananana
”


### 날짜 parsing

In [70]:
parse_datetime("2010-10-01T2010")

[1] "2010-10-01 20:10:00 UTC"

In [71]:
parse_datetime("20101010")

[1] "2010-10-10 UTC"

In [72]:
parse_date("2010-10-01")

In [75]:
library('hms')# 시간 데이터 다루는 패키지

In [76]:
parse_time("20:10:01")

20:10:01

In [77]:
parse_time("01:10 am")

01:10:00

> 위의 예시들로 주어진 데이터를 처리하지 못한다면 나만의 format을 만들어 사용가능<br>
<br>
연<br>
%Y(4 자리)<br>
%y(2 자리, 00-69 -> 2000-2069, 70-99 -> 1970-1999)<br>
<br>
월<br>
%m(2 자리)<br>
%b("jan"과 같이 축약된 명칭)<br>
%B(전체 명칭, "January")<br>
<br>
일<br>
%d(2 자리)<br>
%e(선택적 선행 공백)<br>
<br>
시간<br>
%H(0-23 시간 형식)<br>
%I(0-12, %p와 함께 사용해야 함)<br>
%p(a.m/p.m표시)<br>
%M(분)<br>
%S(정수 초)<br>
%OS(실수 초)<br>
<br>
숫자가 아닌 문자<br>
%.(숫자가 아닌 문자 하나를 건너뛴다)<br>
%*(숫자가 아닌 문자 모두를 건너뛴다)

`-` 시간 데이터 처리 예시

In [80]:
parse_date("01/02/15", "%m/%d/%y")

In [81]:
parse_date("01/02/15", "%d/%m/%y")

In [82]:
parse_date("01/02/15", "%y/%m/%d")