tidyr 이후부터

대부분 `help`를 쳐서 찾아볼 수 있으므로 걱정 안해도 됨

`-` readr 데이터 포맷 변경

* `parse_character()`
* `parse_integer()`
* `parse_double()`

# 1. tidyr

---

## **A. wide format과 long format**

> 특정 열에 대하여 wide/long을 판단할 수 있음 ex) 연도, 성별 등

`-` long format : 컴퓨터가 이해하기 편한 데이터 구조

* wide format보다 유연하여 데이터 추가 및 삭제가 용이
* 각 열은 요인으로 변환된 상태
* `pivot_longer()` 함수로 변환 가능 : 변환할 열을 지정할 시 `starts_with`, `ends_with`, `contains` 등 `select`와 동일한 함수 및 문법 활용 가능

```R
tbl %>% pivot_longer(cols = c(col1, col2),
                     names_to = "name_col", name_prefix = "prefix", ## 접두사 제거
                     values_to = "value_col", values_drop_na = TRUE) ## 제거하여 암묵적 결측값으로 변환

pivot_longer(tbl, cols = contains("20"),
             names_to = "year", values_to = "population", values_drop_na = TRUE)
```

`-` wide format : 사람이 읽기 쉬운 데이터구조

* 통계학에서 다루는 데이터 테이블 구조와 동일한 개념
* 각 행은 관특 단위를 나타내며, 각 열은 관측 단위에 대한 측정값으로 표현
* `pivot_wider()` 함수로 변환 가능

```R
tbl %>% pivot_wider(names_from = c(naming1, naming2, ...),
                    values_from = c(value1, value2, ...), values_fill = "0") ## 결측값 발생 시 처리
```

> `names_from`의 변수 범주 수와 `values_from`의 변수 개수의 곱만큼 새로운 변수가 생성된다. 이름은 `value_naming1_naming2_...`이런 식으로 붙는다.

## **B. 열의 분리 및 결합**

`-` `separate(tbl, complx_col, into = c("new_col1", "new_col2"), sep = "")`

* 단일 값 원칙을 만족하지 못하는 경우
* 한 개의 열에 여러 값들이 결합되어 있는 경우 여러 개로 분리

`-` `unite(tbl, col = "new_col", col1, col2, ..., sep = "")`

* 여러 개의 열을 하나의 열로 결합해야 할 때 사용
* 기본 구분자는 `"_"`

## **C. 결측값 처리**

`-` `NA` == not available

* 결측값은 전염성을 가짐 -> 결측값이 하나만 존재해도 연산 시 결측값으로 반환됨

`-` 명시적 결측값 : `NA`로서 명시적으로 표시된 값

`-` 암묵적 결측값 : 데이터셋에 존재하지 않는 값

```R
stocks <- tibble(
    year   = c(2015, 2015, 2015, 2015, 2016, 2016, 2016),
    qtr    = c(   1,    2,    3,    4,    2,    3,    4),
    return = c(1.88, 0.59, 0.35,   NA, 0.92, 0.17, 2.66)
    )
```

`-` `complete(tbl, col1, col2, ...)` : 해당 열들`(col1, col2, ...)`의 하위 범주들의 모든 조합에 대하여 명시적 결측값 생성

`-` `fill(tbl, col1, col2, ...)` : 해당 열들에서 결측값을 가장 최근에 존재하는 값(이월된 마지막 관측값)으로 대체

> 엑셀 차트 등에서 범주를 묶어 표시하였을 때 사용하면 유리

`-` `drop_na(tbl, col1, col2, ...)` : 해당 열들 중 하나라도 결측값이 포함된 행을 제거함. 변수를 입력하지 않으면 모든 열을 대상으로 검사

`-` `replace_na(tbl, list(col1 = "null", col2 = "unknown", ...))` : 결측값을 사용자가 지정한 값으로 대체

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;`replace_na(vecter, "null")` : 벡터의 경우 문자열로 파라미터 입력

# 2. stringr

---

## **A. 문자열 기초**

`-` `str_length(value)` : 문자열의 길이 확인

`-` `str_sub(txt, a, b)` : 서브 스트링. 파이썬 인덱스처럼 뒤에서부터 추출 가능

> `str_sub(x, -n, -1)` : 뒤에서 n번째부터 맨뒤까지 추출

`-` `str_to_lower(txt)`, `str_to_upper(txt)` : 대소문자 변환

`-` `letters`, `LETTERS` : `a-z` / `A-Z`

## **B. 데이터에서 문자열 생성**

`-` `str_c(a, b, sep = ", ")` : 두 개 이상의 벡터를 결합, 구분자 지정 가능

`-` `str_c(v, collapse = ", ")` : 벡터를 단일 문자열로 결합

`-` `str_replace_na(v)` : `NA`를 `"NA"`로 변경. 그냥 `replace_na(v, "NA")`써도 됨

`-` `str_glue(f-string)` : f-string 문법을 사용할 수 있도록 지원. 중괄호 내부 문자열 작성 시 외부를 묶은 따옴표와 다른 형태를 사용

`-` `str_glue_data(tbl, f-string)` : 데이터 프레임에 특화된 `str_glue()`, 더 빠르고 효율적임. 열 이름을 변수처럼 사용 가능

`-` `str_flatten(v, collapse = ", ")` : 문자 벡터의 각 원소를 하나의 문자열로 결합

> `group_by() -> summarize()`와 함께 사용하여 문자열을 요약하는 데에 사용 가능

```R
### 하나의 셀에 여러 개의 데이터를 삽입
mytbl <- tibble(name = c("Carmen", "Carmen", "Marvin", "Terence", "Terence", "Terence"),
                fruit = c("banana", "apple", "nectarine", "cantaloupe", "papaya", "madarine"))

mytbl %>%
  group_by(name) %>%
  summarise(fruits = str_flatten(fruit, ", ")) ## 각 셀에는 이름 별 과일이 나열됨
```

## **C. 정규 표현식 종류**

`-` 정규표현식

* 문자열의 규칙을 표현하는 특수한 언어
* 일정한 규칙을 만족하는 문자열을 탐색하거나 추출, 변경하는 데 사용
* `str_view(txt, regX)`로 정규 표현식이 문자 벡터에 어떻게 매칭되는지 시각적으로 확인 가능
* `writeLines(regX)`로 정규표현식이 포함된 텍스트가 실제 어떻게 산출되는지 파악 가능
* 여러 단어를 앵커에 먹이거나 반복시키고 싶을 경우 `()`를 사용
* `or` 연산자 `|`를 사용할 수 있음

|**표현식**|**설명**|
|:-:|:-|
|`.`|어떤 문자 한 개와 일치(줄 바꿈 제외)|
|`^`|`^` 뒤의 표현식이 문자열의 시작과 일치. 맨 처음이라는 것을 지시|
|`$`|`$` 앞의 표현식이 문자열의 끝과 일치. 맨 끝이라는 것을 지시|
|`?`|`?` 앞의 표현식이 0번 또는 1번 일치|
|`+`|`+` 앞의 표현식이 1번 이상 반복되어 일치|
|`*`|`*` 앞의 표현식이 0번 이상 반복되어 일치|
|`()`|표현식을 하나의 집단에 적용|
|`\`|escape 문자열. 정규 표현식을 문자열이 아닌 기호 자체로 변환|

`-` 앵커 : 닻, 문자열 양 끝단을 지시하는 정규 표현식 `^, $`

> 문자열 자체가 `"^ ... $"`라고 생각하면 편하다.

`-` 반복 : `?, +, *` / `{n, m}`

> `?` : 있을수도 있고 없을수도 있음. 그러니까 0번 또는 1번 일치
>
> `+` : 일단 해당 문자열을 더함. 더하니까 1번은 무조건 있음. 그러니까 1번 이상 반복되어 일치
>
> `*` : 해당 문자열을 곱함. 근데 0을 곱할수도 있으니까 0번 이상 반복되어 일치
>
> `{n}` : 앞의 문자열이 `n`번만 반복
>
> `{n,}` : 앞의 문자열이 `n`번 이상 반복
>
> `{n, m}` : 앞의 문자열이 `n`번 이상, `m`번 이하 반복

`-` 그룹화 : `()`안에 있는 것들을 싸잡아서 정규표현식이나 연산자 적용

`-` `[]`를 사용하여 문자 집합과 매칭 가능 : 대괄호 안 `^` 사용 시 해당 문자 집합을 제외한 문자를 매칭

`-` escape 문자열 : `\`로 정규표현식을 무력화할 수 있음.

```R
str_view("\"", "\"") ## "와 '는 정규표현식이 아니므로 \ 하나로 무력화할 수 있음.

str_view("a\\b", "\\\\") ## \\를 찾기 위해서 \로 \를 무력화하는 것을 두 번 썼음. 실제 산출은 a\b

str_view(c("abc", "a.c", "bef"), "a\\.c") ## 정규 표현식을 무력화하려면 \\. -> "\." -> .


text <- "The total cost is 29 dollars\nand 99 cents."
str_view(text, "\\d") ## decimal : 숫자 (0~9)와 매칭
str_view(text, "\\s") ## all types space
```

`-` `str_detect(v, regX)` : 문자열에 특정 패턴이 존재하는지 확인, 패턴이 일치하면 `TRUE` 반환

> `group_by(col1)`, `summarize(new_col = mean(str_detect(col2, regX)))`로 패턴이 일치하는 비율 파악 가능

`-` `str_subset(v, regX)` : 문자열들 중 패턴이 일치하는 것들만 반환

`-` `str_count(v, regX)` : 문자열 내에서 일치하는 패턴의 개수 반환

`-` `str_extract()`, `str_extract_all(v, regX, simplify = bool)` : 문자열에서 일치하는 텍스트를 추출

> `str_extract`는 가장 먼저 나오는 하나만 추출, `str_extract_all`은 전부 추출
>
> `simplify = TRUE` : 반환값을 행렬로 변환

`-` `str_replace()`, `str_replace_all(v, regX, replace_txt)` : 문자열들 중 패턴이 일치하는 부분을 다른 문자열로 변환

> `str_replace_all(v, c("1" = "one", "2" = "two", "3" = "three"))` : 벡터를 입력하여 여러 패턴을 한 번에 변경할 수 있음 -> 딕셔너리 느낌으로다가

`-` `str_split(v, pattern = regX, simplify = bool)` : 문자열을 특정 문자열을 기준으로 분리

> `pattern`에 `boundary()` 입력 가능
>
> * `boundary("word")` : 단어를 경계로 분할
> * `boundary("sentence")` : 문장을 경계로 분할
> * `boundary("line_break")` : 줄바꿈 및 공백 기호를 경계로 분할(`"\n", "\t", " ")`
> * `boundary("character")` : 문자를 경계로 분할 - 사실상 개별 문자열 다 분할

# 3. forcats

---

* 팩터를 다루는 패키지

## **A. levels 재정렬**

`-` `fct_inorder(fct)` : 데이터에 입력된 순서대로 팩터 수준 재정렬

`-` `fct_infreq(fct)` : 팩터 수준 중 가장 많은 관측값을 가지는 레벨 순서대로 재정렬

`-` `fct_rev(fct)` : 팩터 수준을 반대로 재정렬

`-` `fct_inseq(fct)` : 숫자로 변환 가능한 팩터일 경우 작은 수부터 재정렬

**---시각화하는 경우 유용하게 사용 가능---**

`-` `fct_reorder(fct, val)` : 특정 변수를 기준으로 팩터 수준을 재정렬

`-` `fct_relevel(fct, "level")` : 지정한 수준을 가장 앞쪽으로 이동

```R
## 평균 tv 시청시간이 큰 순서대로 재정렬 후 시각화
tidy <- gss_cat %>%
            group_by(marital) %>%
            summarize(tvhours = mean(tvhours, na.rm = TRUE),
                      n = n()) %>%
            mutate(marital = fct_reorder(marital, tvhours))

ggplot(tidy, aes(x = tvhours, y = marital)) +
    geom_bar(stat = "identity")


## 소득에 따른 평균 연령에서 응답 불가 수준을 맨 앞으로 위치 변경
tidy <- gss_cat %>%
            group_by(rincome) %>%
            summarize(age = mean(age, na.rm = TRUE), n = n())

ggplot(tidy, aes(x = age, y = fct_rev(fct_relevel(rincome, "Not applicable"))) +
    geom_point()
```

## **B. levels 변경**

> 서로 다른 범주를 잘못 묶으면 그 결과가 왜곡될 수 있음

`-` `fct_recode(fct, "A" = "AAA", "A" = "AA", "A" = "AA-")` : 얘는 왜 거꾸로 지정해주는진 모르겠지만, 특정 레벨을 다른 레벨로 지정할 수 있음. 뒤에 입력된 레벨이 앞의 값으로 변환됨.

`-` `fct_collapse(fct, A = c("AA", "AAA", "AA-"))` : 여러 레벨들을 하나의 레벨로 병합

`-` `fct_lump(fct, n = level_sum, prop = level_prob, other_level = "other")` : 빈도가 적은 레벨들을 `other_level`로 병합. 디폴트는 `"Other"`

# 3. lubridate

---

* 날짜, 시간을 다루는 함수를 제공하는 패키지
* 핵심 `tidyverse`와 별도로 불러올 필요가 있음

## **A. 날짜/시간 유형**

`-` `<date>` : 날짜

`-` `<time>` : 하루 중의 시간

`-` `<dttm>` : date-time. 날짜와 시간으로서 시점을 고유하게 식별

> `today()` : 오늘 날짜(`<date>`)
>
> `now()` : 현재 날짜 및 시간(`<dttm>`)

## **B. 날짜/시간 생성**

`-` 문자열(string)로부터 생성

* y(year), m(month), d(day)의 순서를 파악한 후 해당 순서대로 함수 이름으로 사용
* dttm 생성 시 함수 이름에 `_`와 h(hour), m(minute), s(second)중 하나 이상 추가

```R
mdy("March 2nd, 2025")
dmy("02-Mar-2025")

ymd_hms("2025-03-02 12:34:59")
mdy_hm("03/31/2025 18:30")
```

`-` 개별 구성요소로부터 생성