## 14 Strings

이번 챕터에서는 string을 다루는 방법을 배울 것이다.  
regular expressions(정규표현식 짧게 말해서 regexps)에 집중을 할 것이며
이번 챕터에서는 `stringr::tidyverse`를 사용할 것이다.  

In [3]:
library(tidyverses)

Registered S3 method overwritten by 'rvest':
  method            from
  read_xml.response xml2
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
√ tibble  2.1.1       √ purrr   0.3.2  
√ tidyr   0.8.3       √ dplyr   0.8.0.1
√ readr   1.3.1       √ stringr 1.4.0  
√ tibble  2.1.1       √ forcats 0.4.0  
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()


### 14-1 String basics

#### 14-2-0 Basics

string 을 쓸 때에는 " 나 '를 사용하면 된다.  
만약 문자 그대로의 " 나 '를 사용하고 싶으면 `\`를 사용하면 된다  

In [26]:
double_quote <- "\"" # or '"'
single_quote <- '\'' # or "'"

이 말은 문자 그대로의 `\`를 쓰고 싶다면, `"\\"`를 사용하면 된다.  
`"\""`와 `"\\"`는 string 그 자체와는 다르다. 이는 escapes를 나타내기 때문이다.  
따라서 실제 모습을 보기 위해서는 `writeLines()`를 사용하면된다.  

In [27]:
x <- c("\"", "\\")


In [28]:
writeLines(x)

"
\


다른 special code 들이 있다.  
`"\n"`은 새로운 line을 추가하며 `"\t"는 tab이다.  

여러 개의 string들이 하나의 vector을 이룰 수도 있다.  
`c()`를 이용하여서 말이다.  


In [29]:
c("one", "two", "three")

#### 14-2-1 String Length

`str_length()`은 string의 길이를 알려준다.  

In [30]:
str_length(c("a", "R for data science", NA))

### 14-2-2 Combining strings

두 개 이상의 string을 합치기 위해서 `str_c()`를 사용한다.  

In [31]:
str_c("x", "y")

In [32]:
str_c("x", "y", "z")

`sep`를 써서 어떻게 나눌지 관리할수도 있다.  

In [33]:
str_c("x", "y", sep = ", ")

`NA`는 이상하게 번져간다.  

In [34]:
x <- c("abc", NA)
str_c("|-", x, "-|")

`NA` 자체를 쓰기 위해서는 `str_replace_na()`를 사용하면 된다.

In [35]:
str_c("|-", str_replace_na(x), "-|")

string에 있는 vector들을 뿌셔서 하나의 vector로 만들려면 `collapse`를 사용하면 된다.  

In [36]:
str_c(c("x", "y", "z"), collapse = ", ")

#### 14-2-3 Subsetting strings
`str_sub()`를 사용하여 string을 추출할 수 있다.  
이는 시작과 끝을 정하면 된다.  

In [37]:
x <- c("Apple", "Banana", "Pear")
str_sub(x, 1, 3)

In [38]:
str_sub(x, -3, -1)

만약 string이 너무 짧다면 할 수 있는 최선을 다하기는 한다.  

In [39]:
str_sub("a", 1, 5)

str_sub() 의 할당 형식을 사용하여 문자열을 수정할 수도 있다.  
아래 예시에서는 대문자를 소문자로 바꾸었다.  

In [40]:
str_sub(x, 1, 1) <- str_to_lower(str_sub(x, 1, 1))
x

#### 14-2-4 Locales
위의 예시에서 대문자를 소문자로 바꾸는 작업을 하였다.  
이런 식으로, `str_to_upper()`,`str_to_title()`를 쓸 수 있다.  
그러나 이렇게 바꾸는게 문제가 있는데, 소문자 대문자 규칙이 나라마다 다르기 때문이다.  
예를 들어 터키는 i가 두개 이다.  

In [41]:
str_to_upper(c("i", "ı"))

In [42]:
str_to_upper(c("i", "ı"), locale = "tr")

locale에 영향을 받는 operation은 sorting이다. `order()`와 `sort()`는 current locale을 쓰기 때문이다. 따라서 다른 지역에서 쓰일 경우 달라지는 문제가 발생할 수 있다. 이를 원치 않다면, `str_sort()`와 `str_order()`를 사용하면 된다. `locale`를 쓰면서 말이다.  

In [43]:
x <- c("apple", "eggplant", "banana")

str_sort(x, locale = "en")  # English

In [44]:
str_sort(x, locale = "haw") # Hawaiian

### 14-3 Matching patterns with regular expressions

`str_view()`와 `str_view_all()`를 사용해서 character vector와 regular expression이 어떻게 match되는지 보여 줄 것이다.  

#### 14-3-1 Basic matches

In [47]:
x <- c("apple", "banana", "pear")
str_view(x, "an")

`.`를 이용해서 character을 찾을 수 있다.  

In [48]:
str_view(x, ".a.")

근데 `.`이 character을 매칭해준다면 "`.`"자체는 어떻게 매칭해줄까?  
escape을 쓰면된다.`\.`  
안타깝게도 이런 식으로 쓰면 문제가 발생하는데 string에서도`\`가 escape symbol로 쓰이기 때문이다.  
따라서 `\\.`를 쓰면 된다.  

In [49]:
# To create the regular expression, we need \\
dot <- "\\."
# But the expression itself only contains one:
writeLines(dot)

\.


In [50]:
# And this tells R to look for an explicit .
str_view(c("abc", "a.c", "bef"), "a\\.c")

#### 14-3-2 Anchors

regular expressions의 default는 string의 아무 부분이나 match 하는 것이다.  
_anchor_ 를 사용함으로써 끝에서 혹은 시작에서 match할 수 있다.  
- `^`: 시작 부분 match
- `$`: 끝 부분 match

In [51]:
x <- c("apple", "banana", "pear")
str_view(x, "^a")

In [52]:
str_view(x, "a$")

전체 string을 match 하기 위해서는 `^` 와 `$` 둘 다 쓰면 된다.  

In [53]:
x <- c("apple pie", "apple", "apple cake")
str_view(x, "apple")

In [54]:
str_view(x, "^apple$")