In [1]:
library(tidyverse)
library(stringr)

-- [1mAttaching packages[22m ------------------------------------------------------------------------------- tidyverse 1.3.1 --

[32mv[39m [34mggplot2[39m 3.3.5     [32mv[39m [34mpurrr  [39m 0.3.4
[32mv[39m [34mtibble [39m 3.1.6     [32mv[39m [34mdplyr  [39m 1.0.8
[32mv[39m [34mtidyr  [39m 1.2.0     [32mv[39m [34mstringr[39m 1.4.0
[32mv[39m [34mreadr  [39m 2.1.2     [32mv[39m [34mforcats[39m 0.5.1

-- [1mConflicts[22m ---------------------------------------------------------------------------------- tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



### 특수문자를 포함하려면 역슬래시 사용

In [18]:
double_quote <- "\"" 
single_quote <- "\'"
rslash <- "\\"
slash <- "/"
x <- c(double_quote, single_quote, rslash, slash)
writeLines(x)

"
'
\
/


#### - 줄바꿈 : "\n"
#### - 탭 : "\t"

### str_length() : 문자열 길이

In [20]:
str_length(c("a", "R for data science", NA))

### str_c() : 문자열 결합
- sep인수로 구분자 설정
- collapse인수로 결합 구분자

In [21]:
str_c("x", "y")

In [32]:
str_c("x", "y", sep = ", ")

str_c(c("x", "y", "z"), collapse = ", ")

### str_replace_na() : 결측값을 "NA"로 대체 출력

In [24]:
x <- c("ABC", NA)
str_c("|-", x, "-|")

In [25]:
str_c("|-", str_replace_na(x), "-|")

In [26]:
str_c("prefix-", c("a", "b", "c"), "-suffix")

In [28]:
name <- "Hadley"
time_of_day <- "morning"
birthday <- FALSE

str_c(
    "Good ", time_of_day, " ", name,
    if (birthday) " and HAPPY BIRTHDAY",
    "."
)

### str_sub() : 문자열 서브셋

In [37]:
x <- c("Apple", "Banana", "Pear")
str_sub(x, 1, 3)
str_sub(x, -3, -1)

In [40]:
str_sub(x, 1, 1) <- str_to_lower(str_sub(x, 1, 1))
x

### str_to_lower() : 텍스트를 소문자로 변경
### str_to_upper() : 텍스트를 대문자로 변경
### str_to_title() 
- locale인수를 통하여 언어 설정

In [43]:
# 11.2.5
# 1
paste("foo", "bar")
paste0("foo", "bar")

In [49]:
str_c("foo", "bar", sep = " ")
str_c("foo", "bar")

In [51]:
str_c("foo", NA)
paste("foo", NA)
paste0("foo", NA)

In [54]:
# 3 
# 각 문자열의 중앙 문자 추출
x <- c("a", "abc", "abcd", "abcde", "abcdef")
L <- str_length(x) ; L
m <- ceiling(L / 2) ; m
str_sub(x, m, m)

### str_trim() : 공백 제거 

In [55]:
# 5 
str_trim(" abc ")
str_trim(" abc ", side = "left")
str_trim(" abc ", side = "right")


### str_pad() : 공백 추가 (패딩)

In [56]:
str_pad("abc", 5, side = "both")
str_pad("abc", 4, side = "right")
str_pad("abc", 4, side = "left")

In [64]:
str_commasep <- function(x, delim = ",") {
  n <- length(x)
  if (n == 0) {
    ""
  } else if (n == 1) {
    x
  } else if (n == 2) {
    str_c(x[[1]], "and", x[[2]], sep = " ")
  } else {
    not_last <- str_c(x[seq_len(n - 1)], delim)
    last <- str_c("and", x[[n]], sep = " ")
    str_c(c(not_last, last), collapse = " ")
  }
}

In [66]:
str_commasep("")
str_commasep("a")
str_commasep(c("a", "b"))
str_commasep(c("a", "b", "c"))
str_commasep(c("a", "b", "c", "d"))

### 정규표현식을 이용한 패턴 매칭
- str_view() : 패턴 탐색

In [67]:
x <- c("apple", "banana", "pear")
str_view(x, "an")

### ".a." : a를 포함한 패턴 매칭

In [68]:
str_view(x, ".a.")

In [77]:
dot <- "\\."
writeLines(dot)

\.


In [74]:
str_view(c("abc", "a.c", "bef"), "a\\.c")

In [83]:
x <- "a\\b"
writeLines(x)

a\b


In [None]:
# 11.3.2
# 1 

```
- "\": R 문자열의 다음 문자를 이스케이프.
- "\\": 정규식에서 \로 해석되며 정규식의 다음 문자를 이스케이프.
- "\\\": 처음 두 개의 백슬래시는 정규식에서 리터럴 백슬래시로 해석되고 세 번째는 다음 문자를 이스케이프. 따라서 정규식에서 이것은 일부 이스케이프된 문자를 이스케이프.
```

### 앵커
- 정규표현식을 앵커로 고정하여 문자열의 시작 또는 끝과 매칭
- ^ : 문자열의 시작과 매칭
- $ : 문자열의 끝과 매칭

In [90]:
x <- c("apple", "banana", "pear")
str_view(x, "^a") # a로 시작되는 문자열

In [91]:
str_view(x, "a$") # a로 끝나는 문자열

In [92]:
x <- c("apple pie", "apple", "apple cake")
str_view(x, "apple")

In [93]:
str_view(x, "^apple$")

In [94]:
# 11.3.4
# 1 
str_view(c(".a.b.c", ".a.b", "....."), c("\\..\\..\\.."), match = TRUE)

In [97]:
# 2
str_view(stringr::words, "^y", match = TRUE) # 'y'로 시작

In [99]:
str_view(stringr::words, "x$", match = T) # 'x'로 끝남

In [None]:
str_view(stringr::words, "^...$", match = TRUE) # 세 글자
str_view(stringr::words, ".......", match = T) # 일곱 글자 이상

### 문자 클래스와 대체 구문
- \d : 임의의 숫자와 매치
- \s : 임의의 여백문자 (공백, 탭, 줄바꿈)
- [abc] : a, b 또는 c와 매치
- [^abc] : a, b, 도는 c를 제외한 문자와 매치

In [105]:
str_view(c("gray", "grey"), "gr(e|a)y") # 'gr'과 'y'사이 'e'나 'a'가 포함되는 문자

In [106]:
# 11.3.6
# 1 
str_subset(stringr::words, "^[aeiou]") # 모음으로 시작

In [113]:
# 모음을 포함하는 문자열을 제외한 문자열, (자음만 포함)
str_subset(stringr::words, "[aeiou]", negate = TRUE) 
str_view(stringr::words, "[aeiou]", match=FALSE)

In [115]:
str_subset(stringr::words, "[^e]ed$") # 'ed'로 끝나지만 'eed'로 끝나지는 않음

### 반복

Pattern	| {m,n} | Meaning
-- | -- | -- |
? |	{0,1} | 0또는 1회
+ |	{1,} |	| 1회 이상
* |	{0,} |	0회 이상

In [131]:
x <- "1888 is the longest year in Roman numerals: MDCCCLXXXVIII"

In [132]:
str_view(x, "CC?") # 문자열에서 CC를 1회 매칭
str_view(x, "CC{0,1}") # 문자열에서 CC를 0회 또는 1회 매칭
str_view(x, "CC+") # 문자열에서 CC를 1회 이상 매칭
str_view(x, "CC{1,}") # 문자열에서 CC를 1회 이상 매칭
str_view_all(x, "C[LX]+") # 문자열에서 C문자열 다음 LX를 1회 이상 매칭
str_view_all(x, "C[LX]{1,}") # 문자열에서 C문자열 다음 LX를 1회 이상 매칭
str_view_all(x, "C[LX]*") # 문자열에서 C문자열 다음 LX를 0회 이상 매칭
str_view_all(x, "C[LX]{0,}") # 문자열에서 C문자열 다음 LX를 0회 이상 매칭

In [None]:
# 11.3.8
# 2

```
- ^.*$ : ^.*$는 모든 문자열과 일치..
- "\\{.+\\}" ; "\\{.+\\}"는 적어도 하나의 문자를 둘러싼 중괄호가 있는 모든 문자열과 일치.
- \d{4}-\d{2}-\d{2} ; \ d {4} - \ d {2} - \ d {2}는 4자리 숫자와 하이픈, 2자리 숫자, 하이픈, 2자리 숫자와 일치. 이것은 "YYYY-MM-DD"("%Y-%m-%d")와 같은 형식의 날짜와 일치할 수 있는 정규식.
- "\\\\{4}" : "\\\\{4}"는 \\{4}이며 4개의 백슬래시와 일치. 
```

In [137]:
# 3
str_view(words, "^[^aeiou]{3}", match = TRUE) # 세 개의 자음으로 시작

In [139]:
str_view(words, "[aeiou]{3,}", match = TRUE) # 세 개 이상의 모음이 연달아 있음

In [None]:
str_view(words, "([aeiou][^aeiou]){2,}", match = TRUE) 
# 두 개 이상의 모음-자음 쌍이 연달아 있음

### 그룹화와 역참조

In [164]:
str_view(fruit, "(..)\\1", match = T) # 두 글자가 반복되는 과일 이름

In [167]:
str_view(fruit, "(.)\1\1", match = T) # 같은 문자가 3회 연속 등장. 예 : "aaa"

In [161]:
# 한 쌍의 문자 다음에 같은 문자 쌍이 역순으로 
str_view(words, "(.)(.)\\2\\1", match = T) 

In [157]:
str_view(words, "(..)\1", match = T) # 두 문자 반복 예 : "a1a1"

In [159]:
# 임의의 문자, 원래 문자, 다른 문자, 다시 원래 문자가 오는 문자 예 : "abaca", "b8b.b"
str_view(fruit, "(.).\\1.\\1", match = T) 

In [162]:
# 3개의 문자 다음에 모든 종류의 0개 이상의 문자가 오고 
# 그 뒤에 동일한 3개의 문자가 있지만 역순
# 예 : "abcsgasgddsadgsdgcba" or "abccba" or "abc1cba"
str_view(words, "(.)(.)(.).*\\3\\2\\1", match = T)

In [168]:
# 같은 문자로 시작하고 끝남
str_subset(words, "^(.)((.*\\1$)|\\1?$)")

In [169]:
# 두 문자 반복이 있음
str_subset("church", "([A-Za-z][A-Za-z]).*\\1")

In [170]:
# 적어도 세 곳에서 반복되는 문자가 있음
str_subset(words, "([A-Za-z][A-Za-z]).*\\1")

### 매칭 탐지

### str_detect() : 문자가 패턴과 매칭하는지 확인

In [171]:
x <- c("apple", "banana", "pear")
str_detect(x, "e")

In [173]:
sum(str_detect(words, "^t")) # t로 시작하는 단어의 개수

In [175]:
mean(str_detect(words, "[aeiou]$")) # 모음으로 끝나는 단어의 비율

In [179]:
# 모음이 최소 하나가 있는 단어 모두를 찾은 뒤, 그 역을 취함
no_vowels_1 <- !str_detect(words, "[aeiou]") 

In [180]:
# 자음으로만 이루어진 단어를 모두 찾음
no_vowels_2 <- str_detect(words, "^[aeiou]+$")

### str_subset() : 패턴과 매칭하는 요소 선택

In [184]:
str_subset(words, "x$") # x로 끝나는 단어

In [187]:
df <- tibble(
    word = words,
    i = seq_along(word)
)
df %>% filter(str_detect(words, "x$"))

word,i
<chr>,<int>
box,108
sex,747
six,772
tax,841


### str_count() : 하나의 문자열에서 몇 번 매칭되는지 알려줌

In [188]:
x <- c("apple", "banana", "pear")
str_count(x, "a")

In [190]:
mean(str_count(words, "[aeiou]")) # 단어당 평균 모음 개수

In [192]:
df %>% mutate(
    vowels = str_count(word, "[aeiou]"), # 모음의 개수
    consonants = str_count(word, "[^aeiou]") # 자음의 개수
) %>% print

[90m# A tibble: 980 x 4[39m
   word         i vowels consonants
   [3m[90m<chr>[39m[23m    [3m[90m<int>[39m[23m  [3m[90m<int>[39m[23m      [3m[90m<int>[39m[23m
[90m 1[39m a            1      1          0
[90m 2[39m able         2      2          2
[90m 3[39m about        3      3          2
[90m 4[39m absolute     4      4          4
[90m 5[39m accept       5      2          4
[90m 6[39m account      6      3          4
[90m 7[39m achieve      7      4          3
[90m 8[39m across       8      2          4
[90m 9[39m act          9      1          2
[90m10[39m active      10      3          3
[90m# ... with 970 more rows[39m


In [193]:
str_count("abababa", "aba")

In [196]:
words[str_detect(words, "^x|x$")] # x로 시작하거나 끝나는 단어

In [197]:
start_with_x <- str_detect(words, "^x") 
end_with_x <- str_detect(words, "x$")
words[start_with_x | end_with_x] # 모음으로 시작하고, 자음으로 끝나는 단어

In [200]:
# 각기 다른 모음을 하나 이상 포함하는 단어
start_with_vowel <- str_detect(words, "^[aeiou]")
end_with_consonant <- str_detect(words, "[^aeiou]$")
words[start_with_vowel & end_with_consonant] %>% head() 

### 매칭 추출

### str_extract() : 매칭한 텍스트 추출 (첫 번째 매칭만 추출)

In [201]:
length(sentences)

In [202]:
head(sentences)

In [205]:
color <- c("red", "orange", "yellow", "green", "blue", "pruple")
color_match <- str_c(color, collapse = "|")
color_match

In [208]:
has_color <- str_subset(sentences, color_match)
head(has_color)
matches <- str_extract(has_color, color_match)
head(matches)

In [209]:
more <- sentences[str_count(sentences, color_match) > 1]
str_view_all(more, color_match)

In [210]:
str_extract_all(more, color_match)

In [211]:
str_extract_all(more, color_match, simplify = T)

0,1
blue,red
green,red
orange,red


In [212]:
x <- c("a", "a b", "a b c")
str_extract_all(x, "[a-z]", simplify = T)

0,1,2
a,,
a,b,
a,b,c


In [213]:
# 11.4.4
# 1 
colours <- c("red", "orange", "yellow", "green", "blue", "purple")
colour_match <- str_c(colours, collapse = "|")
colour_match

In [214]:
colour_match2 <- str_c("\\b(", str_c(colours, collapse = "|"), ")\\b")
colour_match2

In [215]:
more2 <- sentences[str_count(sentences, colour_match) > 1]
str_view_all(more2, colour_match2, match = TRUE)

In [217]:
# 2
# 각 문장의 첫 번째 단어
str_extract(sentences, "[A-ZAa-z]+") %>% head()

In [218]:
str_extract(sentences, "[A-Za-z][A-Za-z']*") %>% head()

In [222]:
# ing로 끝나는 모든 단어
pattern <- "\\b[A-Za-z]+ing\\b"
sentences_with_ing <- str_detect(sentences, pattern)
unique(unlist(str_extract_all(sentences[sentences_with_ing], pattern))) %>%
  head()

In [224]:
# 모든 복수형
unique(unlist(str_extract_all(sentences, "\\b[A-Za-z]{3,}s\\b"))) %>%
  head()

### 그룹화 매칭

In [227]:
noun <- "(a|the) ([^ ]+)"
has_noun <- sentences %>% str_subset(noun) %>%
    head(10) %>% print

 [1] "The birch canoe slid on the smooth planks."       
 [2] "Glue the sheet to the dark blue background."      
 [3] "It's easy to tell the depth of a well."           
 [4] "These days a chicken leg is a rare dish."         
 [5] "The box was thrown beside the parked truck."      
 [6] "The boy was there when the sun rose."             
 [7] "The source of the huge river is the clear spring."
 [8] "Kick the ball straight and follow through."       
 [9] "Help the woman get back to her feet."             
[10] "A pot of tea helps to pass the evening."          


In [228]:
has_noun %>% str_extract(noun)

In [229]:
has_noun %>% str_match(noun)

0,1,2
the smooth,the,smooth
the sheet,the,sheet
the depth,the,depth
a chicken,a,chicken
the parked,the,parked
the sun,the,sun
the huge,the,huge
the ball,the,ball
the woman,the,woman
a helps,a,helps


In [231]:
tibble(sentence = sentences) %>%
    tidyr::extract(
        sentence, c("article", "noun"), "(a|the) ([^ ]+)",
        remove = FALSE
    ) %>% print

[90m# A tibble: 720 x 3[39m
   sentence                                    article noun   
   [3m[90m<chr>[39m[23m                                       [3m[90m<chr>[39m[23m   [3m[90m<chr>[39m[23m  
[90m 1[39m The birch canoe slid on the smooth planks.  the     smooth 
[90m 2[39m Glue the sheet to the dark blue background. the     sheet  
[90m 3[39m It's easy to tell the depth of a well.      the     depth  
[90m 4[39m These days a chicken leg is a rare dish.    a       chicken
[90m 5[39m Rice is often served in round bowls.        [31mNA[39m      [31mNA[39m     
[90m 6[39m The juice of lemons makes fine punch.       [31mNA[39m      [31mNA[39m     
[90m 7[39m The box was thrown beside the parked truck. the     parked 
[90m 8[39m The hogs were fed chopped corn and garbage. [31mNA[39m      [31mNA[39m     
[90m 9[39m Four hours of steady work faced us.         [31mNA[39m      [31mNA[39m     
[90m10[39m Large size in stockings is hard to se

In [232]:
# 11.4.6
# 1 
# 숫자 다음에 오는 모든 단어 (숫자와 단어 모두 추출)
numword <- "\\b(one|two|three|four|five|six|seven|eight|nine|ten) +(\\w+)"
sentences[str_detect(sentences, numword)] %>%
  str_extract(numword)

In [233]:
# 2
contraction <- "([A-Za-z]+)'([A-Za-z]+)"
sentences[str_detect(sentences, contraction)] %>%
  str_extract(contraction) %>%
  str_split("'")

### 매칭 치환

### str_replace()  / str_replace_all() : 매치를 새로운 문자열로 치환

In [234]:
x <- c("apple", "pear", "banana")
str_replace(x, "[aeiou]", "-")

In [236]:
str_replace_all(x, "[aeiou]", "-")

In [240]:
# 두 번째와 세 번째 단어의 단어 순서를 바꿈
sentences %>% 
    str_replace("([^ ]+) ([^ ]+) ([^ ]+)", "\\1 \\3 \\2") %>%
    head(5)

In [242]:
# 11.4.8
# 1
str_replace_all("past/present/future", "/", "\\\\")

In [245]:
# 3
# 단어의 첫 번재와 마지막 문자를 바꿈
swapped <- str_replace_all(words, "^([A-Za-z])(.*)([A-Za-z])$", "\\3\\2\\1")
intersect(swapped, words)

### 문자열 분할
### str_split() 
- simplify인수를 통해 행렬로 반환 가능

In [246]:
sentences %>% head(5) %>% str_split(" ")

In [248]:
"a|b|c|d" %>% str_split("\\|") %>% unlist()

In [249]:
sentences %>% head(5) %>% str_split(" ", simplify = T)

0,1,2,3,4,5,6,7,8
The,birch,canoe,slid,on,the,smooth,planks.,
Glue,the,sheet,to,the,dark,blue,background.,
It's,easy,to,tell,the,depth,of,a,well.
These,days,a,chicken,leg,is,a,rare,dish.
Rice,is,often,served,in,round,bowls.,,


In [252]:
fields <- c("Name: Hadley", "Country: NZ", "AGE: 35")
fields %>% str_split(": ", n = 2, simplify = T) # 반환할 조각의 최대 개수 지정

0,1
Name,Hadley
Country,NZ
AGE,35


### boundary() : 문자, 줄, 문장, 단어를 경계로 분할

In [259]:
x <- "This is a sentence. This is another sentence."

In [254]:
str_split(x, " ") %>% unlist()

In [258]:
str_split(x, boundary("word")) %>% unlist()

In [262]:
# 11.4.10
# 1
x <- c("apples, pears, and bananas")
str_split(x, ", +(and +)?") %>% unlist

In [266]:
# 2
sentence <- "The quick (“brown”) fox can’t jump 32.3 feet, right?"
str_split(sentence, " ") %>% unlist()
str_split(sentence, boundary("word")) %>% unlist

### 기타 패턴 유형
### regex() : 문자열로 된 패턴 사용
### - ignore_case = T : 문자가 대문자나 소문자 형태 모두로 매칭

In [275]:
bananas <- c("banana", "Banana", "BANANA")
str_view(bananas, "banana")

In [276]:
str_view(bananas, regex("banana", ignore_case = T))

### - multiline = T : ^와 $이 전체 문자열의 시작, 끝이 아니라 각 라인의 시작과 끝이 매칭

In [284]:
x <- "Line 1\nLine 2\nLine 3"
writeLines(x)

Line 1
Line 2
Line 3


In [285]:
str_extract_all(x, "^Line") %>% unlist()

In [286]:
str_extract_all(x, regex("^Line", multiline = TRUE)) %>% unlist

### - comments = T : 복잡한 정규표현식을 이해하기 쉽도록 설명과 공백 사용 가능

In [289]:
phone <- regex("
    \\(? # 선택적인 여는 괄호
    (\\d{3}) # 지역 번호
    [)- ]? # 선택적인 닫는 괄호, 대시 혹은 빈칸
    (\\d{3}) # 세 자리 숫자
    [ -]? # 선택적인 빈칸 혹은 대시
    (\\d{3}) # 세 자리 숫자
    ", comments = TRUE
)

In [290]:
str_match("514-791-8141", phone)

0,1,2,3
514-791-814,514,791,814


### - dotall = T : \n을 포함한 모든 문자에 매칭

### - fixed() : 지정된 일련의 바이트와 정확히 매치, 정규표현식 무시

### - coll() : 표준 대조 규칙을 사용하여 문자열 비교, 대소문자를 구분하지 않는 매치를 수행할 때 유용

In [299]:
x <- "This is a sentence"
str_view_all(x, boundary("word"))
str_extract_all(x, boundary("word")) %>% unlist

### 정규표현식의 기타 용도
### apropos() : 전역 환경에서 사용할 수 있는 모든 객체를 검색

In [301]:
apropos("replace")

### dir() : 디렉터리에 있는 모든 파일을 나열,
- pattern인수는 정규표현식을 취해, 매치하는 파일 이름만 반환

In [302]:
head(dir(pattern = "\\.Rmd$"))

### stringi

In [320]:
library(stringi)

In [321]:
stri_locale_info()

In [313]:
# 중복 문자열을 찾음
stri_duplicated(c("the", "brown", "cow", "jumped", "over",
                           "the", "lazy", "fox"))

In [314]:
# 랜덤 텍스트 생성
stri_rand_strings(4, 5)

In [319]:
# 텍스트 랜덤 셔플
stri_rand_shuffle("The brown fox jumped over the lazy cow.")

In [316]:
stri_rand_lipsum(1)

In [308]:
string1 <- c("hladny", "chladny")
stri_sort(string1, locale = "pl_PL")

In [309]:
stri_sort(string1, locale = "sk_SK")