# <font color = 'color'>[R텍마07] 2부2장3장_텍스트분석을 위한 정규표현식4</font>

## 필요사항 준비

### 필요 패키지 인스톨 및 라이브러리 로딩

In [1]:
# 필요한 패키지 목록 생성
pkg <- c('stringr', 'magrittr', 'purrr')

# 필요패키지 설지여부를 체크해 미설치패키지 목록을 저장
new_pkg <- pkg[!(pkg %in% rownames(installed.packages()))]

# 미설치 패키지 목록이 1개라도 있으면, 일괄 인스톨 실시
if (length(new_pkg)) install.packages(new_pkg, dependencies = TRUE)

# 필요 패키지 일괄 로딩실시
sapply(pkg, require, character.only = TRUE)  

Loading required package: stringr
Loading required package: magrittr
Loading required package: purrr

Attaching package: 'purrr'

The following object is masked from 'package:magrittr':

    set_names

The following object is masked from 'package:jsonlite':

    flatten



# <font color = 'blue'>정규표현식을 이용한 특정패턴 찾기(p.64)</font>

## 간단 텍스트셋 준비

In [2]:
# 간단 텍스트셋 준비

my <- c('Learning R is so interesting', 'He is a fascinating singer')

sprintf('검색대상 객체내용:')
print(my)

sprintf('검색대상 객체유형: %s객체', class(my))
sprintf('검색대상 객체길이: %d요소', length(my))

sprintf('검색대상 객체글자수:')
nchar(my) %>% print
# - sprintf('검색대상 객체글자수: %d글자', str_length(my))

[1] "Learning R is so interesting" "He is a fascinating singer"  


[1] 28 26


## 검색용 정규표현식 준비

* 텍스트셋에서 <font color = 'red'>ing로 끝나는 단어</font> 찾기
* 원본 Learning R is so interesting', 'He is a fascinating singer에서
<br>(1) Learning, (2) interesting, (3) fascinating을 찾아야하며, 
<br>(4) singer는 ing표현이 있지만 ing로 끝나는 단어가 아니어서 제외되어야 함

In [3]:
src = 'ing'
# - ing라는 영어소문자 3글자가 나타나는 패턴검색

In [4]:
src = '[[:alpha:]]ing'
# - (역방향해석) ing라는 영어소문자 3글자가 있는데, 바로 앞에 아무거나 영어대소문자가 1글자가 오는 패턴검색
# - (순방향해석) 아무거나 영어대소문자 1글자가 오고, 이어서 ing라는 영어소문자 3글자가 나타나는 패턴검색

# 텍스트셋에 알파벳패턴 포함여부 정규표현식
# - 소문자: a-z, [:lower:] --> pattern = [a-z], [[:lower:]] 로 입력
# - 대문자: A-Z, [:upper:] --> pattern = [A-Z], [[:upper:]] 로 입력
# - 대소문자: A-z, a-zA-Z, [:alpha:], [:lower:][:upper:] 
# - --> pattern = [A-z], [a-zA-Z], [[:alpha:]], [[:lower:][:upper:]] 로 입력

In [5]:
src = '[[:alpha:]]+ing'
# - (역방향 해석) ing라는 영어소문자 3글자가 있는데, 바로 앞에 아무거나 영어대소문자가 최소한 1글자 이상이 오는 패턴검색
# - (순방향 해석) 아무거나 영어대소문자가 최소한 1글자 이상 나타나고, 이어서 ing라는 영어 소문자 3글자가 오는 패턴검색

# 정량자(Quantifiers)를 통해서 패턴을 얼마나 많이 반복할지를 설정함 
# - *: 적어도 0 번 일치하는 패턴탐색, 일치패턴이 없어도 되고, 1번 이상 출현해도 됨 
# - +: 적어도 1 번 일치하는 패턴탐색 , 최소한 1번 이상은 일치패턴이 출현해야 됨
# - ?: 많아아 1 번 일치하는 패턴탐색 , 일치패턴이 없어도 되고, 정확하게 1번만 일치패턴이 출현해야 됨
# - {n}: 정확히 n 번 일치하는 패턴탐색 
# - {n,}: 최소한 n번 이상은 일치패턴이 출현해야 됨 --> {n, } 하면 에러발생(공백없어야 함)
# - {n,m}: 최소한 n번에서부터 최대 m번까지 이내로 일치패턴이 출현해야 됨 --> {n, m} 하면 에러발생(공백없어야 함)

In [6]:
src = '[[:alpha:]]+ing\\b'
# - (역방향 해석) ing라는 영어소문자 3글자로 끝나는 패턴을 찾아야 하며, 바로 앞에 영어대소문자가 최소한 1글자 이상이 오는 패턴검색
# - (순방향 해석) 영어대소문자가 최소한 1글자 이상 나타나고, 이어서 ing라는 영어 소문자 3글자로 끝나는 패턴검색

# 문자열 시작&종료부분 패턴매칭
# - 정규표현식으로 작성하는 검색패턴에 시작부분과 끝나는부분에 대한 패턴탐색 
# - ^: 문자열이 특정문자로 시작하는지 패턴탐색 --> pattern = ^OOO
# - $: 문자열이 특정문자로 끝나는지 패턴탐색 --> pattern = OOO$
# - \b: 문자로 이루어진 단어의 양쪽 끝 경계를 설정(경계를 벗어나는 부분에 더이상 문자가 없음) --> pattern = \\bOOO\\b  
# - \B: 비문자로 이루어진 단어의 양쪽 끝 경계를 설정(경계를 벗어나는 부분에 더이상 비문자가 없음) --> pattern = \\BOOO\\B

## 정규표현식을 이용한 패턴검색

In [7]:
sprintf('원본문장:')
print(my)
sprintf('정규표현식 검색패턴: %s', src)
cat('#----------------------------------------')

sprintf('검색패턴 포함여부를 요소별 논리값으로;')
str_detect(string = my, pattern = src) %>% print 
# - grepl(x = my, pattern = src) %>% print 동일결과
# - 검색패턴이 들어 있으면 TRUE, 없으면 FALSE 출력

sprintf('검색패턴 포함여부를 요소별 인덱스번호로:')
str_which(string = my, pattern = src) %>% print
# - grep(x = my, pattern = src) %>% print 동일결과
# - 검색패턴이 들어 있으면 해당 요소의 인덱스번호 출력, 없으면 해당 요소 인덱스번호 미출력

sprintf('검색패턴 포함여부를 요소별 내용으로:')
str_subset(string = my, pattern = src) %>% print 
# - grep(x = my, pattern = src, value = TRUE) %>% print 동일결과
# - 검색패턴이 들어 있으면 해당 요소의 내용 출력, 없으면 해당 요소의 내용 미출력

sprintf('검색패턴 포함여부를 요소별 출현위치로:')
str_locate_all(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있지 않으면 base::gregexpr()은 -1을, stringr::str_locate_all()은 NA를 출력함

sprintf('검색패턴 포함여부를 요소별 출현내용으로:')
str_extract_all(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% regmatches(x = my) %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있지 않으면 character(0)을 출력함

sprintf('검색패턴 포함여부를 요소별 출현횟수로:')
str_count(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% regmatches(x = my) %>% lengths %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있는 갯수를 카운팅해 출력함

sprintf('검색패턴 포함여부를 요소별 기술통계로:')
str_extract_all(string = my, pattern = src) %>% 
    map(table) %>% map(sort, decreasing = TRUE) %>% print

[1] "Learning R is so interesting" "He is a fascinating singer"  


#----------------------------------------

[1] TRUE TRUE


[1] 1 2


[1] "Learning R is so interesting" "He is a fascinating singer"  


[[1]]
     start end
[1,]     1   8
[2,]    18  28

[[2]]
     start end
[1,]     9  19



[[1]]
[1] "Learning"    "interesting"

[[2]]
[1] "fascinating"



[1] 2 1


[[1]]

interesting    Learning 
          1           1 

[[2]]
fascinating 
          1 



# <font color = 'blue'>정규표현식을 이용한 특정패턴 찾기(p.69)</font>

## 간단 텍스트셋 준비

In [8]:
# 분석대상 텍스트 데이터 원본 준비
my <- 'R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. 
Polls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website).'

sprintf('원본내용:')
print(my)

sprintf('객체유형: %s객체', class(my))
sprintf('객체길이: %d요소', length(my))

sprintf('원본글자수: %d글자', nchar(my))
# - sprintf('검색대상 객체글자수: %d글자', str_length(my))

[1] "R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. \nPolls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website)."


## 검색용 정규표현식 준비

* 텍스트셋에서 <font color = 'red'>stat라는 표현이 들어간 단어 찾기</font> 찾기
* 원본 텍스트셋에서 
<br>(1) stat라는 표현은 대소문자 상관없음 
<br>(2) statistical, Statistical, statisticians, STATA, Stat을 찾아야 함
<br>(3) librestas에도 stat라는 표현이 중간이후에 있으므로 찾아야 함

In [9]:
src = 'stat'
# - stat라는 영어소문자 4글자가 나타나는 패턴검색

In [10]:
src = '[S|s]tat'
# - 첫글자인 s가 대소문자에 상관없으며, 이어서 tat라는 영어소문자 3글자가 나타나는 패턴검색

# 연산자
# - 정규표현식으로 작성하는 검색패턴에 적절한 연산자를 반영하여 사전에 정해진 기능을 구현함 
# - . --> 어떤 문자 하나와 일치하는 패턴탐색 
# - [...] --> 문자 리스트. 꺾쇠괄호 내부에 지정된 문자중 하나와 매칭. 문자범위를 지정하는데 꺽쇠 내부에 -도 사용가능. 
# - [^...] --> 반전문자 리스트. [...]와 유사하지만, 꺾쇠괄호 내부에 있는 것을 제외한 문자 어떤 것이나 매칭 
# - \ --> 메타문자인 $ * + . ? [ ] ^ { } | ( ) 자체를 검색패턴으로 입력할 때 사전에 사용 
# - | --> 'or'라는 의미를 가지며, | 어느쪽이든 일치하는 패턴탐색 
# - (...) --> 일종의 그룹연산자 기능을 가짐

In [11]:
src = '[S|s][T|t][A|a][T|t]'
# - 첫글자 s, 두번째 t, 세번째 a, 네번째 t 알파벳이 대소문자에 상관없이 이어져 나타나는 패턴검색
# - 이 표현으로 시작하든, 끝나든, 중간에 들어 있는 상관없음 

In [12]:
src = '[S|s][T|t][A|a][T|t][[:alpha:]]'
# - (순방향해석) stat라는 영어대소문자 4글자가 오고, 아무거나 영어대소문자 1글자가 오는 패턴검색
# - (역방향해석) 아무거나 영어대소문자 1글자가 오고, 바로 앞에 stat라는 영어대소문자 4글자가 나타나는 패턴검색

# 텍스트셋에 알파벳패턴 포함여부 정규표현식
# - 소문자: a-z, [:lower:] --> pattern = [a-z], [[:lower:]] 로 입력
# - 대문자: A-Z, [:upper:] --> pattern = [A-Z], [[:upper:]] 로 입력
# - 대소문자: A-z, a-zA-Z, [:alpha:], [:lower:][:upper:] 
# - --> pattern = [A-z], [a-zA-Z], [[:alpha:]], [[:lower:][:upper:]] 로 입력

In [13]:
src = '[S|s][T|t][A|a][T|t][[:alpha:]]*'
# - (순방향해석) stat라는 영어대소문자 4글자가 오고, 아무거나 영어대소문자가 없거나 최소한 1글자 이상이 오는 패턴검색
# - (역방향해석) 아무거나 영어대소문자가 없거나 최소한 1글자 이상 나타나고, 바로 앞에 stat라는 영어대소문자 4글자가 나타나는 패턴검색

# 정량자(Quantifiers)를 통해서 패턴을 얼마나 많이 반복할지를 설정함 
# - *: 적어도 0 번 일치하는 패턴탐색, 일치패턴이 없어도 되고, 1번 이상 출현해도 됨 
# - +: 적어도 1 번 일치하는 패턴탐색 , 최소한 1번 이상은 일치패턴이 출현해야 됨
# - ?: 많아아 1 번 일치하는 패턴탐색 , 일치패턴이 없어도 되고, 정확하게 1번만 일치패턴이 출현해야 됨
# - {n}: 정확히 n 번 일치하는 패턴탐색 
# - {n,}: 최소한 n번 이상은 일치패턴이 출현해야 됨 --> {n, } 하면 에러발생(공백없어야 함)
# - {n,m}: 최소한 n번에서부터 최대 m번까지 이내로 일치패턴이 출현해야 됨 --> {n, m} 하면 에러발생(공백없어야 함)

In [14]:
src = '[[:alpha:]]*[S|s][T|t][A|a][T|t][[:alpha:]]*'
# - (순방향해석) 아무거나 영어대소문자가 없거나 최소한 1글자 이상이 오고, 그 다음에 stat라는 영어대소문자 4글자가 오고, 
#                이어서 아무거나 영어대소문자가 없거나 최소한 1글자 이상이 오는 패턴검색
# - (역방향해석) 아무거나 영어대소문자가 없거나 최소한 1글자 이상 나타나고, 바로 앞에 stat라는 영어대소문자 4글자가 나타나고,
#                보다 더 앞에 아무거나 영어대소문자가 없거나 최소한 1글자 이상 나타나는 패턴검색

# 정량자(Quantifiers)를 통해서 패턴을 얼마나 많이 반복할지를 설정함 
# - *: 적어도 0 번 일치하는 패턴탐색, 일치패턴이 없어도 되고, 1번 이상 출현해도 됨 
# - +: 적어도 1 번 일치하는 패턴탐색 , 최소한 1번 이상은 일치패턴이 출현해야 됨
# - ?: 많아아 1 번 일치하는 패턴탐색 , 일치패턴이 없어도 되고, 정확하게 1번만 일치패턴이 출현해야 됨
# - {n}: 정확히 n 번 일치하는 패턴탐색 
# - {n,}: 최소한 n번 이상은 일치패턴이 출현해야 됨 --> {n, } 하면 에러발생(공백없어야 함)
# - {n,m}: 최소한 n번에서부터 최대 m번까지 이내로 일치패턴이 출현해야 됨 --> {n, m} 하면 에러발생(공백없어야 함)

## 정규표현식을 이용한 패턴검색

In [15]:
sprintf('원본문장:')
print(my)
sprintf('정규표현식 검색패턴: %s', src)
cat('#----------------------------------------')

sprintf('검색패턴 포함여부를 요소별 논리값으로;')
str_detect(string = my, pattern = src) %>% print 
# - grepl(x = my, pattern = src) %>% print 동일결과
# - 검색패턴이 들어 있으면 TRUE, 없으면 FALSE 출력

sprintf('검색패턴 포함여부를 요소별 인덱스번호로:')
str_which(string = my, pattern = src) %>% print
# - grep(x = my, pattern = src) %>% print 동일결과
# - 검색패턴이 들어 있으면 해당 요소의 인덱스번호 출력, 없으면 해당 요소 인덱스번호 미출력

sprintf('검색패턴 포함여부를 요소별 내용으로:')
str_subset(string = my, pattern = src) %>% print 
# - grep(x = my, pattern = src, value = TRUE) %>% print 동일결과
# - 검색패턴이 들어 있으면 해당 요소의 내용 출력, 없으면 해당 요소의 내용 미출력

sprintf('검색패턴 포함여부를 요소별 출현위치로:')
str_locate_all(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있지 않으면 base::gregexpr()은 -1을, stringr::str_locate_all()은 NA를 출력함

sprintf('검색패턴 포함여부를 요소별 출현내용으로:')
str_extract_all(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% regmatches(x = my) %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있지 않으면 character(0)을 출력함

sprintf('검색패턴 포함여부를 요소별 출현횟수로:')
str_count(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% regmatches(x = my) %>% lengths %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있는 갯수를 카운팅해 출력함

sprintf('검색패턴 포함여부를 요소별 기술통계로:')
str_extract_all(string = my, pattern = src) %>% 
    map(table) %>% map(sort, decreasing = TRUE) %>% print

[1] "R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. \nPolls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website)."


#----------------------------------------

[1] TRUE


[1] 1


[1] "R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. \nPolls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website)."


[[1]]
     start end
[1,]    63  73
[2,]   132 142
[3,]   191 203
[4,]   236 246
[5,]   314 324
[6,]   359 363
[7,]   610 613
[8,]   677 686



[[1]]
[1] "statistical"   "Statistical"   "statisticians" "statistical"  
[5] "statistical"   "STATA"         "Stat"          "librestats"   



[1] 8


[[1]]

  statistical    librestats          Stat         STATA   Statistical 
            3             1             1             1             1 
statisticians 
            1 



# <font color = 'blue'>정규표현식을 이용한 특정패턴 찾기(p.76)</font>

## 간단 텍스트셋 준비

In [16]:
# 분석대상 텍스트 데이터 원본 준비
my <- 'R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. 
Polls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website).'

sprintf('원본내용:')
print(my)

sprintf('객체유형: %s객체', class(my))
sprintf('객체길이: %d요소', length(my))

sprintf('원본글자수: %d글자', nchar(my))
# - sprintf('검색대상 객체글자수: %d글자', str_length(my))

[1] "R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. \nPolls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website)."


## 검색용 정규표현식 준비

* 텍스트셋에서 <font color = 'red'>지정된 문자는 없음</font> 찾기
* 원본 텍스트셋에서 
<br>(1) 첫번째 문자는 반드시 알파벳 대문자로 표현되어야 함 
<br>(2) 두번째 문자는 알파벳 대소문자가 없을수도, 또는 1개 이상 올 수 있음

In [17]:
src = '[[:upper:]]'
# - stat라는 영어소문자 4글자가 나타나는 패턴검색

In [18]:
src = '[[:upper:]]{1}'
# - 첫글자인 s가 대소문자에 상관없으며, 이어서 tat라는 영어소문자 3글자가 나타나는 패턴검색


In [19]:
src = '[[:upper:]]{1}[[:alpha:]]'
# - 첫글자인 s가 대소문자에 상관없으며, 이어서 tat라는 영어소문자 3글자가 나타나는 패턴검색


In [20]:
src = '[[:upper:]]{1}[[:alpha:]]{0,}'
# - 첫글자인 s가 대소문자에 상관없으며, 이어서 tat라는 영어소문자 3글자가 나타나는 패턴검색


In [21]:
src = '[S|s][T|t][A|a][T|t]'
# - 첫글자 s, 두번째 t, 세번째 a, 네번째 t 알파벳이 대소문자에 상관없이 이어져 나타나는 패턴검색
# - 이 표현으로 시작하든, 끝나든, 중간에 들어 있는 상관없음 

In [22]:
src = '[S|s][T|t][A|a][T|t][[:alpha:]]'
# - (순방향해석) stat라는 영어대소문자 4글자가 오고, 아무거나 영어대소문자 1글자가 오는 패턴검색
# - (역방향해석) 아무거나 영어대소문자 1글자가 오고, 바로 앞에 stat라는 영어대소문자 4글자가 나타나는 패턴검색

# 텍스트셋에 알파벳패턴 포함여부 정규표현식
# - 소문자: a-z, [:lower:] --> pattern = [a-z], [[:lower:]] 로 입력
# - 대문자: A-Z, [:upper:] --> pattern = [A-Z], [[:upper:]] 로 입력
# - 대소문자: A-z, a-zA-Z, [:alpha:], [:lower:][:upper:] 
# - --> pattern = [A-z], [a-zA-Z], [[:alpha:]], [[:lower:][:upper:]] 로 입력

In [23]:
src = '[S|s][T|t][A|a][T|t][[:alpha:]]*'
# - (순방향해석) stat라는 영어대소문자 4글자가 오고, 아무거나 영어대소문자가 없거나 최소한 1글자 이상이 오는 패턴검색
# - (역방향해석) 아무거나 영어대소문자가 없거나 최소한 1글자 이상 나타나고, 바로 앞에 stat라는 영어대소문자 4글자가 나타나는 패턴검색

# 정량자(Quantifiers)를 통해서 패턴을 얼마나 많이 반복할지를 설정함 
# - *: 적어도 0 번 일치하는 패턴탐색, 일치패턴이 없어도 되고, 1번 이상 출현해도 됨 
# - +: 적어도 1 번 일치하는 패턴탐색 , 최소한 1번 이상은 일치패턴이 출현해야 됨
# - ?: 많아아 1 번 일치하는 패턴탐색 , 일치패턴이 없어도 되고, 정확하게 1번만 일치패턴이 출현해야 됨
# - {n}: 정확히 n 번 일치하는 패턴탐색 
# - {n,}: 최소한 n번 이상은 일치패턴이 출현해야 됨 --> {n, } 하면 에러발생(공백없어야 함)
# - {n,m}: 최소한 n번에서부터 최대 m번까지 이내로 일치패턴이 출현해야 됨 --> {n, m} 하면 에러발생(공백없어야 함)

In [24]:
src = '[[:alpha:]]*[S|s][T|t][A|a][T|t][[:alpha:]]*'
# - (순방향해석) 아무거나 영어대소문자가 없거나 최소한 1글자 이상이 오고, 그 다음에 stat라는 영어대소문자 4글자가 오고, 
#                이어서 아무거나 영어대소문자가 없거나 최소한 1글자 이상이 오는 패턴검색
# - (역방향해석) 아무거나 영어대소문자가 없거나 최소한 1글자 이상 나타나고, 바로 앞에 stat라는 영어대소문자 4글자가 나타나고,
#                보다 더 앞에 아무거나 영어대소문자가 없거나 최소한 1글자 이상 나타나는 패턴검색

# 정량자(Quantifiers)를 통해서 패턴을 얼마나 많이 반복할지를 설정함 
# - *: 적어도 0 번 일치하는 패턴탐색, 일치패턴이 없어도 되고, 1번 이상 출현해도 됨 
# - +: 적어도 1 번 일치하는 패턴탐색 , 최소한 1번 이상은 일치패턴이 출현해야 됨
# - ?: 많아아 1 번 일치하는 패턴탐색 , 일치패턴이 없어도 되고, 정확하게 1번만 일치패턴이 출현해야 됨
# - {n}: 정확히 n 번 일치하는 패턴탐색 
# - {n,}: 최소한 n번 이상은 일치패턴이 출현해야 됨 --> {n, } 하면 에러발생(공백없어야 함)
# - {n,m}: 최소한 n번에서부터 최대 m번까지 이내로 일치패턴이 출현해야 됨 --> {n, m} 하면 에러발생(공백없어야 함)

## 정규표현식을 이용한 패턴검색

In [25]:
sprintf('원본문장:')
print(my)
sprintf('정규표현식 검색패턴: %s', src)
cat('#----------------------------------------')

sprintf('검색패턴 포함여부를 요소별 논리값으로;')
str_detect(string = my, pattern = src) %>% print 
# - grepl(x = my, pattern = src) %>% print 동일결과
# - 검색패턴이 들어 있으면 TRUE, 없으면 FALSE 출력

sprintf('검색패턴 포함여부를 요소별 인덱스번호로:')
str_which(string = my, pattern = src) %>% print
# - grep(x = my, pattern = src) %>% print 동일결과
# - 검색패턴이 들어 있으면 해당 요소의 인덱스번호 출력, 없으면 해당 요소 인덱스번호 미출력

sprintf('검색패턴 포함여부를 요소별 내용으로:')
str_subset(string = my, pattern = src) %>% print 
# - grep(x = my, pattern = src, value = TRUE) %>% print 동일결과
# - 검색패턴이 들어 있으면 해당 요소의 내용 출력, 없으면 해당 요소의 내용 미출력

sprintf('검색패턴 포함여부를 요소별 출현위치로:')
str_locate_all(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있지 않으면 base::gregexpr()은 -1을, stringr::str_locate_all()은 NA를 출력함

sprintf('검색패턴 포함여부를 요소별 출현내용으로:')
str_extract_all(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% regmatches(x = my) %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있지 않으면 character(0)을 출력함

sprintf('검색패턴 포함여부를 요소별 출현횟수로:')
str_count(string = my, pattern = src) %>% print
# - gregexpr(text = my, pattern = src) %>% regmatches(x = my) %>% lengths %>% print 동일결과
# - 검색패턴이 해당 텍스트요소에 들어 있는 갯수를 카운팅해 출력함

sprintf('검색패턴 포함여부를 요소별 기술통계로:')
str_extract_all(string = my, pattern = src) %>% 
    map(table) %>% map(sort, decreasing = TRUE) %>% print

[1] "R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. \nPolls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website)."


#----------------------------------------

[1] TRUE


[1] 1


[1] "R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. R is comparable to popular commercial statistical packages, such as SAS, SPSS, and STATA. \nPolls, data mining surveys, and studies of scholarly literature databases show substantial increases in popularity in recent years. As of December 2018, R ranks 16th in the TIOBE index, a measure of popularity of programming languages. Choose Stat ABTest, Machine learning, Deep learning, and Text mining(Ref: librestats.com website)."


[[1]]
     start end
[1,]    63  73
[2,]   132 142
[3,]   191 203
[4,]   236 246
[5,]   314 324
[6,]   359 363
[7,]   610 613
[8,]   677 686



[[1]]
[1] "statistical"   "Statistical"   "statisticians" "statistical"  
[5] "statistical"   "STATA"         "Stat"          "librestats"   



[1] 8


[[1]]

  statistical    librestats          Stat         STATA   Statistical 
            3             1             1             1             1 
statisticians 
            1 



# End of Source