# <font color = 'color'>[R텍마06] 2부2장3장_텍스트분석을 위한 정규표현식3</font>

## 필요사항 준비

### 필요 패키지 인스톨 및 라이브러리 로딩

In [1]:
# 패키지 설치&로딩 사용자정의함수 작성
mypak <- function(pkg){
    # 필요패키지 설지여부를 체크해 미설치패키지 목록을 저장
    new.pkg <- pkg[!(pkg %in% rownames(installed.packages()))]
    
    # 미설치 패키지를 일괄 인스톨 실시
    if (length(new.pkg)) 
        install.packages(new.pkg, dependencies = TRUE)
    
    # 필요패키지를 일괄 로딩실시
    sapply(pkg, require, character.only = TRUE)  
}

In [2]:
# 패키지 설치&로딩 사용자정의함수 이용
pak <- c('stringr', 'magrittr', 'purrr')
# - stringr: 문자열 분석패키지
# - magrittr: 파이프연산자 %>%
# - purrr: 데이터순환연산(벡터리사이클링, 벡터브로드캐스팅, 벡터연산) map시리즈 패키지

mypak(pak)

Loading required package: stringr
Loading required package: magrittr
Loading required package: purrr

Attaching package: 'purrr'

The following object is masked from 'package:magrittr':

    set_names

The following object is masked from 'package:jsonlite':

    flatten



### 정규표현식 체크 사이트 참조
<img src="./images/regex.jpg">

In [3]:
### 정규표현식 체크 사이트 접속

browseURL("http://regex101.com")

In [4]:
### 정규표현식 체크 사이트 접속

browseURL("http://regexr.com")

## 정규표현식 작성을 위한 방법

### 메타문자
* 정규표현식의 메타문자: 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자
* 정규표현식의 메타문자 종류: . ^ $ * + ? { } [ ] \ | ( )

### 확장 문자열 (Escape Sequence)
* 확장문자열(탈출문자)를 통해서 검색패턴에 직접적으로 포함시켜 검색할 수 없는 문자들을 검색할수 있도록 함
* 정규표현식 작성시 사전에 약속되어 있는 메타문자 자체를 검색패턴에 포함시킬 때 해당 문자 앞에 백슬래스 \를 표시함
<br>\': 단일 인용부호
<br>\": 이중 인용부호
<br>\t: 탭문자
<br>\n: 개행문자 - LF(Line Feed): (\n)는 행의 시작 부분으로 돌아 가지 않고 커서를 다음 행으로 이동 
<br>\r: 복귀문자 - CR(Carraiage Return): (\r)는 커서를 다음 줄로 진행하지 않고 행의 시작 부분으로 이동 

### 정량자(Quantifiers)
* 정량자를 통해서 패턴을 얼마나 많이 반복할지를 설정함
<br>*: 적어도 0 번 일치하는 패턴탐색
<br>+: 적어도 1 번 일치하는 패턴탐색
<br>?: 많아아 1 번 일치하는 패턴탐색
<br>{n}: 정확히 n 번 일치하는 패턴탐색
<br>{n,}: 적어도 n 번 일치하는 패턴탐색
<br>{n,m}: n 번에서 m 번 일치하는 패턴탐색

### 문자열 내부 패턴 위치
* 정규표현식으로 작성하는 검색패턴에 시작부분과 끝나는부분에 대한 패턴탐색
<br>^: 문자열이 특정문자로 시작하는지 패턴탐색
<br>$: 문자열이 특정문자로 끝나는지 패턴탐색
<br>\b: 단어 양쪽 끝에 빈문자열이 일치하는 패턴탐색 
<br>\B: 단어 끝에 빈문자열이 위치하지 않는 패턴탐색

### 연산자
* 정규표현식으로 작성하는 검색패턴에 적절한 연산자를 반영하여 사전에 정해진 기능을 구현함
<br>. --> 어떤 문자 하나와 일치하는 패턴탐색
<br>[...] --> 문자 리스트. 꺾쇠괄호 내부에 지정된 문자중 하나와 매칭. 문자범위를 지정하는데 꺽쇠 내부에 -도 사용가능.
<br>[^...] --> 반전문자 리스트. [...]와 유사하지만, 꺾쇠괄호 내부에 있는 것을 제외한 문자 어떤 것이나 매칭
<br>\ --> 메타문자인 $ * + . ? [ ] ^ { } | ( ) 자체를 검색패턴으로 입력할 때 사전에 사용 
<br>| --> 'or'라는 의미를 가지며, | 어느쪽이든 일치하는 패턴탐색
<br>(...) --> 일종의 그룹연산자 기능을 가짐

## 데이터셋 준비

### 탈출문자를 이용한 텍스트셋

In [5]:
# 간단 텍스트 데이터
sam <- c('\\', '\\\\', '\n', '\t', '\\.', '"', '\'', "'", "\"", 'It\'s', '36.5`C', '36.5\'C', '2°10\'26.5"E', "2°10'26.5\"E")  
sam
print(sam)

 [1] "\\"            "\\\\"          "\n"            "\t"           
 [5] "\\."           "\""            "'"             "'"            
 [9] "\""            "It's"          "36.5`C"        "36.5'C"       
[13] "2°10'26.5\"E" "2°10'26.5\"E"


### 다양한 유형별 텍스트셋

In [6]:
# 간단 텍스트 데이터
ex <- list(
    영어 = c('a', 'A', 'R', 'bigpie', 'Bigpie', 'BigPie', 'BIGPIE', 'RPyGo', 'gogle', 'google', 'goooggle'), 
    한글 = c('ㄱㅎ', 'ㅏㅗ', '파', '한', '파이썬', '빅파이', '파도', '이차항', '알파고'), 
    숫자 = c(34, -500, 259, 2019, 36.5, -36.5, 257.08),
    기호 = c('!@#$', '%^&?', '(){}[]<>', '+-*/=', '.,:;|_`~', '', ' ', '    '),
    탈출 = c('\\', '\\\\', '\n', '\t', '\\.', '"', '\'', "'", "\"", 'It\'s', '36.5`C', '36.5\'C', '2°10\'26.5"E', "2°10'26.5\"E"),
    전화 = c('02-369-7890', '032) 578-6639', '070-900-1100', '1588-1588', '1577-5700', '010-5364-3355', '010-8887-3320'), 
    계량 = c('175.4cm', '300미터', '80.50km', '65.8kg', '350ml', '1.5l', '1.5리터', '33평'),
    단위 = c('삼천원', '3천원', '3000원', '3,000원', '$30.5'),
    시간 = c('11:30', '22:05', '11:30:45', '11:30 a.m.', '11:30 AM'),
    날짜 = c('2019', '2019년', '`19', '2019-03-15', '2019년 3월 15일', '3월15일', 'February 22, 2020', 'Feb. 22, 2020', '2/22/2018'),
    결합 = c('빅Py', '알파Go', 'R파go', '알파 Go', '알 파 Go', '알파_Go', '알파:Go', '365일', '3M', 'P&G', '300스타', 'M16', 'M16총'),
    간격 = c('빅\tPy', '알파\nGo', 'R파\rgo', 'P&G', '300\n\r스타'),
    복합 = c('jane@my.com', 'www.python.org', '<h2> </h2>', '[3]', '[[3]]', 'km(Kilo-meter)', '주의!', '(경고!)', '"한국"', "'한국'"),
    범위 = c('3~17', '3 ~ 17', 'p.3~17', '3-17', '3 - 17', 'p.3-p.17', '3페이지~17페이지', '[5], [8], [20]', '한국, 미국, 영국')
)

ex %>% print

$영어
 [1] "a"        "A"        "R"        "bigpie"   "Bigpie"   "BigPie"  
 [7] "BIGPIE"   "RPyGo"    "gogle"    "google"   "goooggle"

$한글
[1] "ㄱㅎ"   "ㅏㅗ"   "파"     "한"     "파이썬" "빅파이" "파도"   "이차항"
[9] "알파고"

$숫자
[1]   34.00 -500.00  259.00 2019.00   36.50  -36.50  257.08

$기호
[1] "!@#$"     "%^&?"     "(){}[]<>" "+-*/="    ".,:;|_`~" ""         " "       
[8] "    "    

$탈출
 [1] "\\"            "\\\\"          "\n"            "\t"           
 [5] "\\."           "\""            "'"             "'"            
 [9] "\""            "It's"          "36.5`C"        "36.5'C"       
[13] "2°10'26.5\"E" "2°10'26.5\"E"

$전화
[1] "02-369-7890"   "032) 578-6639" "070-900-1100"  "1588-1588"    
[5] "1577-5700"     "010-5364-3355" "010-8887-3320"

$계량
[1] "175.4cm" "300미터" "80.50km" "65.8kg"  "350ml"   "1.5l"    "1.5리터"
[8] "33평"   

$단위
[1] "삼천원"  "3천원"   "3000원"  "3,000원" "$30.5"  

$시간
[1] "11:30"      "22:05"      "11:30:45"   "11:30 a.m." "11:30 AM"  

$날짜
[1] "2019"              "2019년"   

# <font color = 'blue'>숫자와 문자 검색을 위한 정규표현식</font>

## 숫자와 문자 검색을 위한 정규표현식 작성방법
* 정규표현식의 메타문자: 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자
* 정규표현식의 메타문자 종류: . ^ $ * + ? { } [ ] \ | ( )

### 텍스트셋에 숫자패턴 포함여부 검색
* <font color = 'red'>\d</font> --> pattern = '\\\\d' 로 입력
* <font color = 'red'>0, 1, 2, 3, 4, 5, 6, 7, 8, 9</font> --> pattern = '[0-9]' 로 입력
* <font color = 'red'>[:digit:]</font> --> pattern = '[[:digit:]]' 로 입력<pre></pre>
* (숫자아닌패턴) <font color = 'red'>\D</font> --> pattern = '\\\\D' 로 입력
* (숫자아닌패턴) <font color = 'red'>0, 1, 2, 3, 4, 5, 6, 7, 8, 9</font> --> pattern = '[^0-9]' 로 입력 

### 텍스트셋에 알파벳패턴 포함여부 검색
* 소문자: <font color = 'red'>a-z</font>, <font color = 'red'>[:lower:]</font> --> pattern = [a-z], [[:lower:]] 로 입력
* 대문자: <font color = 'red'>A-Z</font>, <font color = 'red'>[:upper:]</font> --> pattern = [A-Z], [[:upper:]] 로 입력
* 대소문자: <font color = 'red'>A-z</font>, <font color = 'red'>a-zA-Z</font>, <font color = 'red'>[:alpha:]</font>, <font color = 'red'>[:lower:][:upper:]</font> 
<br> --> pattern = [A-z], [a-zA-Z], [[:alpha:]], [[:lower:][:upper:]] 로 입력

### 텍스트셋에 알파벳&숫자 포함여부 검색
* <font color = 'red'>\w</font> -> pattern = \\\\w
* <font color = 'red'>A-z0-9</font> -> pattern = [A-z0-9]
* <font color = 'red'>[:alnum:]</font> -> pattern = [[:alnum:]]
* <font color = 'red'>[:alpha:][:digit:]</font> -> pattern = [[:alpha:][:digit:]] 
<pre></pre>
* (알파벳&숫자 아닌패턴) <font color = 'red'>\W</font> -> pattern = \\\\W
* (알파벳&숫자 아닌패턴) <font color = 'red'>^A-z0-9</font> -> pattern = [^A-z0-9]

## 숫자와 문자 검색을 위한 정규표현식 검색실습

In [7]:
# 정규표현식 검색패턴 설정
src = '\\d'

In [8]:
# 정규표현식 검색패턴 동일성 비교
a <- lapply(ex, grep, pattern = '\\d', value = TRUE)
b <- lapply(ex, grep, pattern = '[0-9]', value = TRUE)

identical(a, b)

### 검색패턴 포함여부를 요소별 논리값으로

In [9]:
# 텍스트셋 안에 검색패턴 포함여부를 해당요소별 논리값으로 도출 
# - 검색패턴이 들어 있으면 TRUE, 없으면 FALSE 출력

sprintf('정규표현식 검색패턴: %s', src)
lapply(ex, grepl, pattern = src)
# - map(ex, str_detect, pattern = src) 동일 검색결과 

### 검색패턴 포함여부를 요소별 인덱스번호로

In [10]:
# 텍스트셋 안에 검색패턴 포함여부를 해당요소별 인덱스번호로 도출 
# - 검색패턴이 들어 있으면 해당 요소의 인덱스번호 출력, 없으면 해당 요소 인덱스번호 미출력

sprintf('정규표현식 검색패턴: %s', src)
lapply(ex, grep, pattern = src)
# - tmp_lg <- map(ex, str_detect, pattern = src)
# - map(tmp_lg, which) 동일 검색결과

### 검색패턴 포함여부를 요소별 내용으로

In [11]:
# 텍스트셋 안에 검색패턴 포함여부를 해당요소별 내용으로 도출 
# - 검색패턴이 들어 있으면 해당 요소의 내용 출력, 없으면 해당 요소의 내용 미출력

sprintf('정규표현식 검색패턴: %s', src)
lapply(ex, grep, pattern = src, value = TRUE)

### 검색패턴 포함여부를 세부요소별로 

In [12]:
item <- '영어'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$영어
 [1] "a"        "A"        "R"        "bigpie"   "Bigpie"   "BigPie"  
 [7] "BIGPIE"   "RPyGo"    "gogle"    "google"   "goooggle"



character(0)
integer(0)
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [13]:
item <- '한글'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$한글
[1] "ㄱㅎ"   "ㅏㅗ"   "파"     "한"     "파이썬" "빅파이" "파도"   "이차항"
[9] "알파고"



character(0)
integer(0)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [14]:
item <- '숫자'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$숫자
[1]   34.00 -500.00  259.00 2019.00   36.50  -36.50  257.08



[1] "34"     "-500"   "259"    "2019"   "36.5"   "-36.5"  "257.08"
[1] 1 2 3 4 5 6 7
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE


In [15]:
item <- '기호'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$기호
[1] "!@#$"     "%^&?"     "(){}[]<>" "+-*/="    ".,:;|_`~" ""         " "       
[8] "    "    



character(0)
integer(0)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [16]:
item <- '기호'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$기호
[1] "!@#$"     "%^&?"     "(){}[]<>" "+-*/="    ".,:;|_`~" ""         " "       
[8] "    "    



character(0)
integer(0)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [17]:
item <- '탈출'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$탈출
 [1] "\\"            "\\\\"          "\n"            "\t"           
 [5] "\\."           "\""            "'"             "'"            
 [9] "\""            "It's"          "36.5`C"        "36.5'C"       
[13] "2°10'26.5\"E" "2°10'26.5\"E"



[1] "36.5`C"        "36.5'C"        "2°10'26.5\"E" "2°10'26.5\"E"
[1] 11 12 13 14
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE
[13]  TRUE  TRUE


In [18]:
item <- '전화'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$전화
[1] "02-369-7890"   "032) 578-6639" "070-900-1100"  "1588-1588"    
[5] "1577-5700"     "010-5364-3355" "010-8887-3320"



[1] "02-369-7890"   "032) 578-6639" "070-900-1100"  "1588-1588"    
[5] "1577-5700"     "010-5364-3355" "010-8887-3320"
[1] 1 2 3 4 5 6 7
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE


In [19]:
item <- '전화'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$전화
[1] "02-369-7890"   "032) 578-6639" "070-900-1100"  "1588-1588"    
[5] "1577-5700"     "010-5364-3355" "010-8887-3320"



[1] "02-369-7890"   "032) 578-6639" "070-900-1100"  "1588-1588"    
[5] "1577-5700"     "010-5364-3355" "010-8887-3320"
[1] 1 2 3 4 5 6 7
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE


In [20]:
item <- '계량'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$계량
[1] "175.4cm" "300미터" "80.50km" "65.8kg"  "350ml"   "1.5l"    "1.5리터"
[8] "33평"   



[1] "175.4cm" "300미터" "80.50km" "65.8kg"  "350ml"   "1.5l"    "1.5리터"
[8] "33평"   
[1] 1 2 3 4 5 6 7 8
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE


In [21]:
item <- '단위'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$단위
[1] "삼천원"  "3천원"   "3000원"  "3,000원" "$30.5"  



[1] "3천원"   "3000원"  "3,000원" "$30.5"  
[1] 2 3 4 5
[1] FALSE  TRUE  TRUE  TRUE  TRUE


In [22]:
item <- '시간'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$시간
[1] "11:30"      "22:05"      "11:30:45"   "11:30 a.m." "11:30 AM"  



[1] "11:30"      "22:05"      "11:30:45"   "11:30 a.m." "11:30 AM"  
[1] 1 2 3 4 5
[1] TRUE TRUE TRUE TRUE TRUE


In [23]:
item <- '날짜'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$날짜
[1] "2019"              "2019년"            "`19"              
[4] "2019-03-15"        "2019년 3월 15일"   "3월15일"          
[7] "February 22, 2020" "Feb. 22, 2020"     "2/22/2018"        



[1] "2019"              "2019년"            "`19"              
[4] "2019-03-15"        "2019년 3월 15일"   "3월15일"          
[7] "February 22, 2020" "Feb. 22, 2020"     "2/22/2018"        
[1] 1 2 3 4 5 6 7 8 9
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE


In [24]:
item <- '결합'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$결합
 [1] "빅Py"     "알파Go"   "R파go"    "알파 Go"  "알 파 Go" "알파_Go" 
 [7] "알파:Go"  "365일"    "3M"       "P&G"      "300스타"  "M16"     
[13] "M16총"   



[1] "365일"   "3M"      "300스타" "M16"     "M16총"  
[1]  8  9 11 12 13
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE  TRUE  TRUE
[13]  TRUE


In [25]:
item <- '복합'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$복합
 [1] "jane@my.com"    "www.python.org" "<h2> </h2>"     "[3]"           
 [5] "[[3]]"          "km(Kilo-meter)" "주의!"          "(경고!)"       
 [9] "\"한국\""       "'한국'"        



[1] "<h2> </h2>" "[3]"        "[[3]]"     
[1] 3 4 5
 [1] FALSE FALSE  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE


In [26]:
item <- '범위'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$범위
[1] "3~17"             "3 ~ 17"           "p.3~17"           "3-17"            
[5] "3 - 17"           "p.3-p.17"         "3페이지~17페이지" "[5], [8], [20]"  
[9] "한국, 미국, 영국"



[1] "3~17"             "3 ~ 17"           "p.3~17"           "3-17"            
[5] "3 - 17"           "p.3-p.17"         "3페이지~17페이지" "[5], [8], [20]"  
[1] 1 2 3 4 5 6 7 8
[1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE


# <font color = 'blue'>특수기호와 탈출문자 검색을 위한 정규표현식</font>

## 특수기호와 탈출문자 검색을 위한 정규표현식 작성방법

### 텍스트셋에 특수기호 포함여부 검색

* <font color = 'red'>[:punct:]</font> --> ! " # $ % & ’ ( ) * + , - . / : ; < = > ? @ [  ] ^ _ ` { | } ~ --> pattern = [[:punct:]]
* <font color = 'red'>[:xdigit:]</font> --> 16진수, [0-9A-Fa-f] --> pattern = [[:xdigit:]]

### 텍스트셋에 제어, 간격, 공백 문자 포함여부 검색
* <font color = 'red'>[:blank:]</font> --> 간격문자 - 스페이스바(spacebar) 또는 탭키(Tab) 등 --> pattern = [[:blank:]]
* <font color = 'red'>[:cntrl:]</font> --> 제어문자 - 캐리지리턴(CR), 라인피드(LF) --> pattern = [[:cntrl:]]
* <font color = 'red'>[:space:]</font> --> 공백문자 - 스페이스바(spacebar), 탭키(Tab), 캐리지리턴(CR), 라인피드(LF), 라인끝(EOL) 등 --> pattern = [[:space:]]
<br>- CR(Carraiage Return): (\r)는 커서를 다음 줄로 진행하지 않고 행의 시작 부분으로 이동
<br>- LF(Line Feed): (\n)는 행의 시작 부분으로 돌아 가지 않고 커서를 다음 행으로 이동
<br>- EOL(End of Line): (\r\n)는 두개의 ASCII 문자이며 CR과 LF 의 조합<pre></pre>
* <font color = 'red'>\s</font> -> pattern = \\\\s
* <font color = 'red'>[ \t\n\r\f\v\e]</font> -> pattern = [ \t\n\r\f\v\e]
<pre></pre>


* (탈출문자 아닌패턴) <font color = 'red'>\S</font> -> pattern = \\\\S
* (탈출문자 아닌패턴) <font color = 'red'>^ \t\n\r\f\v\e</font> -> pattern = [^ \t\n\r\f\v\e]

### 텍스트셋에 모든 유형 문자 포함여부 검색
* [:graph:] : 그래픽 (사람이 읽을 수 있는) 문자, 동등한 표현 [[:alnum:][:punct:]]
* [:print:] : 출력가능한 문자, 동등한 표현 [[:alnum:][:punct:]\\s]

## 특수기호와 탈출문자 검색을 위한 정규표현식 검색실습

In [27]:
# 정규표현식 검색패턴 설정
src = '\\s'

In [28]:
# 정규표현식 검색패턴 동일성 비교
a <- lapply(ex, grep, pattern = '\\s', value = TRUE)
b <- lapply(ex, grep, pattern = '[[:space:]]', value = TRUE)

identical(a, b)

### 검색패턴 포함여부를 요소별 논리값으로

In [29]:
# 텍스트셋 안에 검색패턴 포함여부를 해당요소별 논리값으로 도출 
# - 검색패턴이 들어 있으면 TRUE, 없으면 FALSE 출력

sprintf('정규표현식 검색패턴: %s', src)
lapply(ex, grepl, pattern = src)
# - map(ex, str_detect, pattern = src) 동일 검색결과 

### 검색패턴 포함여부를 요소별 인덱스번호로

In [30]:
# 텍스트셋 안에 검색패턴 포함여부를 해당요소별 인덱스번호로 도출 
# - 검색패턴이 들어 있으면 해당 요소의 인덱스번호 출력, 없으면 해당 요소 인덱스번호 미출력

sprintf('정규표현식 검색패턴: %s', src)
lapply(ex, grep, pattern = src)
# - tmp_lg <- map(ex, str_detect, pattern = src)
# - map(tmp_lg, which) 동일 검색결과

### 검색패턴 포함여부를 요소별 내용으로

In [31]:
# 텍스트셋 안에 검색패턴 포함여부를 해당요소별 내용으로 도출 
# - 검색패턴이 들어 있으면 해당 요소의 내용 출력, 없으면 해당 요소의 내용 미출력

sprintf('정규표현식 검색패턴: %s', src)
lapply(ex, grep, pattern = src, value = TRUE)

### 검색패턴 포함여부를 세부요소별로 

In [32]:
item <- '영어'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$영어
 [1] "a"        "A"        "R"        "bigpie"   "Bigpie"   "BigPie"  
 [7] "BIGPIE"   "RPyGo"    "gogle"    "google"   "goooggle"



character(0)
integer(0)
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [33]:
item <- '한글'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$한글
[1] "ㄱㅎ"   "ㅏㅗ"   "파"     "한"     "파이썬" "빅파이" "파도"   "이차항"
[9] "알파고"



character(0)
integer(0)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [34]:
item <- '숫자'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$숫자
[1]   34.00 -500.00  259.00 2019.00   36.50  -36.50  257.08



character(0)
integer(0)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [35]:
item <- '기호'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$기호
[1] "!@#$"     "%^&?"     "(){}[]<>" "+-*/="    ".,:;|_`~" ""         " "       
[8] "    "    



[1] " "    "    "
[1] 7 8
[1] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE


In [36]:
item <- '기호'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$기호
[1] "!@#$"     "%^&?"     "(){}[]<>" "+-*/="    ".,:;|_`~" ""         " "       
[8] "    "    



[1] " "    "    "
[1] 7 8
[1] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE


In [37]:
item <- '탈출'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$탈출
 [1] "\\"            "\\\\"          "\n"            "\t"           
 [5] "\\."           "\""            "'"             "'"            
 [9] "\""            "It's"          "36.5`C"        "36.5'C"       
[13] "2°10'26.5\"E" "2°10'26.5\"E"



[1] "\n" "\t"
[1] 3 4
 [1] FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE FALSE


In [38]:
item <- '전화'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$전화
[1] "02-369-7890"   "032) 578-6639" "070-900-1100"  "1588-1588"    
[5] "1577-5700"     "010-5364-3355" "010-8887-3320"



[1] "032) 578-6639"
[1] 2
[1] FALSE  TRUE FALSE FALSE FALSE FALSE FALSE


In [39]:
item <- '전화'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$전화
[1] "02-369-7890"   "032) 578-6639" "070-900-1100"  "1588-1588"    
[5] "1577-5700"     "010-5364-3355" "010-8887-3320"



[1] "032) 578-6639"
[1] 2
[1] FALSE  TRUE FALSE FALSE FALSE FALSE FALSE


In [40]:
item <- '계량'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$계량
[1] "175.4cm" "300미터" "80.50km" "65.8kg"  "350ml"   "1.5l"    "1.5리터"
[8] "33평"   



character(0)
integer(0)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [41]:
item <- '단위'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$단위
[1] "삼천원"  "3천원"   "3000원"  "3,000원" "$30.5"  



character(0)
integer(0)
[1] FALSE FALSE FALSE FALSE FALSE


In [42]:
item <- '시간'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$시간
[1] "11:30"      "22:05"      "11:30:45"   "11:30 a.m." "11:30 AM"  



[1] "11:30 a.m." "11:30 AM"  
[1] 4 5
[1] FALSE FALSE FALSE  TRUE  TRUE


In [43]:
item <- '날짜'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$날짜
[1] "2019"              "2019년"            "`19"              
[4] "2019-03-15"        "2019년 3월 15일"   "3월15일"          
[7] "February 22, 2020" "Feb. 22, 2020"     "2/22/2018"        



[1] "2019년 3월 15일"   "February 22, 2020" "Feb. 22, 2020"    
[1] 5 7 8
[1] FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE  TRUE FALSE


In [44]:
item <- '결합'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$결합
 [1] "빅Py"     "알파Go"   "R파go"    "알파 Go"  "알 파 Go" "알파_Go" 
 [7] "알파:Go"  "365일"    "3M"       "P&G"      "300스타"  "M16"     
[13] "M16총"   



[1] "알파 Go"  "알 파 Go"
[1] 4 5
 [1] FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE


In [45]:
item <- '복합'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$복합
 [1] "jane@my.com"    "www.python.org" "<h2> </h2>"     "[3]"           
 [5] "[[3]]"          "km(Kilo-meter)" "주의!"          "(경고!)"       
 [9] "\"한국\""       "'한국'"        



[1] "<h2> </h2>"
[1] 3
 [1] FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE


In [46]:
item <- '범위'
sprintf('정규표현식 검색대상: %s', item)
ex[item] %>% print

sprintf('정규표현식 검색패턴: %s', src)
grep(pattern = src, x = ex[[item]], value = TRUE) %>% print
grep(pattern = src, x = ex[[item]]) %>% print
grepl(pattern = src, x = ex[[item]]) %>% print

$범위
[1] "3~17"             "3 ~ 17"           "p.3~17"           "3-17"            
[5] "3 - 17"           "p.3-p.17"         "3페이지~17페이지" "[5], [8], [20]"  
[9] "한국, 미국, 영국"



[1] "3 ~ 17"           "3 - 17"           "[5], [8], [20]"   "한국, 미국, 영국"
[1] 2 5 8 9
[1] FALSE  TRUE FALSE FALSE  TRUE FALSE FALSE  TRUE  TRUE


# End of Source