## R03 정규표현식, stringr 패키지

#### 핵심 정규표현식 규칙
- 특정 문자열 표현을 도와주는 일종의 pattern이다
- 정규표현식을 통해 특정 문자열을 반환,삭제,수정 등의 작업을 수월하게 할수 있다

In [2]:
# [정규표현식(regular expression)]
# *  0 or more.
# +  1 or more.
# ?  0 or 1.
# .  무엇이든 한 글자를 의미
# ^  시작 문자 지정 
# ex) ^[abc] abc중 한 단어 포함한 것으로 시작
# [^] 해당 문자를 제외한 모든 것 ex) [^abc] a,b,c 는 빼고
# $  끝 문자 지정
# [a-z] 알파벳 소문자 중 1개
# [A-Z] 알파벳 대문자 중 1개
# [0-9] 모든 숫자 중 1개
# [a-zA-Z] 모든 알파벳 중 1개
# [가-힣] 모든 한글 중 1개
# [^가-힣] 모든 한글을 제외한 모든 것
# ㄷ[:punct:] 구두점 문자, ! " # $ % & ’ ( ) * + , - . / : ; < = > ? @ [ ] ^ _ ` { | } ~.
# [:alpha:] 알파벳 대소문자, 동등한 표현 [A-z]
# [:lower:] 영문 소문자, 동등한 표현 [a-z]
# [:upper:] 영문 대문자, 동등한 표현 [A-Z].
# [:digit:] 숫자, 0,1,2,3,4,5,6,7,8,9,
# [:xdigit:] 16진수  [0-9A-Fa-f]
# [:alnum:] 알파벳 숫자 문자, 동등한 표현[A-z0-9].
# [:cntrl:] \n, \r 같은 제어문자, 동등한 표현[\x00-\x1F\x7F].
# [:graph:] 그래픽 (사람이 읽을 수 있는) 문자, 동등한 표현
# [:print:] 출력가능한 문자, 동등한 표현
# [:space:] 공백 문자: 탭, 개행문자, 수직탭, 공백, 복귀문자, 서식이송
# [:blank:] 간격 문자, 즉 스페이스와 탭.


#### Built-in character functions
- substr(str,start,end)
- strplit(str,split=" ")

In [10]:
msg <- "Bigdata is very important subject"

In [13]:
substr(msg,1,7)
strsplit(msg,split="is")

#### Built-in Pattern Matching and Replacement
- grep(attern, x, ignore.case = FALSE,value = FALSE,) 
    - global regular expression print
    - 패턴에 해당하는 문자열 모두 보여준다
    - 벡터에 담아서 return한다
    - value = T 설정을 하면 index 값이 아닌 실제 문자열을 반환
    - ignore.case = T 설정을 하면 대소문자 구분 없이 찾는다
    
- sub(pattern, replacement, x, ignore.case = FALSE)
    - sub는 패턴과 일치하는 첫번째 문자열을 바꾼다
- gsub(pattern, replacement, x, ignore.case = FALSE)
    - gsub는 패턴과 일치하는 모든 문자열 바꾼다


In [3]:
# grep(pattern ,x , ignore.case =FALSE,value=FALSE)

strvec <- c("gender","height cm","age","weight","eight","Eight")

grep('^ei',strvec) # index로 돌려준다
grep('^ei',strvec,value = T) # value로 돌려준다
grep('^ei',strvec,value = T,ignore.case = TRUE) # 대소문자 무시해라



In [4]:
# sub(pattern, replacement, x, ignore.case = FALSE)
# gsub(pattern, replacement, x, ignore.case = FALSE)

txtVec <- c("BigData","Bigdata","bigdatabig","Data","dataMining","class1","class2")
gsub('+big+',"bigger",txtVec) # 두번 나오는것도 둘다 바뀐다
sub('big+',"bigger",txtVec) #  처음 하나만 바꾼다

#### 문자열의 길이 구하기

In [6]:
txtVec <- c("BigData","Bigdata","bigdata","Data","dataMining","class1","class2")
length(txtVec) # 원소의 갯수다
nchar(txtVec) # 각 원소의 문자열의 길이를 반환해준다
#stringr package를 사용할 수도 있다

### stringr 패키지
- 문자열 추출하거나 정규표현식 추출에 용이한 패키지다
- str_extract() str_extract_all()
- str_locate() str_locate_all()
- str_sub()
- str_replace() str_replace_all()
- str_remove() str_remove_all()

In [7]:
library(stringr)

In [8]:
msg <- "Bigdata is very important subject"

In [15]:
#str_extract() str_extract_all()
str_extract("abc123def456",'[a-zA-Z]+')
str_extract_all("abc123def456",'[a-zA-Z]+')

In [19]:
#str_locate() str_locate_all()
msg <- "Hi, Nice to meet you Hi"
str_locate(msg,"Hi")
class(str_locate(msg,"Hi"))
str_locate_all(msg,"Hi")
class(str_locate_all(msg,"Hi"))

start,end
1,2


start,end
1,2
22,23


In [22]:
# str_replace() str_replace_all()
msg <- "Hi, Nice to meet you Hi"
str_replace(msg,"Hi","Ji")
str_replace_all(msg,"Hi","Ji")

In [31]:
# str_remove() str_remove_all()
msg <- "Hi, Nice to meet you Hi"
str_remove(msg,"Hi,")
str_remove_all(msg,"Hi,")

msg2<- "Hi2, Nice2 2to2 meet you Hi"
str_remove_all(msg,"[0-9]+") # 숫자 다 지워버려!

In [26]:
# str_sub()
msg <- "Hi, Nice to meet you Hi"
str_sub(msg,1,2)

#### 정규표현식 연습

In [29]:
email<-"jslim9413@naver.com"
email2<-"jslim9413@naver.co.kr"
str_extract_all(email,'[\\w\\d]+@[\\w\\d]+.com')
str_extract_all(email2,'[\\w\\d]+@[\\w\\d]+.com') # 검색 안된다
str_extract_all(email,'[\\w\\d]+@[\\w\\d]+.(com|co.kr)')
str_extract_all(email2,'[\\w\\d]+@[\\w\\d]+.(com|co.kr)')

In [33]:
ssn<-"970318-1234567"
str_extract_all(ssn,'[0-9]{6}-[1-4][0-9]{6}')
str_extract_all(ssn,'\\d{6}-[1-4]\\d{6}')