## 정규 표현식(Regular Expression)
텍스트 전처리에서 정규 표현식은 아주 유용한 도구

### 1. 정규 표현식 문법과 모듈 함수

1. 정규 표현식 문법
|특수문자|설명|
|:---:|:---:|
| . |한개의 임의의 문자를 나타냄|
| ? |앞에 문자 존재 여부(문자가 0개 또는 1개)|
| * |앞에 문자 무한개 존재 여부(문자가 0개 이상)|
| + |앞의 문자가 최소 한 개 이상 존재|
| ^ |뒤의 문자열로 문자열 시작|
| $ |앞의 문자열로 문자열 끝남|
| {숫자} |숫자만큼 반복|
|{숫자1, 숫자2} |숫자1 이상 숫자2 이하만큼 반복|
| {숫자, } |숫자 이상만큼 반복|
| [] |대괄호 안의 문자들 중 한 개의 문자와 매치|
| [^문자] |해당 문자를 제외한 문자를 매치|]

<br>

|문자 규칙|설명|
|:---:|:---:|
| \ |문자 자체를 의미|
| \d |모든 숫자를 의미 [0~9]와 동일|
| \D |숫자를 제외한 모든 문자를 의미 [^0~9]와 동일|
| \s |공백을 의미 [\t\n\r\f\v]와 동일|
| \S |공백을 의미 [^\t\n\r\f\v]와 동일|
| \w |문자 또는 숫자를 의미 [a-zA-Z0-9]와 동일|
| \W |문자 또는 숫자를 의미 [^a-zA-Z0-9]와 동일|

2. 정규표현식 모듈 함수

|모듈 함수|설명|
|:---:|:---:|
| re.compile() |정규표현식을 컴파일 하는 함수|
| re.search() |문자열 전체에 대하여 정규표현식과 매치되는지 확인|
| re.match() |문자열 처음이 정규표현식과 매치되는지를 검색|
| re.split() |정규표현식을 기준으로 문자열을 분리하여 리스트로 리턴|
| re.findall() |문자열에서 정규표현식과 매치되는 문자열들을 찾아 리스트로 리턴|
| re.finditer() |문자열에서 정규표현식과 매치되는 문자열들의 이터레이터 객체를 리턴|
| re.sub() |문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체|

### 2. 정규표현식을 이용한 토큰화

In [16]:
# NLTK에서 정규표현식을 사용하여 단어 토큰화를 수행하는 RegexpTokenizer을 지원
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
