> 텍스트 데이터를 전처리하다보면, 정규 표현식은 아주 유용한 도구로서 사용됩니다. 이번 챕터에서는 파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대해서 알아보도록 하겠습니다.

## 정규 표현식 문법과 모듈함수

파이썬에서는 정규 표현식 모듈 re을 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있습니다. 본격적으로 정규 표현식에 대해서 실습해보기에 앞서 정규 표현식을 위해 사용되는 특수 문자와 모듈 함수에 대해서 알아보도록 하겠습니다.

### 1) 정규 표현식 문법

|특수 문자|	설명|
|---|---|
|.	|한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)|
|?	|앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)|
|*	|앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상)|
|+	|앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)|
|^	|뒤의 문자로 문자열이 시작됩니다.|
|$	|앞의 문자로 문자열이 끝납니다.|
|{숫자}	|숫자만큼 반복합니다.|
|{숫자1, 숫자2}	|숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다.|
|{숫자,}	|숫자 이상만큼 반복합니다.|
|[ ]	|대괄호 안의 문자들 중 한 개의 문자와 매치합니다. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미합니다. [a-z]와 같이 범위를 지정할 수도 있습니다. [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다.|
|[^문자]	|해당 문자를 제외한 문자를 매치합니다.|
|'l'	|AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다.|

정규 표현식 문법에는 역 슬래쉬(\\)를 이용하여 자주 쓰이는 문자 규칙들이 있습니다.

|문자 규칙|	설명|
|--|--|
|\\\	|역 슬래쉬 문자 자체를 의미합니다|
|\d	|모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다.|
|\D	|숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다.|
|\s	|공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.|
|\S	|공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다.|
|\w	|문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다.|
|\W	|문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다.|

### 2) 정규표현식 모듈 함수

|모듈 함수	|설명|
|--|--|
|re.compile()	|정규표현식을 컴파일하는 함수입니다. 다시 말해, 파이썬에게 전해주는 역할을 합니다. 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리합니다.|
|re.search()	|문자열 전체에 대해서 정규표현식과 매치되는지를 검색합니다.|
|re.match()	|문자열의 처음이 정규표현식과 매치되는지를 검색합니다.|
|re.split()	|정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴합니다.|
|re.findall()	|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴합니다. 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴됩니다.|
|re.finditer()	|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴합니다.|
|re.sub()	|문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체합니다.|

## 정규 표현식 실습

### 1) '.' 기호

`.`은 한 개의 임의의 문자를 나타냅니다. 예를 들어서 정규 표현식이 `a.c`라고 합시다. a와 c사이에는 어떤 1개의 문자라도 올 수 있습니다. 즉, akc, azc, abc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치됩니다.

In [3]:
import re
r = re.compile('a.c')
r.search('kkk') #아무결과도 출력되지 않음

In [5]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

위의 코드는 search의 입력으로 들어오는 문자열에 정규표현식 패턴 a.c이 존재하는지를 확인하는 코드입니다. (.)은 어떤 문자로도 인식될 수 있기 때문에 abc라는 문자열은 a.c라는 정규 표현식 패턴으로 매치되는 것을 볼 수 있습니다.

### 2) '?' 기호

`?`는 ? 앞에 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우를 나타냅니다. 예를 들어 정규표현식이 `ab?c`라고 합시다. 이 경우, 'abc'와 'ac' 모두 매치할 수 있습니다.

In [8]:
import re
r = re.compile("ab?c")
r.search("abbc")#아무결과도 출력되지 않음

In [9]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [10]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

### 3) '*' 기호

`*`은 바로 앞의 문자가 0개 이상일 경우를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일수도 있습니다. 예를 들어서 정규 표현식이 abc라고 합시다. 그렇다면 ac, abc, abbc, abbb 등과 매치할 수 있으며 b의 갯수는 무수히 많아도 상관없습니다.

In [11]:
import re
r = re.compile('ab*c')
r.search("a") #아무결과도 출력되지 않음

In [12]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [13]:
r.search("abbbbbbbbbbbbbbbbbbbbbbc")

<re.Match object; span=(0, 24), match='abbbbbbbbbbbbbbbbbbbbbbc'>

### 4) '+' 기호

`+`는 `*`와 유사합니다. 하지만 다른 점은 앞의 문자가 최소 1개 이상이어야 한다는 점입니다. 예를 들어 정규 표현식이 'ab+c'라고 한다면, ac는 매치되지 않습니다. 하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 갯수는 무수히 많을 수 있습니다.

In [14]:
import re
r=re.compile("ab+c")
r.search("ac") #아무결과도 출력되지 않음

In [15]:
r.search("abbbbbc")

<re.Match object; span=(0, 7), match='abbbbbc'>

### 5) '^' 기호

`^`는 시작되는 글자를 지정합니다. 가령 정규표현식이 ^a라면 a로 시작되는 문자열만을 찾아냅니다.

In [16]:
import re
r=re.compile("^a")
r.search("bbc") #아무런 결과도 출력되지 않는다.

In [17]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

### 6) '{숫자}' 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다. 예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [18]:
import re
r=re.compile("ab{2}c")
r.search("ac") #아무결과도 출력되지 않음
r.search("abc") #아무결과도 출력되지 않음

In [19]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [20]:
r.search("abbbbbbc") # 아무결과도 출력되지 않음

### 7) '{숫자1, 숫자2}' 기호

문자에 해당 기호를 붙이면, 해당 문자를 **숫자1 이상 숫자2 이하만큼 반복**합니다. 예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [22]:
import re
r=re.compile("ab{2,8}c")
r.search("ac") #아무결과도 출력되지 않음
r.search("abc") #아무결과도 출력되지 않음

In [23]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [24]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [25]:
r.search("abbbbbbbbbbbc") #아무결과도 출력되지 않음

### 8) '{숫자, }' 기호

문자에 해당 기호를 붙이면 *해당 문자를 숫자 이상 만큼 반복*합니다. 예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 갯수가 2개 이상인 경우면 문자열과 매치합니다. 또한 만약 {0,}을 쓴다면 `+`와 동일한 의마가 됩니다.

In [26]:
import re
r=re.compile("a{2,}bc")
r.search("bc") #아무결과도 출력되지 않음
r.search("aa") #아무결과도 출력되지 않음

In [27]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [28]:
r.search("aaaaaaaaaaaaaaaaaaabc")

<re.Match object; span=(0, 21), match='aaaaaaaaaaaaaaaaaaabc'>

### 9) '[ ]' 기호

`[]`안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다. 예를 들어서 정규표현식 [abc]라면 a 또는 b 또는 c가 들어가있는 문자열과 매치됩니다. 범위를 지정하는 것도 가능합니다. [a-zA-Z]는 알파벳 전부를 의미하먀, [0-9]는 숫자 전부를 의미합니다.

In [29]:
import re
r=re.compile('[abc]')
r.search('zzz')

In [30]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [31]:
r.search("aaaaaaaaaaaaaaa")

<re.Match object; span=(0, 1), match='a'>

### 10) '[^문자]' 기호

[^문자]는 5)에서 설명한 ^와는 완전히 다른 의미로 쓰입니다. 여기서는 ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 합니다. 예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

In [32]:
import re
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [33]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [34]:
r.search("1")                                                                                                

<re.Match object; span=(0, 1), match='1'>