<a href="https://colab.research.google.com/github/be1le/natural-language-processing/blob/main/Regular_Expression_syntax.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 정규 표현식(Regular Expression)
---
텍스트 전처리에서 정규 표현식은 아주 유용한 도구입니다. 이번에는 파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대해서 알아봅니다.

[정규 표현식 syntax 참고링크](https://velog.io/@be1le/Text-preprocessing-5-Regular-Expression)

## .기호
.은 한 개의 임의의 문자를 나타냅니다. 예를 들어서 정규 표현식이 a.c라고 합시다. a와 c 사이에는 어떤 1개의 문자라도 올 수 있습니다. akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치됩니다.

In [1]:
import re

In [2]:
r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [3]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

.은 어떤 문자로도 인식될 수 있기 때문에 abc라는 문자열은 a.c라는 정규 표현식 패턴 으로 매치됩니다.

## ?기호 

?는 ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우를 나타냅니다. 예를 들어서 정규 표현식이 ab?c라고 합시다. 이 경우 이 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있습니다. 즉, abc와 ac 모두 매치할 수 있습니다.

In [4]:
r = re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [5]:
r.search("abc") #b가있는것으로 판단하여서 abc 매치

<re.Match object; span=(0, 3), match='abc'>

In [6]:
r.search("ac") # b가 없는 것으로 판단하여 ac 매치 

<re.Match object; span=(0, 2), match='ac'>

## *기호

*은 바로 앞의 문자가 0개 이상일 경우를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있습니다. 정규 표현식이 ab*c라면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있습니다.

In [7]:
r = re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [8]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [9]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [10]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

## +기호

+는 *와 유사합니다. 다른 점은 앞의 문자가 최소 1개 이상이어야 합니다. 정규 표현식이 ab+c라고 한다면 ac는 매치되지 않습니다. 하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있습니다.

In [11]:
r = re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [12]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [13]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

## ^기호
^는 시작되는 문자열을 지정합니다. 정규표현식이 ^ab라면 문자열 ab로 시작되는 경우 매치합니다.

In [14]:
r = re.compile("^ab")

# 아무런 결과도 출력되지 않는다.
r.search("bbc")
r.search("zab")

In [15]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

## {숫자} 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다. 예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [16]:
r = re.compile("ab{2}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbc")

In [17]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

## {숫자1, 숫자2} 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다. 예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [18]:
r = re.compile("ab{2,8}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbbbbbc")


In [19]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [20]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

##  {숫자,} 기호

문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복합니다. 예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 개수가 2개 이상인 경우인 문자열과 매치합니다. 또한 만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 됩니다.

In [21]:
r = re.compile("a{2,}bc")

# 아무런 결과도 출력되지 않는다.
r.search("bc")
r.search("aa")

In [22]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [23]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

## [ ] 기호

[ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다. 예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 범위를 지정하는 것도 가능합니다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [24]:
r = re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [25]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [26]:
r.search("aaaaaaa")     

<re.Match object; span=(0, 1), match='a'>

In [27]:
r.search("baac")      

<re.Match object; span=(0, 1), match='b'>

이번에는 알파벳 소문자에 대해서 범위 지정하여 정규 표현식을 만들어보고 문자열과 매치해보겠습니다.

In [28]:
r = re.compile("[a-z]")

# 아무런 결과도 출력되지 않는다.
r.search("AAA")
r.search("111") 

In [29]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

## 10) [^문자] 기호
[^문자]는 ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 합니다. 예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

In [30]:
r = re.compile("[^abc]")

# 아무런 결과도 출력되지 않는다.
r.search("a")
r.search("ab") 
r.search("b")

In [31]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [32]:
r.search("1")            

<re.Match object; span=(0, 1), match='1'>