# 정규 표현식 문법

  파이썬에서는 정규 표현식 모듈 re을 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있다.

## 정규표현식 모듈 함수

|모듈 함수	  |설명|
|---|---|
|re.compile()	|정규표현식을 컴파일하는 함수입니다. 다시 말해, 파이썬에게 전해주는 역할을 합니다. |
|             |찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리.
|re.search()	|문자열 전체에 대해서 정규표현식과 매치되는지를 검색|
|             | 매치되면 Match Object를 리턴하고, 매치되지 않으면 아무런 값도 출력되지 않음|
|re.match()	  |문자열의 처음이 정규표현식과 매치되는지를 검색|
|re.split()	  |정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴|
|re.findall()	|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴|
|             |만약, 매치되는 문자열이 없다면 빈 리스트가 리턴|
|re.finditer()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴|
|re.sub()	    |문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체|

## 특수문자


  |특수 문자|설명|
  |---|---|
  | . |한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)|
  | ?	|앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)|
  | *	|앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상)|
  | +	|앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)|
  | ^	|뒤의 문자로 문자열이 시작됩니다.|
  | $	|앞의 문자로 문자열이 끝납니다.|
  | {숫자} |	숫자만큼 반복합니다.|
  | {숫자1, 숫자2} |	숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다.|
  | {숫자,}|	숫자 이상만큼 반복합니다.|
  | [ ]	|대괄호 안의 문자들 중 한 개의 문자와 매치합니다. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미.
  |   |[a-z]와 같이 범위를 지정할 수도 있습니다. [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미.|
  | [^문자]	|해당 문자를 제외한 문자를 매치합니다.
  | l	|AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다.|

### __period(.) 기호__

.은 __한 개의 임의의 문자__를 나타냅니다. 

예를 들어서 정규 표현식이 a.c라고 합시다. a와 c 사이에는 어떤 1개의 문자라도 올 수 있습니다. 즉, akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치됩니다.

In [2]:
import re
r=re.compile("a.c") # a와 c 사이에는 어떤 1개의 문자라도 올 수 있습니다. 
                    # 즉, akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [3]:
out = r.search('abc')
print(out)
print(out.string)

<re.Match object; span=(0, 3), match='abc'>
abc


In [4]:
out = r.search('ac')
print(out)

None


### **? 기호**

__? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우__를 나타냅니다. 

예를 들어서 정규 표현식이 ab?c라고 합시다. 이 경우 이 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있습니다. 즉, abc와 ac 모두 매치할 수 있습니다.

In [5]:
import re
r = re.compile('ab?c') # ?는 한개있거나 없거나
r.search('abbc') # 아무런 결과도 출력되지 않음

In [7]:
print(r.search('abc'))
print(r.search('ac'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>


### <b>* 기호</b>

__바로 앞의 문자가 0개 이상일 경우__를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있습니다. 

예를 들어서 정규 표현식이 ab*c라고 합시다. 그렇다면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 갯수는 무수히 많아도 상관없습니다.

In [8]:
import re
r = re.compile('ab*c')
r.search('a') # 아무런 결과도 출력되지 않음

In [12]:
print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbbbc'))

<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 6), match='abbbbc'>


### __+ 기호__

+는 *와 유사합니다. 하지만 다른 점은 __앞의 문자가 최소 1개 이상__이어야 한다는 점입니다. 

예를 들어서 정규 표현식이 ab+c라고 한다면, ac는 매치되지 않습니다. 하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 갯수는 무수히 많을 수 있습니다.

In [13]:
import re
r = re.compile('ab+c')
r.search('ac') # 아무런 결과도 출력 X

In [16]:
print(r.search('abc'))
print(r.search('abbbbc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 6), match='abbbbc'>


### __^ 기호__

^는 __시작되는 글자를 지정__합니다. 

가령 정규표현식이 ^a라면 a로 시작되는 문자열만을 찾아냅니다.

In [20]:
import re

r = re.compile('^a')
r.search('bbc') # 아무런 결과도 출력 X

In [22]:
print(r.search('ab'))
print(r.search('abb'))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>


### __{숫자} 

문자에 해당 기호를 붙이면, __해당 문자를 숫자만큼 반복__한 것을 나타냅니다. 

예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [23]:
import re
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [24]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

### __{숫자1, 숫자2} 기호__

문자에 해당 기호를 붙이면, __해당 문자를 숫자1 이상 숫자2 이하만큼 반복__합니다. 

예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [25]:
import re
r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [29]:
print(r.search("abbc"))
print(r.search("abbbbbbbbc")) # b가 8개이하 인정
print(r.search('abbbbbbbbbc'))

<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 10), match='abbbbbbbbc'>
None


### __{숫자,} 기호__

문자에 해당 기호를 붙이면 __해당 문자를 숫자 이상 만큼 반복__합니다. 

예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 갯수가 2개 이상인 경우인 문자열과 매치합니다. 
또한 만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 됩니다.

In [30]:
import re
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.

In [31]:
print(r.search("aabc"))
print(r.search("aaaaaaaabc"))

<re.Match object; span=(0, 4), match='aabc'>
<re.Match object; span=(0, 10), match='aaaaaaaabc'>


### __[ ] 기호__

[ ]안에 문자들을 넣으면 __그 문자들 중 한 개의 문자와 매치라는 의미__를 가집니다. 

예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 
범위를 지정하는 것도 가능합니다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [32]:
import re
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") 

In [33]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [34]:
r.search("aaaaaaa") 

<re.Match object; span=(0, 1), match='a'>

In [35]:
r.search("baac") 

<re.Match object; span=(0, 1), match='b'>

In [36]:
import re
r=re.compile("[a-z]")
r.search("AAA") # 아무런 결과도 출력되지 않는다.

In [37]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [38]:
r.search("111") # 아무런 결과도 출력되지 않는다.

### __[^문자] 기호__

[^문자]는 앞에서 ^와는 완전히 다른 의미로 쓰입니다. 여기서는 __^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치__하는 역할을 합니다. 

예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

In [39]:
import re
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [40]:
r.search("desk")

<re.Match object; span=(0, 1), match='d'>

In [42]:
r.findall('desk')

['d', 'e', 's', 'k']

In [43]:
r.search("12345")   

<re.Match object; span=(0, 1), match='1'>

**re.match() 와 re.search()의 차이**

__search()가 정규 표현식 전체에 대해서 문자열이 매치__하는지를 본다면, __match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인__합니다. 

문자열 중간에 찾을 패턴이 있다고 하더라도, match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않습니다.

In [62]:
import re
r=re.compile("ab.")

In [63]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [64]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

In [65]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

In [66]:
r.search("abckkk")

<re.Match object; span=(0, 3), match='abc'>

### **re.split()**

split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴합니다. 

자연어 처리에 있어서 가장 많이 사용되는 정규 표현식 함수 중 하나인데, 토큰화에 유용하게 쓰일 수 있기 때문입니다.

In [72]:
import re
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

위의 예제의 경우 입력 텍스트로부터 공백을 기준으로 문자열 분리를 수행하였고, 결과로서 리스트를 리턴하는 모습을 볼 수 있습니다.

In [73]:
import re
text="""사과
딸기
수박
메론
바나나"""
re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [74]:
# python triple quote 사용 예제: multi-line format

s = '''name={0},
address={1},
nickname={2},
age={3},
comments=
"""
{4}
"""
'''
print(s.format("alice", "N/A", "alice", 18, "missing person"))

name=alice,
address=N/A,
nickname=alice,
age=18,
comments=
"""
missing person
"""



In [75]:
import re
text="사과++++딸기+++수박++메론+바나나"
re.split("\+",text)
['사과', '딸기', '수박', '메론', '바나나']  

['사과', '딸기', '수박', '메론', '바나나']

##  역 슬래쉬(\)를 이용한 문자규칙


|문자 규칙|	설명|
|---|---|
|\	|역 슬래쉬 문자 자체를 의미합니다|
|\d	|모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다.|
|\D	|숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다.|
|\s	|공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.|
|\S	|공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다.|
|\w	|문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다.|
|\W	|문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가동일합니다.|`

### __re.findall()__

findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴합니다. 단, 매치되는 문자열이 없다면 빈 리스트를 리턴합니다.

In [76]:
import re
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text) # 전체 텍스트로부터 숫자만 찾아내서 리스트로 리턴

['010', '1234', '1234', '30']

In [77]:
re.findall("\D+",text) # 전체 텍스트로부터 숫자가 아닌 것만 찾아내서 리스트로 리턴

['이름 : 김철수\n전화번호 : ', ' - ', ' - ', '\n나이 : ', '\n성별 : 남']

In [78]:
re.findall("\W+",text) # # 전체 텍스트로부터 문자와 숫자가 아닌 것만 찾아내서 리스트로 리턴

[' : ', '\n', ' : ', ' - ', ' - ', '\n', ' : ', '\n', ' : ']

### __re.sub()__

sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다.

In [83]:
print(re.sub("\W+^{\n}",'',text)) # newline을 제외하고 문자와 숫자가 아닌 것만 찾아내서 삭제.

이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남


In [86]:
text="""Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."""
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

## 정규 표현식 텍스트 전처리 예제

In [87]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

print(re.split('\s+', text)) # '\s+'는 공백을 찾아내는 정규표현식입니다. 뒤에 붙는 +는 최소 1개 이상의 패턴을 찾아낸다는 의미입니다. 
print(text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']
100 John    PROF
101 James   STUD
102 Mac   STUD


In [88]:
# 이제 해당 데이터로부터 숫자만을 뽑아온다고 해봅시다.

re.findall('\d+',text)  

['100', '101', '102']

In [89]:
# 이번에는 텍스트로부터 대문자인 행의 값만 가져오고 싶다고 합시다. 

re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [90]:
# 이는 우리가 원하는 결과가 아닙니다. 이 경우, 여러가지 방법이 있겠지만 대문자가 연속적으로 4번 등장하는 경우로 조건을 추가해봅시다.

re.findall('[A-Z]{4}',text)  

['PROF', 'STUD', 'STUD']

In [91]:
# 이름의 경우에는 대문자와 소문자가 섞여있는 상황입니다.  모든 이름을 매치시켜 봅시다.

re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

## 정규 표현식을 이용한 토큰화

NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원합니다. RegexpTokenizer()에서 괄호 안에 원하는 정규 표현식을 넣어서 토큰화를 수행하는 것입니다.