## 정규 표현식 문법과 모듈 함수

**1) 정규 표현식 문법**

|특수문자|설명|
|:---|:---|
|.|한 개의 임의의 문자를 나타냄. (줄바꿈 문자인 \n는 제외)|
|?|앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있다. (문자가 0개 또는 1개)|
|* |앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있다. (문자가 0개 이상)|
|+|앞의 문자가 최소 한 개 이상 존재. (문자가 1개 이상)|
|^|뒤의 문자열로 문자열이 시작.|
|$|앞의 문자열로 문자열이 끝남.|
|{숫자}|숫자만큼 반복|
|{숫자1,숫자2}|숫자1 이상 숫자2 이하만큼 반복. ?,*,+를 이것으로 대체할 수 있음|
|{숫자,}|숫자 이상 만큼 반복|
|[]|대괄호 안의 문자들 중 한 개의 문자와 매치합니다. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미. [a-z]와 같이 범위를 지정할 수도 있습니다. [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미.|
|[^문자]|해당 문자를 제외한 문자를 매치|


|모듈함수|설명|
|:---|:---|
|re.compile()|정규표현식을 컴파일하는 함수입니다. 다시 말해, 파이썬에게 전해주는 역할을 합니다. 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리합니다.|
|re.search()|	문자열 전체에 대해서 정규표현식과 매치되는지를 검색합니다.
|re.match()|	문자열의 처음이 정규표현식과 매치되는지를 검색합니다.
|re.split()|	정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴합니다.
|re.findall()|	문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴합니다. 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴됩니다.
|re.finditer()|	문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴합니다.
|re.sub()|문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체합니다.

|문자규칙|설명|
|:---|:---|
|\d|모든 숫자를 의미. [0-9]와 동일.|
|\D|숫자를 제외한 모든 문자를 의미.[^0-9]와 의미가 동일|
|\s|공백을 의미.[\t\n\r\f\v]와 의미가 동일|
|\S|공백을 제외한 문자를 의미.[^\t\n\r\f\v]와 의미가 동일|
|\w|문자 또는 숫자를 의미.[a-zA-Z0-9]와 의미가 동일|
|\W|문자 또는 숫자가 아닌 문자를 의미.[^a-zA-Z0-9]와 의미가 동일|

## 실습

In [2]:
import re

## .

In [5]:
r = re.compile("a.c")
r.search("kkk")

In [6]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

## ?

In [3]:
r = re.compile("ab?c")
r.search('abbc')

In [4]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [5]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

## *

In [6]:
r = re.compile("ab*c")
r.search("a")

In [7]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [8]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [9]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

## +

In [10]:
r = re.compile("ab+c")
r.search("ac")

In [11]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

## ^

In [13]:
r = re.compile("^ab")
r.search("bbc")
r.search("zab")

In [14]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

## {숫자} 기호

In [15]:
r = re.compile("ab{2}c")

r.search("ac")
r.search("abc")
r.search("abbbbbc")

In [16]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [17]:
r.search("abbbbbbbbc")

## {숫자,} 기호

In [18]:
r = re.compile("a{2,}bc")

# 아무런 결과도 출력되지 않는다.
r.search("bc")
r.search("aa")

In [19]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [20]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

## [ ] 기호

In [21]:
r = re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [22]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [23]:
r.search("aaaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [24]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [25]:
r = re.compile("[a-z]")

r.search("AAA")
r.search("111")

In [26]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

## [^문자] 기호

In [27]:
r = re.compile("[^abc]")

r.search("a")
r.search("ab")
r.search("b")

In [28]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [29]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

##  정규 표현식 모듈 함수 실습

### (1) re.match() 와 re.search()의 차이
search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인합니다. 문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않습니다.

In [30]:
r = re.compile("ab.")
r.match("kkkabc") # 아무런 결과도 출력되지 않는다.

In [31]:
r.search("kkkabc")  

<re.Match object; span=(3, 6), match='abc'>

In [32]:
r.match("abckkk")  

<re.Match object; span=(0, 3), match='abc'>

### (2) re.split()
split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴합니다.

In [34]:
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [35]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [36]:
text = "사과+딸기+수박+메론+바나나"

re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

### (3) re.findall()
findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴합니다. 단, 매치되는 문자열이 없다면 빈 리스트를 리턴합니다. 임의의 텍스트에 정규 표현식으로 숫자를 의미하는 규칙으로 findall()을 수행하면 전체 텍스트로부터 숫자만 찾아내서 리스트로 리턴합니다.

In [3]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall("\d+", text)

['010', '1234', '1234', '30']

In [4]:
re.findall("\d+", "문자열입니다.")

[]

### (4) re.sub()
sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다.영어 문장에 각주 등과 같은 이유로 특수 문자가 섞여있는 경우에 특수 문자를 제거하고 싶다면 알파벳 외의 문자는 공백으로 처리하는 등의 용도로 쓸 수 있습니다.

In [5]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


## 텍스트 처리 예제

In [6]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

In [7]:
re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [8]:
re.findall('\d+',text)  

['100', '101', '102']

In [9]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [10]:
re.findall('[A-Z]{4}',text)  

['PROF', 'STUD', 'STUD']

In [11]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

## 정규표현식을 이용한 토큰화

In [12]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


=> NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원합니다. RegexpTokenizer()에서 괄호 안에 하나의 토큰으로 규정하기를 원하는 정규 표현식을 넣어서 토큰화를 수행합니다. tokenizer1에 사용한 \w+는 문자 또는 숫자가 1개 이상인 경우를 의미합니다.

tokenizer2에서는 공백을 기준으로 토큰화하도록 했습니다. gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미입니다. 만약 gaps=True라는 부분을 기재하지 않는다면, 토큰화의 결과는 공백들만 나오게 됩니다. tokenizer2의 결과는 위의 tokenizer1의 결과와는 달리 아포스트로피나 온점을 제외하지 않고 토큰화가 수행된 것을 확인할 수 있습니다.