# 정규 표현식

In [1]:
import re

In [7]:
# .; 1
r = re.compile("a.c")
print(r.search("ac"))
print(r.search("abc"))

None
<re.Match object; span=(0, 3), match='abc'>


In [4]:
# ?; 0 or 1
r = re.compile("ab?c")
print(r.search("abbc"))
print(r.search("ac"))

None
<re.Match object; span=(0, 2), match='ac'>


In [5]:
# *; 0개 이상
r = re.compile("ab*c")
print(r.search("ac"))
print(r.search("abbbc"))
print(r.search("acc"))

<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(0, 2), match='ac'>


In [6]:
# +; 1개 이상
r = re.compile("ab+c")
print(r.search("abc"))
print(r.search("ac"))
print(r.search("abbc"))

<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 4), match='abbc'>


In [8]:
# ^; start
r = re.compile("^ab")
print(r.search("abc"))
print(r.search("bc"))

<re.Match object; span=(0, 2), match='ab'>
None


In [9]:
# {n}; n개
r = re.compile("ab{2}c")
print(r.search("abc"))
print(r.search("abbc"))
print(r.search("abbbc"))

None
<re.Match object; span=(0, 4), match='abbc'>
None


In [12]:
# {n1, n2}; n1부터 n2개의 개수내
r = re.compile("ab{2,4}c")
print(r.search("abc"))
print(r.search("abbc"))
print(r.search("abbbbc"))
print(r.search("abbbbbbbbc"))

None
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 6), match='abbbbc'>
None


In [13]:
# {n,}; n개 이상
r = re.compile("a{2,}bc")
print(r.search("abc"))
print(r.search("aabc"))
print(r.search("aaaaabc"))

None
<re.Match object; span=(0, 4), match='aabc'>
<re.Match object; span=(0, 7), match='aaaaabc'>


In [15]:
# [word]; 구간내 포함되는 한글자
r = re.compile("[abc]")
print(r.search("a"))
print(r.search("e"))
print(r.search("azz"))

<re.Match object; span=(0, 1), match='a'>
None
<re.Match object; span=(0, 1), match='a'>


In [21]:
# [^word]; 구간내 포함되는 글자는 제외
r = re.compile("[^abc]")
print(r.search("a"))
print(r.search("e"))
print(r.search("ab"))
print(r.search("abz"))

None
<re.Match object; span=(0, 1), match='e'>
None
<re.Match object; span=(2, 3), match='z'>


# 정규 표현식 모듈 함수


## re.match vs re.search()
search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다.<br>
match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인한다.<br>
문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않는다. (* 거의 search 쓰게 됨)

In [23]:
# re.match() vs re.search()
r = re.compile("ab.")
print(r.match("zzabc"))
print(r.search("zzabc"))

None
<re.Match object; span=(2, 5), match='abc'>


In [25]:
# re.split()
text = "사과 딸기 수박 메론 바나나"
print(re.split(" ", text))

text = """사과
딸기
수박
메론
바나나"""
print(re.split("\n", text))

['사과', '딸기', '수박', '메론', '바나나']
['사과', '딸기', '수박', '메론', '바나나']


In [28]:
# re.findall(); search결과 모두를 찾아서 list 형태로 return
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

print(re.findall("\d+", text))
print(re.findall("\d+", "안녕하세요"))

['010', '1234', '1234', '30']
[]


In [29]:
# re.sub(); 대체

text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text) # 알파벳이 아닌 항목을 ' '로 변경
print(preprocessed_text)


Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


# 정규표현식 텍스트 전처리 예제

In [31]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

print(re.split("\s+", text)) # 빈공간 split
print(re.findall('\d+', text)) # 숫자항목만 전부 찾기
print(re.findall('[A-Z]', text)) # 대문자 요소만 전부 찾기
print(re.findall('[A-Z]{4}', text)) # 대문자로만 이루어진 4글자 단어 전부 찾기
print(re.findall('[A-Z][a-z]+', text)) # 대문자로 시작하는 소문자단어 전부 찾기

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']
['100', '101', '102']
['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']
['PROF', 'STUD', 'STUD']
['John', 'James', 'Mac']


# 정규표현식을 이용한 토큰화

In [33]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+") # word
tokenizer2 = RegexpTokenizer("[\s]+") # space
tokenizer3 = RegexpTokenizer("[\s]+", gaps=True) # space; 해당 정규표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))
print(tokenizer3.tokenize(text)) # OK

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
