# Unit 43. 정규 표현식(Regular Expression)

파이썬 코딩 도장 대신
딥 러닝을 이용한 자연어 처리 입문 (https://wikidocs.net/21703) 참조

In [1]:
import re

In [2]:
# .은 한 개의 임의의 문자
r = re.compile("a.c")
r.search("kkk")

In [3]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [4]:
# ?는 ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우
r = re.compile("ab?c")
r.search("abbc")

In [5]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [6]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [7]:
# *은 바로 앞의 문자가 0개 이상일 경우
r = re.compile("ab*c")
r.search("a")

In [8]:
r.search("abbbc")

<re.Match object; span=(0, 5), match='abbbc'>

In [9]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [10]:
# +는 앞의 문자가 최소 1개 이상
r = re.compile("ab+c")
r.search("ac")

In [11]:
r.search("abbbc")

<re.Match object; span=(0, 5), match='abbbc'>

In [12]:
# ^는 시작되는 문자열
r = re.compile("^ab")
r.search("zab")

In [13]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

In [14]:
# {숫자}, 해당 문자를 숫자만큼 반복
r = re.compile("ab{2}c")
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [15]:
# {숫자1, 숫자2}, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복
r = re.compile("ab{2,8}c")
r.search("abc")

In [16]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [17]:
# [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미
r = re.compile("[abc]")
r.search("zzz")

In [18]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [19]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [20]:
# 알파벳 소문자
r = re.compile("[a-z]")
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [21]:
# 알파벳 문자
r = re.compile("[A-Za-z]")
r.search("1B3")

<re.Match object; span=(1, 2), match='B'>

In [22]:
# [^문자]는 ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할
r = re.compile('[^abc]')
r.search("abbbccc")

In [23]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

- 정규표현식 함수

In [24]:
text = "사과+딸기+수박+메론+바나나"

re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

In [25]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""
re.findall("\d+", text)

['010', '1234', '1234', '30']

In [26]:
re.findall('[가-힣]+', text)

['이름', '김철수', '전화번호', '나이', '성별', '남']

In [27]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


- 텍스트 전처리 예제

In [28]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""
text.split()

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [29]:
re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [30]:
# 숫자만을 발췌
re.findall('\d+', text)

['100', '101', '102']

In [31]:
re.findall('[0-9]+', text)

['100', '101', '102']

In [32]:
# 대문자 4회 연속
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [33]:
# 첫글자는 대문자, 이후 문자는 소문자
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']