### 정규표현식(Regular Expression)

In [1]:
import re

- . : 한 개의 임의의 문자

In [2]:
re.search('a.c', 'aaXcc')

<re.Match object; span=(1, 4), match='aXc'>

In [4]:
re.search('a.c', 'acacac')

- ? : 앞의 문자가 0개 또는 1개

In [6]:
re.search('a?c', 'aacacac')

<re.Match object; span=(1, 3), match='ac'>

- \* : 앞의 문자가 0개 이상일 경우

In [7]:
re.search('ab*c', 'ac')

<re.Match object; span=(0, 2), match='ac'>

- \+ : 앞의 문자가 1개 이상

In [8]:
re.search('ab+c', 'abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

- ^ : 시작되는 글자

In [9]:
re.search('^a', 'bac')

In [11]:
re.search('^a', 'abc')

<re.Match object; span=(0, 1), match='a'>

- $ : 마지막 글자

In [12]:
re.search('a$', 'abc')

In [13]:
re.search('a$', 'abca')

<re.Match object; span=(3, 4), match='a'>

- {숫자} : 해당 문자를 숫자만큼 반복

In [15]:
re.search('ab{2}c', 'abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [17]:
re.search('\\d{4}', '7835')         # 전화번호 마지막 4 자리

<re.Match object; span=(0, 4), match='7835'>

- {숫자1, 숫자2} : 해당 문자를 숫자1 이상, 숫자2 이하 반복

In [20]:
re.search('\\d{3,4}', '2346')       # 전화번호의 처음 3, 4 글자

<re.Match object; span=(0, 4), match='2346'>

In [22]:
# 유효한 전화번호
re.search('01\\d-\\d{3,4}-\\d{4}', '010-2356-7863')

<re.Match object; span=(0, 13), match='010-2356-7863'>

- [ ] : [ ] 안의 문자들 중 한 개의 문자와 매치(OR 조건)

In [24]:
re.search('[0789]', '8')

<re.Match object; span=(0, 1), match='8'>

In [26]:
# 정교한 휴대전화 번호
tel = '010-3456-7890'
if re.match('01[0789]-\\d{3,4}-\\d{4}', tel):
    print('올바른 휴대전화 번호')
else:
    print('엉터리 휴대전화 번호')

올바른 휴대전화 번호


In [27]:
re.match('01[07-9]-\\d{3,4}-\\d{4}', tel)

<re.Match object; span=(0, 13), match='010-3456-7890'>

- [^ ] : ^ 가 not의 의미

In [28]:
# 영문자가 아니다
re.search('[^A-Za-z]', 'Hi!')

<re.Match object; span=(2, 3), match='!'>

In [29]:
# 특수문자 제거
re.sub('[^A-Za-z]', '', 'Hi! Everyone')

'HiEveryone'

In [30]:
# 한글과 공백이 아닌 글자는 제거
re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '', 'Helloㅋㅋ, 오늘 우울해ㅠㅠ')

'ㅋㅋ 오늘 우울해ㅠㅠ'

- re.split()

In [31]:
s = '사과,배:바나나|귤'
s.replace(',', ' ').replace(':', ' ').replace('|', ' ').split()

['사과', '배', '바나나', '귤']

In [32]:
s = '사과,배:바나나|귤'
re.split('[,:|]', s)

['사과', '배', '바나나', '귤']

- 전처리 예

In [33]:
text = """100 John  PROF
101 James   STUD
102 Mac   STUD"""
re.split('\\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [34]:
# 문자열 split() method의 기본 패턴은 \\s+
text.split()

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [38]:
# 숫자를 제거
re.sub('[0-9\n]', '', text)

' John  PROF James   STUD Mac   STUD'

In [39]:
# 길이가 2 이하인 단어는 제거
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"
' '.join([word for word in text.split() if len(word) > 2])

"Don't fooled the dark sounding name, Mr. Jone's Orphanage cheery cheery goes for pastry shop"