In [1]:
import re

In [2]:
data = """
park 800905-1049118
kim  700905-1059119
"""

In [3]:
pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



In [7]:
p = re.compile('[a-z]+')

In [8]:
m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [9]:
m = p.match("3 python")
print(m)

None


In [10]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [11]:
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


In [13]:
# [a-z]+ 정규식과 매치해서 리스트로 돌려준다.
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


In [27]:
result = p.finditer("life is too short")
print(result)
for r in result:
    print(r)

<callable_iterator object at 0x7ff039057c10>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


# match 객체의 메서드

In [28]:
m = p.match("python")

In [29]:
m.group()

'python'

In [30]:
m.start()

0

In [31]:
m.end()

6

In [32]:
m.span()

(0, 6)

In [33]:
m = re.match('[a-z]+', "python")
print(m)

<re.Match object; span=(0, 6), match='python'>


# 컴파일 옵션

In [34]:
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [35]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [36]:
p = re.compile('[a-z]', re.I)

In [38]:
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [39]:
p.match('Python')

<re.Match object; span=(0, 1), match='P'>

In [40]:
p.match('PYTHON')

<re.Match object; span=(0, 1), match='P'>

In [41]:
# 'python' 이라는 문자열로 시작하고 그 뒤에 whitespace 그리고 그 뒤에 단어가 와야 한다.
p = re.compile("^python\s\w+")

In [44]:
data = """python one
life is too short
python two
you need python
python three"""

# ^ 메타 문자에 의해 python이라는 문자열을 사용한 첫 번째 줄만 매치된 것이다.
print(p.findall(data))

['python one']


In [45]:
# 각 라인의 처음으로 인식시키고 싶은 경우도 있을 것이다. 이럴 때 사용할 수 있는 옵션이 바로 re.MULTILINE 또는 re.M이다.
p = re.compile("^python\s\w+", re.MULTILINE)

In [47]:
data = """python one
life is too short
python two
you need python
python three"""

# re.MULTILINE 옵션은 ^, $ 메타 문자를 문자열의 각 줄마다 적용해 주는 것이다.
print(p.findall(data))

['python one', 'python two', 'python three']


# VERBOSE, X

In [48]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

# 메타문자

In [49]:
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


In [51]:
print(re.search('^Life', 'Life is too short'))

<re.Match object; span=(0, 4), match='Life'>


In [53]:
print(re.search('^Life', 'My Life'))

None


In [54]:
print(re.search('short$', 'Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [55]:
print(re.search('short$', 'Life is too short, you need python'))

None


In [56]:
# \b는 단어 구분자(Word boundary)이다. 보통 단어는 whitespace에 의해 구분된다.
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


In [57]:
print(p.search('the declassified algorithm'))

None


In [58]:
print(p.search('one subclass is'))

None


In [59]:
# \B 메타 문자는 \b 메타 문자와 반대의 경우이다. 즉 whitespace로 구분된 단어가 아닌 경우에만 매치된다.
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))

None


In [60]:
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


In [61]:
print(p.search('one subclass is'))

None


# 그루핑

In [62]:
p = re.compile('(ABC)+')

In [63]:
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [65]:
print(m.group())

ABCABCABC


In [79]:
# 그룹을 중첩되게 사용하는 것도 가능하다. 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가한다.
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-](\d+))")

In [75]:
m = p.search("etlers 010-5000-6104")
print(m)

<re.Match object; span=(0, 20), match='etlers 010-5000-6104'>


In [76]:
print(m.group(1))

etlers


In [77]:
print(m.group(2))

010-5000-6104


In [78]:
print(m.group(3))

6104


In [81]:
# 그룹에 이름을 지정하고 참조
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("etlers 010-5000-6104")
print(m.group("name"))

etlers


# 전방 탐색

In [82]:
p = re.compile(".+:")
m = p.search("http://google.com")
print(m.group())

http:


In [85]:
# 긍정형 전방 탐색((?=...)) - ... 에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않는다. - 검색에는 포함되지만 검색 결과에는 제외됨
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

http


In [87]:
# 부정형 전방 탐색((?!...)) - ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않는다.
p = re.compile(".*[.](?!bat$).*$")
# 확장자가 bat인 경우 제외
m = p.search("etlers.bat")
print(m)

None


In [90]:
# 확장자가 exe도 제외
p = re.compile(".*[.](?!bat$|exe$).*$")
m = p.search("etlers.mp4")
print(m)

<re.Match object; span=(0, 10), match='etlers.mp4'>


# 문자열 바꾸기

In [93]:
p = re.compile("(blue|white|red)")
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [94]:
# subn 역시 sub와 동일한 기능을 하지만 반환 결과를 튜플로 돌려준다는 차이가 있다.
# 돌려준 튜플의 첫 번째 요소는 변경된 문자열이고, 두 번째 요소는 바꾸기가 발생한 횟수이다.
p.subn('colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

In [99]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "CHOIS 010-5000-6104"))

010-5000-6104 CHOIS


In [100]:
print(p.sub("\g<2> \g<1>", "CHOIS 010-5000-6104"))

010-5000-6104 CHOIS
