### 07-1 정규 표현식 살펴보기

In [18]:
# 정규 표현식은 왜 필요한가?
# Regular Expressions, 복잡한 문자열을 처리할 때 사용하는 기법
data = """
park 800905-1049118
kim  700905-1059119
"""

result = []
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit and word[7:].isdigit():
            word = word[:6] + "-" + "*"*6
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))


park 800905-******
kim  700905-******



In [51]:
import re 

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



### 07-2 정규 표현식 시작하기

In [None]:
정규 표현식의 기초, 메타 문자(meta characters)

In [None]:

[ ], 문자 클래스(character class)

[abc] <-> "a", "before", "dude"
"a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치
"before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치
"dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음

[from-to]
[a-zA-Z] : 알파벳 모두, [0-5] : [012345]

^ : not
[^abc] : abc 이외의 모든 것과 매치

\d - 숫자와 매치, [0-9]와 동일한 표현식이다.
\D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
\s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
\S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
\w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
\W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.
대문자로 사용된 것은 소문자의 반대임을 추측할 수 있다.

In [None]:
. , Dot : 줄바꿈 문자인 \n을 제외한 모든 문자와 매치

a.b -> a + 모든문자 + b

a.b <-> "aab", "a0b", "abc"
"aab"는 가운데 문자 "a"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치된다.
"a0b"는 가운데 문자 "0"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치된다.
"abc"는 "a"문자와 "b"문자 사이에 어떤 문자라도 하나는있어야 하는 이 정규식과 일치하지 않으므로 매치되지 않는다.

a[.]b -> a + Dot(.)문자 + b
"a.b" 문자열과 매치, "a0b" 문자열과는 매치되지 않는다.

In [None]:
반복 (*) : * 바로 앞에 있는 것이 0부터 무한대로 반복될 수 있다는 의미
ca*t -> ct, cat, caaat (0번, 1번, 3번 반복되어서 매치)

반복 (+) : * 바로 앞에 있는 것이 1부터 무한대로 반복될 수 있다는 의미
ca+t -> ct(x), cat, caaat (0번은 매치 안됨, 1번, 3번 반복되어서 매치)

In [None]:
반복 ({m,n}, ?) : 반복 횟수 제한

{3,} -> 반복 횟수 3 이상
{,3} -> 반복 횟수 3 이하

{1,} -> +
{0,} -> *

1. {m}
ca{2}t = c + a(반드시 2번 반복) + t -> caat

2. {m, n}
ca{2,5}t = c + a(2~5회 반복) + t -> caat ~ caaaaat

3. ? = {0, 1}
ca?t = c + a(0~1회 반복) + t -> ct, cat

In [None]:
파이썬에서 정규 표현식을 지원하는 re 모듈

In [None]:
- 파이썬은 정규 표현식을 지원하기 위해 re(regular expression의 약어) 모듈을 제공한다.

import re
p = re.compile('ab*')

re.compile을 사용하여 정규 표현식(위 예에서는 ab*)을 컴파일한다.
re.compile의 결과로 돌려주는 객체 p(컴파일된 패턴 객체)를 사용하여 그 이후의 작업을 수행할 것이다.

In [None]:
정규식을 이용한 문자열 검색

이제 컴파일된 패턴 객체를 사용하여 문자열 검색을 수행해 보자. 컴파일된 패턴 객체는 다음과 같은 4가지 메서드를 제공한다.

match()	: 문자열의 처음부터 정규식과 매치되는지 조사한다.
search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.
finditer() : 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려준다.

In [33]:
# match() : 문자열의 처음부터 정규식과 매치되는지 조사한다.
import re
p = re.compile('[a-z]+')
m = p.match("python")
print(m)
m = p.match("3 python")
print(m)

<re.Match object; span=(0, 6), match='python'>
None


In [None]:
- match의 결과로 match 객체 또는 None을 돌려주기 때문에 파이썬 정규식 프로그램은 보통 다음과 같은 흐름으로 작성한다.

p = re.compile(정규표현식)
m = p.match( 'string goes here' )
if m: # match의 결괏값이 있을 때만 그다음 작업을 수행하겠다는 것
    print('Match found: ', m.group())
else:
    print('No match')

In [4]:
# search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
import re
p = re.compile('[a-z]+')
m = p.search("python")
print(m)
m = p.search("3 python")
print(m) # 전체를 검색하기 때문에 Match와 결과가 다르다.

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 8), match='python'>


In [36]:
# findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.
import re
p = re.compile('[a-z]+')
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


In [38]:
# finditer() : 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려준다.
import re
p = re.compile('[a-z]+')
result = p.finditer("life is too short")
print(result) # findall과 동일하지만 그 결과로 반복 가능한 match 객체(iterator object)를 돌려준다.
for r in result:
    print(r)

<callable_iterator object at 0x7fa338ee1ac8>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


In [None]:
match 객체의 메서드

- 어떤 문자열이 매치되었는가?
- 매치된 문자열의 인덱스는 어디서부터 어디까지인가?

group() : 매치된 문자열을 돌려준다.
start() : 매치된 문자열의 시작 위치를 돌려준다.
end() : 매치된 문자열의 끝 위치를 돌려준다.
span() : 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려준다.

In [40]:
import re
# p = re.compile('[a-z]+')
# m = p.match("python")
m = re.match('[a-z]+', "python") # 모듈 단위로 수행하기
print(m.group())
print(m.start()) # match 객체의 start()의 결괏값은 항상 0일 수밖에 없다.
print(m.end())
print(m.span())

python
0
6
(0, 6)


In [None]:
컴파일 옵션

정규식을 컴파일할 때 다음 옵션을 사용할 수 있다.

DOTALL(S) : . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
IGNORECASE(I) : 대소문자에 관계없이 매치할 수 있도록 한다.
MULTILINE(M) : 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)
VERBOSE(X) : verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)

In [43]:
# DOTALL, S : 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색할 때 많이 사용한다.

import re
# p = re.compile('a.b') # None
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [46]:
# IGNORECASE, I : [a-z] 정규식은 소문자만을 의미하지만 re.I 옵션으로 대소문자 구별 없이 매치된다.

import re
p = re.compile('[a-z]', re.I)
print(p.match('Python'))
print(p.match('python'))

<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='p'>


In [81]:
# MULTILINE, M : re.MULTILINE 옵션으로 인해 ^ 메타 문자가 문자열 전체가 아닌 각 줄의 처음이라는 의미를 갖게 되었다.
# ^는 문자열의 처음을 의미하고, $는 문자열의 마지막을 의미

import re
# p = re.compile("^python\s\w+") # python이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 와야 한다는 의미
p = re.compile("^python\s\w+", re.MULTILINE) # ^ 메타 문자를 문자열 전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은 경우

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data)) # ^ 메타 문자에 의해 python이라는 문자열을 사용한 첫 번째 줄만 매치된 것이다.

['python one', 'python two', 'python three']


In [None]:
# VERBOSE, X : 정규식을 주석 또는 줄 단위로 구분

# charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

In [None]:
백슬래시 문제
- 정규 표현식을 파이썬에서 사용할 때 혼란을 주는 요소


\section : 어떤 파일 안에 있는 "\section" 문자열을 찾기 위한 정규식. 하지만 이 정규식은 \s 문자가 whitespace로 해석되어 의도한 대로 매치가 이루어지지 않는다. = [ \t\n\r\f\v]ection
\\section -> p = re.compile('\\section') : 위처럼 정규식을 만들어서 컴파일하면 실제 파이썬 정규식 엔진에는 파이썬 문자열 리터럴 규칙에 따라 \\이 \로 변경되어 \section이 전달된다.
=> p = re.compile('\\\\section')
=> p = re.compile(r'\\section') : 위와 같이 정규식 문자열 앞에 r 문자를 삽입하면 이 정규식은 Raw String 규칙에 의하여 백슬래시 2개 대신 1개만 써도 2개를 쓴 것과 동일한 의미를 갖게 된다.

### 07-3 강력한 정규 표현식의 세계로

In [95]:
# 1. 메타문자

# | : or
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m) # 'Crow'

# ^ : 문자열의 맨 처음과 매치
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

# $ : 문자열의 끝과 매치함을 의미
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))

# \A : 문자열의 맨 처음과 매치
# re.MULTILINE 사용시, ^는 문장의 처음, \A는 전체 문자열의 처음

# \Z : 문자열의 끝과 매치함을 의미
# re.MULTILINE 사용시, $는 문장의 끝, \A는 전체 문자열의 끝

# \b : word boundary, 보통 단어는 white space에 의해 구분된다.
p = re.compile(r'\bclass\b') # \bclass\b 정규식은 앞뒤가 whitespace로 구분된 class라는 단어와 매치됨을 의미
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))
print(p.search('one subclass is'))

# \B : NOT word boundary, white space로 구분된 단어가 아닌 경우에만 매치
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))
print(p.search('one subclass is'))


<re.Match object; span=(0, 4), match='Crow'>
<re.Match object; span=(0, 4), match='Life'>
None
<re.Match object; span=(12, 17), match='short'>
None
<re.Match object; span=(3, 8), match='class'>
None
None
None
<re.Match object; span=(6, 11), match='class'>
None


In [128]:
# 2. 그룹핑
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group())

p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))
print(m.group(3))

# 재참조, Backreferences
p = re.compile(r'(\b\w+)\s+\1') # \1은 정규식의 그룹 중 첫 번째 그룹을 가리킨다.
p.search('Paris in the the spring').group()

# 그루핑된 문자열에 이름 붙이기 : (?P<그룹명>...)
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d)')
m = p.search("park 010-1234-1234")
print(m.group("name"))

p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
010-1234-1234
010
park


'the the'

In [130]:
# 전방 탐색, Lookahead Assertions
p = re.compile(".+:")
m = p.search("http://google.com")
print(m.group())

# 긍정형 전방 탐색((?=...)) - ... 에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않는다. (검색에는 포함되지만 검색 결과에는 제외됨)
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

.*[.].*$ # 파일 이름 + . + 확장자
.*[.][^b].*$
.*[.]([^b]..|.[^a].|..[^t])$

# 부정형 전방 탐색((?!...)) - ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않는다.
.*[.](?!bat$).*$ # 확장자가 bat가 아닌 경우에만 통과된다는 의미


http:
http


In [138]:
# 문자열 바꾸기
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes') # 바꿀 문자열(replacement), 대상 문자열

p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [None]:
# Greedy vs Non-Greedy