### 정규표현식 in 점프 투 파이썬

학습 날짜 : 2019년 04월 07일

학습 장소 : https://wikidocs.net/1642

학습 언어 : python3

In [2]:
import re

### sample

In [1]:
data = """
park 800905-1049118
kim  700905-1059119
"""

In [7]:
regex = r'[a-z]+[ ]\d+[-]\d+'
re.findall(regex, data)

['park 800905-1049118']

In [8]:
data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



### 정규 표현식의 기초, 메타 문자

메타 문자 : 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자를 말한다.

. ^ $ * + ? { } [ ] \ | ( )

### 문자 클래스 [ ]

의미 : "[와 ] 사이의 문자들과 매치"

즉, 정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"를 뜻한다. 이해를 돕기 위해 문자열 "a", "before", "dude"가 정규식 [abc]와 어떻게 매치되는지 살펴보자.

"a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치

"before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치

"dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음

[ ] 안의 두 문자 사이에 하이픈(-)을 사용하게 되면 두 문자 사이의 범위(From - To)를 의미한다. 예를 들어 [a-c]라는 정규 표현식은 [abc]와 동일하고 [0-5]는 [012345]와 동일하다.

[자주 사용하는 문자 클래스]

[0-9] 또는 [a-zA-Z] 등은 무척 자주 사용하는 정규 표현식이다. 이렇게 자주 사용하는 정규식들은 별도의 표기법으로 표현할 수 있다. 다음을 기억해 두자.

\d - 숫자와 매치, [0-9]와 동일한 표현식이다.

\D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.

\s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.

\S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.

\w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.

\W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.

대문자로 사용된 것은 소문자의 반대임을 추측할 수 있을 것이다.

### Dot(.)

정규 표현식의 Dot(.) 메타 문자는 줄바꿈 문자인 \n를 제외한 모든 문자와 매치됨을 의미한다.

a.b = "a + 모든문자 + b"

즉 a와 b라는 문자 사이에 어떤 문자가 들어가도 모두 매치된다는 의미이다.

이해를 돕기 위해 문자열 "aab", "a0b", "abc"가 정규식 a.b와 어떻게 매치되는지 살펴보자.

"aab"는 가운데 문자 "a"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치된다.

"a0b"는 가운데 문자 "0"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치된다.

"abc"는 "a"문자와 "b"문자 사이에 어떤 문자라도 하나는있어야 하는 이 정규식과 일치하지 않으므로 매치되지 않는다.

※ 만약 앞에서 살펴본 문자 클래스([]) 내에 Dot(.) 메타 문자가 사용된다면 이것은 "모든 문자"라는 의미가 아닌 문자 . 그대로를 의미한다. 혼동하지 않도록 주의하자.

### 반복 - *

"*" 메타문자가 사용되었다. 여기서 사용된 *의 의미는 *바로 앞에 있는 문자 a가 0부터 무한대로 반복될 수 있다는 의미이다.

### 반복 - +

반복을 나타내는 또 다른 메타 문자로 +가 있다. +는 최소 1번 이상 반복될 때 사용한다. 즉, *가 반복 횟수 0부터라면 +는 반복 횟수 1부터인 것이다.

### 반복 ({m,n}, ?)

여기서 잠깐 생각해 볼 게 있다. 반복 횟수를 3회만 또는 1회부터 3회까지만으로 제한하고 싶을 수도 있지 않을까?

{ } 메타 문자를 이용하면 반복 횟수를 고정시킬 수 있다. {m, n} 정규식을 사용하면 반복 횟수가 m부터 n까지인 것을 매치할 수 있다. 

또한 m 또는 n을 생략할 수도 있다. 만약 {3,} 처럼 사용하면 반복 횟수가 3 이상인 경우이고 {,3} 처럼 사용하면 반복 횟수가 3 이하인 것을 의미한다. 

생략된 m은 0과 동일하며, 생략된 n은 무한대(2억개 미만)의 의미를 갖는다.



In [11]:
regex = r'ca{2}t'
text = 'caat'
re.findall(regex, text)

['caat']

In [14]:
regex = r'ca{2,5}t'
text = 'caaat'
re.findall(regex, text)

['caaat']

### ?

- ?의 의미는 있어도 되고 없어도 된다.
- 정확한 의미는 {0, 1}

In [16]:
regex = r'ca?t'
text = 'cat'
re.findall(regex, text)

['cat']

In [18]:
# ?가 {0,1}이라서 매치가 되지 않음

regex = r'ca?t'
text = 'caat'
re.findall(regex, text)

[]

### 정규식을 이용한 문자열 검색

- match() : 문자열의 처음부터 정규식과 매치되는지 조사한다.

- search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.

- findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다

- finditer() : 정규식과 매치되는 모든 문자열(substring)을 iterator 객체로 리턴한다


- match, search는 정규식과 매치될 때에는 match 객체를 리턴하고 매치되지 않을 경우에는 None을 리턴한다. 이 메써드들에 대한 간단한 예를 살펴보자.

- match 객체란 정규식의 검색 결과로 리턴되는 객체이다.

In [19]:
import re
p = re.compile('[a-z]+')

### match

In [21]:
# "python"이라는 문자열은 [a-z]+ 정규식에 부합되므로 match 객체가 리턴된다.

m = p.match('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [22]:
# "3 python"이라는 문자열은 처음에 나오는 3이라는 문자가 정규식 [a-z]+에 부합되지 않으므로 None이 리턴된다.

m = p.match("3 python")
print(m)

None


### search

"3 python"이라는 문자열의 첫 번째 문자는 "3"이지만 search는 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색하기 때문에 "3 " 이후의 "python"이라는 문자열과 매치된다.

이렇듯 match 메서드와 search 메서드는 문자열의 처음부터 검색할지의 여부에 따라 다르게 사용해야 한다.

In [23]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [24]:
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


### findall

In [25]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


### finditer

In [26]:
result = p.finditer("life is too short")
print(result)

<callable_iterator object at 0x10dc5dc50>


In [27]:
for component in result:
    print(component)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


### match 객체의 메서드

자, 이젠 match 메서드와 search 메서드를 수행한 결과로 리턴되었던 match 객체에 대해서 알아보자. 앞에서 정규식을 이용한 문자열 검색을 수행하면서 아마도 다음과 같은 궁금증이 생겼을 것이다.

어떤 문자열이 매치되었는가?
매치된 문자열의 인덱스는 어디서부터 어디까지인가?
match 객체의 메서드들을 이용하면 이 같은 궁금증을 해결할 수 있다. 다음 표를 보자.

- group() : 매치된 문자열을 리턴한다.

- start() : 매치된 문자열의 시작 위치를 리턴한다.

- end() : 매치된 문자열의 끝 위치를 리턴한다.

- span() : 매치된 문자열의 (시작, 끝) 에 해당되는 튜플을 리턴한다.

In [28]:
m = p.match("python")
m.group()

'python'

In [29]:
m.start()

0

In [30]:
m.end()

6

In [31]:
m.span()

(0, 6)

### 컴파일 옵션

- DOTALL(S) - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
- IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
- MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)
- VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)

### DOTALL, S

- . 메타 문자는 줄바꿈 문자(\n)를 제외한 모든 문자와 매치되는 규칙이 있다. 만약 \n 문자도 포함하여 매치하고 싶다면 re.DOTALL 또는 re.S 옵션을 사용해 정규식을 컴파일하면 된다.

- 보통 re.DOTALL은 여러줄로 이루어진 문자열에서 \n에 상관없이 검색하고자 할 경우에 많이 사용한다.

In [32]:
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [35]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [36]:
p = re.compile('a.b', re.S)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


### IGNORECASE, I
re.IGNORECASE 또는 re.I 는 대소문자 구분없이 매치를 수행하고자 할 경우에 사용하는 옵션이다.

In [42]:
p = re.compile('[a-z]+', re.IGNORECASE)
p.match("python")

<re.Match object; span=(0, 6), match='python'>

In [43]:
p.match("PyThon")

<re.Match object; span=(0, 6), match='PyThon'>

### MULTILINE, M

re.MULTILINE 또는 re.M 옵션은 조금 후에 설명할 메타 문자인 "^", "$" 와 연관된 옵션이다. 

이 메타 문자에 대해 간단히 설명하자면 ^는 문자열의 처음을 의미하고, $은 문자열의 마지막을 의미한다. 

예를 들어 정규식이 ^python인 경우 문자열의 처음은 항상 python으로 시작해야 매치되고, 만약 정규식이 python$이라면 문자열의 마지막은 항상 python으로 끝나야 매치가 된다는 의미이다.

In [48]:
# 정규식 ^python\s\w+ 은 "python"이라는 문자열로 시작하고 그 후에 whitespace, 그 후에 단어가 와야한다는 의미이다. 검색할 문자열 data는 여러줄로 이루어져 있다.
# ^ 메타 문자에 의해 python이라는 문자열이 사용된 첫 번째 라인만 매치가 된 것이다.

p = re.compile("^python\s\w+")

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [49]:
# 하지만 ^ 메타 문자를 문자열 전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은 경우도 있을 것이다. 이럴 때 사용할 수 있는 옵션이 바로 re.MULTILINE 또는 re.M이다. 위 코드를 다음과 같이 수정해 보자.

p = re.compile("^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


In [51]:
p = re.compile("\w+\spython$", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['need python']


### VERBOSE, X

가독성!!!

In [52]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [53]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

### 백슬래시 문제

In [None]:
# python만의 문제로 \\을 해도 파이썬 문자열 리터럴 규칙에 의하여 \\이 \로 전달되는 문제 발생

p = re.compile('\\section')

In [55]:
# 그래서 r'~'을 사용하여  raw string임을 알려주는 파이썬 문법이 사용됨

p = re.compile(r'\\section')

### 연습 문제

[문제1] 정규식 1

다음 중 정규식 a[.]{3,}b과 매치되는 문자열은 무엇일까?

acccb

a....b

aaab

a.cccb


In [56]:
data = """
acccb
a....b
aaab
a.cccb
"""

In [58]:
regex = r'a[.]{3,}b'
res = re.findall(regex, data, re.MULTILINE)
print(res)

['a....b']


In [59]:
p = re.compile("[a-z]+")
m = p.search("5 python")
m.start() + m.end()

10

In [60]:
print(m)

<re.Match object; span=(2, 8), match='python'>


### 강력한 정규 표현식의 세계로....

### 메타문자

### |

- | : or과 동일 의미

In [62]:
p = re.compile("Crow|Servo")
m = p.match("CrowHello")
print(m)
m.group()

<re.Match object; span=(0, 4), match='Crow'>


'Crow'

### ^
- ^ : 문자열의 맨 처음과 일치함을 의미

In [65]:
# ^Life 정규식은 "Life"라는 문자열이 처음에 온 경우에는 매치하지만 처음 위치가 아닌 경우에는 매치되지 않음을 알 수 있다.

print(re.search("^Life", "Life is too short"))

<re.Match object; span=(0, 4), match='Life'>


In [64]:
print(re.search('^Life', 'My Life'))

None


### $

- $ : 문자열의 끝과 매치함을 의미한다.

In [66]:
print(re.search('short$', 'Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [67]:
print(re.search('short$', 'Life is too short, you need python'))

None


In [68]:
# ^ 또는 $ 문자를 메타문자가 아닌 문자 그 자체로 매치하고 싶은 경우에는 [^], [$] 처럼 사용하거나 \^, \$ 로 사용하면 된다.

In [69]:
# \A는 문자열의 처음과 매치됨을 의미한다. ^와 동일한 의미이지만 re.MULTILINE 옵션을 사용할 경우에는 다르게 해석된다. re.MULTILINE 옵션을 사용할 경우 ^은 라인별 문자열의 처음과 매치되지만 \A는 라인과 상관없이 전체 문자열의 처음하고만 매치된다.

In [70]:
# \Z는 문자열의 끝과 매치됨을 의미한다. 이것 역시 \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 $ 메타문자와는 달리 전체 문자열의 끝과 매치된다.

In [72]:
# \b는 단어 구분자(Word boundary)이다. 보통 단어는 whitespace에 의해 구분이 된다. 다음의 예를 보자.
# \b 메타문자를 이용할 경우 주의해야 할 점이 한가지 있다. \b는 파이썬 리터럴 규칙에 의하면 백스페이스(Back Space)를 의미하므로 백스페이스가 아닌 Word Boundary임을 알려주기 위해 r'\bclass\b' 처럼 raw string임을 알려주는 기호 r을 반드시 붙여주어야 한다.

p = re.compile(r'\bclass\b')
print(p.search('no class at all')) 

<re.Match object; span=(3, 8), match='class'>


In [73]:
# \B 메타문자는 \b 메타문자의 반대의 경우이다. 즉, whitespace로 구분된 단어가 아닌 경우에만 매치된다.

p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))  

print(p.search('the declassified algorithm'))

print(p.search('one subclass is'))


None
<re.Match object; span=(6, 11), match='class'>
None


### Grouping

example : (ABC)+

In [75]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

print(m.group())

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


## tips

보통 반복되는 문자열을 찾을 때 그룹을 이용하는데, 그룹을 이용하는 보다 큰 이유는 위에서 볼 수 있듯이 매치된 문자열 중에서 특정 부분의 문자열만 뽑아내기 위해서인 경우가 더 많다.


group(인덱스) - > 설명

group(0) - > 매치된 전체 문자열

group(1) - > 첫 번째 그룹에 해당되는 문자열

group(2) - > 두 번째 그룹에 해당되는 문자열

group(n) - > n 번째 그룹에 해당되는 문자열

In [77]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m)

<re.Match object; span=(0, 18), match='park 010-1234-1234'>


In [84]:
# \w+ - > (\w+), group(1)

p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

park


In [86]:
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))

010-1234-1234


In [87]:
# (\w+)\s+((\d+)[-]\d+[-]\d+) 처럼 그룹을 중첩되게 사용하는 것도 가능하다. 그룹이 중첩되어 사용되는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수로 인덱스가 증가한다.

p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(3))

010


In [90]:
p = re.compile(r"(\w+)\s+((\d+)[-](\d+)[-](\d+))")
m = p.search("park 010-1234-4567")
print(m.group(5))

4567


### 그룹핑된 문자열 재참조하기

In [91]:
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

### 그룹핑된 문자열에 이름 붙이기
- 참고 : https://wikidocs.net/4309

In [92]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


### 전방 탐색

- 2019년 09월 진행 예정