## 08-1 정규 표현식 살펴보기

### 정규 표현식은 왜 필요한가?

In [6]:
# 과제
# ----
# 주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경해 보자.
# --------------------------------------------------------------------------------------------------------

# 정규식을 모르는 경우
# ------------------
# 1. 전체 텍스트를 공백 문자로 나눈다(split).
# 2. 나뉜 단어가 주민등록번호 형식인지 조사한다.
# 3. 단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다.
# 4. 나뉜 단어를 다시 조립한다.
# 5. 이를 구현한 코드는 아마도 다음과 같을 것이다.
# ----------------------------------------------------
data = """
park 800905-1049118
kim  700905-1059119
"""

result = []
for line in data.split('\n'):
    word_result = []
    for word in line.split(' '):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-' + '*******'
        word_result.append(word)
    result.append(' '.join(word_result))

result_data = '\n'.join(result)
print(result_data)


# 정규식을 이용
# ------------
import re

data = """
park 800905-1049118
kim  700905-1059119
"""
pat = re.compile('(\d{6})[-]\d{7}')
print(pat.sub('\g<1>-*******', data))





park 800905-*******
kim  700905-*******


park 800905-*******
kim  700905-*******



## 08-2 정규 표현식 시작하기

### 정규 표현식의 기초, 메타 문자

In [4]:
# 정규 표현식 메타 문자
# -------------------
# . ^ $ * + ? { } [ ] \ | ( )
# 정규 표현식에서 메타 문자를 사용하면 특별한 의미를 가지게 됨
# -------------------------------------------------------

# 문자 클래스 []
# -------------
# [] 사이의 문자들과 매치
# 문자 클래스를 만드는 메타 문자인 [] 사이에는 어떤 문자도 들어갈 수 있다
# 즉 정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"를 뜻한다. 
# 이해를 돕기 위해 문자열 "a", "before", "dude"가 정규식 [abc]와 어떻게 매치되는지 살펴보자.

# "a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치
# "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치
# "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음

# [ ] 안의 두 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위(From - To)를 의미한다. 
# 예를 들어 [a-c]라는 정규 표현식은 [abc]와 동일하고 [0-5]는 [012345]와 동일하다.
# 다음은 하이픈(-)을 사용한 문자 클래스의 사용 예이다.
# [a-zA-Z] : 알파벳 모두
# [0-9] : 숫자

# 문자 클래스([ ]) 안에는 어떤 문자나 메타 문자도 사용할수 있지만 주의해야 할 메타 문자가 1가지 있다. 
# 그것은 바로 ^인데, 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대(not)라는 의미를 갖는다. 
# 예를 들어 [^0-9]라는 정규 표현식은 숫자가 아닌 문자만 매치된다.

## 자주 사용하는 문자 클래스
## -----------------------
## [0-9] 또는 [a-zA-Z] 등은 무척 자주 사용하는 정규 표현식이다. 
## 이렇게 자주 사용하는 정규식은 별도의 표기법으로 표현할 수 있다. 다음을 기억해 두자.
##
## \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
## \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
## \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
## \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
## \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
## \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.
## 대문자로 사용된 것은 소문자의 반대임을 추측할 수 있다.

'1 2 3'

#### Dot(.)

In [None]:
# Dot(.)
# ------
# 정규 표현식의 Dot(.) 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치됨을 의미한다.
# 정규식을 작성할 때 re.DOTALL 옵션을 주면 \n 문자와도 매치된다.

## 예시
## ----
## a.b      ---> a + 모든문자 + b 

# 이해를 돕기 위해 문자열 "aab", "a0b", "abc"가 정규식 a.b와 어떻게 매치되는지 살펴보자.
# ---------------------------------------------------------------------------------
# "aab"는 가운데 문자 "a"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치된다.
# "a0b"는 가운데 문자 "0"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치된다.
# "abc"는 "a"문자와 "b"문자 사이에 어떤 문자라도 하나는있어야 하는 이 정규식과 일치하지 않으므로 매치되지 않는다.

# a[.]b     ---> a + Dot(.)문자 + b
# 정규식 a[.]b는 "a.b" 문자열과 매치되고, "a0b" 문자열과는 매치되지 않는다.

#### 반복(*)

In [7]:
# 반복(*)
# ------
# ca*t      ---> * 바로 앞에 있는 문자 a가 0부터 무한대로 반복될 수 있다는 의미이다.

# 정규식      문자열      Match 여부      설명
# ------      -----      ---------      ------
# ca*t        ct         Yes            'a'가 0번 반복되어 매치
# ca*t        cat        Yes            'a'가 0번 이상 반복되어 매치
# ca*t        caaat      Yes            'a'가 0번 이상 반복되어 매치

#### 반복(+)

In [None]:
# 반복(+)
# ------
# +는 최소 1번 이상 반복될 때 사용한다. 즉 *가 반복 횟수 0부터라면 +는 반복 횟수 1부터인 것이다.
# ca+t      ---> c + a(1번 이상 반복) + t

# 정규식      문자열      Match 여부      설명
# ------      -----      ---------      ------
# ca+t        ct         No             'a'가 0번 반복되어 매치되지 않음
# ca+t        cat        Yes            'a'가 1번 이상 반복되어 매치
# ca+t        caaat      Yes            'a'가 1번 이상 반복되어 매치

#### 반복({m,n}, ?)

In [None]:
# 반복({m,n}, ?)
# --------------
# 반복 횟수를 3회만 또는 1회부터 3회까지만으로 제한하고 싶을 수도 있지 않을까?
# { } 메타 문자를 사용하면 반복 횟수를 고정할 수 있다. 
# {m, n} 정규식을 사용하면 반복 횟수가 m부터 n까지 매치할 수 있다. 
# 또한 m 또는 n을 생략할 수도 있다. 만약 {3,}처럼 사용하면 반복 횟수가 3 이상인 경우이고 
# {,3}처럼 사용하면 반복 횟수가 3 이하를 의미한다. 생략된 m은 0과 동일하며, 생략된 n은 무한대(2억 개 미만)의 의미를 갖는다.

# {1,}은 +와 동일하고, {0,}은 *와 동일하다.

## 1. {m}
## ------
## ca{2}t   ---> c + a(반드시 2번 반복) + t

# 정규식      문자열      Match 여부      설명
# ------      -----      ---------      ------
# ca{2}t      ct         No             'a'가 1번 반복되어 매치되지 않음
# ca{2}t      caat       Yes            'a'가 2번 반복되어 매치


## 2. {m, n}
## ---------
## ca{2, 5}t    ---> c + a(2 ~ 5회 반복) + t

# 정규식      문자열      Match 여부      설명
# ------      -----      ---------      ------
# ca{2,5}t      cat      No             'a'가 1번만 반복되어 매치되지 않음
# ca{2,5}t      caat     Yes            'a'가 2번 반복되어 매치
# ca{2,5}t      caaaaat  Yes            'a'가 5번 반복되어 매치


## ?
## -
## 반복은 아니지만 이와 비슷한 개념으로 ? 이 있다. ? 메타문자가 의미하는 것은 {0, 1} 이다.
## ab?c     ---> a + b(있어도 되고 없어도 된다) + c

# 정규식      문자열      Match 여부      설명
# ------      -----      ---------      ------
# ab?c        abc        Yes            'b'가 1번 사용되어 매치
# ab?c        ac         Yes            'b'가 0번 사용되어 매치


### *, +, ? 메타 문자는 모두 {m, n} 형태로 고쳐 쓰는 것이 가능하지만 가급적 이해하기 쉽고 
### 표현도 간결한 *, +, ? 메타 문자를 사용하는 것이 좋다.

### 파이썬에서 정규 표현식을 지원하는 re 모듈

In [None]:
# 파이썬은 정규 표현식을 지원하기 위해 re(regular expression의 약어) 모듈을 제공한다. 
# re 모듈은 파이썬을 설치할 때 자동으로 설치되는 표준 라이브러리 임
# ------------------------------------------------------------------------------
import re
p = re.compile('ab*')

# 패턴이란 정규식을 컴파일한 결과
# -----------------------------

### 정규식을 이용한 문자열 검색

In [9]:
# 컴파일된 패턴 객체를 사용하여 문자열 검색을 수행해 보자. 
# 컴파일된 패턴 객체는 다음과 같은 4가지 메서드를 제공
## Method   	목적
## ------       -----------------------------------------------------
## match()	    문자열의 처음부터 정규식과 매치되는지 조사한다.
## search()	    문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
## findall()	정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다.
## finditer()	정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.
## --------------------------------------------------------------------------------

## match, search는 정규식과 매치될 때는 match 객체를 리턴하고, 
## 매치되지 않을 때는 None을 리턴한다. 
## match 객체란 정규식의 검색 결과로 리턴된 객체를 말한다.

import re

p = re.compile('[a-z]+')

#### match

In [15]:
# match
# -----
# match 메서드는 문자열의 처음부터 정규식과 매치되는지 조사한다. 위 패턴에 match 메서드를 수행해 보자.
import re

m = p.match('python')
print(m)

m = p.match('3 python')
print(m)


# match의 결과로 match 객체 또는 None을 리턴하기 때문에 파이썬 정규식 프로그램은 보통 다음과 같은 흐름으로 작성한다.
# ----------------------------------------------------------------------------------------------------------
p = re.compile('[a-z]+')
m = p.match('string goes here')
if m:
    print('Match found: ', m.group())
else:
    print('No match')     
    

data = """
3 python 
life is too short
"""    

p = re.compile('[a-z]+')

m = p.match(data)
print(m)

m = p.search(data)      # 패턴과 일치하는 1개의 단어 search
print(m)


<re.Match object; span=(0, 6), match='python'>
None
Match found:  string
None
<re.Match object; span=(3, 9), match='python'>


#### search

In [13]:
# search
# ------
import re

p = re.compile('[a-z]+')
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


#### findall

In [16]:
# findall
# -------
# findall은 패턴([a-z]+)과 매치되는 모든 값을 찾아 리스트로 리턴한다
# --------------------------------------------------------------
import re

data = """
3 python 
Life is too short
"""
p = re.compile('[a-z]+')
m = p.findall(data)
print(m)

['python', 'ife', 'is', 'too', 'short']


#### finditer

In [18]:
# finditer
# --------
# finditer는 findall과 동일하지만 그 결과로 반복 가능한 객체(iterator object)를 리턴
# 그리고 반복 가능한 객체가 포함하는 각각의 요소는 match 객체
# -------------------------------------------------------------------------------
import re

data = """
3 python 
Life is too short
"""
p = re.compile('[a-z]+')
m = p.finditer(data)
print(m)

<callable_iterator object at 0x000001E39ECFBDC0>


### match 객체의 메서드

In [21]:
# match 객체의 메서드
# ------------------
## match 객체로 확인 가능한 것
##--------------------------
## 어떤 문자열이 매치되었는가?
## 매치된 문자열의 인덱스는 어디서부터 어디까지인가?

# match 객체 메서드
# ----------------
# method    	목적
# ------        --------------------------------------------
# group()	    매치된 문자열을 리턴한다.
# start()	    매치된 문자열의 시작 위치를 리턴한다.
# end()	        매치된 문자열의 끝 위치를 리턴한다.
# span()	    매치된 문자열의 (시작, 끝)에 해당하는 튜플을 리턴한다.
# ----------------------------------------------------------------
import re

p = re.compile('[a-z]+')
m = p.match('python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

# match 메서드를 수행한 결과로 돌려준 match 객체의 start()의 결괏값은 항상 0일 수밖에 없다. 
# 왜냐하면 match 메서드는 항상 문자열의 시작부터 조사하기 때문이다.

import re

p = re.compile('[a-z]+')
m = p.search('3 python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())


python
0
6
(0, 6)
python
2
8
(2, 8)


In [22]:
# 모듈 단위로 수행하기
# -------------------
# 지금까지 우리는 re.compile을 사용하여 컴파일된 패턴 객체로 그 이후의 작업을 수행했다. 
# re 모듈은 이것을 보다 축약한 형태로 사용할 수 있는 방법을 제공한다. 다음 예를 보자.
# --------------------------------------------------------------------------------
import re

p = re.compile('[a-z]+')
m = p.match('python')

# 축약 코드
# --------
m = re.match('[a-z]+', 'python')
print(m)

# 보통 한 번 만든 패턴 객체를 여러번 사용해야 할 때는 이 방법보다 re.compile을 사용하는 것이 편하다.

<re.Match object; span=(0, 6), match='python'>


### 컴파일 옵션

In [None]:
# 컴파일 옵션
# ----------
# 정규식을 컴파일할 때 다음 옵션을 사용할 수 있다.
# ---------------------------------------------
# DOTALL(S)     - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
# IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
# MULTILINE(M)  - 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)
# VERBOSE(X)    - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)
#                 옵션을 사용할 때는 re.DOTALL처럼 전체 옵션 이름을 써도 되고 re.S처럼 약어를 써도 된다.
# ---------------------------------------------------------------------------------------------------------------

#### DOTALL, S

In [25]:
# DOTALL, S
# ---------
# . 메타 문자는 줄바꿈 문자(\n)를 제외한 모든 문자와 매치되는 규칙이 있다. 
# 만약 \n 문자도 포함하여 매치하고 싶다면 re.DOTALL 또는 re.S 옵션을 사용해 정규식을 컴파일하면 된다.
# ---------------------------------------------------------------------------------------------
# 보통 re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 줄바꿈 문자에 상관없이 검색할 때 많이 사용한다.
# --------------------------------------------------------------------------------------------
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


#### IGNORECASE, I

In [28]:
# IGNORECASE, I
# -------------
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구별 없이 매치를 수행할 때 사용하는 옵션
# ----------------------------------------------------------------------------
import re

p = re.compile('[a-z]+', re.I)

m = p.match('python')
print(m)
print('='*30)

m = p.match('Python')
print(m)
print('='*30)

m = p.match('PYTHON')
print(m)
print('='*30)


<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


#### MULTILINE, M

In [30]:
# MULTILINE, M
# -------------
# re.MULTILINE 또는 re.M 옵션은 조금 후에 설명할 메타 문자인 ^, $와 연관된 옵션이다. 
# 이 메타 문자에 대해 간단히 설명하자면 ^는 문자열의 처음을 의미하고, $는 문자열의 마지막을 의미한다. 
# 예를 들어 정규식이 ^python인 경우 문자열의 처음은 항상 python으로 시작해야 매치되고, 
# 만약 정규식이 python$이라면 문자열의 마지막은 항상 python으로 끝나야 매치된다는 의미이다.
# -------------------------------------------------------------------------------------------
import re

data = """python one
life is too short
python two
you need python
python three"""

p = re.compile('^python\s\w+')
print(p.findall(data))      # ['python one'] 출력


# ^ 메타 문자에 의해 python이라는 문자열을 사용한 첫 번째 줄만 매치된 것이다.
# 하지만 ^ 메타 문자를 문자열 전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은 경우도 있을 것이다. 
# 이럴 때 사용할 수 있는 옵션이 바로 re.MULTILINE 또는 re.M이다. 위 코드를 다음과 같이 수정해 보자.
# -----------------------------------------------------------------------------------------------
p = re.compile('^python\s\w+', re.MULTILINE)
print(p.findall(data))      # ['python one', 'python two', 'python three'] 출력

['python one']
['python one', 'python two', 'python three']


#### VERBOSE, X

In [None]:
# VERBOSE, X
# ----------
# 지금껏 알아본 정규식은 매우 간단하지만 정규식 전문가들이 만든 정규식을 보면 거의 암호수준이다. 
# 정규식을 이해하려면 하나하나 조심스럽게 뜯어보아야만 한다. 
# 이렇게 이해하기 어려운 정규식을 주석 또는 줄 단위로 구분할 수 있다면 얼마나 보기 좋고 
# 이해하기 쉬울까? 방법이 있다. 바로 re.VERBOSE 또는 re.X 옵션을 사용하면 된다.
# ---------------------------------------------------------------------------------------
import re

# 1st 정규식
# ----------
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')


# 2st 정규식
# ----------
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

# 첫 번째와 두 번째 예를 비교해 보면 컴파일된 패턴 객체인 charref는 모두 동일한 역할을 한다. 
# 하지만 정규식이 복잡할 경우 두 번째처럼 주석을 적고 여러 줄로 표현하는 것이 훨씬 가독성이 좋다는 것을 알 수 있다.

# re.VERBOSE 옵션을 사용하면 문자열에 사용된 whitespace는 컴파일할 때 제거된다(단 [ ] 안에 사용한 whitespace는 제외). 
# 그리고 줄 단위로 #기호를 사용하여 주석문을 작성할 수 있다.

### 백슬래시 문제

In [None]:
# 백슬래시 문제
# ------------
# 정규 표현식을 파이썬에서 사용할 때 혼란을 주는 요소가 한 가지 있는데, 바로 백슬래시(\)이다.
# 예를 들어 어떤 파일 안에 있는 "\section" 문자열을 찾기 위한 정규식을 만든다고 가정해 보자.

# \section
# --------
# 이 정규식은 \s 문자가 whitespace로 해석되어 의도한 대로 매치가 이루어지지 않는다.
# 위 표현은 [ \t\n\r\f\v]ection 과 동일한 의미로 해석됨

# 의도한 대로 매치하고 싶다면 \\을 이용하여 이스케이프 처리
# \\section
# p = re.compile('\\section')

# 그런데 여기에서 또 하나의 문제가 발견된다. 
# 위처럼 정규식을 만들어서 컴파일하면 실제 파이썬 정규식 엔진에는 파이썬 문자열 리터럴 규칙에 따라 \\이 \로 변경되어 \section이 전달된다.
# 결국 정규식 엔진에 \\ 문자를 전달하려면 파이썬은 \\\\처럼 백슬래시를 4개나 사용해야 한다.

# 정규식 엔진은 정규식을 해석하고 수행하는 모듈이다.
# p = re.compile('\\\\section')

# 이렇게 해야만 원하는 결과를 얻을 수 있다. 하지만 너무 복잡하지 않은가?

# 만약 위와 같이 \를 사용한 표현이 계속 반복되는 정규식이라면 너무 복잡해서 이해하기 쉽지않을 것이다. 
# 이러한 문제를 해결하려면 Raw String을 사용해야 한다
# p = re.compile(r'\\section')


## 08-3 강력한 정규 표현식의 세계로

### 메타 문자

In [None]:
# 앞에서 살펴본 +, *, [], {} 등의 메타문자는 매치가 진행될 때 현재 매치되고 있는 문자열의 위치가 변경된다(보통 소비된다고 표현한다). 
# 하지만 이와 달리 문자열을 소비시키지 않는 메타 문자도 있다. 
# 이번에는 이런 문자열 소비가 없는(zerowidth assertions) 메타 문자에 대해 살펴보자

#### |

In [31]:
# |
# -
# | 메타 문자는 or과 동일한 의미로 사용된다. A|B라는 정규식이 있다면 A 또는 B라는 의미가 된다.
# --------------------------------------------------------------------------------------
import re

p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


#### ^

In [34]:
# ^
# -
# $ 메타 문자는 ^ 메타 문자와 반대의 경우이다. 즉 $는 문자열의 끝과 매치함을 의미한다.
# -----------------------------------------------------------------------------------------------------
import re

print(re.search('^Life', 'Life is too short'))

<re.Match object; span=(0, 4), match='Life'>


#### $

In [None]:
# $
# -
# ^ 메타 문자는 문자열의 맨 처음과 일치함을 의미한다. 
# 앞에서 살펴본 컴파일 옵션 re.MULTILINE을 사용할 경우에는 여러 줄의 문자열일 때 각 줄의 처음과 일치하게 된다.
# -----------------------------------------------------------------------------------------------------
import re
print(re.search('short$', 'Life is too short'))

In [None]:
# ^ 또는 $ 문자를 메타 문자가 아닌 문자 그 자체로 매치하고 싶은 경우에는 \^, \$ 로 사용하면 된다.

#### \A

In [36]:
# \A
# --
# \A는 문자열의 처음과 매치됨을 의미한다. ^ 메타 문자와 동일한 의미이지만 re.MULTILINE 옵션을 
# 사용할 경우에는 다르게 해석된다. 
# re.MULTILINE 옵션을 사용할 경우 ^은 각 줄의 문자열의 처음과 매치되지만 \A는 줄과 상관없이 
# 전체 문자열의 처음하고만 매치된다.

#### \Z

In [None]:
# \Z
# --
# \Z는 문자열의 끝과 매치됨을 의미한다. 이것 역시 \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 $ 메타 
# 문자와는 달리 전체 문자열의 끝과 매치된다.

#### \b

In [39]:
# \b
# --
# \b는 단어 구분자(Word boundary)이다. 보통 단어는 whitespace에 의해 구분된다.
# -------------------------------------------------------------------------
# \b 메타 문자를 사용할 때 주의해야 할 점이 있다. 
# \b는 파이썬 리터럴 규칙에 의하면 백스페이스(BackSpace)를 의미하므로 백스페이스가 아닌 
# 단어 구분자임을 알려 주기 위해 r'\bclass\b'처럼 Raw string임을 알려주는 기호 r을 반드시 붙여 주어야 한다.
# --------------------------------------------------------------------------------------------------
import re

p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

# \bclass\b 정규식은 앞뒤가 whitespace로 구분된 class라는 단어와 매치됨을 의미한다. 
# 따라서 no class at all의 class라는 단어와 매치됨을 확인할 수 있다.

print(p.search('the declassified algorithm'))

print(p.search('one subclass is'))

<re.Match object; span=(3, 8), match='class'>
None
None


#### \B

In [42]:
# \B
# --
# \B 메타 문자는 \b 메타 문자와 반대의 경우이다. 즉 whitespace로 구분된 단어가 아닌 경우에만 매치된다.
# ----------------------------------------------------------------------------------------------
import re

p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))

print(p.search('the declassified algorithm'))

print(p.search('one subclass is'))

None
<re.Match object; span=(6, 11), match='class'>
None


### 그루핑

In [60]:
# 그루핑
# -----
# ABC 문자열이 계속해서 반복되는지 조사하는 정규식을 작성하고 싶다고 하자. 
# 어떻게 해야할까? 지금까지 공부한 내용으로는 위 정규식을 작성할 수 없다. 
# 이럴 때 필요한 것이 바로 그루핑(Grouping) 이다.
# -------------------------------------------------------------------
# (ABC)+

import re

p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group())


# \d : [0-9]
# \s : white space
# \w : [0-9a-zA-Z_]
# ------------------
p = re.compile(r'\w+\s+\d+[-]\d+[-]\d+')
m = p.search('park 010-1234-1234')
print(m)

p = re.compile(r'\s+\d+[-]\d+[-]\d+')
m = p.search('park 010-1234-1234')
print(m)


<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
<re.Match object; span=(0, 18), match='park 010-1234-1234'>
<re.Match object; span=(4, 18), match=' 010-1234-1234'>


In [58]:
# \w+\s+\d+[-]\d+[-]\d+은 이름 + " " + 전화번호 형태의 문자열을 찾는 정규식이다. 
# 그런데 이렇게 매치된 문자열 중에서 이름만 뽑아내고 싶다면 어떻게 해야 할까?

# 보통 반복되는 문자열을 찾을 때 그룹을 사용하는데, 그룹을 사용하는 보다 큰 이유는 위에서 
# 볼 수 있듯이 매치된 문자열 중에서 특정 부분의 문자열만 뽑아내기 위해서인 경우가 더 많다.

# 위 예에서 만약 "이름" 부분만 뽑아내려 한다면 다음과 같이 할 수 있다.
# ---------------------------------------------------------------------------------
import re

p = re.compile(r'(\w+)\s+\d+[-]\d+[-]\d+')      
                                                
m = p.search('park 010-1234-1234')
print(m)
print(m.group(1))

# \w+ ---> (\w+)로 변경하면 match 객체의 group(인덱스) 메서드를 사용하여 그루핑된 부분의 문자열만 뽑아낼 수 있음

# group 메서드의 인덱스는 다음과 같은 의미를 갖는다.
# ----------------------------------------------
# group(인덱스)     설명
# -------------     --------------------------
# group(0)	        매치된 전체 문자열
# group(1)	        첫 번째 그룹에 해당되는 문자열
# group(2)	        두 번째 그룹에 해당되는 문자열
# group(n)	        n 번째 그룹에 해당되는 문자열

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park


In [61]:
# 이름과 전화번호 그루핑
# --------------------
import re

p = re.compile(r'(\w+)\s+(\d+[-]\d+[-]\d+)')      
                                               
m = p.search('park 010-1234-1234')

print(m.group(0))
print(m.group(1))
print(m.group(2))


park 010-1234-1234
park
010-1234-1234


In [64]:
# 전화번호 중에서 국번만 뽑아내고 싶으면 어떻게 해야 할까? 다음과 같이 국번 부분을 또 그루핑하면 된다

import re

p = re.compile(r'(\w+)\s+(\d+)[-](\d+)[-](\d+)')      
                                               
m = p.search('park 010-1234-5678')

print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))


park 010-1234-5678
park
010
1234
5678


In [66]:
# 그루핑 중첩
# ----------
# (\w+)\s+((\d+)[-]\d+[-]\d+)처럼 그룹을 중첩되게 사용하는 것도 가능하다. 
# 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가
# ---------------------------------------------------------------------------
import re

p = re.compile(r'(\w+)\s+((\d+)[-]\d+[-]\d+)')      
                                               
m = p.search('park 010-1234-5678')

print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))


park 010-1234-5678
park
010-1234-5678
010


#### 그루핑된 문자열 재참조하기

In [1]:
# 그루핑된 문자열 재참조하기
# --------------------------
# 그룹의 또 하나 좋은 점은 한 번 그루핑한 문자열을 재참조(Backreferences)할 수 있다는 점
# -------------------------------------------------------------------------------------
import re

p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

# 정규식 (\b\w+)\s+\1은 (그룹) + " " + 그룹과 동일한 단어와 매치됨을 의미한다. 
# 이렇게 정규식을 만들게 되면 2개의 동일한 단어를 연속적으로 사용해야만 매치된다. 
# 이것을 가능하게 해주는 것이 바로 재참조 메타 문자인 \1이다. \1은 정규식의 그룹 중 첫 번째 그룹을 가리킨다.

'the the'

#### 그루핑된 문자열에 이름 붙이기

In [4]:
# 그루핑된 문자열에 이름 붙이기
# -----------------------------
# 정규식 안에 그룹이 무척 많아진다고 가정해 보자. 
# 예를 들어 정규식 안에 그룹이 10개 이상만 되어도 매우 혼란스러울 것이다. 
# 거기에 더해 정규식이 수정되면서 그룹이 추가, 삭제되면 그 그룹을 인덱스로 
# 참조한 프로그램도 모두 변경해 주어야 하는 위험도 갖게 된다.

# 그룹을 만들 때 그룹 이름을 지정할 수 있게 했다. 그 방법은 다음과 같다.

# (?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)

# 위 정규식은 앞에서 본 이름과 전화번호를 추출하는 정규식이다. 기존과 달라진 부분은 다음과 같다.
# (\w+) --> (?P<name>\w+)
# 여기에서 사용한 (?...) 표현식은 정규 표현식의 확장 구문
# (?P<그룹명>...)

# 그룹에 이름을 지정하고 참조하는 다음 예를 보자.
import re

p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group('name'))

# 그룹 이름을 사용하면 정규식 안에서 재참조하는 것도 가능하다. : (?P=그룹이름)
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

park


'the the'

### 전방 탐색

In [9]:
# 전방 탐색
# ---------
# 정규식에 막 입문한 사람들이 가장 어려워하는 것이 바로 전방 탐색(Lookahead Assertions) 확장 구문이다. 
# 정규식 안에 이 확장 구문을 사용하면 순식간에 암호문처럼 알아보기 어렵게 바뀌기 때문이다. 
# 하지만 이 전방 탐색이 꼭 필요한 경우가 있으며 매우 유용한 경우도 많으니 꼭 알아 두자.
# ---------------------------------------------------------------------------------------------------
import re

p = re.compile('.+:')
m = p.search('http://google.com')
print(m.group())

# 정규식 .+:과 일치하는 문자열로 http:를 돌려주었다. 
# 만약 http:라는 검색 결과에서 :을 제외하고 출력하려면 어떻게 해야 할까? 
# 위 예는 그나마 간단하지만 훨씬 복잡한 정규식이어서 그루핑은 추가로 할 수 없다는 조건까지 더해진다면 어떻게 해야 할까?
p = re.compile('(.+):')
m = p.search('http://google.com')
print(m.group(1))


# 이럴 때 사용할 수 있는 것이 바로 전방 탐색이다. 
# 전방 탐색에는 긍정(Positive)과 부정(Negative)의 2종류가 있고 다음과 같이 표현한다.
# - 긍정형 전방 탐색((?=...)) - ... 에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않는다.
# - 부정형 전방 탐색((?!...)) - ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않는다.

http:
http


#### 긍정형 전방 탐색

In [10]:
# 긍정형 전방 탐색을 사용하면 http:의 결과를 http로 바꿀 수 있다. 다음 예를 보자
p = re.compile('.+(?=:)')
m = p.search('http://google.com')
print(m.group())

# 정규식 중 :에 해당하는 부분에 긍정형 전방 탐색 기법을 적용하여 (?=:)으로 변경하였다. 
# 이렇게 되면 기존 정규식과 검색에서는 동일한 효과를 발휘하지만 : 에 해당하는 문자열이 
# 정규식 엔진에 의해 소비되지 않아(검색에는 포함되지만 검색 결과에는 제외됨) 검색 
# 결과에서는 :이 제거된 후 돌려주는 효과가 있다.

http


#### 부정형 전방 탐색

In [None]:
# .*[.].*$
# ---------
# 이 정규식은 파일 이름 + . + 확장자를 나타내는 정규식이다. 
# 이 정규식은 foo.bar, autoexec.bat, sendmail.cf 같은 형식의 파일과 매치될 것이다.

# 이 정규식에 확장자가 "bat인 파일은 제외해야 한다"는 조건을 추가해 보자. 
# 가장 먼저 생각할 수 있는 정규식은 다음과 같다.
# .*[.][^b].*$

# 이 정규식은 확장자가 b라는 문자로 시작하면 안 된다는 의미이다. 
# 하지만 이 정규식은 foo.bar라는 파일마저 걸러 낸다. 정규식을 다음과 같이 수정해 보자.
# .*[.]([^b]..|.[^a].|..[^t])$

# 이 정규식은 | 메타 문자를 사용하여 확장자의 첫 번째 문자가 b가 아니거나 두 번째 문자가 
# a가 아니거나 세 번째 문자가 t가 아닌 경우를 의미한다. 
# 이 정규식에 의하여 foo.bar는 제외되지 않고 autoexec.bat은 제외되어 만족스러운 결과를 돌려준다. 
# 하지만 이 정규식은 아쉽게도 sendmail.cf처럼 확장자의 문자 개수가 2개인 케이스를 포함하지 
# 못하는 오동작을 하기 시작한다.

# 따라서 다음과 같이 바꾸어야 한다.
# .*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$

# 이러한 상황의 구원 투수는 바로 부정형 전방 탐색이다. 
# 위 예는 부정형 전방 탐색을 사용하면 다음과 같이 간단하게 처리된다.
# -----------------------------------------------------------------
# .*[.](?!bat$).*$

# 확장자가 bat가 아닌 경우에만 통과된다는 의미이다. 
# bat 문자열이 있는지 조사하는 과정에서 문자열이 소비되지 않으므로 bat가 아니라고 판단되면 그 이후 정규식 매치가 진행된다.

# exe 역시 제외하라는 조건이 추가되더라도 다음과 같이 간단히 표현할 수 있다.
# .*[.](?!bat$|exe$).*$

### 문자열 바꾸기

#### sub

In [13]:
# 문자열 바꾸기
# -------------
# sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있다.
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes and white pants')

# sub 메서드의 첫 번째 인수는 "바꿀 문자열(replacement)"이 되고, 두 번째 인수는 "대상 문자열"이 된다. 
# 위 예에서 볼 수 있듯이 blue 또는 white 또는 red라는 문자열이 colour라는 문자열로 바뀌는 것을 확인할 수 있다.

# 그런데 딱 한 번만 바꾸고 싶은 경우도 있다. 
# 이렇게 바꾸기 횟수를 제어하려면 다음과 같이 세 번째 인수에 count 값을 설정하면 된다.
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

#### subn

In [14]:
# sub 메서드와 유사한 subn 메서드
# -------------------------------
# subn 역시 sub와 동일한 기능을 하지만 반환 결과를 튜플로 리턴한다는 차이가 있다. 
# 리턴된 튜플의 첫 번째 요소는 변경된 문자열이고, 두 번째 요소는 바꾸기가 발생한 횟수
import re

p = re.compile('(blue|white|red)')
p.subn('colour', 'blue socks and red shoes')


('colour socks and colour shoes', 2)

#### sub 메서드 사용 시 참조 구문 사용하기

In [17]:
# sub 메서드를 사용할 때 참조 구문을 사용할 수 있다.
import re

p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub('\g<phone> \g<name>', 'park 010-1234-5678'))

# 위 예는 이름 + 전화번호의 문자열을 전화번호 + 이름으로 바꾸는 예이다. 
# sub의 바꿀 문자열 부분에 \g<그룹이름>을 사용하면 정규식의 그룹 이름을 참조할 수 있게 된다.
            
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub('\g<2> \g<1>', 'park 010-1234-5678'))


010-1234-5678 park
010-1234-5678 park


#### sub 메서드의 매개변수로 함수 넣기

In [18]:
# sub 메서드의 첫 번째 인수에 함수를 전달할 수도 있다. 다음 예를 보자.

def hexrepl(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code 34556lee')

'Call 0xffd2 for printing, 0xc000 for user code 0x86fclee'

### Greedy vs Non-Greedy

In [25]:
# 정규식에서 Greedy(탐욕스러운)란 어떤 의미일까? 다음 예제를 보자.

s = '<html><head><title>Title</title>'
len(s)

print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())

# <.*> 정규식의 매치 결과로 <html> 문자열을 돌려주기를 기대했을 것이다. 
# 하지만 * 메타 문자는 매우 탐욕스러워서 매치할 수 있는 최대한의 문자열인 
# <html><head><title>Title</title> 문자열을 모두 소비해 버렸다. 
# 어떻게 하면 이 탐욕스러움을 제한하고 <html> 문자열까지만 소비하도록 막을 수 있을까?

print(re.match('<.*?>', s).group())

# non-greedy 문자인 ?는 *?, +?, ??, {m,n}?와 같이 사용할 수 있다. 
# 가능한 한 가장 최소한의 반복을 수행하도록 도와주는 역할

(0, 32)
<html><head><title>Title</title>
<html>
