#  정규 표현식
- <span style = 'font-size:1.3em;line-height:1.5em'>파이썬에서 정규표현식을 사용하기 위해서는 re라는 모듈을 불러와서 사용해야 합니다.</span>

In [1]:
import re

### 사용예시

<span style = 'font-size:1.2em;line-height:1.5em'>전화번호의 가운데 자리수를 비공개로 전환하기</span>

<span style = 'font-size:1.1em;line-height:1.5em'>(1) 정규표현식 미사용</span>

In [3]:
data = \
"""kim 010-1234-5678
park 010-8765-4321"""

result = []
for line in data.split('\n'):
    tmp_result = []
    for word in line.split(' '):
        if len(word) == 13 and word[:3].isdigit() and word[4:8].isdigit() and word[9:].isdigit():
            word = word[:4] + "****" + word[8:]
        tmp_result.append(word)
    result.append(" ".join(tmp_result))

print('\n'.join(result))

kim 010-****-5678
park 010-****-4321


<span style = 'font-size:1.1em;line-height:1.5em'>(2) 정규표현식 사용</span>

In [2]:
import re

data = \
"""kim 010-1234-5678
park 010-8765-4321"""

pattern = re.compile("(\d{3})[-](\d{4})[-](\d{4})")
print(pattern.sub("\g<1>-****-\g<3>", data))

kim 010-****-5678
park 010-****-4321


## 1. pattern 생성하기
- <span style = 'font-size:1.3em;line-height:1.5em'>re.compile()</span>
- <span style = 'font-size:1.3em;line-height:1.5em'>'정규표현식을 컴파일한다.'라고 표현하기도 합니다.</span>

In [4]:
# a로 시작하며 그 뒤에 b가 0개 이상 붙어있는 패턴
p = re.compile('ab*') 

In [5]:
# 패턴은 Pattern이라는 클래스의 객체이다.
print(type(p))
print(p.__class__.__name__)

<class 're.Pattern'>
Pattern


## 2. re.Pattern클래스의 유용한 메소드 살펴보기

### (1) match()
- <span style = 'font-size:1.2em;line-height:1.5em'>문자열의 처음부터 정규식과 매치되는지 조사한다.</span>

In [8]:
# Pattern 클래스의 객체 생성하기
# 패턴: a로 시작하며 그 뒤에 b가 0개 이상 붙어있는 패턴
p = re.compile('ab*') 

my_str1 = 'ab abc ba bca'
my_str2 = 'a bca bc bca'
my_str3 = 'abbb abc ba bca'
my_str4 = 'bb abc ba bca'
my_str5 = 'ccc dbcbc ddbc'
result1 = p.match(my_str1)
result2 = p.match(my_str2)
result3 = p.match(my_str3)
result4 = p.match(my_str4)
result5 = p.match(my_str5)
print(result1)
print(result2)
print(result3)
print(result4)
print(result5)

<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 4), match='abbb'>
None
None


- <span style = 'font-size:1.2em;line-height:1.5em'>반환하는 값은 Match라는 클래스에 대한 객체(object)입니다.</span>
    - <span style = 'font-size:1.0em;line-height:1.5em'>클래스, 객체에 대한 개념이 어려우신 분들은 [여기](https://wikidocs.net/28)를 참고해보세요. </span>

In [9]:
print(type(result1))
print(result1.__class__.__name__)

<class 're.Match'>
Match


- <span style = 'font-size:1.2em;line-height:1.5em'>Match라는 클래스는 여러 메소드를 제공합니다. </span>
- <span style = 'font-size:1.2em;line-height:1.5em'>따라서, Match의 객체인 result1에서도 해당 메소드를 사용할 수 있습니다.</span>
- <span style = 'font-size:1.2em;line-height:1.5em'>몇가지 메소드들에 대해서 소개하겠습니다.</span>


In [10]:
# 매칭된 문자열 반환
print(result1.group())

# 매칭된 문자열의 시작 위치를 반환
print(result1.start())

# 매칭된 문자열의 끝 위치를 반환
print(result1.end())

# 매칭된 문자열의 (시작 위치, 끝 위치)에 해당하는 튜플 반환
print(result1.span())

ab
0
2
(0, 2)


### (2) search()
- <span style = 'font-size:1.2em;line-height:1.5em'>문자열 전체를 탐색하여 정규식과 매칭되는지 조사한다.</span>

In [9]:
# a로 시작하며 그 뒤에 b가 0개 이상 붙어있는 패턴
p = re.compile('ab*') 

my_str1 = 'ab abc ba bca'
my_str2 = 'a bca bc bca'
my_str3 = 'abbb abc ba bca'
my_str4 = 'bb abc ba bca'
my_str5 = 'ccc dbcbc ddbc'
result1 = p.search(my_str1)
result2 = p.search(my_str2)
result3 = p.search(my_str3)
result4 = p.search(my_str4)
result5 = p.search(my_str5)
print(result1)
print(result2)
print(result3)
print(result4)
print(result5)

<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 4), match='abbb'>
<re.Match object; span=(3, 5), match='ab'>
None


### (3) findall()
- <span style = 'font-size:1.2em;line-height:1.5em'>정규식과 매칭되는 모든 문자열을 반환한다.</span>

In [12]:
# a로 시작하며 그 뒤에 b가 0개 이상 붙어있는 패턴
p = re.compile('ab*') 

my_str1 = 'ab abc ba bca'
my_str2 = 'a bca bc bca'
my_str3 = 'abbb abc ba bca'
my_str4 = 'bb abc ba bca'
my_str5 = 'ccc dbcbc ddbc'
result1 = p.findall(my_str1)
result2 = p.findall(my_str2)
result3 = p.findall(my_str3)
result4 = p.findall(my_str4)
result5 = p.findall(my_str5)
print(result1)
print(result2)
print(result3)
print(result4)
print(result5)

['ab', 'ab', 'a', 'a']
['a', 'a', 'a']
['abbb', 'ab', 'a', 'a']
['ab', 'a', 'a']
[]


### (4) finditer()
- <span style = 'font-size:1.2em;line-height:1.5em'>정규식과 매칭되는 모든 문자열을 반복가능한 객체(iterator)형태로 반환한다.</span>

In [11]:
# a로 시작하며 그 뒤에 b가 0개 이상 붙어있는 패턴
p = re.compile('ab*') 

my_str1 = 'ab abc ba bca'
my_str2 = 'a bca bc bca'
my_str3 = 'abbb abc ba bca'
my_str4 = 'bb abc ba bca'
my_str5 = 'ccc dbcbc ddbc'
result1 = p.finditer(my_str1)
result2 = p.finditer(my_str2)
result3 = p.finditer(my_str3)
result4 = p.finditer(my_str4)
result5 = p.finditer(my_str5)
print(result1)
print(result2)
print(result3)
print(result4)
print(result5)

<callable_iterator object at 0x000001C393D15B50>
<callable_iterator object at 0x000001C393D157C0>
<callable_iterator object at 0x000001C393D15C10>
<callable_iterator object at 0x000001C393D15EE0>
<callable_iterator object at 0x000001C393D154C0>


In [12]:
type(result1)

callable_iterator

- <span style = 'font-size:1.2em;line-height:1.5em'>iterator는 다음과 같이 사용할 수 있습니다.</span>

In [13]:
for my_str in result1:
    print(my_str)

<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(3, 5), match='ab'>
<re.Match object; span=(8, 9), match='a'>
<re.Match object; span=(12, 13), match='a'>


- <span style = 'font-size:1.1em;line-height:1.5em'><b>주의: </b>iterator는 한번 다 순환하면 다시 사용할 수 없습니다.</span>
    - <span style = 'font-size:1.0em;line-height:1.5em'>다시 사용하시려면 재선언해야됩니다.</span>

In [14]:
for my_str in result1:
    print(my_str)

### (5) sub()
- <span style = 'font-size:1.2em;line-height:1.5em'>정규식과 매칭되는 모든 문자열을 다른 문자열로 수정하기</span>

In [15]:
# a로 시작하며 그 뒤에 b가 0개 이상 붙어있는 패턴
p = re.compile('ab*') 

my_str1 = 'ab abc ba bca'
my_str2 = 'a bca bc bca'
my_str3 = 'abbb abc ba bca'
my_str4 = 'bb abc ba bca'
my_str5 = 'ccc dbcbc ddbc'
result1 = p.sub('xx', my_str1)
result2 = p.sub('xx', my_str2)
result3 = p.sub('xx', my_str3)
result4 = p.sub('xx', my_str4)
result5 = p.sub('xx', my_str5)
print(result1)
print(result2)
print(result3)
print(result4)
print(result5)

xx xxc bxx bcxx
xx bcxx bc bcxx
xx xxc bxx bcxx
bb xxc bxx bcxx
ccc dbcbc ddbc


## 3. re.compile() 의 옵션 사용하기

### (1) re.DOTALL, re.S
- <span style = 'font-size:1.2em;line-height:1.5em'>메타문자 .는 줄바꿈 문자(\n)을 제외한 모든 문자와 매칭</span>
- <span style = 'font-size:1.2em;line-height:1.5em'>\n도 포함하여 매칭하고 싶을 때 사용</span>


In [16]:
# 패턴
# a와 b사이에 줄바꿈문자(\n)을 
# 제외한 임의의 문자가 들어감
p = re.compile('a.b')
my_str1 = 'a\nb'
my_str2 = 'ab'
my_str3 = 'acb'
print(p.search(my_str1))
print(p.search(my_str2))
print(p.search(my_str3))

None
None
<re.Match object; span=(0, 3), match='acb'>


In [17]:
# 패턴
# a와 b사이에 줄바꿈문자(\n)을 
# 제외한 임의의 문자가 들어감
# re.DOTALL을 활용하여 줄바꿈 문자도 포함
p = re.compile('a.b', re.DOTALL)
my_str1 = 'a\nb'
my_str2 = 'ab'
my_str3 = 'acb'
print(p.search(my_str1))
print(p.search(my_str2))
print(p.search(my_str3))

<re.Match object; span=(0, 3), match='a\nb'>
None
<re.Match object; span=(0, 3), match='acb'>


In [18]:
p = re.compile('a.b', re.S)
my_str1 = 'a\nb'
my_str2 = 'ab'
my_str3 = 'acb'
print(p.match(my_str1))
print(p.match(my_str2))
print(p.match(my_str3))

<re.Match object; span=(0, 3), match='a\nb'>
None
<re.Match object; span=(0, 3), match='acb'>


### (2) re.IGNORECASE, re.I
- <span style = 'font-size:1.2em;line-height:1.5em'>대소문자 구별 없이 매칭할 때 사용</span>

In [19]:
p = re.compile('a.b')
my_str1 = 'acb'
my_str2 = 'AcB'
my_str3 = 'aCB'
print(p.match(my_str1))
print(p.match(my_str2))
print(p.match(my_str3))

<re.Match object; span=(0, 3), match='acb'>
None
None


In [20]:
p = re.compile('a.b', re.I)
my_str1 = 'acb'
my_str2 = 'AcB'
my_str3 = 'aCB'
print(p.match(my_str1))
print(p.match(my_str2))
print(p.match(my_str3))

<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 3), match='AcB'>
<re.Match object; span=(0, 3), match='aCB'>


### (3) re.MULTILINE, re.M
- <span style = 'font-size:1.2em;line-height:1.5em'>패턴을 문자열의 각 줄마다 적용해주는 것</span>

In [21]:
data = """python one
life is too short
pythontwo
you need python three
python three"""

In [22]:
data

'python one\nlife is too short\npythontwo\nyou need python three\npython three'

In [23]:
# 패턴 설명
# 메타문자 ^: 문자열이 주어진 패턴으로 시작할 때 매칭
# 메타문자 \w: 문자 + 숫자와 매칭. [a-zA-Z0-9_]와 같은 의미
# 메타문자 +: 1개 이상 존재
# 즉, 아래 패턴은 
# python으로 시작, 한칸 띄고, 문자가 1개이상 존재하는 문자열과 매칭 
p = re.compile("^python \w+")

print(p.findall(data))

['python one']


- <span style = 'font-size:1.2em;line-height:1.5em'>data에 들어있는 '단일' 문자열이 주어진 패턴(p)로 시작하는지 검사</span>
- <span style = 'font-size:1.2em;line-height:1.5em'>data의 각 line에 있는 문자열이 주어진 패턴(p)로 시작하는지 검사할 떄, re.M을 사용</span>

In [24]:
# 패턴 설명
# 메타문자 ^: 문자열이 주어진 패턴으로 시작할 때 매칭
# 메타문자 \w: 문자 + 숫자와 매칭. [a-zA-Z0-9_]와 같은 의미
# 메타문자 +: 1개 이상 존재
# 즉, 아래 패턴은 각 line의 문자열이
# python으로 시작, 한칸 띄고, 문자가 1개이상 존재하면 매칭
p = re.compile("^python \w+", re.M)

print(p.findall(data))

['python one', 'python three']


### (4) re.VERBOSE (additional)
- <span style = 'font-size:1.2em;line-height:1.5em'>문자열에 사용된 whitespace를 컴파일할 때 제거됨</span>
- <span style = 'font-size:1.2em;line-height:1.5em'>복잡한 정규식에 주석을 달 때 사용함</span>

In [25]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [26]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)