# 기초 지식

* 정규표현식 라이브러리

In [1]:
import re

* raw string

In [2]:
print('Not raw :','\tTab')
print('Raw     :', r'\tTab')

Not raw : 	Tab
Raw     : \tTab


* 메타문자

`. ^ $ * + ? { } [ ] \ | ( )`

# 정규 표현식

## 한글자

### .

* .은 /n을 제외한 모든 문자와 매치

In [3]:
p = re.compile('P.')    # a, e, i, o, u 중 한글자와 매치되는가?

matches = p.findall('Python3.8')
print(matches)

['Py']


* 문자 '.'을 매치시키고 싶으면 [.]나 \\. 을 사용(모든 메타문자에 적용)

In [4]:
p = re.compile('\.')    # a, e, i, o, u 중 한글자와 매치되는가?

matches = p.findall('Python3.8')
print(matches)

['.']


### [  ]

* [  ]안에 있는 글자중 하나

In [5]:
p = re.compile('[aeiou]')    # a, e, i, o, u 중 한글자와 매치되는가?

matches = p.findall('Python3.8')
print(matches)

['o']


* [  ] 안의 두문자 사이에 -을 쓰면 그 사이의 값이 됨

In [6]:
p = re.compile('[a-z]')    # a에서 z중 한글자와 매치되는가?

matches = p.findall('Python3.8')
print(matches)

['y', 't', 'h', 'o', 'n']


* [  ] 안의 앞에 ^가 있으면 아닌 값들이 됨

In [7]:
p = re.compile('[^a-z]')    # a에서 z가 아닌 한글자와 매치되는가?

matches = p.findall('Python3.8')
print(matches)

['P', '3', '.', '8']


### 스니핏

In [8]:
# \d : digit, [0-9]
# \w : alphanumeric, [a-zA-Z0-9_]
# \s : whitespace, [ \t\n\r\f\v]
# \D : [^\d]
# \W : [^\w]
# \S : [^\s]

p = re.compile('\d')    # digit과 매치되는가?

matches = p.findall('Python3.8')
print(matches)

['3', '8']


## 반복

### *

* 앞의 문자가 0번 이상 반복

In [9]:
p = re.compile('dol*')
matches= p.findall('does dolphin like dolls?')
print(matches)

['do', 'dol', 'doll']


### +

* 앞의 문자가 1번 이상 반복

In [10]:
p = re.compile('dol+')
matches= p.findall('does dolphin like dolls?')
print(matches)

['dol', 'doll']


### { }

* {m}    : m번 반복
* {m, n} : m번 이상, n번 이하 반복
* {, n}  : n번 이하 반복
* {m, }  : m번 이상 반복

In [11]:
p = re.compile('dol{1,2}')
matches= p.findall('does dolphin like dolls?')
print(matches)

['dol', 'doll']


### ?

* 0번 or 1번

In [12]:
p = re.compile('dol?')
matches= p.findall('does dolphin like dolls?')
print(matches)

['do', 'dol', 'dol']


## 매칭에 포함되지 않는 메타 문자(zero_width)

### |

* or 을 의미

In [13]:
print(re.findall(r'Mr\.\w+|Mrs\.\w+|Ms\.\w+', 'Mr.Arnold says hello to Mrs.John'))

['Mr.Arnold', 'Mrs.John']


### ^ , $

* 문자열의 시작/끝을 의미 (re.MULTILINE 영향 받음)

In [14]:
string='''1 to 10
A to Z
Start to End'''

print(re.findall(r'^\w+|\w+$', string, re.MULTILINE))

['1', '10', 'A', 'Z', 'Start', 'End']


### \A, \Z

* 문자열의 시작/끝을 의미 (re.MULTILINE 영향 안 받음)

In [15]:
string='''1 to 10
A to Z
Start to End'''

print(re.findall(r'\A\w+|\w+\Z', string, re.MULTILINE))

['1', 'End']


### \b, \B

In [16]:
# \b : word boundary (\s와 다르게 매칭에 포함되지는 않음)
# \B : 그 반대

p = re.compile(r'\bclass\b')
print(p.findall('class about subclasses')) #class가 매치됨

p = re.compile(r'\Bclass\B')
print(p.findall('class about subclasses is classified'))   #subclasses가 매치됨

['class']
['class']


# 패턴 객체

In [17]:
p = re.compile('[a-z]+')
type(p)

re.Pattern

## 컴파일 옵션

### DOTALL, S

* .은 원래 /n을 매치시키지 않지만 re.DOTALL옵션을 넣어주면 /n도 매칭 가능

In [18]:
p1 = re.compile('a.b')
p2 = re.compile('a.b', re.S)

m1 = p1.match('a\nb')
m2 = p2.match('a\nb')

print(m1)
print(m2)

None
<re.Match object; span=(0, 3), match='a\nb'>


### IGNORECASE, I

* 대소문자 구별 안함

In [19]:
p1 = re.compile('[a-z]')
p2 = re.compile('[a-z]', re.I)

print(p1.findall('Mr.K'))
print(p2.findall('Mr.K'))

['r']
['M', 'r', 'K']


### MULTILINE, M

* ^, $ 메타 문자를 문자열의 각 줄마다 적용

In [20]:
p1 = re.compile("^python\s\w+")
p2 = re.compile("^python\s\w+", re.M)

data = """python one
life is too short
python two
you need python
python three"""

print(p1.findall(data))
print(p2.findall(data))

['python one']
['python one', 'python two', 'python three']


### VERBOSE, X

* 줄 단위로 #기호를 사용하여 주석문을 작성할 수 있음
* 문자열에 사용된 whitespace는 컴파일할 때 제거됨(단 [ ] 안에 사용한 whitespace는 제외)

In [21]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     o[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

print(charref.findall('&#1234; &#o5462; &#xAd5B;'))

['1234', 'o5462', 'xAd5B']


# 검색

## match

* 문자열의 시작점을 포함하는 매치 객체를 반환 (매치가 없다면 None)
* 가능한 가장 긴 매치를 반환

In [22]:
sentence = 'python'
print(p.match(sentence))

sentence = 'Python'
print(p.match(sentence))

<re.Match object; span=(0, 6), match='python'>
None


* 패턴을 재사용할 필요가 없다면 1줄로도 가능

In [23]:
print(re.match('[a-z]*', 'python3.8'))

<re.Match object; span=(0, 6), match='python'>


## search

* match랑 같지만 시작점이 자유, 첫번째 매치를 반환

In [24]:
sentence = 'I love python'
print(p.search(sentence))

sentence = 'I LOVE PYTHON'
print(p.search(sentence))

<re.Match object; span=(2, 6), match='love'>
None


## finditer

* search랑 같지만 모든 매치의iter를 반환

In [25]:
result = p.finditer("life is too short")
print(result)

for r in result:
    print(r)

<callable_iterator object at 0x000001BC39E79C10>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## findall

* finditer와 비슷하지만 매치객체대신 매치된 문자열의 리스트를 반환
* group이 있으면 매칭된 group들을 튜플로

In [26]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


In [27]:
print(re.findall(r'(\d{3})-(\d{4})-(\d{4})','010-3299-3996 010-6596-6325',))

[('010', '3299', '3996'), ('010', '6596', '6325')]


# Match 객체 메소드

## group

* 매치된 문자열을 반환

In [28]:
p = re.compile('[a-z]*')
match = p.match('python')

print(match.group())

python


## start, end

* 시작 / 끝 인덱스를 반환, 끝은 slicing 기준

In [29]:
print(match.start())
print(match.end())

0
6


## span

* start(), end() 값을 튜플로 반환

In [30]:
span = match.span()
print(span)
print('python'[span[0]:span[1]])

(0, 6)
python


# Grouping

* 여러 문자를 하나로 취급

In [31]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


* group 메소드로 문자열 뽑기

In [32]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print('전체:', m.group())
print('이름:', m.group(1))
print('번호:', m.group(2))
print('국번:', m.group(3))

전체: park 010-1234-1234
이름: park
번호: 010-1234-1234
국번: 010


* group 이름 붙이기 `(?P<그룹명>...)`

In [33]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group('name'))

park


* group 재참조

In [34]:
p = re.compile(r'(\b\w+)\s+\1')    # \1을 사용하여 첫번째 그룹을 재사용
p.search('Paris in the the spring').group()

'the the'

In [35]:
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)') # 이름을 사용하여 재참조
p.search('Paris in the the spring').group()

'the the'

# 전후방 탐색

## 긍정형 전방탐색

* `(?=...)` :  ...이 검색에는 포함되지만 검색 결과에는 제외됨

In [36]:
files ='''file1.docx
file2.bat
file3.py
file4.exe'''

p = re.compile('.+(?=\..+$)', re.M)
print(p.findall(files))

['file1', 'file2', 'file3', 'file4']


## 긍정형 후방탐색

* `(?<=...)` :  ...긍정형 전방탐색과 비슷하지만 길이가 일정해야함

In [37]:
p = re.compile('(?<=file\d.)\w+$', re.M)
print(p.findall(files))

['docx', 'bat', 'py', 'exe']


## 부정형 전방탐색

* `(?!...)`  :  ...에 해당되는 정규식은 매칭이 안됨

In [38]:
files ='''file1.docx
file2.bat
file3.py
file4.exe'''

p = re.compile('.*[.](?!bat$|exe$).*$', re.M)
print(p.findall(files))

['file1.docx', 'file3.py']


## 부정형 후방탐색

* `(?<!...)` : 부정형 전방탐색과 비슷하지만 길이가 정해져있어야 함

In [39]:
p = re.compile('.*(?<!1|3)\..+$', re.M)
print(p.findall(files))

['file2.bat', 'file4.exe']


# sub

* 매칭된 문자를 치환

In [40]:
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

* 치환 횟수 지정

In [41]:
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

* subn : 바뀐 문자열과 바뀐 횟수를 튜플로 반환

In [42]:
p = re.compile('(blue|white|red)')
p.subn( 'colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

* 참조 활용

In [43]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
print(p.sub(r"\2 \1", "park 010-1234-1234"))

010-1234-1234 park


In [44]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


* 함수를 이용하여 치환

In [45]:
def hexrepl(match):
     value = int(match.group())
     return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

# Greedy/ Non-Greedy

* non-greedy 문자인 ?를 사용하면 *의 탐욕을 제한할 수 있음

In [46]:
s = '<html><head><title>Title</title>'  
print('Greedy:', re.match('<.*>', s).group())
print('Non-Greedy:', re.match('<.*?>', s).group())

Greedy: <html><head><title>Title</title>
Non-Greedy: <html>
