# 정규 표현식

In [1]:
import re

p = re.compile('ab*')

패턴 객체 이용법 4가지

> - 1. Match
> - 2. Search
> - 3. Findall
> - 4. Finditer

In [5]:
'''
1. Match
'''

# 패턴 형성
pm = re.compile('[a-z]+')
# 문자열 인풋
m = pm.match('python')
m1 = pm.match('3 python')
print(m)

# m1 매치안됨
print(m1)

<re.Match object; span=(0, 6), match='python'>
None


In [7]:
'''
2. Search
'''

s = pm.search('3 python')
print(s)

<re.Match object; span=(2, 8), match='python'>


In [9]:
'''
3. findall
'''

fa = pm.findall('life is too short')
print(fa)

['life', 'is', 'too', 'short']


In [11]:
'''
4. finditer
'''

fi = pm.finditer('life is too short')
print(fi)

for r in fi:
    print(r)

<callable_iterator object at 0x7fe6b1fb93a0>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


In [12]:
'''
match 객체의 메서드 1
> group()
> start()
> end()
> span()
'''

p = re.compile('[a-z]+')
m = p.match('python')

print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


### 컴파일 옵션

In [16]:
'''
DOTALL, S
'''

p = re.compile('a.b')
# .;줄바꿈을 제외한 모든 문자와 매칭
m = p.match('a\nb')
print(m)

# re.DOTALL(S) 위에 꺼 보완
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


In [18]:
'''
IGNORECASE, I
'''

# 대소문자 무시
p = re.compile('[a-z]', re.I)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='P'>


In [22]:
'''
MULTILINE, M
'''

# ^: 맨처음, \s: 공백, \w: 알파벳, 숫자, _ 중의 한 문자, +:반복
# re.M: 줄 바꿈이 이루어진 문장도 새로운 줄로 인식함
p = re.compile('^python\s\w+', re.M)

data = '''python one 
life is too short
you need python
python three
'''

print(p.findall(data))

['python one', 'python three']


In [23]:
'''
VERBOSE, X
'''
# 문자열안에 주석을 달아도 주석을 무시해주는 기능

charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

charref = re.compile(r'''
&[#]                     # start of a numeric entity reference
(
    0[0-7]+              # Octal form
    | [0-9]+             # Decimal form
    | x[0-9a-fA-F]+      # Hexadecimal form
)
;                        # Trailing semicolon
''', re.VERBOSE)

### 백슬래시 문제

In [24]:
'''
- \\ -> \
- 간소화하기
- r'\\selection' 형식으로 표현
'''

# \selection
# 1
p1 = re.compile('\\selection')
# 2
p2 = re.compile('\\\\selection')
# 3
p3 = re.compile(r'\\selection')

# 강력한 정규 표현식의 세계

> - 1. 메타문자들
> - 2. 그룹핑

In [25]:
'''
메타문자 |
'''

# 앞에 꺼 뒤에 꺼 일치할때를 의미함
p = re.compile('Crow|Servo')
m = p.match('CrowHello')

print(m)

<re.Match object; span=(0, 4), match='Crow'>


In [26]:
'''
메타문자 ^
'''

# 맨 앞에 해당 문자있는지를 의미함
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


In [29]:
'''
메타문자 $
'''

# 맨 끝을 의미함
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


In [32]:
'''
메타문자 \b
'''

# 공백을 의미함
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))
print(p.search('one subclass is'))

<re.Match object; span=(3, 8), match='class'>
None
None


In [47]:
'''
그루핑 ()
'''

# 묶어주는 기능
p = re.compile('(ABC)+')
m = p .search('ABCABCABC OK?')
print(m)
print(m.group())

p = re.compile(r'(\w+)\s+\d+[-]\d+[-]\d+')
m = p.search('park 010-1234-5678')
# 특정 그룹핑 출력하기
print(m.group(1))

p = re.compile(r'(\b\w+)\s+\1')
print(p.search('Paris in the the spring').group())

# 그루핑된 문자열에 이름 붙이기 ?P<name>
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
park
the the
park


In [51]:
'''
전방탐색: 긍정형 (?=)
'''
p = re.compile('.+:')
m = p.search('http://google.com')
print(m.group())

# 검색 조건에는 포함되나 결과에는 포함되지 않음
p = re.compile('.+(?=:)')
m = p.search('http://google.com')
print(m.group())

'''
전방탐색: 부정형 (!=)
'''

p = re.compile('.*[.](?!bat$|exe$).*$', re.M)
l = p.findall('''
autoexec.exe
autoexec.bat
autoexec.jpg
'''
)

print(l)

http:
http
['autoexec.jpg']


In [53]:
'''
문자열 바꾸기 sub
'''

p = re.compile('(blue|white|red)')
# 두번째 파라미터에서 매칭되는 단어를 첫번째 파라미터로 바꿈 
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [55]:
'''
Greedy vs Non-Greedy
'''

s = '<html><head><title>Title</title>'

# Greedy
print(re.match('<.*>', s).group())
# Non-Greedy
# 최소한으로 반복
print(re.match('<.*?>', s).group())

<html><head><title>Title</title>
<html>
