# 패턴 표현

### 문자클래스[ ]
[]사이의 문자들 중 하나인가?

[abcd] == [a-d]

[0-5] == [012345]

### Dot(.)
줄바꿈을 제외한 모든 문자를 표현

### 반복(*)
ca*t는 a가 0회 이상 반복된 패턴을 뜻함

### 반복(+)
ca+t a가 1회 이상 반복된 패턴을 뜻함

### 반복({m,n})
ca{2,5}t a가 2회에서 5회사이 반복된 패턴을 뜻함

### 반복(?)
ca?t a가 0회 혹은 1회 사용된 패턴을 뜻함.
=={0,1}

# 패턴 객체와 매치객체 이용하기

### re모듈
re.compile('패턴') >> 패턴객체를 리턴``

### match
패턴 객체를 매치 객체로 반환(문자열의 처음부터 패턴 확인)

In [5]:
import re
p = re.compile('[a-z]+')
m = p.match('python')   # match 객체로 반환
print(m)
M = p.match('3 python')
print(M)

<re.Match object; span=(0, 6), match='python'>
None


### search
패턴 객체를 매치 객체로 반환(최초로 패턴이 일치하는 문자열 인덱스부터 확인)

In [6]:
p = re.compile('[a-z]+')
m = p.search('python')   
print(m)
M = p.search('3 python')
print(M)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 8), match='python'>


### findall
패턴이 일치하는 문자열들을 리스트로 반환

In [7]:
p = re.compile('[a-z]+')
m = p.findall('life is too short')   
print(m)

['life', 'is', 'too', 'short']


### finditer
패턴이 일치하는 문자열들을 iter 객체로 반환

**iter 객체: 반복이 가능한 객체들의 일반화) 문자열, 리스트, 튜플 등 

In [9]:
p = re.compile('[a-z]+')
m = p.finditer('life is too short')   
print(m)
for i in m:
    print(i)

<callable_iterator object at 0x000001C601F0AE00>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


### match 객체의 메서드

In [12]:
p = re.compile('[a-z]+')
m = p.search('3   python')
print(m.group())        #매치된 문자열
print(m.start())        #매치된 문자열의 처음 인덱스
print(m.end())          #매치된 문자열의 마지막 인덱스
print(m.span())         #매치된 문자열의 처음과 마지막 인덱스를 튜플로

python
4
10
(4, 10)


### 컴파일 옵션
- DOTALL(S) : DOT표현이 줄바꿈까지 포함하도록
- IGNORECASE(I) : 소문자와 대문자 구분없이
- MULTILINE(M) : ^, $과 같은 메타 문자를 문자열의 각 줄마다 적용
- VERBOSE(X) : 컴파일 시 공백이나 줄바꿈, 탭(화이트 스페이스) 모두 무시

In [18]:
# DOTALL(S)
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

pp = re.compile('a.b', re.DOTALL)
M = pp.match('a\nb')
print(M)


None
<re.Match object; span=(0, 3), match='a\nb'>
['python one']


In [None]:
# IGNORECASE(I)
p = re.compile('cA{1,6}t', re.IGNORECASE)
m = p.match('cAaAat')

In [22]:
# MULTILINE(M)
p = re.compile("^python\s\w+")      # ^: 문자열의 맨처음, \s: 공백, \w: 숫자 혹은 알파벳

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

pp = re.compile("^python\s\w+", re.MULTILINE)

print(pp.findall(data))

['python one']
['python one', 'python two', 'python three']


In [27]:
# VERBOSE(X)
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)


### 역슬래시문제
'\section'을 포함하는 패턴을 찾고자 할 때

re.compile('\\section') 혹은            # //는 문자열로 /로 치환

re.compile(r'\section')                 # raw string 표현. 백슬래시를 문자 그대로 표현

# 메타문자

In [5]:
import re

# | : or
p = re.compile('Crow|Servo')    
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


In [6]:
# ^: 맨처음을 나타냄
print(re.search("^Life", "Life is too short"))  
print(re.search("^Life", "My Life"))    # 컴파일 없이 (표현식, 검사식)로 한번에

<re.Match object; span=(0, 4), match='Life'>
None


In [7]:
# $ : 맨 끝을 나타냄
print(re.search("short$","Life is too short"))
print(re.search("short$","Life is too short, you need python"))

<re.Match object; span=(12, 17), match='short'>
None


In [8]:
# \b : 공백을 나타냄
p = re.compile(r'\bclass\b')        
print(p.search('no class at all'))
print(p.search('the decalassified algorithm'))
print(p.search('one subclass is'))

<re.Match object; span=(3, 8), match='class'>
None
None


# 그루핑

In [9]:
p = re.compile('ABC+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group(1))   # 매치된 첫번째 그룹 불러오기

<re.Match object; span=(0, 3), match='ABC'>


In [12]:
p = re.compile(r'(\b\w+)\s+\1')     # 정의한 그룹을 정규 표현식 내에서 다시 표현(1번)
print(p.search('Paris in the the spring').group())

p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')      # ?P<...>: 그룹 이름 정해주기
m = p.search("park 010-8855-1882")
print(m.group("name"))

the the
park


In [14]:
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')      # 지정한 그룹을 그룹이름으로 불러오기
p.search('Paris in the the spring').group()

'the the'

# 전방탐색

In [25]:
# 긍정형 (?=) : 지정된 문자 전방까지 탐색
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())        
# 검색조건에는 포함되나 결과에는 표현되지 않는 문자 이용

http


In [21]:
# 부정형(?!) : 지정된 문자를 포함하지 않도록 탐색 
p = re.compile(".*[.](?!bat$|exe$).*$",re.M)     # 끝에 bat가 오는 녀석이 오지 않는 것 탐색
l = p.findall("""
autoexec.exe
autoexec.bat
autoexec.jpg
""")
print(l)

['autoexec.exe', 'autoexec.jpg']


# 문자열 바꾸기 sub

In [26]:
p = re.compile('blue|white|red')
p.sub("color", "blue socks and red shoes") # 해당 패턴의 문자열을 지정 문자열로 치환

'color socks and color shoes'

# greedy vs non-greedy

In [None]:
s = "<html><head><titile>Title</title>"
print(re.match('<.*>',s).gruop())       # 최대의 반복 (greedy)
print(re.match('<.*?>',s).gruop())      # 최소의 반복 (non-greedy)