# 정규표현식

복잡한 패턴 매칭을 사용하기 위해선 정규표현식이 있다. 정규표현식은 임포트할 수 있는 표준 모듈 re로 제공한다. 

In [1]:
import re

In [2]:
# 'You'는 패턴이고, 'Young Frankenstein'은 확인하고자 하는 문자열 소스다. 
# match()는 소스와 패턴의 일치 여부를 확인한다. 
result = re.match('You', 'Young Frankenstein')

In [3]:
result

<re.Match object; span=(0, 3), match='You'>

In [4]:
# 좀더 복잡한 방법으로 패턴 확인을 빠르게 하기 위해 패턴을 먼저 컴파일 할 수 있다. 
youpattern = re.compile('You')

In [5]:
result = youpattern.match('Young')

In [6]:
result

<re.Match object; span=(0, 3), match='You'>

### 시작부터 일치하는 패턴 찾기 : match()

In [7]:
import re
source = 'Young Frank'
m = re.match('You', source)
if m:
    print(m.group())

You


In [8]:
# 이럴 경우 동작하지 않는다 
# 왜냐하면, match()는 패턴이 소스의 처음에 있는 경우에만 작동한다. 
m = re.match('Frank', source)
if m:
    print(m.group()) 

In [9]:
# 하지만, search()는 패턴이 아무데나 있어도 작동한다. 
m = re.search('Frank', source)
if m:
    print(m.group())

Frank


### 첫번 째 일치하는 패턴 찾기 : search()

In [10]:
m = re.search('Frank', source)
if m:
    print(m.group())

Frank


### 일치하는 모든 패턴 찾기 : findall()

이전 예제들은 매칭되는 패턴 하나만을 찾았다. 그렇다면, 문자열 'n'이 몇 개 있는 지 알 수 있을 까?

In [12]:
m = re.findall('n', source)
m

['n', 'n']

### 패턴으로 나누기 : split()

간단한 문자열 대신 패턴으로 문자열을 리스트로 나눈다. 

In [13]:
m = re.split('n', source)
m

['You', 'g Fra', 'k']

### 일치하는 패턴 대체하기 : sub()
sub() 메서드는 문자열 replace() 메서드와 비슷하지만, 리터럴 문자열이 아닌 패턴을 사용한다. 

In [14]:
m = re.sub('n', '?', source)
m

'You?g Fra?k'

# 패턴 : 특수문자

기초부터 살펴보자. 

- 리터럴은 모든 비특수 문자와 일치한다. 
- \n을 제외한 하나의 문자 : .
- 0회 이상 : *
- 0 또는 1회 : ?

### 특수문자.
- \d : 숫자
- \D : 비숫자
- \w : 알파벳 문자.
- \W : 비알파멧 문자.
- \s : 공백문자.
- \S : 비공백문자.
- \b : 단어 경계
- \B : 비단어 경계



In [15]:
# string 모듈은 테스트에 사용할 수 있는 문자열 상수가 미리 정의되어 있다. 

In [16]:
import string
printable = string.printable
len(printable)

100

In [17]:
printable

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [18]:
re.findall('\d', printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [20]:
from pprint import pprint

pprint(re.findall('\w',printable))

['0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z',
 '_']


In [21]:
re.findall('\s', printable)

[' ', '\t', '\n', '\r', '\x0b', '\x0c']

### 패턴 지정자(pattern specifier)

정규표현식에는 패턴 지정자를 사용할 수 있다. 

- abc = 리터럴 abc
- ( expr ) = expr
- expr1 | expr2 = expr1 또는 expr2
- . = \n을 제외한 모든 문자.
- ^ = 소스 문자열의 시작.
- $ = 소스 문자열의 끝
- prev ? = 0 또는 1회의 prev
- prev* = 0회 이상의 최대 prev
- prev*? = 0회 이상의 최소 prev
- prev+ = 1회 이상의 최대 prev
- prev+? = 1회 이상의 최소 prev
- prev {m} = m회의 prev
- prev {m,n} = m에서 n회의 최대 prev
- prev {m,n}? = m에서 n회의 최소 prev
- [abc] = a 또는 b 또는 c
- [^abc] = a 또는 b 또는 c가 아님.
- prev (?=next) = 뒤에 next가 ㅇ면 prev
- prev (?!next) = 뒤에 next가 오지 않으면 prev
- (?<=prev) next = 전에 prev가 오면 next
- (?<!prev) next = 전에 prev가 오지 않으면 next

In [33]:
# 패턴 지정자에 대한 예제
source = """I wish i may, I wish I might have a dish of fish tonight"""

In [26]:
re.findall('wish', source)

['wish', 'wish']

In [27]:
re.findall('wish|fish', source)

['wish', 'wish', 'fish']

In [29]:
# 소스가 wish로 시작하는 지 찾는다. 
re.findall('^wish', source)

[]

In [30]:
# 소스가 I wish로 시작하는 지 찾는다. 
re.findall('^I wish', source)

['I wish']

In [31]:
# 소스가 fish로 끝나는 지 찾는다. 
re.findall('fish$', source)

[]

In [34]:
# 소스가 tonight로 끝나는 지 찾는다. 
re.findall('tonight$', source)

['tonight']

문자 ^와 $는 앵커라고 부른다. 

In [35]:
re.findall('[wf]ish', source)

['wish', 'wish', 'fish']

In [36]:
re.findall('[wsh]+',source)

['w', 'sh', 'w', 'sh', 'h', 'h', 'sh', 'sh', 'h']

In [45]:
re.findall('[wsh].{4}',source)

['wish ', 'wish ', 'ht ha', 'sh of', 'sh to']

In [46]:
# wish 이전에 나오는 I를 찾는다. 
re.findall('I (?=wish)', source)

['I ', 'I ']

정규표현식의 패턴을 입력하기 전에 항상 문자 r(raw string)을 입력하라. 그러면 파이썬의 이스케이프 문자를 사용할 수 없게 되므로 실수로 이스케이프 문자를 사용하여 충동이 일어나는 것을 피할 수 있게 된다. 

In [47]:
re.findall(r'\bfish',source)

['fish']

### 패턴 : 매칭 결과 지정하기.
match() 또는 search()를 사용할 때 모든 매칭은 m.group()과 같이 객체 m으로부터 결과를 반환한다. 만약 패턴을 괄호로 둘러싸는 경우, 매칭은 그 괄호만의 그룹으로 저장된다. 그리고 다음과 같이 m.groups()를 사용하여 그룹의 튜플을 출력한다. 

In [48]:
m = re.search(r'(. dish\b).*(\bfish)', source)

In [49]:
# group은 결과를 반환한다. 
m.group()

'a dish of fish'

In [50]:
# m.groups()를 사용하여 그룹의 튜플을 출력한다. 
m.groups()

('a dish', 'fish')