# 파이썬 정규표현식 정리
> python의 re모듈을 활용한 정규표현식 사용법, 점프투파이썬 참고
- toc: false
- layout: post
- title:  파이썬 정규표현식 정리
- subtitle:   
- categories: Archive
- tags: python re
- comments: true




### 메타문자

> 메타문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자

`. ^ $ * + ? {} [] \ | ()`


#### 문자 클래스 []
> [ ] 사이의 문자들과 매치라는 의미. [ ] 사이에는 어떤 문자도 들어갈 수 있다.



##### 반대 문자 ^
> 반대라는 의미를 가진 메타문자

- example
    1. [^abc] : abc가 아닌 문자
    2. [^1-9] : 숫자가 아닌 문자


- example
    1. [abc] : a,b,c중 한개의 문자와 매치
    2. [a-f] : a와 f사이의 범위, [abcdef]와 동일한 의미를 갖는다.(From - To)
    3. [a-zA-z] : 알파벳 모두
    4. [0-9] : 숫자
    5. [\d] : 숫자와 매치, [0-9]와 동일한 표현
    6. [\D] : 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현
    7. [\s] : whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
    8. [\S] : whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식
    9. [\w] : 문자 + 숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식
    10. [\W] : 문자 + 숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]


#### Dot(.)
> \n을 제외한 모든 문자와 매치(re.DOTALL은 \n도 매치)

- example
    1. a.b : a+ 모든 문자 + b (a[.]b는 문자(.)을 의미하고 메타문자(.)을 의미하지 않는다)
    

#### 반복( *)
> * 바로 앞에 있는 문자가 0부터 무한번 반복됨을 뜻함

- example
    1. ca*t : c와 t사이에 a가 0에서 무한번 반복
        1. ct : true
        2. cat : true
        3. caat : true
        
#### 반복(+)
> + 바로 앞에 있는 문자가 1부터 무한번 반복됨을 뜻함

- example
    1. ca+t : c와 t사이에 a가 1에서 무한번 반복
        1. ct : false
        2. cat : true
        3. caat : true
        
#### 반복 ({m, n}, ?)
> {m,n} m번에서 n번 반복되는 경우 / ?는 {0,1}과 같은 의미

- example
    1. {1,} : 1번 이상, + 와 같은 의미
    2. {0,} : 0번 이상, * 와 같은 의미
    3. ca{2}t : a가 반드시 2번 반복
    4. ca{2,5}t : c + a(2-5회 반복) + t
        1. cat : false
        2. caat : true
        3. caaaaat : true
        4. caaaaaat : false
    5. ab?c : a + b(있어도 되고 없어도 됨) + c
        1. abc : true
        2. ac : true

### re모듈

> python의 re(regular expression)은 기본으로 설치되어있는 모듈이다.

In [2]:
import re

In [3]:
p = re.compile('ab*') # 'ab*'가 컴파일된 Pattern object를 반환한다.

#### re.complie 활용한 문자열 검색 method

1. match() : 문자열의 처음부터 정규식과 매치되는지 조사
2. search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사
3. findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 반환함
4. finditer() : 정규식과 매치되는 모든 문자열(substring)을 iterable한 객체로 반환함

- match, search는 주어지는 문자열이 정규식과 매칭되면 match객체를 반환하고, 매칭되지 않을 때는 None을 반환함

In [4]:
p = re.compile('[a-z]+') # 모든 영어소문자가 1번이상 반복되는 패턴
p

##### match

In [5]:
m = p.match('python') # 컴파일한 정규표현식과 매칭되는 문자를 문자열 처음부터 매칭되는지 조사한 후, match객체 반환
print(m) 

In [6]:
m = p.match('3 python') # 문자열 처음부터 매칭되지 않기 때문에 None 반환
print(m)

##### search

In [7]:
m = p.search('python')
print(m)

In [8]:
m = p.search('3 python') # search는 match와 달리 문자열 처음부터가 아닌 전체에서 매칭되는지 확인하기 때문에 match객체 반환
print(m)

##### findall

In [9]:
result = p.findall('life is too short') # 공백을 구분자로 컴파일한 패턴과 매칭되는 단어들을 담은 리스트가 반환
print(result)

##### finditer

In [10]:
result = p.finditer('life is too short') # 매칭되는 단어들의 match객체들을 담은 iterator를 반환
print(result)

<callable_iterator object at 0x7f7fa5071780>


In [11]:
for r in result: print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


#### re.Match 객체의 method

1. group() : 매치된 문자열을 반환
2. start() : 매치된 문자열의 시작 위치를 반환
3. end() : 매치된 문자열의 끝 위치를 반환
4. span() : 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 반환

In [12]:
m = p.match('python')
m.group()

'python'

In [13]:
m.start()

0

In [14]:
m.end()

6

In [15]:
m.span()

(0, 6)

In [16]:
m = p.search('3 python')
m.group()

'python'

In [17]:
m.start()

2

In [18]:
m.end()

8

In [19]:
m.span()

(2, 8)

##### 모듈단위 수행

In [20]:
p = re.compile('[a-z]+')
m = p.match('python')

In [21]:
m = re.match('[a-z]+', 'python') # 위의 두줄의 코드와 같은 기능

#### 컴파일 옵션
> re를 이용하여 정규식을 컴파일할 때 여러 옵션을 사용할 수 있다.

1. DOTALL(S) - `.`이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 함.
2. IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 함
3. MULTILINE(M) - 여러줄과 매치할 수 있도록 함(`^`, `$` 메타문자의 사용과 관계가 있는 옵션)
4. VERBOSE(X) - verbose모드를 사용할 수 있도록 함. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있음)



- 약어사용 : re.DOTALL과 re.S는 같은 뜻

##### DOTALL, S

In [22]:
p = re.compile('a.b')
m = p.match('a\nb') # DOTALL옵션을 사용하지 않으면 메타문자 . 은 공백문자에 매칭되지 않음 
print(m)

None


In [23]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb') # DOTALL옵션을 사용하면 메타문자 . 은 공백문자에 매칭됨, 
# 여러줄로 이루어진 문자열에서 \n에 상관없이 매칭되도록 만들기 위해 자주 사용됨
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


##### IGNORECASE, I

In [24]:
p = re.compile('[a-z]', re.I)
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [25]:
p.match('Python') # 정규식은 소문자만 포함했지만 re.IGNORECASE옵션을 사용해 대소문자 구분없이 매칭되도록 함

<re.Match object; span=(0, 1), match='P'>

In [26]:
p.match('PYTHON')

<re.Match object; span=(0, 1), match='P'>

##### MULTILINE, M


- re.compile에서 [ ]안이 아닌 밖에서 ^이나 $가 사용되면 ^는 문자열의 처음을 의미하고 $는 마지막을 의미한다.
    - ^python : 문자열이 반드시 python으로 시작해야 매치된다
    - $python : 문자열이 반드시 python으로 끝나야 매치된다

In [27]:
p = re.compile('^python\s\w+') # python으로 시작 + 공백 하나 + 문자 하나이상

data = """python one
life is too short
python two
you need python
python tree"""

print(p.findall(data)) # ^ 에 의해 python이 사용된 첫 줄만 매칭됨, 여러줄을 보기위해서는 re.MULTILINE옵션을 사용해야함

['python one']


In [28]:
p = re.compile('^python\s\w+', re.M) # python으로 시작 + 공백 하나 + 문자 하나이상

data = """python one
life is too short
python two
you need python
python tree"""

print(p.findall(data)) # re.M 옵션을 통해 각 줄마다 패턴을 조사한 후 매치되는 문자열을 반환

['python one', 'python two', 'python tree']


##### VERBOSE, X

In [29]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);') # 해석이 잘 되지않음

In [30]:
charref = re.compile(r"""
&[#] # Start of a numeric entity reference
(
    0[0-7]+ # Octal form
    | [0-9]+ # Decimal form
    | x[0-9a-fA-F]+ # Hexadecimal form
)
; # Trailing semicolon
""", re.VERBOSE) 
# re.VERBOSE 옵션을 사용하면 정규표현식안에서 공백문자와 줄별로 주석을 사용할 수 있음, 컴파일될 때 공백과 주석은 사라지고 컴파일됨

### 백슬래시

- 파이썬의 리터럴 규칙으로 인해 \를 문자열에 포함시키기 위해서는 \\와 같이 추가 \로 이스케이프 처리해야한다.
- 위와같은 작업은 귀찮기 때문에 r''을 사용하면 이스케이프 처리해주지 않아도 된다.

**Raw string임을 알려주는 기호 `r`**

In [31]:
p = re.compile('\\\\section')

In [32]:
p = re.compile(r'\\section') # 위의 코드의 같은 표현

------------
- **위에서 살펴본 메타문자들은 매치가 진행될 때 현재 매치되고 있는 문자열의 위치가 변경된다. 소비된다라고도 표현하는데 나의 이해로는 패턴과 문자열이 매칭되면 match객체의 group으로 들어가는지 안들어가는지가 소비된다 안된다의 기준인 듯하다..**

#### |

> or과 동일한 의미로 사용됨


    

In [33]:
p = re.compile('Crow|Servo') # Crow또는 Servo
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


#### ^
> 문자열의 맨 처음

In [34]:
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


#### $

> 문자열의 끝

In [35]:
print(re.search('short$', 'life is too short'))
print(re.search('short$', 'life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


#### \A

> 문자열의 처음이지만 MULTILINE 옵션이 주어질 때도 문자열 전체의 처음하고만 매치됨

#### \Z

> 문자열의 끝이지만 MULTILINE 옵션이 주어질 때도 문자열 전체의 끝하고만 매치됨

#### \b

> 단어구분자(whitespace)

In [36]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


In [37]:
print(p.search('the declassified algorithm')) # class 양쪽에 단어구분자가 없어서 매치가 되지 않음

None


In [38]:
print(p.search('one subclass is'))

None


#### \B

> \b와 반대인 경우, whitespace가 아닌 경우에 매치됨

In [39]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))

None


In [40]:
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


In [41]:
print(p.search('one subclass is '))

None


### 그루핑

> 문자그룹이 반복되는지 조사하기 위한 기능 

- example
    1. (ABC)+ : ABC가 1번 이상 반복


In [42]:
p = re.compile(r'(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [43]:
print(m.group())

ABCABCABC


In [44]:
p = re.compile(r'\w+\s+\d+[-]\d+[-]\d+')
m = p.search('park 010-1234-1234')

##### 그루핑을 하면  group method사용시 인덱싱을 사용할 수 있다.

In [45]:
p = re.compile(r'(\w+)\s+\d+[-]\d+[-]\d+')
m = p.search('park 010-1234-1234')
print(m.group(1))

park


In [46]:
p = re.compile(r'(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group(2))

010-1234-1234


##### 그루핑된 문자열 재참조하기

In [47]:
p = re.compile(r'(\b\w+)\s+\1') # (그룹) + " " + 그룹과 동일한 단어(\1), 정규식안에서 인덱스로 그룹참조 가능
p.search('Paris in the the spring').group()


'the the'

##### 그루핑된 문자열에 이름 붙이기

> (?P<그룹명>...)

In [48]:
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name')) # 이름으로 인덱싱하기

park


In [49]:
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)') # 정규식안에서 이름으로 참조가능
m = p.search('konkuk in the the spring')
print(m.group()) # 이름으로 인덱싱하기

the the


### 전방탐색

#### 긍정형 전방 탐색
> (?=...) : ...에 해당되는 정규식과 매치 되어야하며 조건이 통과되어도 문자열이 소비되지 않음

#### 부정형 전방 탐색
> (?!...) : ...에 해당되는 정규식과 매치 되지 않아야하며 조건이 통과되어도 문자열이 소비되지 않음

In [50]:
p = re.compile('.+:')
m = p.search('http://google.com')
print(m.group())

http:


In [51]:
p= re.compile('.+(?=:)') 
m = p.search('http://google.com')
print(m.group()) # :이 소비되지 않기 때문에 group으로 나오지 않음

http


In [52]:
p = re.compile(r'.*[.](?!bat$|exe$).*$') # 문자열의 끝이 bat 또는 exe가 아닌 파일이름 
m = p.search('play.exe')
print(m)

None


### 문자열 바꾸기

##### match object의 sub

In [53]:
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes') # 컴파일된 패턴에 매치되는 문자열을 'colour'로 바꿈


'colour socks and colour shoes'

In [54]:
p.sub('colour', 'blue socks and red shoes', count =1) # count인자로 바꿀 횟수제어가능


'colour socks and red shoes'

##### subn 

In [55]:
p.subn('colour', 'blue socks and red shoes') # 반환 결과를 튜플로 돌려주고 변환 횟수도 같이 포함

('colour socks and colour shoes', 2)

#### sub method 사용 시 참조 구문 사용

> \g<그룹이름>

In [56]:
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234")) # 주어지는 문자열 탐색후 그룹핑에 매치되는 문자열을 참조를 통해 가져옴?

010-1234-1234 park


In [57]:
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')
print(p.sub("\g<2> \g<1>", "park 010-1234-1234")) # 주어지는 문자열 탐색후 그룹핑에 매치되는 문자열을 참조를 통해 가져옴, 숫자 인덱스로도 가능

010-1234-1234 park


#### sub 메서도의 매개변수로 함수 넣기

In [58]:
def hexrepl(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'call 1234 for printing, 562342 for user code') # 컴파일된 패턴과 매치된 match 객체를 함수의 인자로 넘겨주고 처리됨

'call 0x4d2 for printing, 0x894a6 for user code'

### Greedy vs Non-Greedy

In [59]:
s = '<html><head><title>Title</title>'
len(s)

32

In [60]:
print(re.match('<.*>', s).span())

(0, 32)


In [61]:
print(re.match('<.*>', s).group()) # * 는 탐욕스럽기때문에 첫번째 <>이 아닌 끝까지 다 찾음

<html><head><title>Title</title>


In [62]:
print(re.match('<.*?>', s).group()) # ?를 사용하면 탐욕을 제한할 수 있음, 가장 최소한의 반복을 수행하도록 함.

<html>
