# 파이썬 정규표현식
> 점프 투 파이썬 내용 정리 및 실습

- 파이썬에서 정규표현식을 쓰려면 다음을 설치해야 한다.

In [1]:
import re

## 정규식 표현
```python
. ^ $ * + ? { } [ ] \ | ( )
```

### 문자 클래스 [ ]
- 안에 들어 있는 문자와의 매치
  - `[abc]`는 a와 매치, before와 매치, dude와 매치 x (문자가 한 개가 같으면 매치)
      - 같은 문자가 2개 이상인 경우에는 맨 앞의 문자만 매치
  - `-` : 하이픈은 두 문자 사이의 범위를 의미 `a-z`면 a부터 z 사이의 모든 문자. `0-3`이면 `[0123]을 의미. `[a-zA-Z]`은 알파벳 모두
  - `-` : 하이픈은 두 문자 사이의 범위를 의미 `a-z`면 a부터 z 사이의 모든 문자. `0-3`이면 `[0123]을 의미. `[a-zA-Z]`은 알파벳 모두
  - `^` : not의 의미 문자 클래스 내의 문자가 없어야 한다. `[^0-9]`는 숫자 아닌 문자만 매치

In [2]:
abc_parser = re.compile('[abc]')
str1 = 'a'
str2 = 'before'
str3 = 'dude'
str4 = 'absent'

print(abc_parser.match(str1))
print(abc_parser.match(str2))
print(abc_parser.match(str3)) # 매치가 되지 않는 경우에는 None 타입 반환
print(abc_parser.match(str4))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='b'>
None
<re.Match object; span=(0, 1), match='a'>


In [3]:
alphbet_parser = re.compile('[a-zA-Z]')
num_parser = re.compile('[0-9]')
not_num_parser = re.compile('[^0-9]')

print(alphbet_parser.match('python'))
print(num_parser.match('python'))
print(not_num_parser.match('python'))

<re.Match object; span=(0, 1), match='p'>
None
<re.Match object; span=(0, 1), match='p'>


### Dot(.)
- 줄바꿈 문자 `\n`을 제외한 모든 문자와 매치

In [4]:
dot_parser = re.compile('a.b')

print(dot_parser.match('ab'))
print(dot_parser.match('a0b'))
print(dot_parser.match('acb'))
print(dot_parser.match('a#b'))

None
<re.Match object; span=(0, 3), match='a0b'>
<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 3), match='a#b'>


- 아래 예시는 문자 클래스 내에 dot string이 있으므로, 문자 그대로의 dot을 의미
- 따라서 a와 b사이에 dot이 반드시 있어야 매치가 됨

In [5]:
dot_str_parser = re.compile('a[.]b')

print(dot_str_parser.match('ab'))
print(dot_str_parser.match('a0b'))
print(dot_str_parser.match('acb'))
print(dot_str_parser.match('a#b'))
print(dot_str_parser.match('a.b'))

None
None
None
None
<re.Match object; span=(0, 3), match='a.b'>


### 반복(*)

- 바로 앞에 있는 숫자가 0개부터 무한대(사실상 메모리 제한으로 2억 개)로 반복

In [6]:
star_parser = re.compile('ca*t')

print(star_parser.match('ct')) # 반복 횟수가 0이어도 매치
print(star_parser.match('cat'))
print(star_parser.match('caaaaaaaat'))
print(star_parser.match('caaaaaaaaaaaaaat'))
print(star_parser.match('cabt')) # 반복 되지 않는 문자 때문에 매치가 되지 않음.

<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 10), match='caaaaaaaat'>
<re.Match object; span=(0, 16), match='caaaaaaaaaaaaaat'>
None


### 반복 (+)
- 반복 횟수가 최소 1부터라는 점이 * 표현과 차이가 있다.

In [7]:
plus_parser = re.compile('ca+t')

print(plus_parser.match('ct')) # 반복 횟수가 0이어서 매치가 되지 않음
print(plus_parser.match('cat')) # 최소 1번 이상 반복해야 매치
print(plus_parser.match('caaaaaaaat'))
print(plus_parser.match('cabt')) # 반복 되지 않는 문자 때문에 매치가 되지 않음.

None
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 10), match='caaaaaaaat'>
None


### 반복 ({m, n}, ?)
- 반복 횟수를 제한할 수 있다.
- `{m}` : m번 반복했을 때만 매치
- `{m,n}` : (m~n)번 반복했을 때 매치
- `{m,}` : (m~무한대)번 반복했을 때만 매치
    - `{1,}`은 `+`와 동일하고 `{0, }`은 `*`와 동일
- `{,n}` : (0~n)번 반복했을 때만 매치

In [8]:
repeat_parser1 = re.compile('ca{3}t')

print(repeat_parser1.match('cat'))
print(repeat_parser1.match('caaat'))
print(repeat_parser1.match('caaaaat'))

None
<re.Match object; span=(0, 5), match='caaat'>
None


In [9]:
repeat_parser2 = re.compile('ca{3,}t')

print(repeat_parser2.match('cat'))
print(repeat_parser2.match('caaat'))
print(repeat_parser2.match('caaaaat'))
print(repeat_parser2.match('caaaaaaat'))

None
<re.Match object; span=(0, 5), match='caaat'>
<re.Match object; span=(0, 7), match='caaaaat'>
<re.Match object; span=(0, 9), match='caaaaaaat'>


In [10]:
repeat_parser3 = re.compile('ca{3,5}t')

print(repeat_parser3.match('cat'))
print(repeat_parser3.match('caaat'))
print(repeat_parser3.match('caaaaat'))
print(repeat_parser3.match('caaaaaaat'))

None
<re.Match object; span=(0, 5), match='caaat'>
<re.Match object; span=(0, 7), match='caaaaat'>
None


In [11]:
repeat_parser4 = re.compile('ca{,5}t')

print(repeat_parser4.match('cat'))
print(repeat_parser4.match('caaat'))
print(repeat_parser4.match('caaaaat'))
print(repeat_parser4.match('caaaaaaat'))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 5), match='caaat'>
<re.Match object; span=(0, 7), match='caaaaat'>
None


- `?` : 반복은 아니지만 비슷한 개념. 있어도 되고 없어도 된다의 의미. 즉 `{0,1}`와 동일.

In [12]:
qust_parser = re.compile('ca?t')

print(repeat_parser4.match('ct'))
print(repeat_parser4.match('cat'))
print(repeat_parser4.match('caaat'))

<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 5), match='caaat'>


## 문자열 검색
> 컴파일된 패턴 객체를 사용하여 문자열을 검색

### match()
- 문자열의 처음부터 정규식과 매치되는지 조사

In [13]:
p = re.compile('[a-z]+') # 모든 영어 단어를 표현하는 정규식

In [14]:
print(p.match('python'))
print(p.match('python3'))
print(p.match('3python')) # 처음에 알파벳이 아닌 숫자가 나오므로 매치가 되지 않음

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='python'>
None


- `group()` : 매칭 되는 문자열 반환

In [15]:
m = p.match( 'she goes there' )
if m:
    print('Match found: ', m.group())
else:
    print('No match')

Match found:  she


### search()
- 컴파일된 패턴 객체가 문자열 내에 존재하는지 파악
- match()와의 차이점은 match()는 문자열의 처음부터만 검색하지만, search()는 모든 문자열을 검색
- 매치된 문자열의 index 범위를 span으로 표현

In [16]:
print(p.search('python'))
print(p.search('3python'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(1, 7), match='python'>


### findall()
- 컴파일된 패턴 객체와 매칭되는 모든 문자열을 list 형식으로 반환

In [17]:
m = 'life is too short'
print(p.findall(m))

['life', 'is', 'too', 'short']


### finditer()
- findall()과 수행 결과는 같지만, 그 결과로 iterator object로 반환한다. iterator object의 요소는 match 객체다.

In [18]:
m = 'life is too short'
iter_obj = p.finditer(m)
print('iter_obj', iter_obj)
print('='*60)
for obj in iter_obj:
    print('obj', obj) # match 객체 내용
    print('type of obj', type(obj)) # match type임을 확인
    print('-'*60)

iter_obj <callable_iterator object at 0x000001843F3D28E0>
obj <re.Match object; span=(0, 4), match='life'>
type of obj <class 're.Match'>
------------------------------------------------------------
obj <re.Match object; span=(5, 7), match='is'>
type of obj <class 're.Match'>
------------------------------------------------------------
obj <re.Match object; span=(8, 11), match='too'>
type of obj <class 're.Match'>
------------------------------------------------------------
obj <re.Match object; span=(12, 17), match='short'>
type of obj <class 're.Match'>
------------------------------------------------------------


## match 객체의 메서드
- match 객체를 반환받은 후, 그 객체 내의 정보를 결과로 반환한다.
    - group(): 매치된 문자열 반환
    - start(): 매치된 문자열의 시작 위치 반환
    - end(): 매치된 문자열의 끝 위치 반환
    - span(): 매치된 문자열의 시작과 끝 위치를 튜플로 반환
- match와 search의 차이점에 의한 각 메서드의 반환 값 변화도 확인해보자.

In [19]:
sentence = p.match('life is too short')
print(sentence.group())
print(sentence.start())
print(sentence.end())
print(sentence.span())

life
0
4
(0, 4)


## 컴파일 옵션
- DOTALL(S) - `.`이 줄바꿈 문자를 포함하여 모든 문자와 매치하도록 함
- IGNORECASE(I) - 대소문자에 관계없이 매치
- MULTILINE(M) - 여러줄과 매치할 수 있도록 함. (`^`, `$` 메타 문자의 사용과 관계 있음)
- VERBOSE(X) - verbose 모드를 사용(정규식을 보기 편하게 만들고, 주석 달기 가능)

> 옵션 사용시 re.DOTALL을 써도 되고 re.S를 써도 된다.

In [20]:
# 옵션 적용 안했을 때
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [21]:
# DOTALL 옵션 적용
p = re.compile('a.b', re.DOTALL) # re.S를 써도 무방
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [22]:
# IGNORECASE 옵션 적용
p = re.compile('[a-z]+', re.IGNORECASE) # re.I를 써도 무방
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


In [23]:
# MULTILINE 옵션 적용
p = re.compile('^python\s\w+', re.MULTILINE) # re.M를 써도 무방
# ^python\s\w+ : python으로 문자열이 시작되고, 뒤에 whitespace, 그 뒤에 단어가 와야 함을 의미
data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


- 문자 클래스에서 쓰는 `^`와 일반적인 `^`는 의미가 다르다.
    - 문자 클래스의 `^` : not의 의미
    - 일반적인 `^`: 해당 문자열을 시작으로 한다는 의미

In [24]:
# VERBOSE 옵션 적용 안 했을 시
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
# 이해하기 복잡하다.

In [25]:
# VERBOSE 옵션 적용
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

## 정규식의 백슬래시
> 정규 표현식에서 백슬래시는 혼란의 요소

- ex) `'\section'`이라는 문자열을 찾기 위한 정규식
    - `\s`의 의미는 whitespace로 해석됨(Escape String임)
    - `\\section`이라고 하여 백슬래시 자체가 문자임을 표현
    - 하지만 파이썬 정규식 엔진에서는 파이썬 문자열 리터럴 규칙에 따라 `\\`가 `\`로 변경되어 `\section`(문자열 아님, 실제로 존재하지 않지만 이런 형식의 Escape String)으로 전달이 된다.
    - 원하는대로 표현하려면 `\\\\section`로 표현해야 한다는 불편함이 있다.
    - 이를 보다 편하기 표현하기 위해 Raw String임을 표현해줘야 한다.
    `r'\\section'`라고 표현하면 된다.

In [26]:
p = re.compile(r'\\section')