# regular expressions 살펴보기

## 정규 표현식은 왜 필요한가?

주민등록번호를 포함한 텍스트에서, 주민등록번호의 뒷자리를 * 문자로 변경하는 과제가 있다면?

In [2]:
# 정규 표현식을 사용하지 않은 경우
data = """
park 800905-1049118
kim  700905-1059119
"""

result = []
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))


park 800905-*******
kim  700905-*******



In [1]:
# 정규 표현식을 사용한 경우
import re

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6}[-]\d{7})")
print(pat.sub("\g<1>-*******", data))


park 800905-1049118-*******
kim  700905-1059119-*******



정규 표현식을 사용했을 때, 훨씬 간편하고 직관적인 코드를 쓸 수 있음.

# regular expressions 시작하기

## 메타 문자

    . ^ $ * + ? { } [ ] \ | ( )

    원래 그 문자가  가진 뜻이 아니라, 특별한 의미를 가진 문자를 말한다.

### []

[] 사이의 문자들과 매치한다는 의미

- [abc] 라면, a, b, c 중 한 개의 문자와 매치된다는 의미이다.

- [a-c] 라면, a와 c 사이의 문자와 매치된다는 의미. abc 와 동일하다.

    - [a-zA-Z] : 모든 알파벳

    - [0-9] : 모든 숫자

- [^] 는 반대(not) 라는 의미를 가진다.

    - [^0-9] : 숫자가 아닌 문자만 매치된다.

### .(dot)

\n 을 제외한 모든 문자와 매치된다.

re.DOTALL 옵션을 주면, \n 과도 매치될 수 있다.

- a.b 라면, a와 b 사이에 어떤 문자가 들어가도 매치된다는 의미이다.

- a[.]b 라면, . 문자 그대로를 의미한다.

### *

* 바로 앞에 있는 문자가 계속 반복될 수 있다는 의미이다.

- ca*t

    - ct 가능 (a가 0회 반복)

    - cat 가능 (a가 1회 반복)

    - caaaaaat 가능 (a가 다수 반복)

### +

- 최소 1회 이상 반복될 수 있다는 의미이다.

- ca+t

    - ct : 불가능

    - cat : 가능

    - caaaaaaaaat : 가능

### {}, ?

     {} : 반복을 제한하고 싶은 경우

- ca{2}t

    - c + a를 반드시 2회 반복 + t

- ca{2,5}t

    - c + a를 2회~5회 반복 + t

     ? : {0,1}

- ab?c

    - a + b가 있어도 되고 없어도 됨 + c

## re 모듈

- match() : 문자열의 처음부터 정규식과 매칭되는지 조사

- search() : 문자열 전체를 검색하여 정규식과 매칭되는지 조사

- findall() : 정규식과 매칭되는 모든 문자열을 리스트로 리턴

- finditer() : 정규식과 매칭되는 모든 문자열을 반복 가능한 객체로 리턴

In [3]:
import re

p = re.compile('[a-z]+')

## 정규식을 이용한 문자열 검색

In [5]:
m = p.match("python")
print(m) # [a-z]+ 정규식에 부합되므로, match 객체가 리턴된다

m = p.match("3 python")
print(m) # 3 이 정규식에 부합하지 않음

<re.Match object; span=(0, 6), match='python'>
None


In [6]:
m = p.search("python")
print(m) # 처음부터 6번째 자리까지 동일하게 매치됨

m = p.search("3 python")
print(m) # 3 이후의 python 문자열과 매치됨

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 8), match='python'>


In [7]:
result = p.findall("life is too short")
print(result) # 매치되는 모든 값을 찾아 리스트로 리턴한다.

['life', 'is', 'too', 'short']


In [8]:
result = p.finditer("life is too short")
print(result) # findall 과 형식 동일하지만, 반복 가능한 객체(iterator) 리턴한다.

for r in result :
    print(r)

<callable_iterator object at 0x000001B36ABF67D0>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## match 객체의 메서드

match 객체 : p.match, p.search, p.finditer 메서드에 의해 리턴된 매치 객체

- group : 매치된 문자열을 리턴한다.

- start : 매치된 문자열의 시작 위치를 리턴한다.

- end : 매치된 문자열의 끝 위치를 리턴한다.

- span : 매치된 문자열의 (시작, 끝) 에 해당하는 튜플을 리턴한다.

In [10]:
m = p.match("python")
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


In [11]:
m = p.search("3 python")
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
2
8
(2, 8)
