# 07장 정규표현식

## 07-1 정규 표현식 살펴보기

정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 때 사용하는 기법으로, 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용한다. 

In [10]:
data = """
park 800905-1049118
kim  700905-1059119
"""

result = []
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))

print("\n".join(result))


park 800905-*******
kim  700905-*******



In [11]:
import re 

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



## 07-2 정규 표현식 시작하기

### 정규 표현식의 기초, 메타 문자
. ^ $ * + ? { } [ ] \ | ( )

#### 문자 클래스 [ ] 

[a-zA-Z] : 알파벳 모두

[0-9] : 숫자

\d - 숫자와 매치, [0-9]와 동일한 표현식이다.

\D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.

\s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.

\S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.

\w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.

\W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.

In [None]:
\d:[0:9] =>0~9
\D:[^0:9] =>0~9를 제외한 모든 것

#### Dot(.)

정규 표현식의 Dot(.) 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치
ex)a.b : a와 b라는 문자 사이에 어떤 문자가 들어가도 모두 매치

#### 반복 ('*')

'*' 바로 앞에 있는 문자 a가 0부터 무한대로 반복될 수 있다는 의미

ex)ca*t a가 0번이상 반복되면 매치 / et 도 매치(0번반복)

#### 반복 (+)

+는 최소 1번 이상 반복될 때 사용

ex)ca+t a가 1번이상 반복되면 매치

#### 반복 ({m,n}, ?)
{1,}은 +와 동일하고, {0,}은 *와 동일하다.

ex)ca{2}t :"c + a(반드시 2번 반복) + t"

ca{2,5}t :"c + a(2~5회 반복) + t"

ab?c:"a + b(있어도 되고 없어도 된다) + c"

### 파이썬에서 정규 표현식을 지원하는 re 모듈
import re

p = re.compile('ab*')

re.compile을 사용하여 정규 표현식(위 예에서는 ab*)을 컴파일한다. re.compile의 결과로 돌려주는 객체 p(컴파일된 패턴 객체)를 사용하여 그 이후의 작업을 수행할 것이다.

### 정규식을 이용한 문자열 검색

match()	search() findall() finditer()

import re

p = re.compile('[a-z]+')

으로 예시 보기

match() :	문자열의 처음부터 정규식과 매치되는지 조사한다.

In [15]:
import re
p = re.compile('[a-z]+')
m = p.match("python")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [16]:
m = p.match("3 python")
print(m) #3은 p에 매치되지 않음.

None


In [18]:
p = re.compile('[a-z]+')
m = p.match( 'string goes here' )
if m:
    print('Match found: ', m.group())
else:
    print('No match')

Match found:  string


search() :	문자열 전체를 검색하여 정규식과 매치되는지 조사한다.

In [21]:
p = re.compile('[a-z]+')
m = p.search("python")
print(m)
m = p.search("3 python") 
print(m)
#"3 python" 문자열의 첫 번째 문자는 "3"이지만 search는 문자열의 처음부터 검색하는 것
# 이 아니라 문자열 전체를 검색하기 때문에 "3 " 이후의 "python" 문자열과 매치된다.

<_sre.SRE_Match object; span=(0, 6), match='python'>
<_sre.SRE_Match object; span=(2, 8), match='python'>


findall()	정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.

In [22]:
p = re.compile('[a-z]+')
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


finditer()	정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려준다.

In [24]:
p = re.compile('[a-z]+')
result = p.finditer("life is too short")
print(result)
print('======================')
for r in result: print(r)

<callable_iterator object at 0x00000066557EB668>
<_sre.SRE_Match object; span=(0, 4), match='life'>
<_sre.SRE_Match object; span=(5, 7), match='is'>
<_sre.SRE_Match object; span=(8, 11), match='too'>
<_sre.SRE_Match object; span=(12, 17), match='short'>
