### 정규표현식 (regular expression) re

#### Meta문자
- ^   : 문자열 시작 패턴 : ^abc  : abc로 시작하는 문자열
- $   : 문자열 끝 패턴   : abc&  : abc로 끝나는 문자열
- \*   : 0개 이상         : \d*   : 숫자 0개 이상
- \+   : 1개 이상         : \d+   : 숫자 1개 이상
- .   : 문자 1개         : .     : 아무 문자 1개
- .*  : 문자 1개 이상    : .*    : 아무 문자 1개 이상
- ?   : 문자 1개 or 0개  : a?    : a 1개 or 0개
- {n} : 문자 n개         : \d{3} : 숫자 3개
- {a,b} : 문자 a개 이상, b개 이하 : \d{1,5} : 숫자 1개 이상 5개 이하
- \   : 특수 문자 표시   : \*\?  : *?
- []  : 리스트 중 일치   : [A-Z]{2} : A~Z 중 2개
- [^] : 리스트 제외      : [^TAB] : 탭을 제외한 모든 글자
- |   : 또는 (or)        : A|B   : A와 B


#### 특수문자
- \d : 숫자 1개
- \D : 숫자 이외 문자 1개
- \s : 공백이나 탭 1개
- \S : 공백이나 탭 이외 문자 1개
- \w : 알파벳 1개
- \W : 알파벳 이외의 문자 1개

#### 함수
- math() : 문자열의 처음부터 정규식과 매치되는지 조사
- search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사
- findall() : 정규식과 매치되는 모든 문자열을 리스트로 반환
- finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객채로 반환

In [2]:
import re

In [12]:
p = re.compile("[a-z]+")

In [8]:
m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [13]:
m = p.match("3 python")
print(m)

None


In [14]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [15]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


#### 컴파일옵션 ex) re.compile("a.b", re.DOTALL), or re.compile("a.b", re.S)
- DOTALL(S) - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
- IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
- MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)
- VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)

In [21]:
p = re.compile("^python\s\w+",re.M)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


In [23]:
# 같은 표현 다른 방식
p = re.compile('\\\\section')
p = re.compile(r'\\section')

In [28]:
print(re.search('^Life', 'My Life'))

None


#### 특수문자
- \A : 문자열 처음과 매치
- \Z : 문자열 끝과 매치
- \b : 단어 구분자
- \B : \b와 반대

In [35]:
p = re.compile(r'\bclass\b') # class로 구분된 단어만 매치
print(p.search('no class at all'))
print(p.search('no cclass at all'))
print(p.search('no classs at all'))

<re.Match object; span=(3, 8), match='class'>
None
None


In [34]:
p = re.compile(r'\Bclass\B') # class로 구분되지 않는 단어만 매치
print(p.search('no class at all'))
print(p.search('no classsss at all'))
print(p.search('no ccclass at all'))
print(p.search('no ccclasssss at all'))

None
None
None
<re.Match object; span=(5, 10), match='class'>


### 그루핑 ()

In [37]:
p = re.compile("(ABC)+")
m = p.search("ABCABCABC OK?")
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [38]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m)

<re.Match object; span=(0, 18), match='park 010-1234-1234'>


In [42]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)") # park만 뽑기위해 그루핑 (이름)-(전화번호)
m = p.search("park 010-1234-1234")
print(m.group(1),",",m.group(2),",",m.group(3))

park , 010-1234-1234 , 010


In [56]:
p = re.compile(r'(\b\w+)\s+\1') # 재참조 메타 문자 \1 : 그룹중 첫 번째 그룹 
# (\b\w+)\s+\1은 (그룹) + " " + 그룹과 동일한 단어 ,즉 (\b\w+)\s+(\b\w+) 이랑 같다.
print(p.search('Paris in the the spring').group())
print(p.search('Paris lee lee spring').group())

the the
lee lee


In [63]:
## 그룹명으로 관리
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)") ## ?P<그룹명>
m = p.search("park 010-1234-1234")
print(m.group(1),m.group(2), m.group("name"),m.group("phone"))

park 010-1234-1234 park 010-1234-1234


In [66]:
p = re.compile(".+(?=:)") # 전방 탐색
m = p.search("http://google.com")
print(m.group())

http


In [None]:
# .*[.](?!bat$).*$ : .bat으로 끝나지 않는 경우만 매치

In [74]:
p = re.compile('(blue|white|red)')
print(p.sub('color', 'blue socks and red shoes')) #.sub(바꿀 문자열, 대상 문자열, count=바꿀 횟수) 
print(p.sub('color', 'blue socks and red shoes', count=1))

color socks and color shoes
color socks and red shoes


In [75]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


In [80]:
s = '<html><head><title>Title</title>'
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())
print(re.match('<.*?>', s).group()) # ?을 사용하여 최소한의 반복을 수행

(0, 32)
<html><head><title>Title</title>
<html>


In [87]:
data = "4546793"
for i in enumerate(data):
    print(i)

(0, '4')
(1, '5')
(2, '4')
(3, '6')
(4, '7')
(5, '9')
(6, '3')


In [97]:
data = """
park 010-9999-9988
kim 010-9909-7789
lee 010-8789-7768
"""

In [98]:
p = re.compile("(\d{3}[-]\d{4})[-]\d{4}")

In [100]:
print(p.sub("\g<1>-####",data))


park 010-9999-####
kim 010-9909-####
lee 010-8789-####



In [107]:
p1 = re.compile(".*[@].*[.](?=com$|net$).*$")

In [108]:
print(p1.match("pahkey@gmail.com"))
print(p1.match("kim@daum.net"))
print(p1.match("lee@myhome.co.kr"))

<re.Match object; span=(0, 16), match='pahkey@gmail.com'>
<re.Match object; span=(0, 12), match='kim@daum.net'>
None
