## 파이썬 정규 표현식(Regular Expressions)
https://devanix.tistory.com/296

: 복한 문자열 패턴을 검색하고, 추출하고, 대치하는 규칙을 정의하는 문자열,
파이썬에서는 re 모듈이 제공된다

### 반복 관련 메타 문자 : *, +, ?, {m}, {m,n} 
#### (메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다.)
- *는 반복을 나타내는 메타문자로써, 해당 메타문자 앞의 글자가 0번이상 반복되는 모든 문자열과 매치됩니다.
- +는 *과 같은 반복을 나타내는 메타문자, *는 다르게 앞의 글자가 0번을 제외한, 1번이상 반복되는 모든 문자열과 매치됩니다.
- ? 는 앞의 문자가 0~1번 반복되는 모든 문자열과 매치됩니다.
- {m}는  반복횟수를 m으로 정할 수 있습니다. 앞의 문자가 m번 이상  반복되는 모든 문자열과 매치 됩니다.
- {m,n}는  반복횟수를 m과 n으로 정할 수 있습니다. 앞의 문자가 m번 이상 n번이하 반복되는 모든 문자열과 매치 됩니다.


### 매칭 관련 메타 문자
- .(Dot) 은 줄바꿈 문자인 \n을 제외한 모든 하나의 문자와 매치되는 것을 의미합니다.
- ^는 문자열의 맨처음을 의미하는 메타문자, 메타 문자 [] 내부에서는 반대, 즉 not의 의미로 사용되므로 혼동되지 않도록 주의하세요. 정규식으로 찾고자 하는 문자열의 앞에 입력합니다.

- \\$ 는 '^'와 반대로 문자열의 맨 마지막을 의미하는 메타문자 입니다. '^'와는 다르게 매치할 문자열의 뒤에 입력합니다.  메타 문자 [ ] 내부에서는 순수하게 $ 문자를 의미합니다

- [] 는 문자 클래스(집합)을 나타낸다, [abc]는 a,b,c중 한 문자를 의미한다, []으로 둘러싼 내부의 문자열과 매치시킨다
- | 는 a|b 와 같은 형식으로 사용되며 a 또는 b와 매치되는 문자열을 반환합니다.
- ( )는 정규식을 그룹으로 묶는다

###  문자열 매칭하기

In [6]:
import re
re.match('[0-9]','1234') # 정수 0에서 9까지의 문자열과 문자열 '1234'을 매칭 시킨다, '1' 과 매칭됨

<re.Match object; span=(0, 1), match='1'>

In [9]:
m = re.match('[0-9]','abc') # 정수 0에서 9까지의 문자열과 문자열 'abc'을 매칭 시킨다,실패
print(m)

None


In [11]:
# group() 메서드 : 매칭된 문자열을 반환한다
m = re.match('[0-9]','1234')
m.group()

'1'

In [14]:
m = re.match('[0-9]+','1234') #  # 숫자가 1회 이상 발생하는 것과 매칭한다,[0-9]+는 0~9사이의 수가 여러번 반복허용
print(m.group())
m

1234


<re.Match object; span=(0, 4), match='1234'>

In [20]:
m = re.match('[0-9]+','1234 ') # 뒤에 공백이 온 경우도 매칭한다
m.group()

'1234'

In [26]:
print(m)
print(m.group(0))
print(m.group())

<re.Match object; span=(0, 4), match='1234'>
1234
1234


In [30]:
re.match('[0-9]+',' 1234') # 앞에 공백이 온 경우, 실패

###  특수문자
- \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
- \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
- \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
- \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
- \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
- \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.
- \b - 단어의 경계를 표현한다, 단어는 영문자난 숫자의 연속 문자열로 가정한다
- \B - \b와 반대로 단어의 경계가 아님을 표현한다

In [53]:
# \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
m = re.match('\s*[0-9]+',' 1234') # 앞에 공백이 온 경우 , 매칭됨
m.group()

' 1234'

In [56]:
# 그룹 : ( )
m = re.match('\s*([0-9]+)',' 1234')
m.group()

' 1234'

In [58]:
m.group(1) # ()으로 그룹으로 묶은 첫번째 그룸 문자열을 반환한다, 1이 첫번째, 0은 전체

'1234'

In [60]:
# \d - 숫자와 매치, [0-9]와 동일한 표현식
m = re.match('\s*(\d+)',' 1234 ')
m.group()

' 1234'

#### match()와 search() 함수의 차이
- match() 함수는 문자열이 시작부터 일치하는지 검사
- search() 함수는 부분적으로 일치하는 문자열이 있는지를 검사

In [66]:
m = re.search('\d+',' 1034 ')
print(type(m))
m.group()

<class 're.Match'>


'1034'

In [67]:
m = re.search('\d+',' -1034a ')
m.group()

'1034'

In [73]:
re.search('\s\d+\s',' 1034a ')  # 실패

In [74]:
re.search('\s\d+\s',' 1034 a ')  # 성공

<re.Match object; span=(0, 6), match=' 1034 '>

In [76]:
re.search('\s(\d+)\s',' 1034 a ').group(1)  # 성공

'1034'

### RAW 모드로 정규식 표현하기
:  r'문자열 '

In [83]:
re.search('\s(\d+)\s',' 1034')  # 실패

In [81]:
# \b - 단어의 경계를 표현한다
re.search('\b(\d+)\b',' 1034 a')  # 매칭 실패 : '\b' 가 Backspace 로 처리 되었기 때문이다

In [84]:
re.search('\\b(\d+)\\b',' 1034 a') # \\b 형태로 넣어 성공

<re.Match object; span=(1, 5), match='1034'>

In [85]:
'\d', '\b','\\b'   
# '\d'는 파이썬에서 특수 문자로 등록 되지 않았으므로 그대로 '\d' 문자열로 받아들여짐
# '\b'는 Backspace로 치환 되므로 RAW모드 사용이 필요: 문자열 앞에 r을 추가한것

('\\d', '\x08', '\\b')

In [89]:
re.search(r'\b(\d+)\b',' 1034 a ').group() # RAW 모드 표기로 성공

'1034'

In [92]:
# re.search('\\', 'dir1\\dir2').group() # 오류

In [93]:
re.search('\\\\', 'dir1\\\\dir2').group()

'\\'

In [96]:
# re.search('\\', r'dir1\dir2').group() #  오류

In [99]:
re.search(r'\\', r'dir1\dir2').group() # RAW 모드 표기로 성공

'\\'

In [103]:
# print('\') # 파이썬 오류
print('\\')

\


### 최소 매칭 : *?, +?, ??, {m.n}?

In [104]:
# Greedy Matching
re.search(r'href="(.*)"', '<a href="index.html">HERE</a><font size="10">').group(1)

'index.html">HERE</a><font size="10'

In [105]:
# Non Greedy Matching
re.search(r'href="(.*?)"', '<a href="index.html">HERE</a><font size="10">').group(1)

'index.html'

### re 패키지 기본 method
- re.compile(pattern, string, flags) : # 인수 패턴을 컴파일 하여 정규식 객체로 반환
- re.match(pattern, string, flags)   : “문자열의 처음”부터 시작하여 패턴이 일치되는 것이 있는지를 확인한다.
- re.search(pattern, string, flags)  : 부분적으로 일치하는 문자열이 있는지를 검사
- re.findall(pattern, string, flags) : 문자열 중 패턴과 일치되는 모든 부분을 찾는다.
- re.finditer(pattern, string, flags) : .findall과 비슷하지만, 일치된 문자열의 리스트 대신 matchObj 리스트를 반환한다.
- re.fullmatch(pattern, string, flags) : 패턴과 문자열이 남는 부분 없이 완벽하게 일치하는지를 검사한다.
- re.sub(pattern, repl, string) :인수 string에서 인수 pattern을 인수 repl로 치환한다

In [107]:
re.findall(r'[_a-zA-Z]\w*','123 abc 123 def')

['abc', 'def']

In [108]:
s = '''
<a href="link1.html">link1</a>
<a href="link2.html">link2</a>
<a href="link3.html">link3</a>
'''
re.findall(r'href="(.*?)"',s)

['link1.html', 'link2.html', 'link3.html']

### 문자열 치환

In [111]:
re.sub(r'[.,:;]','','a:b:c, d.') #  '.,:;' 문자들을 제거

'abc d'

In [112]:
re.sub(r'\W','','a:b:c, d.') #  영문자 숫자를 제외한 특수 문자들을 모두 제거

'abcd'

### 정규식 객체 사용하기
 : re.compile(pattern, string, flags) :  인수 패턴을 컴파일 하여 정규식 객체로 반환

In [130]:
# 정규식 객체 사용 문자열 치환

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile(r"(\d{6})[-]\d{7}")  # 정규식 객체
print(type(pat))  # <class 're.Pattern'>
print(pat.sub("\g<1>-*******",data)) # \g<그룹번호나 이름>

m = pat.search(data,0)
print(m.group())  # '800905-1049118'

<class 're.Pattern'>

park 800905-*******
kim  700905-*******

800905-1049118


In [132]:
# 정규식 객체 사용 findall() 사용
p = re.compile('the')   # 인수 패턴을 컴파일 하여 정규식 객체로 반환
print(type(p))
p.findall('The cat was hungry. They were scared because of the cat')

<class 're.Pattern'>


['the']

#### 플래그
- I, IGNORECASE : 대소문자를 구별하지 않는다
- L, LOCATE : \w, \W, \b, \B를 현재의 로케일에 영향을 받게 한다
- M, MULTILINE : ^가 문자열의 맨 처음, 각 라인의 맨 처음과 매치 된다, $는 문자열의 맨 끝, 각 라인의 맨 끝과 매치

- S, DOTALL : .을 줄바꾸기 문자도 포함하여 매치하게 한다
- U, UNICODE : \w, \W, \b, \B가 유니코드 문자 특성에 의존하게 한다
- X, VERBOSE : 보기 좋게 정규식을 표현할 수 있게 해준다. 정규식 안의 공백은 무시된다

In [133]:
# I, IGNORECASE : 대소문자를 구별하지 않는다
p = re.compile('the',re.I)   # 인수 패턴을 컴파일 하여 정규식 객체로 반환
print(type(p))
p.findall('The cat was hungry. They were scared because of the cat')

<class 're.Pattern'>


['The', 'The', 'the']