## 파이썬 정규 표현식(Regular Expressions)
https://devanix.tistory.com/296

: 복한 문자열 패턴을 검색하고, 추출하고, 대치하는 규칙을 정의하는 문자열,
파이썬에서는 re 모듈이 제공된다

### (1) 반복 관련 메타 문자 : *, +, ?, {m}, {m,n} 
#### (메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다.)
- *는 반복을 나타내는 메타문자로써, 해당 메타문자 앞의 글자가 0번이상 반복되는 모든 문자열과 매치됩니다.
- +는 *과 같은 반복을 나타내는 메타문자, *는 다르게 앞의 글자가 0번을 제외한, 1번이상 반복되는 모든 문자열과 매치됩니다.
- ? 는 앞의 문자가 0~1번 반복되는 모든 문자열과 매치됩니다.
- {m}는  반복횟수를 m으로 정할 수 있습니다. 앞의 문자가 m번 이상  반복되는 모든 문자열과 매치 됩니다.
- {m,n}는  반복횟수를 m과 n으로 정할 수 있습니다. 앞의 문자가 m번 이상 n번이하 반복되는 모든 문자열과 매치 됩니다.


### (2) 매칭 관련 메타 문자
- .(Dot) 은 줄바꿈 문자인 \n을 제외한 모든 하나의 문자와 매치되는 것을 의미합니다.
- ^는 문자열의 맨처음을 의미하는 메타문자, 메타 문자 [] 내부에서는 반대, 즉 not의 의미로 사용되므로 혼동되지 않도록 주의하세요. 정규식으로 찾고자 하는 문자열의 앞에 입력합니다.

- \\$ 는 '^'와 반대로 문자열의 맨 마지막을 의미하는 메타문자 입니다. '^'와는 다르게 매치할 문자열의 뒤에 입력합니다.  메타 문자 [ ] 내부에서는 순수하게 $ 문자를 의미합니다

- [] 는 문자 클래스(집합)을 나타낸다, [abc]는 a,b,c중 한 문자를 의미한다, []으로 둘러싼 내부의 문자열과 매치시킨다
- | 는 a|b 와 같은 형식으로 사용되며 a 또는 b와 매치되는 문자열을 반환합니다.
- ( )는 정규식을 그룹으로 묶는다

### 문자열 매칭하기

In [15]:
import re

re.match('[0-9]','1234') # 정수 0에서 9까지의 문자열과 문자열 '1234'을 매칭 시킨다, '1' 과 매칭됨

<re.Match object; span=(0, 1), match='1'>

In [6]:
m = re.match('[0-9]','abc') # 정수 0에서 9까지의 문자열과 문자열 'abc'을 매칭 시킨다, 실패
print(m)  # None

None


In [14]:
#  group() 메서드 : 매칭된 문자열을 반환한다
m = re.match('[0-9]','1234')
m.group()

'1'

In [26]:
m = re.match('[0-9]+','1234') # 숫자가 1회 이상 발생하는 것과 매칭한다,[0-9]+는 0~9사이의 수가 여러번 반복허용
m.group()

'1234'

In [27]:
m = re.match('[0-9]+','1234 ') # 뒤에 공백이 온 경우도 매칭한다
m.group()

'1234'

In [34]:
m = re.match('[0-9]+',' 1234 ') # 앞에 공백이 온 경우, 실패
# m.group()

In [30]:
print(m)
print(m.group(0))  # 전체
print(m.group())   # 전체

<re.Match object; span=(0, 4), match='1234'>
1234
1234


###  특수문자
- \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
- \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
- \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
- \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
- \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
- \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.
- \b - 단어의 경계를 표현한다, 단어는 영문자나 숫자의 연속 문자열로 가정한다
- \B - \b와 반대로 단어의 경계가 아님을 표현한다