## 정규식
#### 문자 클래스 []
##### [] 사이의 문자들과 매치라는 의미
##### ex) [abc] a,b,c 중 하나라도 매치
##### ex) [a-zA-Z] [0-9] 모든 알파벳 모든 숫자
##### ex) [^a-zA-Z] [^0-9] ^ 을 넣을경우 not이 되므로 모든 알파벳이 아닌 모든 숫자가 아닌으로 된다.

### Dot(.)
##### 줄바꿈 문자인 \n 을 제외한 모든 문자와 매치가 된다.
##### re.DOTALL 옵션을 주면 \n 문자와도 매치된다.
##### ex) a.b   "a+ 모든문자 + b" 를 의미한다. 즉) aab abb aob a0b ... 등등 가능하다
##### ex) a[.]b   "a.b" 를 의미한다. 즉) a.b만 의미한다.

### 반복 (*)
##### * 바로 앞에 있는 문자가 무한대로 반복될 수 있다는 의미 즉) 무한대 이거나 없거나이다.
##### ex) ca*t 이면 ct cat caaat ... 이 가능하다

### 반복 (+)
##### * 과 똑같은데 단, 최소 1번 이상 반복을 한다.
##### ex) ca+t 이면 cat caat ... 이 가능하다

### 반복 ({m,n}, ?)
##### 특정 횟수까지만 반복을 하는 것이다.
##### ex) ca{2}t 이면 caat만 가능
##### ex) ca{2,5} 이면 caat caaat caaaat caaaaat 만 가능

### ?
##### ? 은 있어도 되고 없어도 되고 이다. {0,1}
##### ex) ab?c 이면 ac 이거나 abc이다.

### 정규식을 지원하는 re 모듈
##### 정규식 표현을 컴파일 한다.

In [None]:
import re
p = re.compile('[a-z]+')

### match
##### match 매서드는 문자열의 처음부터 정규식과 매치되는지 조사한다.
##### 있을 경우 m.group으로 해당 단어 출력가능 없을 경우 None

In [None]:
import re
p = re.compile('[a-z]+')
m = p.match('python')
print(m)
n = p.match('3 python')
print(n)
if m:
    print('Match found: ', m.group())
else:
    print('No match')

### search
##### search 는 말그대로 찾는다.
##### 있을 경우 m.group으로 해당 단어 출력가능 없을 경우 None

In [None]:
import re
p = re.compile('[a-z]+')
m = p.search('python')
n = p.search('3 python')
print(m)
print(n)

### findall
##### finall 는 말그대로 모두 찾는다.
##### 없을 경우 빈 리스트

In [None]:
import re
p = re.compile('[a-z]+')
result = p.findall("life is too short")
print(result)
result = p.findall("234234")
print(result)

### finditer
##### findall 과 똑같다 단 반복가능한 객체로 돌려준다.

In [None]:
p = re.compile('[a-z]+')
result = p.finditer("life is too short")
print(result)
for r in result:
    print(r)

### match 객체의 매서드

In [None]:
p = re.compile('[a-z]+')
m = p.match("python")
print(m.group())
print(m.start())
print(m.end())
print(m.span())

### 모듈 단위로 수행하기

In [None]:
m = re.match('[a-z]+',"python")
print(m)

### DOTALL, S
##### \n 을 포함 시켜준다.

In [None]:
p = re.compile('a.b',re.DOTALL)
m = p.match('a\nb')
print(m)

### IGNORECASE, I
##### 대소문자 무시하고 정규식 적용

In [None]:
p = re.compile('[a-z]+', re.I)
m = p.match('PyThoN')
print(m)

### MULTILINE, M
##### 말그대로 다중 라인이다.
##### ^python 은 문자열의 처음은 항상 python 으로 시작해야한다
##### $은 ^ 반대 마지막으로 끝나야한다
##### ^python\s \s 는 python 다음에 화이트스페이스가 와야한다는 것이다.
##### \w 단어가 와야한다는 뜻

In [None]:
import re
p = re.compile("^python\s\w+")
data = """python one
life is too short
python two
you need python
python three"""
print(p.findall(data))
p = re.compile("^python\s\w+", re.MULTILINE)
print(p.findall(data))

### raw string
##### \ 문제를 해결하기 위해 r 을 붙여서 raw string인것을 알려준다.

In [None]:
import re

p = re.compile(r'\\section')

### |
##### | 은 or이다.

In [None]:
import re

p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

### ^
##### ^ 문자열의 맨 처음과 일치함을 의미

In [None]:
import re

print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

### $
##### $은 ^의 반대이다

In [None]:
import re

print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'My Life'))

### \A
#####  ^은 각 줄의 문자열의 처음과 매치되지만 \A는 줄과 상관없이 전체 문자열의 처음하고만 매치된다.
### \Z
##### \Z는 문자열의 끝과 매치됨을 의미한다. 이것 역시 \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 $ 메타 문자와는 달리 전체 문자열의 끝과 매치된다.
### \b
##### \b는 단어 구분자(Word boundary)이다. 보통 단어는 whitespace에 의해 구분된다.

In [None]:
import re
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))

### \B
##### \B 메타 문자는 \b 메타 문자와 반대의 경우이다. 즉 whitespace로 구분된 단어가 아닌 경우에만 매치된다.

In [None]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))

### 그루핑
##### (ABC)+
##### 그루핑으로 원하는 단어를 뺄수 있다.

In [None]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

##### 아래와 같은 경우는 \w 을 그루핑하였다.

In [None]:
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))