# 정규표현식(Regular Expressions)

---
## 메타 문자
 - 특별한 용도로 사용하는 문자
 - . ^ $ * + ? { } [ ] \ | ( ) 등

==================================================
### 문자 클래스(character class) : [ ]
의미 : "[ ] 사이의 문자들과 매치"  
- 예시) [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"라는 뜻  
- 'a','before':매치, 'dude':매치x

[ ]사이에는 어떤 문자도 들어갈 수 있음  
[ ]안의 하이픈(-) : 범위, [a-zA-Z]:알파벳 모두, [0-9]:숫자, [가-힣]:한글  
[ ]안의 ^ : 반대(not), [^0-9]:숫자가 아닌 문자


#### 자주 사용하는 문자 클래스
 - \d : 숫자와 매치, [0-9]와 동일
 - \D : 숫자가 아닌 것과 매치, [^0-9]와 동일
 - \s : whitespace 문자와 매치, [ \t\n\r\f\v]와 동일, 맨앞 빈칸:공백(스페이스)의미
 - \w : 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일
 - \W : 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일

==================================================
### Dot(.)
의미 : \n을 제외한 모든 문자와 매치  
(re.DOTALL 옵션을 주면 \n 문자와도 매치)  
a.b -> "a + 모든문자 + b"와 매치
a[.]b -> a.b와 매치 [.]->문자그대로의 Dot(.)

==================================================
### 반복(*)
ca*t -> 문자 a가 '0'부터 무한대까지 반복될 수 있음  
ct, cat, caat,.....

==================================================
### 반복(+)
ca+t -> 문자 a가 '1'부터 무한대까지 반복될 수 있음  
cat, caat,..... ct(x)

==================================================
### 반복({m,n}, ?)
{m} -> 반드시 m번 반복  
{m,n} -> m~n회 반복, {1,}->+, {0,}->*  
? -> 있거나 없음, = {0,1}  
ca{m,n}t, ca?t



---
## re 모듈(regular expression)
사용법
```ts
import re
p=re.compile('ab*')
```

---
## 정규식을 이용한 문자열 검색
|Method|목적|
|:--:|--|
|match()|문자열의 처음부터 정규식과 매치되는지 조사|
|search()|문자열 전체를 검색하여 정규식과 매치되는지 조사|
|findall()|정규식과 매치되는 모든 문자열을 리스트로 반환|
|finditer()|정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환|

 - match, search는 정규식과 매치될 때는 match 객체를 돌려주고, 매치되지 않을 때는 None을 반환


In [1]:
import re
p=re.compile('[a-z]+')

==================================================
### match() : 문자열의 처음부터 정규식과 매치되는지 조사

In [2]:
# 정규식에 부합되므로 match 객체를 반환
m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [3]:
# 처음에 나오는 문자열이 3 -> None반환
m = p.match("3 python")
print(m)

None


#### 정규표현식의 일반적인 흐름

> p = re.compile(정규표현식)  
m = p.match( 'string goes here' )  
if m:  
　　print('Match found: ', m.group())  
else:  
　　print('No match')  

-> match의 결괏값이 있을 때만 그다음 작업을 수행

==================================================
### search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사


In [4]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [5]:
# 문자열 전체를 검색하기 때문에 "3 " 이후의 "python" 문자열과 매치
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


==================================================
### findall() : 정규식과 매치되는 모든 문자열을 리스트로 반환

In [6]:
# 단어를 각각 [a-z]+ 정규식과 매치해서 리스트로 반환
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


==================================================
### finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환

In [8]:
# 반복 가능한 객체(iterator object)를 반환
# 반복 가능한 객체가 포함하는 각각의 요소는 match 객체
result = p.finditer("life is too short")
print(result)

for r in result: print(r)

<callable_iterator object at 0x0000017A0D675400>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


---
## match 객체의 메서드
|Method|목적|
|:--:|--|
|group()|매치된 문자열을 반환|
|start()|매치된 문자열의 시작 위치(인덱스)를 반환|
|end()|매치된 문자열의 끝 위치(인덱스)를 반환|
|span()|매치된 문자열의 (시작, 끝)에 해당하는 튜플을 반환|

In [2]:
m= p.match("python")
m.group()

'python'

In [3]:
m.start(), m.end()

(0, 6)

In [4]:
m.span()

(0, 6)

In [5]:
m = p.search("3 python")
m.group()

'python'

In [6]:
m.start(), m.end()

(2, 8)

In [7]:
m.span()

(2, 8)

---
## 모듈 단위로 수행하기
>p = re.compile('[a-z]+')  
m = p.match("python")  
  
--> 축약 -->  
> m = re.match('[a-z]+', "python")

---
## 컴파일 옵션

DOTALL(S) : . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.  
IGNORECASE(I) : 대소문자에 관계없이 매치할 수 있도록 한다.  
MULTILINE(M) : 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션)  
VERBOSE(X) : verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)  
사용 : re.DOTALL(전체 옵션 이름), 또는 re.S(약어)

==================================================
### DOTALL, S
 - ' . ' 메타 문자 : 줄바꿈 문자(\n)를 제외한 모든 문자와 매치  
 - re.DOTALL 또는 re.S : \n 문자도 포함
 - 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색할 때 많이 사용

In [8]:
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [9]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


==================================================
### IGNORECASE, I
 - 대소문자 구별 없이 매치를 수행할 때 사용하는 옵션

In [10]:
p = re.compile('[a-z]+', re.I)
p.match('python')

<re.Match object; span=(0, 6), match='python'>

In [11]:
p.match('Python')

<re.Match object; span=(0, 6), match='Python'>

In [12]:
p.match('PYTHON')

<re.Match object; span=(0, 6), match='PYTHON'>

==================================================
### MULTILINE, M
 - ^, $ 메타 문자를 문자열의 각 줄마다 적용
 - ^ : 문자열의 처음
 - $ : 문자열의 마지막


In [13]:
import re

# python으로 시작하고 whitespace, 단어 순
p = re.compile("^python\s\w+")

data = """python one
life is too short
python two
you need python
python three"""

# 첫번째 줄만 매치
print(p.findall(data))

['python one']


In [14]:
import re
p = re.compile("^python\s\w+", re.MULTILINE)
# ^ 메타 문자가 문자열 전체가 아닌 각 줄의 처음이라는 의미

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


==================================================
### VERBOSE, X
 - 정규식을 주석 또는 줄 단위로 구분
 - 문자열에 사용된 whitespace는 컴파일할 때 제거([ ] 안에 사용한 whitespace는 제외)
 - 줄 단위로 #기호를 사용하여 주석문을 작성할 가능

In [None]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [None]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

---
## 백슬래시 문제 : r사용

In [15]:
p = re.compile('\\\\section')

In [16]:
p = re.compile(r'\\section')