# Regular Expression

# 1. Meta Characters (메타 문자)

-원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자

예) . ^ & + ? { } [ ] \ | ( )

## 1. 문자 클래스: [ ]

-[ ] 사이의 문자들과 매치

예1) [abc]라면 "a, b, c 중 한 개의 문자와 매치"

예2) [a-c]라면 [abc]와 동일, [0-5]라면 [012345]와 동일

예3) [a-zA-Z] : 알파벳 대소문자 모두

예4) [0-9] : 숫자

-[^]를 쓰게 되면 not에 해당하는 것을 찾아줌

예1) [^0-9] : 숫자가 아닌 문자만 매치

### * 자주 사용하는 문자 클래스

-[\d] = [0-9] : 숫자와 동일

-[\D] = [^0-9] : 숫자가 아닌 문자만 매치

-[\s] : whitespace 문자와 매치

-[\S] : whitespace 문자가 아닌 것과 매치

-[\w] = [a-zA-Z0-9_] : 문자+숫자와 매치

-[\W] : 문자+숫자가 아닌 문자와 매치

### 1. Dot (.)

-Dot 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치됨을 의미함

-a.b : "a + 모든 문자 + b"

예1) a0b는 a,b 사이에 무슨 문자라도 있으므로 정규식과 매치됨

예2) abc는 a,b 사이에 어떤 문자도 없으므로 정규식과 매치되지 않음

- a[.]b : "a + Dot(.) 문자 + b"

-그러니까 진짜로 문자 그대로 . 문자를 의미함

### 2. 반복(*)

-* 바로 앞에 있는 문자가 0부터 무한대로 반복될 수 있다는 의미

예1) ca*t

-ct는 매치됨 (a가 0번 반복)

-caaaat는 매치됨 (a가 4번 반복)

### 3. 반복(+)

-최소 1번 이상 반복될 때 사용!

예1) ca+t

-ct는 매치 안 됨!

-cat는 매치됨

### 4. 반복( {m, n}, ?)

-{m, n} 메타문자를 사용하면 반복횟수 고정 가능함 (m부터 n까지)

예1) {3, } : 반복 횟수 3이상

예2) {, 3} : 반복 횟수 3 이하

예3) {1, } = +

예4) {0, } = *


* ca{2}t = "c + a(반드시 2번 반복) + t" = caat만 매치

* ca{2, 5}t = "c + a(2~5회 반복) + t" = caat, caaat, caaaat 매치


-? 메타문자는 {0,1}을 의미함

예1) ab?c = "a + b(있어도 되고 없어도 됨) + c" = abc, ac 둘다 매치

---
## re 모듈

-정규 표현식을 지원함

-re.compile을 이용해서 정규표현식을 컴파일

-컴파일된 정규식의 결과를 '패턴'이라고 함

In [1]:
import re

p = re.compile('ab*')

---
## 정규식을 이용한 문자열 검색에 관한 메서드

1.match( ) : 문자열의 처음부터 정규식과 매치되는지 조사함

2.search( ) : 문자열 전체를 검색하여 정규식과 매치되는지 조사함

3.findall( ) : 정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려줌

4.finditer( ) : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 돌려줌

In [2]:
# 일단 패턴을 만들어보자

import re

p = re.compile('[a-z]+') # 모든 알파벳 소문자에 대해서 1번 이상 나왔는지

### 1. match

-문자열의 처음부터 정규식과 매치되는가?

In [3]:
m = p.match("python") # 위 패턴에 match 메서드를 수행
print(m)

<re.Match object; span=(0, 6), match='python'>


In [5]:
m = p.match("3 python") # 처음에 숫자니까 매치 안 됨
print(m)

None


In [16]:
p = re.compile('[a-z]+')
m = p.match('string goes here')

if m:
    print("Match Found: ", m.group())
    
else:
    print("No Match")

Match Found:  string


### 2. search

In [17]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [18]:
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


### 3. findall

In [20]:
result = p.findall("life is too short")
print(result)

# 문자열의 단어 각각을 [a-z]+ 정규식과 매치해서 리스트로 돌려줌

['life', 'is', 'too', 'short']


### 4. finditer

-findall과 동일하지만 그 결과로 반복가능한 객체를 돌려줌

-반복가능한 객체가 포함하는 각각의 요소는 match 객체

In [21]:
result = p.finditer("life is too short")
print(result)

<callable_iterator object at 0x10bd23ed0>


In [22]:
for r in result: print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


---
## match 객체의 메서드

-match 메서드와 search 메서드를 수행한 결과, match 객체를 돌려받았음

1. group( ) : 매치된 문자열 돌려줌

2. start( ) : 매치된 문자열의 시작위치를 돌려줌

3. end( ) : 매치된 문자열의 끝 위치 돌려줌

4. span( ) : 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려줌

In [23]:
m = p.match("python")
m.group()

'python'

In [26]:
print(m.start())
print(m.end())
print(m.span())

0
6
(0, 6)


In [27]:
m = p.search("3 python")

print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
2
8
(2, 8)


### 축약된 형태로 사용하기

In [32]:
# 여러번 사용해야 할 경우에는 이게 나음
p = re.compile('[a-z]+')
m = p.match("python")

In [31]:
# 한 줄로
m = re.match('[a-z]+', "python")
m.start()

0

---
## 컴파일 옵션

1. DOTALL(S) : "." 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다

2. IGNORECASE(I) : 대소문자 관계없이 매치

3. MULTILINE(M) : 여러줄과 매치할 수 있도록 함

4. VERBOSE(X) : verbose 모드를 사용할 수 있도록 함

-괄호 안은 약어

## 1. DOTALL (S)

-여러줄로 이루어진 문자열에서 \n에 관계없이 검색할 때 많이 사용함

In [33]:
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [34]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


## 2. IGNORECASE (I)

-대소문자 구별 없이 매치를 수행함

In [35]:
p = re.compile('[a-z]', re.I)
p.match('Python')

<re.Match object; span=(0, 1), match='P'>

## 3. MULTILINE (M)

-^ : 문자열의 처음

-$ : 문자열의 마지막

예) ^python인 경우 문자열의 처음은 항상 python으로 시작해야하고, python$라면 항상 python으로 끝나야만 매치됨

In [36]:
import re

p = re.compile("^python\s\w+") # python이라는 문자열로 시작하고 그 뒤에 whitespace 그 뒤에 단어가 와야 함

data = """python one
life is too short
python two
you need python
python three"""

In [37]:
print(p.findall(data))

['python one']


In [39]:
p = re.compile("^python\s\w+", re.M) # multiline 써서 각 줄별로 보게끔 해줌
print(p.findall(data))

['python one', 'python two', 'python three']


## 4. VERBOSE (X)

-정규식을 주석 또는 줄 단위로 구분

In [40]:
charref = re.compile(r'&[#](0[0-7]+|[0+9]+|x[0-9a-fA-F]+);')

In [41]:
charref = re.compile(r"""
&[#]                # STart of a numeric entity reference
(
    0[0-7]+         # octal form
  | [0-9]+          # decimal form
  | x[0-9a-fA-F]+   # Hexadecimal form
)
;                   # Trailing semicolon
""", re.VERBOSE)

---

# 백슬래시 문제

-"\section"이라는 문자열을 찾기 위한 정규식을 만들 때, 이건 \s로 인식되어서 whitespace라고 여길 것

-그래서 "\\\\section"으로 변경해줘야 함

In [42]:
p = re.compile('\\\\section')

### Raw String 규칙!

-컴파일해야 하는 정규식이 Raw String임을 알려줘야 함

In [43]:
p = re.compile(r'\\section')