## 🛠️ 정규 표현식 뽀개기

- 정규 표현식(Regular Expressions): 정규식이라고도 하며, 복잡한 문자열을 처리할 때 사용하는 기법
 - 파이썬에만 사용되는 고유 문법이 아님, 특정 규칙이 있는 문자열 집합을 추출할때 자주 사용됨<br>

#### "메타문자"
-> `. ^ $ * + ? { } [ ] \ | ( )`와 같이 원래 의미가 아니라 다른 의미로 쓰이는 문자

#### 1. [ ]: [ 와 ] 사이 문자와 매칭 (or 의미)
- ex. [abc]이면 어떤 텍스트에 a 또는 c 텍스트가 있는지 찾아라
- [a-zA-Z] : **알파벳 모두**
- [0-9]: 숫자

#### 2. `.` (점): \n을 제외한 모든 문자와 매치됨
- ex. `a.b`: 'a +모든 문자 + b'
 - aab, abb, acb, aub 다 매칭
- cf.중괄호 사이에 (.)이 있으면 문자 그대로 . 마침표를 의미

#### 3. 반복(*)
- 바로 앞에 있는 문자가 0부터 약 2억개까지 반복될 수 있음
- ex. ba*t, bat, baat, baaat 모두 매치
- **{m, n}** 있으면 고정횟수 정할 수 있음 (m이상 n이하)
 - ba{2}t = baat 무조건 2번 반복
 - ba{2,}t = 2번 이상 ~ 
 - ba{,2}t = 2번 이하
 - ba{1,4}t = 1~4번 반복

#### 4. + (1개 이상 출현), ? (or 같이 있어도 되고 없어도 됨)
- 핸드폰 번호 표기: [0-9]+-[0-9]+-[0-9] => 개수 고정하면, [0-9]{3}-[0-9]{3,4}-[0-9]
- ab?c: abc 또는 ab 둘다 가능

#### 5. `^`: 시작, `$`:끝
- ^python: 문자열 시작 항상 python으로 시작
- python$: 마지막은 항상 python 단어로 끝

---

### 자주 사용하는 문자 클래스!

- \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
- \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
- \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
- \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
- \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
- \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.

### 정규식을 이용한 문자열 검색

1) match(): 문자열의 처음부터 정규식과 매치되는지 조사 / 매치 안되면 None <br>
 - `group()`: 매치된 문자열 반환
 - `start()`, `end()`: 시작위치, 끝 위치 int로 반환
 - `span()`:  문자열 (시작, 끝)에 해당하는 튜플 반환
 
2) search(): 문자열 전체를 검색해 정규식과 매치되는지 조사 / 매치 안되면 None <br>
3) findall():정규식과 매치되는 모든 문자열(substring)을 `리스트`로 돌려줌 <br>
4) finditer(): 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려줌

In [2]:
import re

p = re.compile('[a-z]+')

m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [3]:
# 대문자로 하면 처음부터 일치하지 않아서  None

m = p.match("Python")
print(m)

None


In [35]:
# 조건을 걸어 많이 사용함

p = re.compile('[a-zA_Z]+')
m = p.match('Everday we are trying our best!')
if m:
    print('Match Found', m.group()) # 그룹함수 -매치된 문자열을 반환
else:
    print('No Match')

No Match


In [36]:
m = p.search("python10")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [42]:
p = re.compile('[\w]+')  #문자와 숫자 모두
result = p.findall("you are so lovely and smart 2")
print(result)

['you', 'are', 'so', 'lovely', 'and', 'smart', '2']


In [44]:
result = p.finditer("Happy Life with beautiful house and nature, 99")
print(result)

for i, r in enumerate(result):
    print(i, r)
    print(r.group())
    print(r.span())

<callable_iterator object at 0x000002052C0E85E0>
0 <re.Match object; span=(0, 5), match='Happy'>
Happy
(0, 5)
1 <re.Match object; span=(6, 10), match='Life'>
Life
(6, 10)
2 <re.Match object; span=(11, 15), match='with'>
with
(11, 15)
3 <re.Match object; span=(16, 25), match='beautiful'>
beautiful
(16, 25)
4 <re.Match object; span=(26, 31), match='house'>
house
(26, 31)
5 <re.Match object; span=(32, 35), match='and'>
and
(32, 35)
6 <re.Match object; span=(36, 42), match='nature'>
nature
(36, 42)
7 <re.Match object; span=(44, 46), match='99'>
99
(44, 46)


### 정규식 컴파일 옵션
- DOTALL(S) - . 이 줄바꿈 문자(`\n`)를 포함하여 모든 문자와 매치할 수 있도록 한다.
- IGNORECASE(I) - **대소문자에 관계없이** 매치할 수 있도록 한다.
- MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. 
 - (^, $ 메타문자의 사- 용과 관계가 있는 옵션이다)
- VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)
- 약어로 사용하고 싶을 때, `re.(S), re(I), re(M)` 등으로 표기

In [2]:
import re

p = re.compile('a.b')
m = p.match('a\nb')
print(m)

# 온점과 줄바꿈 문자가 매치되지 않아서 None 반환

None


In [3]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


- re.DOTALL은 보통 여러 줄로 이뤄진 문자열에서 \n에 상관없이 검색할때 많이 사용

In [4]:
p = re.compile('[a-z]+', re.I)
p.match('afterlike')

<re.Match object; span=(0, 9), match='afterlike'>

In [5]:
p.match('Fantastic Moment')

<re.Match object; span=(0, 9), match='Fantastic'>

- Multiline (M): line 별로 적용  
 - `^` 메타 문자가 문자열 전체가 아닌 각 줄의 처음
 - `$` 메타 문자가 문자열 전체가 아닌 각 줄의 처음

In [14]:
import re
p = re.compile("^python\s\w+", re.MULTILINE)

data = """python ten
This is a daily learning record
which is written by autonomous author.
Python is object-oriented programming lanuguage
"""

print(p.findall(data))

['python ten']


In [11]:
import re
p = re.compile("^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']
