<a href="https://colab.research.google.com/github/SeongwonTak/TIL_swtak/blob/master/0907_Regular_Expression_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 정규 표현식 이해하기 1편
[참고]  
1. https://nachwon.github.io/regular-expressions/  
2. https://wikidocs.net/4308

## 정규 표현식의 기본 문법

### 메타 문자
. ^ $ * + ? { } [ ] \ | ( )  
이들은 메타 문자에 해당되는데, 정규 표현식에서는 이들을 사용할 경우 특별한 용도로 사용된다. 

### [] 클래스
[]는 대괄호 안에 포함된 문자 중 하나랑 매치했는가를 뜻한다.


In [None]:
[abc] # abc 중 하나와 매치했는가?

[]안에 -를 사용할 경우 범위를 뜻한다.

In [None]:
[a-zA-Z] # 모든 알파벳
[0-9] # 모든 숫자

[]안에서 ^이 쓰일 경우 반대를 뜻한다.

In [None]:
[^0-9] # 숫자를 제외한 모든 문자
[^jkl] # j, k, l을 제외한 모든 문자와 매치

### 문자와 문자 사이 판단


In [None]:
a.b # a + 모든 문자 + b
a[.]b # a + 마침표 + b
ab*a  # a + (0개 이상의 b)+ a  # * 앞의 문자가 0 포함 몇개가 오든 매치
ab+a  # a + (1개 이상의 b)+ a  # + 앞의 문자가 1개 이상일 경우 매치
lo?l # ? 앞에 있는 문자가 없거나 하나인 경우에만 매치  2개 이상은 매치 안됨
ab{4, 7}a  #  a + (b가 4~7번) + a  # {m, n} 앞의 문자가 m번 이상 n번 반복 시 매치

### 문자의 시작과 끝 판단

In [None]:
^a # a로 시작하는 문자열일 경우 매치
$a # a로 끝나는 문자열일 경우 매치

### 조건이 있는 표현식 (앞 뒤 고려하기)

In [None]:
# 표현식1(?=표현식2) 형태는 표현식 1 뒤의 문자열이 표현식2일 경우 표현식 1이 매치됨
hello(?=world)  # hello 뒤에 world가 올 경우 hello가 매치된다.

# 표현식1(?!표현식2) 형태는 위와 반대로 표현식 1 뒤 문자열이 표현식2가 아닐경우 표현식1이 매치됨
hello(?!world) # hello 뒤에 world가 아닐 경우에 hello가 매치된다.

# (?<=표현식1)표현식2 형태는 표현식2 앞의 문자열이 표현식1일 경우 표현식2가 매치됨
(?<=hello)world # world 앞에 hello가 있으면 world를 매치

# (?<!표현식1)표현식2 형태는 표현식2 앞의 문자열이 표현식1이 아닐경우 표현식2가 매치됨
(?<!hello)world # world 앞에 hello가 아닐 경우 world를 매치

## Python 정규 표현식 모듈 - re
파이썬에서는 re 모듈을 통해 정규표현식을 사용한다.

In [4]:
import re

### 정규식을 활용한 문자열 검색 _ 기본
- match : 문자열의 처음부터 정규식과 매치되는지 조사
- search : 문자열 전체를 검색하여 정규식과 매치되는지 조사
- findall : 정규식과 매치되는 모든 문자열을 리스트로 반환
- finditer : 정규식과 매치되는 모든 문자열을 반복 가능한 개체로 반환

In [10]:
# match 사용
p = re.compile('[a-z]+')

a = p.match("python")
b = p.match("Python")  # 대문자가 있어서 실패
c = p.match("3python")  # 숫자가 있어서 실패

print(a)
print(b)
print(c)

# match의 메서드들
print(a.group())
print(a.start())
print(a.end())
print(a.span())

<re.Match object; span=(0, 6), match='python'>
None
None
python
0
6
(0, 6)


In [6]:
# findall 사용
result = p.findall("life is too short to code it")
print(result)

['life', 'is', 'too', 'short', 'to', 'code', 'it']


In [9]:
# search 사용
# search는 어떤 문자열이 매치되었는지, 어디서부터 어디가 매칭되었는지를 볼 수 있다.
m = p.search('9 darams')
print(m.group()) # 해당 단어 찾기
print(m.start()) # 문자열 시작 위치
print(m.end()) # 문자열 끝 위치
print(m.span()) # 시작 ~ 끝


darams
2
8
(2, 8)


## ( ) 그룹화

정규표현식을 ( ) 안에 넣을 경우 해당 부분만 그룹화 된다. groups 메서드를 통해 그룹들을 튜플 형태로 리턴한다.

In [14]:
p = re.search('(hey)(yaho)', 'heyyaho')
grouping = p.groups()

print(p.group())
print(p.group(0)) # 전체
print(p.group(1)) # 1번째 그룹 매치 결과
print(p.group(2)) # 2번째 그룹 매치 결과

heyyaho
heyyaho
hey
yaho


In [19]:
# 특정 문자열의 반복을 검사하기 위해서도 사용 가능하다.
p = re.compile('(AB)+')
m = p.search('CCABABAACABABC')
print(m)
print(m.group())

<re.Match object; span=(2, 6), match='ABAB'>
ABAB


## 정규식 컴파일 옵션

### 줄바꿈 문자 고려하기 - DOTALL, S
기본적으로 메타 문자들은 줄바꿈 문자인 \n을 제외한 모든 문자와 매치된다.  
그러나, \n도 포함하여 매치하고 싶다면, re.DOTALL 혹은 re.S를 사용한다.  

In [12]:
p1 = re.compile('a.b')
p2 = re.compile('a.b', re.DOTALL)

print(p1.match('a\nb'))  # 줄바꿈 문자는 매칭이 불가능.
print(p2.match('a\nb'))  # 그러나 DOTALL을 사용하여 매칭한다.

None
<re.Match object; span=(0, 3), match='a\nb'>


### 대소문자 구별하지 않기 - IGNORECASE, I
IGNOREASE, I 옵션은 대소문자를 구별하지 않고 매치를 사용할 때 쓰는 옵션이다.

In [13]:
p = re.compile('[a-z]', re.I)
print(p.match('python'))
print(p.match('pyThon'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>


## 문자열 바꾸기, sub

In [21]:
p = re.compile('[0-9]')
p.sub('Num', '3.14 is pi')

'Num.NumNum is pi'