# 정규표현식(Regular Expression)
    : 복잡한 문자열을 처리할 때 사용하는 기법
    : 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용한다
    
    *참고자료1: https://wikidocs.net/1642
    *참고자료2: https://nachwon.github.io/regular-expressions/

###### Q: 정규표현식은 왜 필요한가?
    A: 복잡한 구문을 보다 간단하게 줄여쓰기 쌉가능

### 1. 정규표현식의 기초, 메타 문자(meta characters)
    Q: 메타 문자란?
    A: 문자가 고유의 뜻이 아닌 특별한 용도로 사용하는 문자

###### 1) [] 문자 클래스
    : 정규표현식에서 대괄호 [] 는 대괄호 안에 포함된 문자들 중 하나와 매치를 뜻한다.

In [None]:
[abc] # abc 중 하나와 매치
'a' # a와 매치
'boy' # b와 매치
'dye' # a, b, c 중 어느 문자와도 매치되지 않음

###### 1-1) [] 안의 두 문자에 -를 사용하면 두 문자 사이의 범위를 뜻한다.

In [None]:
[a-c] # [abc]와 같음
[0-5] # [012345]와 같음
[a-zA-Z] # 모든 알파벳
[0-9] # 숫자

###### 1-2)자주 사용하는 문자 클래스

In [None]:
문자 클래스	---> 설명
\d	------> 숫자 [0-9]와 같다.
\D	------> 비숫자 [^0-9]와 같다.
\w	------> 숫자 + 문자 [a-zA-Z0-9]와 같다.
\W	------> 숫자 + 문자가 아닌 것 [^a-zA-Z0-9]와 같다.
\s	------> 공백 [ \t\n\r\f\v]와 같다.
\S	------> 비공백 [^ \t\n\r\f\v]와 같다.
\b	------> 단어 경계 (`\w`와 `\W`의 경계)
\B	------> 비단어 경계

###### 1-3) [^xy] 
    : [] 안에서 ^는 반대를 뜻한다.

In [None]:
[^0-9] # 숫자를 제외한 문자만 매치
[^abc] # a, b, c를 제외한 모든 문자와 매치

###### 2) . 모든 문자
    : .은 줄바꿈 문자인 \n 을 제외한 모든 문자와 매치된다.
    : cf) [] 사이에서 .을 사용할 경우 문자 원래의 의미인 마침표가 된다.

In [None]:
a.b # 'a + 모든 문자 + b'를 뜻함
    aab # a와 b 사이의 a는 모든 문자에 포함되므로 매치
    a0b # a와 b 사이의 0은 모든 문자에 포함되므로 매치
    abc # a와 b 사이에 문자가 없기 때문에 매치되지 않음


a[.]b
    a.b # a와 b 사이에 마침표가 있으므로 매치
    a0b # a와 b 사이에 마침표가 없으므로 매치 안됨

###### 3) * 반복
    : * 앞에 오는 문자가 0개를 포함하여 몇 개가 오든 모두 매치된다.

In [None]:
lo*l
    ll # 매치
    lol # 매치
    looool # 매치
    looooooooooooooooooooool # 매치
    lbl # 매치 안됨
    loooooooooooobooooooool # 매치 안됨

###### 4) + 최소 한 번 이상 반복
    : + 앞에 있는 문자가 최소 한 번 이상 반복되어야 매치된다.

In [None]:
lo+l
    ll # 매치 안됨
    lol # 매치
    looooool # 매치

###### 5) ? 없거나 하나 있거나
    : ? 앞에 있는 문자가 없거나 하나 있을 때 매치된다.

In [None]:
lo?l
    ll # 매치
    lol # 매치
    lool # 매치 안됨

###### 6) {m, n} 반복 횟수 지정
    : {m, n} 앞에 있는 문자가 m 번에서 n 번까지 반복될 때 매치된다.
    : {m}의 형태로 사용하면 반드시 m 번 반복인 경우만 매치된다.
    : {0,} 는 *, {1,} 는 +, {0,1} 는 ? 와 각각 동일하다.

In [None]:
lo{3, 5}l
    ll # 매치 안됨
    lol # 매치 안됨
    loool # 매치
    loooool # 매치
    looooool # 매치 안됨

###### 7) | 여러 개의 표현식 중 하나
    : 여러 개의 정규표현식들을 | 로 구분하면 or 의 의미가 적용되어 정규표현식들 중 어느 하나와 매치된다.

In [None]:
a|b|c # hello or hi or bye
    a # 매치
    b # 매치
    c # 매치
    a b # 매치
    a b c # 매치
    d # 매치 안됨

###### 8) ^ 문자열의 제일 처음과 매치
    : 문자열이 ^의 뒤에 있는 문자로 시작되면 매치된다.
    : 여러 줄의 문자열일 경우 첫 줄만 적용된다.
    : (단, re.MULTILINE 옵션이 적용되면 각 줄의 첫 문자를 검사하여 매치된다.)

In [None]:
^a
    a # 매치
    aaa # 매치
    baaa # 매치 안됨
    1aaa # 매치 안됨

######  9) (달러) 문자열의 제일 마지막과 매치
    : 문자열이 $의 앞에 있는 문자로 끝나면 매치된다.
    : 여러 줄의 문자열일 경우 마지막 줄만 적용된다.
    : (단, re.MULTILINE 옵션이 적용되면 각 줄의 마지막 문자를 검사하여 매치된다.)

In [None]:
a$
    a # 매치
    aa # 매치
    baa # 매치
    aabb # 매치안됨

###### 10) \A , \Z ---> 8, 9번 개념 참고
    : \A 는 ^ 와 동일하지만 re.MULTILINE 옵션을 무시하고 항상 문자열 첫 줄의 시작 문자를 검사한다.
    : \Z 는 (달러) 와 동일하지만 re.MULTILINE 옵션을 무시하고 항상 문자열 마지막 줄의 끝 문자를 검사한다.

###### 11) 조건이 있는 표현식

In [None]:
다음의 표현들은 조건을 가진 정규표현식이다.

표현식1(?=표현식2): 표현식1 뒤의 문자열이 표현식2와 매치되면 표현식1 매치.

'hello(?=world)' # hello 뒤에 world가 있으면 hello를 매치
helloworld # hello 뒤에 world가 있기 때문에 hello가 매치됨
byeworld # hello가 없기 때문에 매치 안됨
helloJames # hello 뒤에 world가 없기 때문에 매치 안됨
표현식1(?!표현식2): 표현식1 뒤의 문자열이 표현식2와 매치되지 않으면 표현식1 매치.

'hello(?!world)' # hello 뒤에 world가 없으면 hello를 매치
helloworld # hello 뒤에 world가 있기 때문에 매치 안됨
byeworld # hello가 없기 때문에 매치 안됨
helloJames # hello 뒤에 world가 없기 때문에 hello가 매치됨
(?<=표현식1)표현식2: 표현식2 앞의 문자열이 표현식1과 매치되면 표현식2 매치.

'(?<=hello)world' # world 앞에 hello가 있으면 world를 매치
helloworld # world 앞에 hello가 있기 때문에 world가 매치됨
byeworld # world 앞에 hello가 없기 때문에 매치 안됨
helloJames # world가 없기 때문에 매치 안됨
(?<!표현식1)표현식2: 표현식2 앞의 문자열이 표현식1과 매치되지 않으면 표현식2 매치.

'(?<!hello)world' # world 앞에 hello가 없으면 world를 매치
helloworld # world 앞에 hello가 있기 때문에 매치 안됨
byeworld # world 앞에 hello가 없기 때문에 world가 매치됨
helloJames # world가 없기 때문에 매치 안됨

### 2. re Python 정규표현식 모듈
    : Python 에서는 re 모듈을 통해 정규표현식을 사용한다.

In [11]:
import re

###### 1) compile - 정규표현식의 컴파일
    : 파이썬에서는 re.compile() 명령을 통해 정규표현식을 컴파일하여 변수에 저장한 후 사용할 수 있다.
    : 형식 ---> 변수이름 = re.compile('정규표현식')

In [14]:
# 정규표현식을 컴파일하여 변수에 할당한 후 타입을 확인해보면
# _sre.SRE_Pattern 이라는 이름의 클래스 객체인 것을 볼 수 있다.


p = re.compile('[abc]')
print(type(p))

<class 're.Pattern'>


### 3. 패턴 객체의 메서드
    : 패턴 객체는 매치를 검색할 수 있는 네 가지 메서드를 제공한다.

###### 1) match(): 시작부터 일치하는 패턴 찾기 ----> 4. 매치 객에의 메서드 참고
    : 문자열의 처음 시작부터 검색하여 일치하지 않는 부분이 나올 때까지 찾는다.
    : 검색의 결과로 _sre.SRE_Match 객체를 리턴한다.

In [21]:
p.match('aaaaa')
# <_sre.SRE_Match object; span=(0, 5), match='aaaaa'>

p.match('bbbbbbbbb')
# <_sre.SRE_Match object; span=(0, 9), match='bbbbbbbbb'>

p.match('1aaaa')
# None

p.match('aaa1aaa')
# <_sre.SRE_Match object; span=(0, 3), match='aaa'>

<re.Match object; span=(0, 1), match='a'>

###### 2) search(): 전체 문자열에서 첫 번째 매치 찾기
    : 문자열 전체에서 검색하여 처음으로 매치되는 문자열을 찾는다

In [None]:
ex)

###### 3) findall(): 모든 매치를 찾아 리스트로 반환
    : 문자열 내에서 일치하는 모든 패턴을 찾아 리스트로 반환한다.

In [15]:
p.findall('aaa')
# ['aaa']

p.findall('11aaa')
# ['aaa']

p.findall('1a1a1a1a1a')
# ['a', 'a', 'a', 'a', 'a']

p.findall('1aa1aaa1a1aa1aaa')
# ['aa', 'aaa', 'a', 'aa', 'aaa']

['aa', 'aaa', 'a', 'aa', 'aaa']

###### 4) finditer(): 모든 매치를 찾아 반복가능 객체로 반환
    : 모든 매치를 찾아 반복가능 객체로 반환한다

In [19]:
p.finditer('a1bb1ccc')

# callable_iterator라는 객체가 반환됨

<callable_iterator at 0x19bb9f506d0>

In [20]:
# callable_iterator라는 객체를 for을 사용하여 하나씩 출력하기

f_iter = p.finditer('a1bb1ccc')
for i in f_iter:
    print(i)

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='b'>
<re.Match object; span=(5, 6), match='c'>
<re.Match object; span=(6, 7), match='c'>
<re.Match object; span=(7, 8), match='c'>


### 4. 매치 객체의 메서드
    : 패턴 객체의 메서드를 통해 리턴된 매치 객체는 아래와 같은 정보를 담고 있다.
    : <_sre.SRE_Match object; span=(매치 시작지점 인덱스, 매치 끝지점 인덱스), match='매치된 문자열'>

###### 1) 매치 객체의 4가지 내부정보 접근 메서드
    메서드	---> 기능
    group()	---> 매치된 문자열 출력
    start()	---> 매치 시작지점 인덱스 출력
    end()	---> 매치 끝지점 인덱스 출력
    span()	---> (start(), end())를 튜플로 출력

In [25]:
# 정규표현식을 컴파일하여 변수에 할당한 후 타입을 확인해보면
# _sre.SRE_Pattern 이라는 이름의 클래스 객체인 것을 볼 수 있다.


p = re.compile('[abc]')
print(type(p))

<class 're.Pattern'>


In [26]:
# 매치 오브젝트 얻기


p = re.compile('[a-z]+')
result = p.search('1aaa11aaa1')
print(result)

<re.Match object; span=(1, 4), match='aaa'>


In [27]:
# 매치 객체의 메서드의 실행


result.group()
# aaa

result.start()
# 1

result.end()
# 4

result.span()
# (1, 4)

(1, 4)

### 5. () 그룹화
    : 정규표현식을 () 안에 넣으면 그 부분만 그룹화된다.
    : groups 메서드를 통해 그룹들을 튜플 형태로 리턴 할 수 있다.
    : group 메서드를 통해 각 그룹을 호출할 수 있다.

In [29]:
p = re.search('(hello)(world)', 'helloworld') # 정규표현식 hello와 world의 매치 결과를 각각 그룹화
grouping = p.groups()
print(grouping)

# 각 그룹의 매치 결과가 튜플로 묶여서 리턴됨

('hello', 'world')


In [30]:
# group 메서드를 통해 각 그룹을 호출

p.group() # 인자를 넣지 않으면 전체 매치 결과 리턴
# helloworld

p.group(0) # group()와 같다
# helloworld

p.group(1) # 1번 그룹 매치 결과 리턴
# hello

p.group(2) # 2번 그룹 매치 결과 리턴
# world

'world'