# Regular Expression(정규 표현식)

In [1]:
import re

### 정규 표현식의 사용법

In [2]:
# 패턴 만들기
p = re.compile('abc')

a = 'abc'
print(p.match(a))

<re.Match object; span=(0, 3), match='abc'>


In [3]:
list_a = ['ab', 'a1b', 'a12b', 'a123b']
p = re.compile('ab')

for i in list_a:
    print(p.match(i))

<re.Match object; span=(0, 2), match='ab'>
None
None
None


- 아무것도 match() 되지 않으면 None을 출력한다.

- match object

    - 매치의 시작과 끝을 알려줌

    - 무엇이 매치된건지 알려줌

In [4]:
list_a = ['ab', 'a1b', 'a12b', 'a123b']
p = re.compile('a.b')

for i in list_a:
    print(p.match(i))

None
<re.Match object; span=(0, 3), match='a1b'>
None
None


- `.`
    - 모든 문자 숫자 공백을 말한다.
    - 어떤 문자든 1개가 있는 경우

- `..`

    - 어떤 문자든 2개가 있는 경우

In [5]:
list_a = ['ab', 'a1b', 'a12b', 'a123b']
p = re.compile('a.+b')

for i in list_a:
    print(p.match(i))

None
<re.Match object; span=(0, 3), match='a1b'>
<re.Match object; span=(0, 4), match='a12b'>
<re.Match object; span=(0, 5), match='a123b'>


- `.+`

    - .의 개수가 1개 이상이기만 하면 됨
    
    - 최소 1개 이상

In [6]:
list_a = ['ab', 'a1b', 'a12b', 'a123b']
p = re.compile('a.*b')

for i in list_a:
    print(p.match(i))

<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(0, 3), match='a1b'>
<re.Match object; span=(0, 4), match='a12b'>
<re.Match object; span=(0, 5), match='a123b'>


- `.*`

    - 어떠한 문자든 0개 이상이기만 하면 됨
    
    - 아무것도 없어도 됨
    

In [7]:
list_a = ['ab', 'a1b', 'a12b', 'a123b']
p = re.compile('a.{2,}b')

for i in list_a:
    print(p.match(i))

None
None
<re.Match object; span=(0, 4), match='a12b'>
<re.Match object; span=(0, 5), match='a123b'>


- `{ }`

    - 범위 지정

    - 횟수 지정

In [8]:
list_a = ['123, ab', 'ab', 'a1b', 'a12b', 'a123b']
p = re.compile('ab')

for i in list_a:
    print(p.match(i))

None
<re.Match object; span=(0, 2), match='ab'>
None
None
None


- 매치는 처음부터 탐색을 함

In [9]:
list_a = ['123 ab', 'ab', 'a1b', 'a12b', 'a123b']
p = re.compile('ab')

for i in list_a:
    print(p.search(i))

<re.Match object; span=(4, 6), match='ab'>
<re.Match object; span=(0, 2), match='ab'>
None
None
None


- search()

    - 문자열 전체에서 찾아서 표시를 해준다.

In [10]:
a = 'ab abcd abaaadaf sdfbsdf'
p = re.compile('a')

print(p.findall(a))

['a', 'a', 'a', 'a', 'a', 'a', 'a']


- findall()

    - 문자가 있는 것만 골라낼때 사용

In [11]:
list_a = ['ab', 'a1b', 'a12b', 'a123b']
p = re.compile('a.*b')

for i in list_a:
    print(p.match(i).group())

ab
a1b
a12b
a123b


- group()

- start()

- end()

- span()

In [12]:
list_a = ['ab', 'a1b', 'a12b', 'a123b']
p = re.compile('A.*B', re.I)

for i in list_a:
    print(p.match(i))

<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(0, 3), match='a1b'>
<re.Match object; span=(0, 4), match='a12b'>
<re.Match object; span=(0, 5), match='a123b'>


- re.I

    - 대소문자를 무시하고 매치를 함

    - re.IGNORECASE

- 다른 옵션들도 있음

In [13]:
list_a = ['ab', 'a1b', 'a12b', 'accb', 'a123b']
p = re.compile('a\D\Db')

for i in list_a:
    print(p.match(i))

None
None
None
<re.Match object; span=(0, 4), match='accb'>
None


### 문자 클래스

\d, \D, \s, \S, \w, \W, \b, \B, \A, \Z

- 단, 파이썬에서는 \ 앞에 r을 입력해줘야 한다.

- ex) r'a\bb'

- \ 를 사용할꺼면 r'' 를 하는게 좋다.

### 그루핑

In [14]:
a = '홍길동 - 학점 2.0'
p = re.compile(r'(?P<name>\w+)\s.\s(?P<grade>.+\s.+)')

print(p.match(a).group(1))
print(p.match(a).group(2))

홍길동
학점 2.0


In [15]:
a = '홍길동 - 홍길동'
p = re.compile(r'(?P<name>\w+)\s.\s\1')

print(p.match(a))

<re.Match object; span=(0, 9), match='홍길동 - 홍길동'>


In [16]:
a = '홍길동 - 이순신'
p = re.compile(r'(?P<name>\w+)\s.\s\1')

print(p.match(a))

None


### 대치

- 매치 되는 것들을 바꾸고 싶을때 사용

- .sub(바뀌는 내용, 바뀌는 대상)


In [17]:
list_a = ['ab', 'a1b', 'a12b', 'accb', 'a123b']
p = re.compile('a..b')

for i in list_a:
    print(p.sub('dddd', i))

ab
a1b
dddd
dddd
a123b


- 내용 위치 바꾸기

In [18]:
a = '홍길동 - 학점 2.0'
p = re.compile(r'(?P<name>\w+)\s.\s(?P<grade>.+\s.+)')

print(p.sub("\g<grade> - \g<name>", a))
# print(p.match(a).group(1))

학점 2.0 - 홍길동
