#### 정규표현식(Regular Expression)
- 특정한 패턴과 일치하는 문자열을 검색, 치환, 제거하는 기능 지원
- re 모듈
- 메타 문자 : ^ $ * + ? {} [] / | ()
- 정규식을 이용한 문자열 검색

    - match() : 문자열의 처음부터 정규식과 매치되는지 검사

    - search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사
    
    - findall() : 정규식과 매치되는 모든 문자열을 리스트로 리턴
    
    - finditer() : 정규식과 매치되는 모든 문자열을 iterator 객체로 리턴

In [1]:
# [abc] : 문자열에 a or b or c 가 매치 되는지 찾기

import re

string = "a"
p = re.compile("[abc]")

m = p.match(string)
print(m)

<re.Match object; span=(0, 1), match='a'>


In [8]:
# . : \n을 제외한 모든 문자를 포함
p = re.compile("D.A")
m = p.match("DAA")
print(m)
print(m.start()) # 첫 포함 위치
print(m.end()) # 마지막 포함 위치
print(m.group()) # match 한 요소
print(m.span()) # 포함된 결과 위치 정보

<re.Match object; span=(0, 3), match='DAA'>
0
3
DAA
(0, 3)


In [None]:
# 개수와 관련된 정규식
# * : 반복, 0 ~ 무한대
# ca*t = ct, cat, caaaaaaaat

# + : 반복, 1 ~ 무한대
# ca+t = ct(X), cat, caaaaaaaat

# {m} : m - 원하는 반복 횟수
# ca{2}t : cat(X), caat(O)

# {m, n} : m - 원하는 최소 반복 횟수, n - 원하는 최대 반복 횟수
# ca{2, 5}t : cat(X), caat(O), caaaaat

# ? :  0 ~ 1
# ab?c : abc, ac

In [26]:
p = re.compile("ab?c")
m = p.match("abc")
print(m)

p = re.compile("ab*c")
m = p.match("ac")
print(m)

p = re.compile("ab*c")
m = p.match("abbbbbbbbbbc")
print(m)

p = re.compile("ab+c")
m = p.match("ac")
print(m)

p = re.compile("ab+c")
m = p.match("abc")
print(m)

p = re.compile("ab{6}c")
m = p.match("abbbbbbc")
print(m)

p = re.compile("ab{2,5}c")
m = p.match("abbc")
print(m)

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 12), match='abbbbbbbbbbc'>
None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 8), match='abbbbbbc'>
<re.Match object; span=(0, 4), match='abbc'>


In [46]:
# [a-zA-z] : 모든 알파벳
# [0-9] : 모든 숫자
# [^bcd] : bcd를 제외한

p = re.compile("[a-gA-g]")
m = p.match("abc1234")
print(m)

p = re.compile("[a-zA-Z0-9]")
m = p.match("abc1234")
print(m)

p = re.compile("[^a-zA-Z0-9]")
m = p.match("abc1234")
print(m)

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
None


- 자주 사용하는 문자 클래스
    - \b == [0~9], \D == [^0~9]
    - \w == [a~zA~Z0~9], \W == [^a~zA~Z0~9]
    - \s == [\t\n\r\f\v], \S == [^\t\n\r\f\v] (공백)

In [28]:
p = re.compile(r"[\w]+")
m = p.match("abc1234")
print(m)

<re.Match object; span=(0, 7), match='abc1234'>


In [32]:
# [.] or \. : 마침표 자체를 의미

p = re.compile(r"a[.]b")
m = p.match("acb")
print(m)

m = p.match("a.b")
print(m)

None
<re.Match object; span=(0, 3), match='a.b'>


In [48]:
# .search : 첫번째 요소가 포함되지 않아도 다음요소부터 계속 찾아줌 => match 객체로 리턴
# .match : 첫번째 요소가 포함되지 않는다면 중지

p = re.compile("[a-z]+")
m = p.match("3 python")
print(m)

m = p.search("3 python")
print(m)

None
<re.Match object; span=(2, 8), match='python'>


In [54]:
result = p.findall("Game of Life is too short")
print(result)

result = p.finditer("Game of Life is too short")
print(result)

for i in result:
    print(i.group())

['ame', 'of', 'ife', 'is', 'too', 'short']
<callable_iterator object at 0x0000017530EB1E70>
ame
of
ife
is
too
short


In [55]:
# compile과 match를 동시에 실행
m = re.match(r"[a-z]+","abcdef")
print(m)

<re.Match object; span=(0, 6), match='abcdef'>


In [63]:
string = "python VS java"

spString = string.split(" VS ")
print(spString[0],spString[1])

# python jav
p = re.compile(" [A-Z]{2} ")
splited = p.split(string)
print(splited)

python java
['python', 'java']


In [64]:
string = "801210-10112243"
# - =>  * 변경 후 출력

string.replace("-","*")

'801210*10112243'

In [65]:
# .sub(타겟패턴, 바꿀패턴, 해당요소)
re.sub("-","*",string)

'801210*10112243'

In [87]:
from openpyxl import load_workbook, Workbook

# data_kr
# 주민등록번호 뒷자리를 ******* 로 바꿔서 출력

wb = load_workbook("./data_kr.xlsx")
ws = wb.active

p = re.compile("[0-9]{7}")

for i in ws.rows:
    print(re.sub(p,"*******",i[1].value))


주민등록번호
800215-*******
821030-*******
841230-*******
790903-*******
800125-*******
820612-*******


In [96]:
# 태그제거 후 아이폰 문자 남기기

string = "<b>아이폰</b>"

p = re.compile("<.+?>")
re.sub(p,"",string)

'아이폰'