#### 정규표현식 : regex
- 문자열을 특정한 패턴으로 처리할 때 사용하는 문법
- 정규표현식 함수 : findall(), sub()
- 정규표현식 패턴 : 지정자
- 예제 : 이메일찾기, 주민등록번호치환
- 중고나라의 전화번호 찾아서 숫자로 치환 : 영10-구삼76 삼삼5o -> 01093763355

In [3]:
import re

In [1]:
# 1. 정규표현식 함수

In [2]:
data = "data science jupyter notebook macbook"

In [5]:
re.findall("book", data)

['book', 'book']

In [7]:
re.findall("[a-z]+book", data)

['notebook', 'macbook']

In [8]:
re.sub("book", "data", data)

'data science jupyter notedata macdata'

In [10]:
re.sub("[a-z]+book", "testbook", data)

'data science jupyter testbook testbook'

In [12]:
# 2. 지정자

In [14]:
import string
data = string.printable
len(data), data

(100,
 '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c')

In [13]:
# [] : 문자하나하나 찾음

In [15]:
re.findall("[abc123]", data)

['1', '2', '3', 'a', 'b', 'c']

In [17]:
re.findall("abc", data)# 문자열 자체를 패턴으로 인식해서 찾음

['abc']

In [18]:
# - : 범위

In [19]:
re.findall("[abcdef12345]", data)

['1', '2', '3', '4', '5', 'a', 'b', 'c', 'd', 'e', 'f']

In [20]:
re.findall("[a-f1-5]", data)

['1', '2', '3', '4', '5', 'a', 'b', 'c', 'd', 'e', 'f']

In [21]:
# 소문자, 숫자, 대문자는 끊어서 사용
re.findall("[a-zA-Z]", data)

['a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z']

In [22]:
# . : 아무문자 문자하나

In [24]:
data1, data2, data3, data4= "abc", "ac", "a12c", "a.c"
re.findall("a.c", data1), re.findall("a.c", data2), re.findall("a.c", data3),\
re.findall("a[.]c", data4), re.findall("a\.c", data4)

(['abc'], [], [], ['a.c'], ['a.c'])

In [29]:
data1, data2, data3, data4

('abc', 'ac', 'a12c', 'a.c')

In [25]:
# ? : 앞에 있는 패턴이 0, 1 회 반복

In [30]:
re.findall("a.?c", data1), re.findall("a.?c", data2), re.findall("a.?c", data3) # a[-, /]?c

(['abc'], ['ac'], [])

In [26]:
# * : 앞에 있는 패턴이 0 회 이상 반복`

In [31]:
re.findall("a.*c", data1), re.findall("a.*c", data2), re.findall("a.*c", data3)

(['abc'], ['ac'], ['a12c'])

In [27]:
# + : 앞에 있는 패턴이 1회 이상 반복

In [32]:
re.findall("a.+c", data1), re.findall("a.+c", data2), re.findall("a.+c", data3)

(['abc'], [], ['a12c'])

In [28]:
# {n} : n 회 반복
# {n, m} : n ~ m 회 반복

In [35]:
data1, data2 = "1234abbbc test", "abbbbbc"

In [37]:
re.findall("a[a-z]{3}c", data1), re.findall("a[a-z]{3}c", data2)

(['abbbc'], [])

In [39]:
re.findall("a[a-z]{4,7}c", data1), re.findall("a[a-z]{4,7}c", data2)

([], ['abbbbbc'])

In [40]:
# () : 그룹핑

In [41]:
data = "jupyter notebook macbook testbook science"

In [45]:
re.findall("([a-z]{3,4})bo(ok)", data)

[('note', 'ok'), ('mac', 'ok'), ('test', 'ok')]

In [46]:
# 예시 : 이메일주소 찾기

In [47]:
data = "저의 이메일 주소는 pdj1224@gmail.com 과 data.science@daum.net이 있습니다."

In [52]:
pt = "[a-z0-9.]+@[a-z]+[a-z]+\.[a-z.]+"
re.findall(pt, data)

['pdj1224@gmail.com', 'data.science@daum.net']

In [54]:
pt = "[a-z0-9.]+@([a-z]+[a-z])+\.[a-z.]+"
re.findall(pt, data)

['gmail', 'daum']

In [55]:
# 예제 2 : 주민등록번호 치환

In [58]:
data = "저의 주민등록번호는 871212-1087123 입니다. 마음껏 사용하세요.!!!"
pt = "([0-9]{6}[-_.]?[1-4][0-9]{6})"
re.findall(pt, data)

['1087123']

In [60]:
pt = "([0-9]{6})[-_.]?([1-4][0-9]{6})"
re.findall(pt, data)

[('871212', '1087123')]

In [59]:
pt = "([0-9]{6})[-_.]?([1-4][0-9]{6})"
re.sub(pt, "\g<1>-*******", data)

'저의 주민등록번호는 871212-******* 입니다. 마음껏 사용하세요.!!!'

In [61]:
# 예제 3 : 중고나라 번호 찾기

In [63]:
data = "안녕하세요 저의 전화번호는 영일공-56칠삼-Oo12 하고 01035칠삼구구빵삼 입니다."

In [66]:
pt = "[0-9영공빵일이삼사오육칠팔구Oo]{3}[-]?[0-9영공빵일이삼사오육칠팔구Oo]{3,4}[-]?\
[0-9영공빵일이삼사오육칠팔구Oo]{4}[-]?"
re.findall(pt, data)

['영일공-56칠삼-Oo12', '01035칠삼구구빵삼']

In [None]:
dic = {
    "영":0, "일":1`
}