### 정규표현식 (regex)
- 문자열을 처리할 때 __특정 패턴__으로 문자열을 처리하는 방법
- 예제
    - 문자열에서 정규표현식 패턴으로 이메일 찾아내기
    - 문자열에서 주민등록번호 패턴 찾아서 마지막 6자리 숫자를 `*`로 치환하기
    - 중고나라의 전화번호 패턴을 찾아서 숫자로 치환하기
        - O10-팔3구구-일5칠삼 -> 010-8399-1573

In [2]:
import re
import string

#### 함수
- findall : 일치하는 패턴의 문자열을 찾아서 리스트로 리턴해주는 함수
- sub : 특정 패턴에 맞는 문자열을 찾아서 특정 규칙에 따라서 치환해주는 함수

In [5]:
data = string.printable
data
# 파이썬에서 쓸 수 있는 모든 문자 100개

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [6]:
re.findall('on', 'python data pyton 010 data 111')

['on', 'on']

In [8]:
re.sub('data', 'fast', 'python data pyton 010 data 111')

'python fast pyton 010 fast 111'

#### 패턴
- `[]` : 하나의 문자
- `-` : 범위
    - 소문자, 대문자, 숫자는 나눠서 작성
- `.` : 하나의 문자 
    - 문자열로도 사용 가능 : [.] or \.
- `?` : 0 또는 1회 반복
- `*` : 0회 이상 반복
- `+` : 1회 이상 반복
- `{m}` : m회 반복
- `{m,n}` : m~n회 반복
- `()` : 그루핑

In [9]:
data = string.printable
data

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [12]:
# [] : 하나의 문자
re.findall('[on]', 'python data pyton 010 data 111')
# o 또는 n이 있는거 찾음

['o', 'n', 'o', 'n']

In [14]:
# - : 범위 
re.findall('[123456]', data)

['1', '2', '3', '4', '5', '6']

In [15]:
re.findall('[abcdef]', data)

['a', 'b', 'c', 'd', 'e', 'f']

In [17]:
re.findall('[a-f]', data)

['a', 'b', 'c', 'd', 'e', 'f']

In [24]:
# 소문자, 대문자, 숫자는 나눠서 작성이 돼야 함
result = re.findall('[0-9a-zA-Z.]', data)
''.join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ.'

In [28]:
# . : 아무 문자 하나
datas = ['123aab123a!bddd', 'a0b', 'abc']
for data in datas:
    result = re.findall('a.b', data)
    print(data, result)

123aab123a!bddd ['aab', 'a!b']
a0b ['a0b']
abc []


In [34]:
# ? : 앞에 있는 문자의 패턴을 0회 또는 1회 반복
datas = ['a3db', 'a0b', 'abc']
for data in datas:
    result = re.findall('a.?b', data)
    print(data, result)

a3db []
a0b ['a0b']
abc ['ab']


In [41]:
# * : 앞에 있는 문자의 패턴을 0회 이상 반복
datas = ['a3db', 'a0b', 'abc']
for data in datas:
    result = re.findall('a.*b', data)
    print(data, result)

a3db ['a3db']
a0b ['a0b']
abc ['ab']


In [43]:
datas = ['a3db', 'a0b', 'abc']
for data in datas:
    result = re.findall('a3*b', data)
    print(data, result)

a3db []
a0b []
abc ['ab']


In [42]:
# + : 앞에 있는 문자의 패턴을 1회 이상 반복
datas = ['ac', 'abc', 'abbbc']
for data in datas:
    result = re.findall('ab+c', data)
    print(data, result)

ac []
abc ['abc']
abbbc ['abbbc']


In [46]:
# {m} : m회 반복
datas = ['ac', 'abc', 'abbbc']
for data in datas:
    result = re.findall('ab{3}c', data)
    print(data, result)

ac []
abc []
abbbc ['abbbc']


In [48]:
# {m,n} : m~n회 반복
datas = ['ac', 'abc', 'abbbc', 'abbbbbc']
for data in datas:
    result = re.findall('ab{1,3}c', data)
    print(data, result)

ac []
abc ['abc']
abbbc ['abbbc']
abbbbbc []


In [53]:
# () : 특정 패턴에서 () 안에 있는 문자열만 출력
datas = ['fast campus123 data science! date fast campus3']
for data in datas:
    result1 = re.findall('fast[a-z0-9 ]*3', data)
    result2 = re.findall('fast([a-z0-9 ]*)3', data)
    print(data, result1)
    print(data, result2)    

fast campus123 data science! date fast campus3 ['fast campus123', 'fast campus3']
fast campus123 data science! date fast campus3 [' campus12', ' campus']


예제 1 : 이메일 주소 찾기

In [56]:
data = '저의 이메일 주소는 fast_campus@gmail.com과 data.science@daum.co.kr이 있습니다.'
re.findall('[0-9a-zA-Z_.]{4,30}@[a-z0-9]+\.[a-z.]+', data)

['fast_campus@gmail.com', 'data.science@daum.co.kr']

In [55]:
# 도메인만 찾기
data = '저의 이메일 주소는 fast_campus@gmail.com과 data.science@daum.co.kr이 있습니다.'
re.findall('[0-9a-zA-Z_.]{4,30}@([a-z0-9]+)\.[a-z.]+', data)

['gmail', 'daum']

예제 2 : 주민등록번호 패턴을 찾아서 마지막 6자리숫자는 *로 치환

In [64]:
data = '저의 주민등록번호는 781230^1098454입니다. 마음껏 활용하세요!!'
re.findall('[0-9]{6}.?[1-4][0-9]{6}', data)

['781230^1098454']

In [65]:
re.sub('([0-9]{6}.?[1-4])[0-9]{6}', '\g<1>******', data)

'저의 주민등록번호는 781230^1******입니다. 마음껏 활용하세요!!'

In [66]:
re.sub('([0-9]{6}).?([1-4])[0-9]{6}', '\g<1>-\g<2>******', data)

'저의 주민등록번호는 781230-1******입니다. 마음껏 활용하세요!!'

예제 3 : 중고나라 전화번호 패턴 찾아서 숫자로 치환하기

In [75]:
data = '안녕하세요 맥북 16인치 메모리 64기가 하드디스크 4테라 50만원에 팝니다. \
제 전화번호는 010사팔9삼-칠O3오나 010사팔9빵-빵O3오입니다. 선착순 입니다.' # 01048937035

In [76]:
pt = '[0-9영공일이둘삼사오육칠팔구빵oOㅇ]{3}[-._ ]?[0-9영공일이둘삼사오육칠팔구빵oOㅇ]{3,4}[-._ ]?[0-9영공일이둘삼사오육칠팔구빵oOㅇ]{4}'

In [77]:
numbers = re.findall(pt, data)
numbers

['010사팔9삼-칠O3오', '010사팔9빵-빵O3오']

In [80]:
number_dict = {
    '영':0, '공':0, '일':1, '이':2, '둘':2, '삼':3, '사':4, '오':5,
    '육':6, '칠':7, '팔':8, '구':9, 'o':0, 'O':0, '빵':0,
}

In [81]:
result = []
for number in numbers:
    for key, value in number_dict.items():
        number = number.replace(key, str(value))
    number = number.replace('-', '')
    result.append(number)
    
result

['01048937035', '01048900035']