### 정규표현식
* regular expression (re)
* 특정 패턴과 일치하는 문자열을 검색, 치환, 제거하는 기능
* 정규표현식 없이 패턴을 찾는 작업(rule:규칙 기반)은 불완전하거나, 작업 cost가 높다
* 예) 이메일 형식, 전화번호 형식, 숫자만으로 이루어진 문자 등

In [1]:
# raw string
# 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환

In [2]:
a = '안녕하세요\n반갑습니다.'
print(a)

안녕하세요
반갑습니다.


In [3]:
a = r'안녕하세요\n반갑습니다.'
print(a)

안녕하세요\n반갑습니다.


In [5]:
# 기본 패턴
'''
* 'a', 'A', '1'... 등 문자 하나 하나의 character는 정확히 해당 문자와 일치
* 기타 문자들에 대해 예외가 존재, 특별한 의미
    - 예) *, +, ?...
* . (마침표) : 어떤 한개의 character와 일치
* \w : 문자(character)와 일치 = [a-zA-Z0-9]
* \s : 공백문자
* \t, \n : tab, newline
* \d : 숫자 character [0-9]
* \^ : 시작, \$ : 끝 - 문자열의 시작과 끝
* \ 가 붙으면 이스케이프문자, \\는 \의 의미(이스케이프문자)가 아니라 문자 자체
'''

"\n* 'a', 'A', '1'... 등 문자 하나 하나의 character는 정확히 해당 문자와 일치\n* 기타 문자들에 대해 예외가 존재, 특별한 의미\n    - 예) *, +, ?...\n* . (마침표) : 어떤 한개의 character와 일치\n* \\w : 문자(character)와 일치 = [a-zA-Z0-9]\n* \\s : 공백문자\n* \t, \n : tab, newline\n* \\d : 숫자 character [0-9]\n* \\^ : 시작, \\$ : 끝 - 문자열의 시작과 끝\n* \\ 가 붙으면 이스케이프문자, \\는 \\의 의미(이스케이프문자)가 아니라 문자 자체\n"

### search 메서드
* 첫번째 일치하는 패턴을 찾으면 match 객체로 리턴
* 패턴을 찾지 못하면 None 리턴

In [6]:
# re 모듈 import
import re

In [7]:
# search('정규식패턴', '대상문자열')
m = re.search(r'a', 'abcdefg')
m

<re.Match object; span=(0, 1), match='a'>

In [8]:
re.search(r'abc', '1234abcdefg')

<re.Match object; span=(4, 7), match='abc'>

In [9]:
re.search(r'abcz', '1234abcdefg')

In [116]:
if re.search(r'abcz', '1234abcdefg'):
    print('true')
else:
    print('false')

false


In [12]:
re.search(r'\d\d\d\d\w', '1234abcdefg')

<re.Match object; span=(0, 5), match='1234a'>

In [15]:
re.search(r'.', '@1234abcdefg') # .은 특수문자까지 포함된 문자

<re.Match object; span=(1, 2), match='1'>

In [16]:
# \w 는 a-zA-Z0-9
re.search(r'\w', '@1234abcdefg')

<re.Match object; span=(1, 2), match='1'>

### 메타 캐릭터 : [ ]
- 문자들의 범위를 나타내기 위해 사용
- [abc] : a or b or c
- [a-d] : a or b or c or d
- [0-9] : 모든 숫자
- [a-z] : 모든 영문 소문자
- [A-Z] : 모든 영문 대문자
- [a-zA-Z0-9] : 모든 영문과 숫자
- [^0-9] : 숫자가 아닌 문자 (^ 반대의 의미)

In [20]:
# cat/bat/eat : c|b|e + at
re.search(r'[cbe]at', 'eat')

<re.Match object; span=(0, 3), match='eat'>

In [21]:
re.search(r'[cbe]at', 'mat')

In [24]:
re.search(r'[0-9]haha', '4hahaabc')

<re.Match object; span=(0, 5), match='4haha'>

In [30]:
re.search(r'[^abc]bcd', 'dbcd')

<re.Match object; span=(0, 4), match='abcd'>

In [32]:
# \ (이스케이프가 아닌 캐릭터 자체를 나타낼때 \\)
# \S - 공백이 아닌 문자
re.search(r'\Srape', 'apple grape banana')

<re.Match object; span=(6, 11), match='grape'>

In [33]:
'''
* \d : 숫자 [0-9]
* \D : 숫자가 아닌 문자 [^0-9]
* \s : 공백문자
* \S : 공백이 아닌 문자
* \w : 문자 [a-zA-Z0-9]
* \W : 알파벳, 숫자가 아닌 문자 [^a-zA-Z0-9]
'''

'\n* \\d : 숫자 [0-9]\n* \\D : 숫자가 아닌 문자 [^0-9]\n* \\s : 공백문자\n* \\S : 공백이 아닌 문자\n* \\w : 문자 [a-zA-Z0-9]\n* \\W : 알파벳, 숫자가 아닌 문자 [^a-zA-Z0-9]\n'

In [40]:
re.search(r'\\', 'hi\hello')

<re.Match object; span=(2, 3), match='\\'>

In [43]:
# . (마침표) - 모든 문자
re.search(r'd.g', 'dug') # dog, dig, dug 일치

<re.Match object; span=(0, 3), match='dug'>

### 반복패턴
* 패턴 뒤에 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사
    * '*' - 0번 이상 패턴 발생
    * '+' - 1번 이상 패턴 발생
    * '?' - 0 또는 1번의 패턴 발생
* 반복 패턴의 경우 greedy하게 검색 -> 가능한 많은 부분이 검색되도록 함
    * 예) a[bcd]*b abcbcbccb

In [48]:
re.search(r'a[bcd]*b', 'abcbcbccb')

<re.Match object; span=(0, 9), match='abcbcbccb'>

In [54]:
re.search(r'b\w+a','grape or banana or apple') # 1이상

<re.Match object; span=(9, 15), match='banana'>

In [59]:
# url 주소 검색
# http, https
re.search(r'https?', 'http://www.naver.com') # ? 는 0번 또는 1번

<re.Match object; span=(0, 4), match='http'>

In [61]:
re.search(r'b\w+a', 'banana')

<re.Match object; span=(0, 6), match='banana'>

In [64]:
re.search(r'b\w+a', 'bancana')

<re.Match object; span=(0, 7), match='bancana'>

In [70]:
# $ : 문자열이 맨끝에 일치하는 경우, ^ : 문자열의 맨앞에 일치하는 경우
re.search(r'^b\w+a$', 'bancana') 

<re.Match object; span=(0, 7), match='bancana'>

In [75]:
re.search(r'^[0-9]\w+', '9b') # 숫자로 시작하는 문자

<re.Match object; span=(0, 2), match='9b'>

In [76]:
re.search(r'^[0-9]\w+', '99bb') # 숫자로 시작하는 문자

<re.Match object; span=(0, 3), match='99b'>

### grouping
* 괄호 ( ) 를 사용하여 그룹핑
* 매칭결과를 그룹별로 분리 가능


In [81]:
m = re.search(r'(\w+)@(.+)', 'my email is test@gmail.com')
print(m.group(1))
print(m.group(2))
print(m.group(0))

test
gmail.com
test@gmail.com


### 반복횟수 지정
* *, +, ? 반복 패턴을 찾는것은 가능하지만, 반복 횟수 지정 불가
* 패턴 뒤에 중괄호 { }에 숫자를 명시하면, 숫자만큼 반복되면 매칭
* 예) {3} - 3번 반복
* {3,4} - 3 ~ 4 번 반복

In [85]:
re.search(r'do{3,4}g', 'doooog')

<re.Match object; span=(0, 6), match='doooog'>

In [87]:
re.search(r'(do){3,4}g', 'dodododog')

<re.Match object; span=(0, 9), match='dodododog'>

### 미니멈 매칭 (non-greedy matching)
* *, +, ? 사용하면 greedy 매칭 (맥시멈 매칭)
* +?, *? 사용하면 non-greedy 매칭

In [88]:
re.search(r'<.+>', '<html>hahaha</html>')

<re.Match object; span=(0, 19), match='<html>hahaha</html>'>

In [89]:
re.search(r'<.+?>', '<html>hahaha</html>')

<re.Match object; span=(0, 6), match='<html>'>

In [90]:
# 반복횟수에도 미니멈 매칭 적용
re.search(r'a{3,5}', 'aaaaaaaaaaaaaaaaa')

<re.Match object; span=(0, 5), match='aaaaa'>

In [91]:
re.search(r'a{3,5}?', 'aaaaaaaaaaaaaaaaa')

<re.Match object; span=(0, 3), match='aaa'>

### match
* search 유사, 대상 문자열의 시작부터 비교
* 시작부터 해당 패턴이 존재하지 않으면 None

In [95]:
re.search(r'\d\d\d', 'my number 111 222')

<re.Match object; span=(10, 13), match='111'>

In [96]:
re.match(r'\d\d\d', '111 222 is my number')

<re.Match object; span=(0, 3), match='111'>

### findall
* search는 최초로 매칭되는 패턴을 리턴한다면
* findall은 매칭되는 전체 패턴을 리턴
* 매칭된 리턴값은 리스트로 리턴

In [98]:
re.findall(r'[\w]+@[\w.]+', 'hello test@test.com, my name is hong... hong@gmail.com, nice asdfasgdasd abc@naver.com')

['test@test.com', 'hong@gmail.com', 'abc@naver.com']

### sub
* 대상 문자열의 모든 패턴을 replace
* 치환한 결과를 문자열로 리턴
* sub(정규표현식, 바뀔문자열, 대상문자열)

In [99]:
re.sub(r'[\w]+@[\w.]+', '***@***.**', 'hello test@test.com, my name is hong... hong@gmail.com, nice asdfasgdasd abc@naver.com')

'hello ***@***.**, my name is hong... ***@***.**, nice asdfasgdasd ***@***.**'

In [102]:
# sub() 매개변수 중 count가 0이면 전체를, 1이상이면 해당 숫자만큼만 치환
re.sub(r'[\w]+@[\w.]+', '***@***.**', 'hello test@test.com, my name is hong... hong@gmail.com, nice asdfasgdasd abc@naver.com',
      count=1)

'hello ***@***.**, my name is hong... hong@gmail.com, nice asdfasgdasd abc@naver.com'

### compile
* 동일한 정규표현식을 매번 다시 쓰기 번거롭기 때문
* 미리 compile 함수를 이용해서 객체로 저장해두고 필요할 때 사용
* 속도 문제로 많은 데이터를 처리하는 경우 compile를 미리 해두고 사용

In [103]:
email_re = re.compile(r'[\w]+@[\w.]+')

In [104]:
email_re.findall('asfasdfa test@gmail.com asdfasdaf test@naver.com')

['test@gmail.com', 'test@naver.com']

In [109]:
text = '''
홍길동,010-1234-5678
김길동,010-2345-6789
최길동,010-3456-7890
'''
# 전화번호 뒷자리 ####으로 전체 치환

In [112]:
# 그룹핑해서 sub() 메서드 이용해서 치환
tel_re = re.compile(r'(\d{3}[-]\d{3,4}[-])(\d{4})')
tel_re.findall(text)

[('010-1234-', '5678'), ('010-2345-', '6789'), ('010-3456-', '7890')]

In [113]:
print(tel_re.sub('\g<1>####', text))


홍길동,010-1234-####
김길동,010-2345-####
최길동,010-3456-####

