**정규표현식**  
: regular expression 
- 특정한 패턴과 일치하는 문자열을 '검색', '치환', '제거'하는 기능을 지원  
- 정규표현식의 도움 없이 패턴은 찾는 작업은 부완전하거나 작업의 비용이 높다.

**raw string**  
- 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환된다.

In [127]:
test1 = '안녕하세요,\n반갑습니다.' # \n은 escape 문자열 이기 때문에 엔터 한번이 출력
test2 = r'안녕하세요,\n반갑습니다.' # raw srting : 구성 그대로 문자열로 반환

print(test1)
print('-' * 50)
print(test2)

안녕하세요,
반갑습니다.
--------------------------------------------------
안녕하세요,\n반갑습니다.


**search**  
- 첫번째로 패턴을 찾으면 match 객체를 반환
- 패턴을 찾지 못하면 None를 반환

In [128]:
import re 

match = re.search(r'ab', '12345abcdefg')
match

<re.Match object; span=(5, 7), match='ab'>

In [129]:
print(match.start()) # 0부터 시작
print(match.end()) # n-1 까지 반환
print(match.group())

5
7
ab


In [130]:
match = re.search(r'\d\d', '112abcedfg119') # \d는 숫자, \d\d는 연속되는 2개의 숫자(11, 12, 11, 19)
match # 결과는 맨 앞의 2개의 결과만 나타낸다. (11)

<re.Match object; span=(0, 2), match='11'>

In [131]:
re.search(r'...\w', '!@#$%qwer!@#$') # 연속되는 3개의 문자(모든 문자 포함) + [a-zA-Z0-9]의 문자 1개

<re.Match object; span=(2, 6), match='#$%q'>

**[ ]**  
: 문자들의 범위를 나타내기 위해 사용한다. (or 의미)  
- [abcd] : a or b or c or d
- [abc.^] : a or b or c or , or ^
- [0-9] : -(hyphen)과 함께 사용되면 해당 문자 사이의 범위에 속하는 문자를 의미한다.(0~9)
- [a-zA-Z0-9] : 모든(대, 소) 알파벳과 모든 숫자
- [^0-9] : ^은 not을 의미한다. 즉, 숫자가 아닌것

In [132]:
re.search(r'[abc]at', 'cat') # cat에서 a/b/c+at를 찾는다

<re.Match object; span=(0, 3), match='cat'>

In [133]:
re.search(r'[0-4]', '56789') # 56789에서 0~4까지 찾기

**\**  
1. 다른 문자와 함께 사용되어 특수한 의미를 지닌다.
- \d : 모든 숫자, [0-9]와 동일
- \D : 숫자가 아닌 문자, [^0-9]와 동일
- \s : 공백 문자(띄어쓰기, 엔터, 탭 등)
- \S : 공백이 아닌 문자
- \w : 알파벳 대소문자와 모든 숫자, [A-Za-z0-9]와 동일
- \W : \w의 반대, [^A-Za-z0-9]와 동일

2. 메타 케릭터가 케릭터 자체(. , \\)를 표현하도록 할 경우 사용
- \\., \\\

In [134]:
re.search(r'\sand', 'apple and banana') # apple and banana에서 띄어쓰기+and를 찾는다.

<re.Match object; span=(5, 9), match=' and'>

**반복패턴**  
- 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사를 할 수 있다.
 - ' * ' : 0번 이상의 패턴이 발생 (반복하지 않는 경우를 포함)
 - ' + ' : 1번 이상의 패턴이 발생 (한번이라도 반복되는 경우를 포함)
 - ' ? ' : 0번 혹은 1번의 패턴이 발생  
   
- 반복 패턴의 경우 greedy하게 검색한다. (즉, 가능한 많은 부분이 매칭되도록 한다.)  
 - a[bcd]*b 패턴을 abcbdccb에서 검색하는 경우  
   : ab, abcd, abcbdccb 전부 가능하지만 최대한 많은 부분이 매칭된 abcbdccb이 검색된다.

In [135]:
re.search(r'a[bcd]*b', 'abcbdccb') # a로 시작해서 b/c/d중 한개가 0번 이상 반복하고 b로 끝나는 경우를 찾는다.

<re.Match object; span=(0, 8), match='abcbdccb'>

In [136]:
re.search(r'b\w+a', 'banana') # b로 시작하고 어떤 문자라도 1번이상 반복되며 a로 끝나는 경우를 찾는다.

<re.Match object; span=(0, 6), match='banana'>

In [137]:
re.search(r'i+', 'piigpiiigpiiiiig') # search함수는 가장 먼저 등장하는 패턴을 반환하다.

<re.Match object; span=(1, 3), match='ii'>

In [138]:
re.search(r'i*', 'pg') # *와 +의 차이

<re.Match object; span=(0, 0), match=''>

In [139]:
re.search(r'i+', 'pg')

In [140]:
re.search(r'https?', 'http://www.naver.com') # ?가 s에 걸려 0번 혹은 1번의 검색결과를 반환한다.

<re.Match object; span=(0, 4), match='http'>

**^*, *$**   


- ^ : 문자열의 맨 앞부터 일치하는 경우 검색
-  $ : 문자열의 맨 뒤부터 일치하는 경우 검색

In [141]:
re.search(r'a\w+e', 'channel')

<re.Match object; span=(2, 6), match='anne'>

In [142]:
re.search(r'^a\w+e', 'channel') 

In [143]:
re.search(r'a\w+e$', 'channel')

**grouping**  
- ( )을 사용하여 그루핑  
- 매칭 결과를 각 그룹별로 분리 가능하다.
- 패턴을 명시할 때, 각 그룹을 괄호안에 넣어 분리하여 사용한다.

In [145]:
match = re.search(r'(\w+)@(.+)', 'test_email@naver.com')
print(match.group(0))
print(match.group(1))
print(match.group(2))

test_email@naver.com
test_email
naver.com


**{ }**  
- *, +, ?을 사용하여 반복적인 패턴을 찾아내는것이 가능하지만, 반복의 횟수를 제한할 수가 없다.  
- 패턴 뒤에 위치하는 중괄호에 숫자를 ㅁㅇ시하면 해당 숫자만큼의 반복인 경우에만 매칭이 발생한다.  
- {3} : 3번 반복  
- {3, 4} : 최소 3번 ~ 최대 4번 반복

In [146]:
re.search(r'\s{4}', 'a b c  d  e  f   g   h    y    r     q')

<re.Match object; span=(22, 26), match='    '>

In [147]:
re.search(r'\.{2,4}', '1.2....3....end') # 가장 먼저 매칭되는 결과를 n-1까지 반환

<re.Match object; span=(3, 7), match='....'>

**미니멈 매칭(non-greedy)**  
- 기본적으로 *, +, ?을 사용하면 greedy하게 동작하지만,  
- *?, +?를 이용하여 해당 기능을 구현할 수 있다.

In [148]:
re.search(r'<.+>', '<html>hello<html>') # greedy match

<re.Match object; span=(0, 17), match='<html>hello<html>'>

In [149]:
re.search(r'<.+?>', '<html>hello<html>') # non-greedy match

<re.Match object; span=(0, 6), match='<html>'>

In [150]:
re.search(r'\.{3,5}', '.......')

<re.Match object; span=(0, 5), match='.....'>

In [151]:
re.search(r'\.{3,5}?', '.......')

<re.Match object; span=(0, 3), match='...'>

**match**  
: search와 유사하지만, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인한다.  
- 시작부터 해당 패턴이 존재하지 않는다면 None를 반환한다.

In [152]:
re.match(r'\d\d\d', '201804200 is my number')

<re.Match object; span=(0, 3), match='201'>

In [153]:
re.match(r'\d\d\d', 'my number is 201804200')

**findall**  
- search의 경우 최초로 매칭되는 패턴을 반환하지만 findall의 경우 매칭되는 전체의 패턴을 반환한다.  
- 매칭되는 모든 결과를 리스트 형태로 반환한다.

In [154]:
re.findall(r'[\w-]+@[\w.]+', 'email1 : test_email@naver.com / email2 = test_email@gmail.com')

['test_email@naver.com', 'test_email@gmail.com']

**sub**  
- 주어진 문자열에서 일치하는 모든 패턴을 치환하고 결과를 문자열로 반환한다.
- 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수도 있다.
- count가 0인 경우(디폴트)는 전체를. 1 이상이면 해당 숫자만큼 치환된다.

In [155]:
re.sub(r'[\w-]+@[\w.]+', 'privacy', 'email1 : test_email@naver.com / email2 = test_email@gmail.com')

'email1 : privacy / email2 = privacy'

In [156]:
re.sub(r'[\w-]+@[\w.]+', 'privacy', 'email1 : test_email@naver.com / email2 = test_email@gmail.com', count=1)

'email1 : privacy / email2 = test_email@gmail.com'

**compile** 
- 동일한 정규표현식을 매번 다시 쓰기 번거로울때 사용 가능하다.
- compile로 해당 표현식을 re.RegexObject 객체로 저장하여 사용 가능하다.

In [157]:
email_regex = re.compile(r'[\w-]+@[\w.]+')

email_regex.search('my email is test_email@naver.com')

<re.Match object; span=(12, 32), match='test_email@naver.com'>