# 정규표현식 Regular expression
* 특정 패턴과 일치하는 문자열을 검색하거나 치환 또는 제거하는 기능을 지원하는 것을 의미한다.

## raw string
* 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환한다.

## 기본 패턴
* 대문자, 소문자, 숫자의 경우 해당 문자와 정확히 일치한다.
* 몇몇 예외가 존재한다.
    + . ^ $ * + ? { } [ ] \ | ( )
    
* . (마침표) - 어떤 한개의 character와 일치한다. (단, 엔터는 제외다.)
* \w - 문자 character와 일치한다. [a-zA-Z0-9_]
* \s - 공백문자와 일치한다.
* \t - tab과 일치한다.
* \n - 엔터와 일치힌다.
* \r - return과 일치한다.
* \d - 숫자 character와 일치 [0-9]
* ^ - 문자열의 시작을 의미한다.
* $ - 문자열의 끝을 의미
* \가 붙으면 스페셜한 의미가 없어진다.
    + \.는 .자체를 의미한다. 
    + \\는 \를 의미한다.

* 참조 링크 https://docs.python.org/3/library/re.html

## search method
* 첫번째로 패턴을 찾으면 match 객체를 반환한다.
* 패턴을 찾지 못하면 None을 반환한다.

In [1]:
a = r'12345\n'
print(a)

12345\n


In [3]:
import re

a = re.search(r'abc', 'abc123')
a

<re.Match object; span=(0, 3), match='abc'>

In [8]:
b = re.search(r'\w', '123abc123')
b

<re.Match object; span=(0, 1), match='1'>

## 메타 캐릭터 metacharacters

### []
* [] 내부의 메타 캐릭터는 캐릭터 자체를 나타냄
* e.g)
    + [a1b2] : a or 1 or b or 2
    + [abc.^] : a or b or c or . or ^
    + [a-d] : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
    + [0-9] : 모든 숫자
    + [a-z] : 모든 소문자
    + [A-Z] : 모든 대문자
    + [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
    + [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 아닌 것과 매칭

In [10]:
re.search(r'[acbdt]oma', 'tomato')

<re.Match object; span=(0, 4), match='toma'>

In [11]:
re.search(r'[0-7]t', '7th')

<re.Match object; span=(0, 2), match='7t'>

### \
* 다른 문자와 함께 사용되어 특수한 의미를 지닌다.
* e.g)
    + \d : 숫자를 [0-9]와 동일
    + \D : 숫자가 아닌 문자 [^0-9]와 동일
    + \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
    + \S : 공백이 아닌 문자
    + \w : 알파벳대소문자, 숫자 [0-9a-zA-Z]와 동일
    + \W : non alpha-numeric 문자 [^0-9a-zA-Z]와 동일
* 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
* e.g)
    + \.
    + \\

In [12]:
re.search(r'.\s', 'Hello. python world')

<re.Match object; span=(5, 7), match='. '>

### .
* 모든 문자를 의미한다.

In [13]:
re.search(r'a.', 'apple and orange')

<re.Match object; span=(0, 2), match='ap'>

### 반복패턴
* 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사한다.
* 단 반복의 횟수 제한은 불가능하다.
    > '+' :  1번 이상의 패턴이 발생한다.
    
    > '*' : 0번 이상의 패턴이 발생한다.
    
    > '?' : 0 혹은 1번의 패턴이 발생한다.
    
* 반복을 패턴의 경우 가능한 많은 부분이 매칭되도록 한다.

In [14]:
re.search(r'a[bcd]*b', 'abcbdccb')

<re.Match object; span=(0, 8), match='abcbdccb'>

### ^
* ^ 문자열의 맨 앞부터 일치하는 경우 검색한다.

### \$
* \$ 문자열의 맨 뒤부터 일치하는 경우 검색한다.

In [15]:
re.search(r'b\w+a', 'canadabanana')

<re.Match object; span=(6, 12), match='banana'>

In [16]:
re.search(r'^b\w+a', 'canadabanana')

In [17]:
re.search(r'b\w+a', 'banana')

<re.Match object; span=(0, 6), match='banana'>

In [18]:
re.search(r'b\w+a$', 'banana')

<re.Match object; span=(0, 6), match='banana'>

In [19]:
re.search(r'b\w+a$', 'banana!')

### grouping
* ()을 사용하여 그루핑한다.
* 매칭 결과를 각 그룹별로 분리 가능하다.
* 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용한다.
* 그룹전체는 0번이다.

In [20]:
m = re.search(r'(\w+)@(.+)', 'test@gmail.com')
print(m.group(1))
print(m.group(2))
print(m.group(0))

test
gmail.com
test@gmail.com


### {}
* *, +, ?를 사용한 반복 패턴과 달리 패턴뒤에 위치하는 중괄호{}에 숫자를 명시해 해당 숫자 만큼의 반복인 경우에만 매칭가능하다.
* {n}인 경우 n번 반복한다.
* {n,m}인 경우 n번부터 m번 반복하나 greedy하게 동작한다.
    
### {}?
* {n,m}과는 달리 {n,m}?로 사용하면 non-greedy하게 동작한다.
* 최소 n번만 매칭하면 만족한다.

In [29]:
print(re.search('Wo{2,8}', 'Woooooooow!!'))

print(re.search('Wo{2,8}?', 'Woooooooow!!'))

<re.Match object; span=(0, 9), match='Woooooooo'>
<re.Match object; span=(0, 3), match='Woo'>


### 미니멈 매칭 non-greedy way
* 최대한 많은 부분을 매칭하는 *, +, ?를 사용한 매칭과는 달리 최소한의 매칭을 수행한다.
* *?, +?을 이용하여 해당 기능을 구현한다.

In [24]:
re.search(r'<.+>', '<html>Hello</html>')

<re.Match object; span=(0, 18), match='<html>Hello</html>'>

In [25]:
re.search(r'<.+?>', '<html>Hello</html>')

<re.Match object; span=(0, 6), match='<html>'>

### match
* 문자열의 시작부터 비교해 패턴을 찾는 search와 같다.
* 해당 패턴이 존재하지 않으면 None을 반환한다.

In [30]:
re.match(r'\d\d', 'This year is 2021.')

In [32]:
re.match(r'\d\d', '2021 years ago')

<re.Match object; span=(0, 2), match='20'>

In [33]:
re.search(r'^\d\d', '2021 years ago')

<re.Match object; span=(0, 2), match='20'>

### findall
* 최초로 매칭되는 패턴만 반환하는 search와 달리 매칭되는 전체의 패턴을 반환한다.
* 매칭되는 모든 결과를 리스트 형태로 반환한다.

In [35]:
re.search(r'\d\d\d\d', 'This year is 2021. Last year is 2020.')

<re.Match object; span=(13, 17), match='2021'>

In [36]:
re.findall(r'\d\d\d\d', 'This year is 2021. Last year is 2020.')

['2021', '2020']

### sub
* 주어진 문자열에서 일치하는 모든 패턴을 replace하여 결과를 문자열로 다시 반환한다.
* 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수도 있다.
* count가 0인 경우는 전체를, 1이상이면 해당 숫자만큼 치환된다.

In [37]:
re.sub(r'[\w]+@[\w.]+', 'great', 'test@gmail.com test2@gmail.com test3@gmail.com', count=2)

'great great test3@gmail.com'

### compile
* 동일한 정규표현식을 매번 다시 쓰기 번거로울때 사용한다.
* 정규표현식을 re.RegexObject 객체로 저장하여 사용가능하다.

In [51]:
email_reg = re.compile(r'[\w-]+@[\w.]+')
email_reg.findall('test@gmail.com test2@gmail.com test3@gmail.com')

['test@gmail.com', 'test2@gmail.com', 'test3@gmail.com']