### 정규표현식이란?

- regular expression
- 특정한 패턴과 일치하는 문자열을 '검색', '치환', '제거'하는 기능을 지원한다.
- 정규표현식의 도움없이 패턴을 찾는 작업(Rule 기반)은 불완전 하거나, 작업의 cost가 높다.
- ex) 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등

### raw string
- 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 반환한다.

In [1]:
a = 'abcdef\n' # escape 문자열
print(a)

b = r'abcdef\n'
print(b)

abcdef

abcdef\n


### 기본 패턴
- a, X, 9 등등 문자 하나하나의 character들은 정확히 해당 문자와 일치
    - ex) 패턴 test는 문자열과 일치
    - 대소문자의 경우 기본적으로 구별하나, 구별하지 않도록 설정이 가능하다.
- 몇몇 문자들에 대해서는 예외가 존재하는데, 이들은 특별한 의미로 사용된다.
    - . ^ & * + ? {} [] \ | ()
- .(마침표) - 어떤 한개의 character와 일치 (newline(엔터) 제외)
- \w : 문자 character와 일치[a-zA-Z0-9]
- \s : 공백문자와 일치
- \t, \n, \r : tab, newline, return
- \d : 숫자 character와 일치[0-9]
- ^ = 시작, $ = 끝 각각 문자열의 시작과 끝을 의미한다.
- \ 가 붙으면 스폐셜한 의미가 없어진다, 예를들어 \.는 .자체를 의미 \\는 \를 의미
- 자세한 내용은 링크 참조 https://docs.python.org/3/library/re.html

### search method
- 첫번째로 패턴을 찾으면 match 객체를 반환
- 패턴을 찾지 못하면 None을 반환해준다.

In [2]:
import re

In [6]:
m = re.search(r'abc', '123abcdedf')
print(m.start()) # 패턴이 시작된 위치
print(m.end()) # 패턴이 끝나는 위치
print(m.group()) # 해당 검색된 패턴을 가져올 수 있는 함수

3
6
abc


In [7]:
m = re.search(r'abc', '123abdedf')
print(m) # 없는 경우는 None을 반환해준다.

None


In [12]:
m = re.search(r'\d\d\d\w', '112abcdef221') # 가장 먼저 위치한 것을 찾아준다.
m

<re.Match object; span=(0, 4), match='112a'>

In [14]:
m  = re.search(r'..\w\w','@#$%ABCDabcd')
m

<re.Match object; span=(2, 6), match='$%AB'>

### metacharacters (메타 캐릭터)
- [] 내부의 메타 캐릭터는 캐릭터 자체를 나타낸다
ex)
    - [abde] : a or b or d or e
    - [abc.^] : a or b or c or . or ^
    - [a-d] : 와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
    - [0-9] : 모든 숫자
    - [a-z] : 모든 소문자
    - [A-Z] : 모든 대문자
    - [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
    - [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 아닌 것과 매칭, not과 같은 의미

In [19]:
re.search(r'[cbm]at','cat')

<re.Match object; span=(0, 3), match='cat'>

In [20]:
re.search(r'[0-9]hahah','1hahah')

<re.Match object; span=(0, 6), match='1hahah'>

In [22]:
re.search(r'[abc.^]aron', '.aron')

<re.Match object; span=(0, 5), match='.aron'>

In [25]:
re.search(r'[^abc]aron','#aron')

<re.Match object; span=(0, 5), match='#aron'>

### \(백슬래쉬)
1. 다른 문자와 함께 사용되어 특수한 의미를 지님
    - \d : 숫자 [0-9]와 동일
    - \D : 숫자가 아닌 문자 [^0-9]와 동일
    - \s : 공백 문자(띄어쓰기, 탬, 엔터 등)
    - \S : 공백이 아닌 문자
    - \w : 알파뱃 대소문자, 숫자[0-9a-zA-Z]와 동일
    - \W : non alpha_numeric 문자 [^0-9a-zA-Z]와 동일
2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
    - \ , \\\

In [26]:
re.search('\sand', 'apple and banana')

<re.Match object; span=(5, 9), match=' and'>

In [27]:
re.search('\Sand', 'apple Land banana')

<re.Match object; span=(6, 10), match='Land'>

In [29]:
re.search(r'.and', 'pand')

<re.Match object; span=(0, 4), match='pand'>

In [30]:
re.search(r'\.and', '.and')

<re.Match object; span=(0, 4), match='.and'>

- . 은 모든 문자를 의미한다.

In [32]:
re.search(r'p.g', 'pig')

<re.Match object; span=(0, 3), match='pig'>

### 반복패턴
- 패턴 뒤에 위치하는 *, +, ? 는 해당 패턴이 반복적으로 존재하는지 검사
    - '+' : 1번 이상의 패턴이 발생
    - '*' : 0번 이상의 패턴이 발생
    - '?' : 0혹은 1번의 패턴이 발생
- 반복 패턴의 경우 greedy하게 검색 함, 즉 가능한 많은 부분이 매칭되도록 한다.
    - ex) a[bcd]*b 패턴을 abcddccb에서 검색하는 경우
        - ab, abcb, abcdccb 전부 가능 하지만 최대한 많은 부분이 매칭된 abcbdccb가 검색되는 패턴

In [33]:
re.search(r'a[bcd]*b', 'abcddccb')

<re.Match object; span=(0, 8), match='abcddccb'>

In [35]:
re.search(r'b\w+a', 'banana')

<re.Match object; span=(0, 6), match='banana'>

In [36]:
re.search(r'i+', 'piigiii')

<re.Match object; span=(1, 3), match='ii'>

In [40]:
re.search(r'pi+g', 'piig')

<re.Match object; span=(0, 4), match='piig'>

In [39]:
re.search(r'pi*g', 'piig')

<re.Match object; span=(0, 4), match='piig'>

In [42]:
re.search(r'https?', 'https://www.naver.com')

<re.Match object; span=(0, 5), match='https'>

### ^*(틸드), *$


- ^ : 문자열의 맨 앞부터 일치하는 경우 검색

- $ : 문자열의 맨 뒤부터 일치하는 경우 검색

In [43]:
re.search(r'b\w+a', 'cabana')

<re.Match object; span=(2, 6), match='bana'>

In [46]:
re.search(r'^c\w+a', 'cabana')

<re.Match object; span=(0, 6), match='cabana'>

In [47]:
re.search(r'b\w+a$', 'cabana')

<re.Match object; span=(2, 6), match='bana'>

In [51]:
re.search(r'^b\w+a$', 'babana')

<re.Match object; span=(0, 6), match='babana'>

### grouping
- ()를 사용하여 그루핑
- 매칭 결과를 각 그룹별로 분리 가능
- 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용한다.

In [57]:
m = re.search(r'(\w+)@(.+)', 'test@gamil.com')
print(m.group(1))
print(m.group(2))
print(m.group(0))

test
gamil.com
test@gamil.com


### {}
- *, +, ? 를 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가능하다.
- 패턴뒤에 위치하는 중괄호{}에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭된다.
- {4} - 4번 반복
- {3,4} - 3 ~ 4번 반복

In [60]:
re.search('pi{4}g', 'piiiig')

<re.Match object; span=(0, 6), match='piiiig'>

In [59]:
re.search('pi{3,5}g', 'piiiig')

<re.Match object; span=(0, 6), match='piiiig'>

### 미니멈 매칭(non-greedy way)
- 기본적으로 *, +, ? 를 사용하면 greedy(맥시멈 매칭)하게 동작함
- *?, +? 를 사용하여 해당 기능을 구현 가능하다.

In [62]:
re.search(r'<.+>','<html>haha</html>')

<re.Match object; span=(0, 17), match='<html>haha</html>'>

In [64]:
re.search(r'<.+?>', '<html>haha<\html>')

<re.Match object; span=(0, 6), match='<html>'>

### {}?
- {m,n}의 경우 m번에서 n번 반복하나 greedy하게 동작한다.
- {m,n}?로 사용하면 non-greedy하게 동작, 즉, 최소 m번만 매칭하면서 출력된다.

In [65]:
re.search(r'a{3,5}', 'aaaaa')

<re.Match object; span=(0, 5), match='aaaaa'>

In [66]:
re.search(r'a{3,5}?', 'aaaaa')

<re.Match object; span=(0, 3), match='aaa'>

### match
- search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
- 시작부터 해당 패턴이 존재하지 않다면 None 반환

In [67]:
re.match(r'\d\d\d', 'my number is 123')

In [68]:
re.match(r'\d\d\d', '123 is my number')

<re.Match object; span=(0, 3), match='123'>

In [69]:
re.search(r'^\d\d\d', '123 is my number')

<re.Match object; span=(0, 3), match='123'>

### findall
- search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
- 매칭되는 모든 결과를 리스트 형태로 반환

In [70]:
re.findall(r'[\w-]+@[\w.]+', 'test@gamil.com haha test2@gmail.com nice day')

['test@gamil.com', 'test2@gmail.com']

### sub
- 주어진 문자열에서 일치하는 모든 패턴을 replace
- 그 결과를 문자열로 다시 반환한다.
- 두번째 인자는 특정 문자열이 될수도 있고, 함수가 될수도 있다.
- count가 0인 경우 전체를, 1이상이면 해당 숫자만큼 치환 됨

In [77]:
re.sub(r'[\w-]+@[\w.]+', 'great', 'test@gmail.com haha test2@gmail.com', count = 1)
# count 는 기본값이 0 숫자를 지정해서 원하는 값만큼만 변경이 가능하다.

'great haha test2@gmail.com'

### compile
- 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
- compile로 해당표현식을 re.RegexObject 객체로 저장하여 사용가능

In [80]:
email_reg = re.compile(r'[\w-]+@[\w.]+')

email_reg.search('test@gmail.com haha good')

<re.Match object; span=(0, 14), match='test@gmail.com'>