#### 정규표현식
- regular expression
- 특정한 패턴과 일치하는 문자열을 검색, 치환, 제거 하는 기능을 지원
- 정규표현식의 도움없이 패턴을 찾는 작업은 불완전하거나, 작업의 cost가 높음
- 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등

#### raw string
- 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환

In [1]:
a = 'abcdef\n'
print(a)

b = r'abcdef\n'
print(b)

abcdef

abcdef\n


#### search method
- 첫번재로 패턴을 찾으면 match 객체를 반환
- 패턴을 찾지 못하면 None 반환


In [None]:
import re

In [4]:
m = re.search(r'abc', 'abcdef')
print(m.start())
print(m.end())
print(m.group())

0
3
abc


In [5]:
m = re.search(r'\d\d\d\w', '123abcdef213')
m

<re.Match object; span=(0, 4), match='123a'>

#### metacharacters (메타 캐릭터)
- [] 내부의 메타 캐릭터는 캐릭터 자체를 나타냄
- [abck] : a or b or c or k
- [abc.^] : a or b or c . or ^
- [a-d] : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
- [0-9] : 모든 숫자
- [a-z] : 모든 소문자
- [A-Z] : 모든 대문자
- [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
- [^0-9] : ^가 맨 앞에 사용되는 경우 해당 문자 패턴이 아닌 것과 매칭

- \d : 숫자를 [0-9] 와 동일
- \D : 숫자가 아닌 문자 [^0-9] 와 동일
- \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
- \S : 공백이 아닌 문자
- \w : 알파벳대소문자, 숫자 [0-9a-zA-Z] 와 동일
- \W : non alpha-numeric 문자 [^0-9a-zA-Z] 와 동일

- ^문자열의 맨 앞부터 일치하는 경우 검색
- $ 문자열의 맨 뒤부터 일치하는 경우 검색

#### grouping
- ()을 사용하여 그룹핑
- 매칭 결과를 각 그룹별로 분리 가능
- 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용

#### {}
- *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복 의 횟수 제한은 불가
- {4} - 4번 반복
- {3,4} - 3~4번 반복

#### 미니멈 매칭(non_greedy way)
- 기본적으로 *, +, ? 을 사용하면 greedy 하게 동작함
- *?, +?을 이용하여 해당 기능을 구현

In [11]:
re.search(r'<.+?>', '<html>haha</html>')

<re.Match object; span=(0, 6), match='<html>'>

#### {}?
- {m,n} 의 경우 m번에서 n번 반복하나 greedy 하게 동작
- {m,n}?로 사용하면 non-greedy 하게 동작, 즉, 최소 m번만 매칭하면 만족

In [13]:
re.search(r'a{3,5}', 'aaaaa')

<re.Match object; span=(0, 5), match='aaaaa'>

In [14]:
re.search(r'a{3,5}?', 'aaaaa')

<re.Match object; span=(0, 3), match='aaa'>

#### match
- search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
- 시작부터 해당 패턴이 존재하지 않다면 None반환

In [19]:
re.match(r'\d\d\d', 'my number is 123')

In [20]:
re.match(r'\d\d\d', '123 is my number')

<re.Match object; span=(0, 3), match='123'>

#### findall
- search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
- 매칭되는 모든 결과를 리스트 형태로 반환

#### sub
- 주어진 문자열에서 일치하는 모든 패턴을 replace
- 그 결과를 문자열로 다시 반환
- 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수 도 있음
- count 가 0 인 경우는 전체를, 1이상이면 해당 숫자만큼 치환 됨

#### compile
- 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
- compile 로 해당 표현식을 re.RegexObject 객체로 저장하여 사용가능