# 정규표현식
- Regular Expression
- 특정 패턴과 일치하는 문자열을 검색, 치환, 제거할 수 있음
- ex) 이메일 형식 판별, 전화번호 형식 판별 등

- raw string
  - 문자열 앞에 r이 붙으면 구성된 그대로 문자열로 반환

In [2]:
a = 'abcdef\n'
print(a)

b = r'abcedf\n'
print(b) # escape 문자도 표현됨

abcdef

abcedf\n


### 기본 패턴
- a, X, 9 등 문자 하나는 정확히 해당 문자와 일치
- . ^ $ * + ? {} [] \ | () 문자는 특별한 의미로 사용됨
- . (마침표) : 어떤 한개 character와 일치
- \w : 문자 character와 일치 [a-zA-Z0-9]
- \s : 공백문자와 일치
- \t, \n, \r : tab, newline, return
- \d : 숫자 character와 일치[0-9]
- ^ = 시작, $ = 끝 : 각각 문자열의 시작과 끝을 의미
- 특수문자는 \ 를 한번 더 적어서 자체를 표현할 수 있음


### search method
- 패턴을 찾으면 match 객체 반환
- 찾지 못하면 None 반환

In [3]:
import re

In [4]:
m = re.search(r'abc', '123abcdef') # 123abcdef 에서 abc 패턴을 검색
print(m.start()) # 시작 인덱스
print(m.end()) # 종료 인덱스
print(m.group()) 

print(re.search(r'abc', 'vvdcer')) # None 반환

3
6
abc
None


In [5]:
m = re.search(r'\d\d', '112abcdedf991') # 숫자 2개가 나란히 있는 경우 검색 -> 처음부터 검색한 결과를 반환함
print(m.start())
print(m.end())

m = re.search(r'\d\d\d\w', '112abcdedf991')
print(m)


0
2
<re.Match object; span=(0, 4), match='112a'>


In [6]:
m = re.search(r'..\w\w', '@#%#!@SDSDgdasfge')
print(m)

<re.Match object; span=(4, 8), match='!@SD'>


### metacharacters
- [] : 문자의 범위를 나타내기 위해 사용
  - [abck] : a, b, c, k 중 1개
  - [abc.^] : a, b, c, . , ^ 중 1 개. 대괄호 안의 특수문자는 그 자체로 매핑됨
  - [a-d] : a 부터 d 사이
  - [0-9] : 모든 숫자
  - [a-z] : 모든 소문자
  - [a-zA-Z0-9] : 모든 알파벳 및 숫자
  - [^0-9] : 맨 앞의 ^은 not을 의미. 숫자가 아닌 문자

In [7]:
print(re.search(r'[cbm]at', 'cat'))
print(re.search(r'[cbm]at', 'bat'))
print(re.search(r'[cbm]at', 'mat'))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='bat'>
<re.Match object; span=(0, 3), match='mat'>


In [8]:
print(re.search(r'[0-9]hahah', '1hahaha'))

<re.Match object; span=(0, 6), match='1hahah'>


In [9]:
re.search(r'[abc.]aron', 'caron')

<re.Match object; span=(0, 5), match='caron'>

In [10]:
print(re.search(r'[^abc]aron', 'aaron')) # abc 가 아닌것을 찾기 때문에 매칭 안됨
re.search(r'[^abc]aron', '#aron') # abc 가 아닌것을 찾기 때문에 매칭 됨

None


<re.Match object; span=(0, 5), match='#aron'>

- \
1. 다른 문자와 사용되어 특수 의미를 나타냄
  - \d: 숫자
  - \D: 숫자가 아닌 문자
  - \s: 공백 문자
  - \s: 공백이 아닌 문자
  - \w: 알파벳 대소문자, 숫자
  - \W: non alphabet-numeric 문자

In [11]:
re.search(r'\sand', 'apple and banana')

<re.Match object; span=(5, 9), match=' and'>

- .
모든 문자를 의미

In [13]:
re.search(r'.and', 'sand')

<re.Match object; span=(0, 4), match='sand'>

### 반복패턴
- 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복 존재하는지 검사
  - + : 1번 이상의 패턴 발생
  - * : 0번 이상의 패턴 발생
  - ? : 0번 혹은 1번 패턴 발생
- greedy 하게 탐색하므로 가장 많은 부분이 매치되도록 함

In [16]:
re.search(r'a[bcd]*b', 'abcbdccb') # ab, abcb 도 가능하지만 abcbdccb 가 가장 많이 매칭됨

<re.Match object; span=(0, 8), match='abcbdccb'>