# 정규 표현식(re)

특정한 규칙을 가진 문자열을 표현하는 데 사용되는 형식 언어<br>

패턴으로 문자열을 검색/치환<br>

[정규표현식 규칙 참조](https://developer.mozilla.org/ko/docs/Web/JavaScript/Guide/%EC%A0%95%EA%B7%9C%EC%8B%9D)

<hr>

## 정규 표현식 문법

### 문자, 패턴을 나타내기 위한 특수 문자

. &nbsp;&nbsp;&nbsp; 개행 문자를 제외한 문자 1자<br>
^ &nbsp;&nbsp;&nbsp; 문자열의 시작<br>
\$ &nbsp;&nbsp;&nbsp; 문자열의 종료<br>
[ ] &nbsp;&nbsp;&nbsp; 문자의 집합<br>
| &nbsp;&nbsp;&nbsp; or, 또는<br>
() &nbsp;&nbsp;&nbsp; 정규식 그룹<br>
\* &nbsp;&nbsp;&nbsp; 문자가 0회 이상 반복됨<br>
\+ &nbsp;&nbsp;&nbsp; 문자가 1회 이상 반복됨<br>
? &nbsp;&nbsp;&nbsp; 문자가 0 또는 1회 반복됨<br>
\{m\} &nbsp;&nbsp; 문자가 m회 반복됨<br>
\{m, n\} &nbsp;&nbsp; 문자가 m\~n회 반복됨<br>
\{m, \} &nbsp;&nbsp; 문자가 m\~무한 반복됨

### 이스케이프 문자열, Escape Sequence
자주 사용되는 문자열의 집합

\w &nbsp;&nbsp;&nbsp; 숫자, 밑줄 등을 포함한 모든 문자 [a-zA-Z0-9_]<br>
\W &nbsp;&nbsp;&nbsp; 숫자, 밑줄, 문자를 제외한 나머지 문자<br>
\d &nbsp;&nbsp;&nbsp; [0-9] 포함 모든 숫자<br>
\D &nbsp;&nbsp;&nbsp; 숫자를 제외한 모든 문자<br>
\s &nbsp;&nbsp;&nbsp; [ \t\n\r\f\v] 포함한 공백 문자<br> 
\S &nbsp;&nbsp;&nbsp; 공백문자를 제외한 모든 문자<br>
\b &nbsp;&nbsp;&nbsp; 시작과 끝의 빈 공백<br>
\B &nbsp;&nbsp;&nbsp; 시작과 끝이 아닌 빈 공백<br>
\\ &nbsp;&nbsp;&nbsp; 역슬래시 문자<br>
\\[숫자\] &nbsp;&nbsp; 숫자만큼 일치하는 문자열<br>
\A &nbsp;&nbsp;&nbsp; 문자열의 시작<br>
\Z &nbsp;&nbsp;&nbsp; 문자열의 끝

<hr>

## re 모듈 함수
param1 : 정규식, 패턴 <br>
param2 : 대상 문자열

In [1]:
import re

In [2]:
re.match('[0-9]*th', '35th') # match 객체를 반환

<re.Match object; span=(0, 4), match='35th'>

In [3]:
re.search('[0-9]*th', '35th')

<re.Match object; span=(0, 4), match='35th'>

In [4]:
bool(re.match('[0-9]*th', '     35th')) # 대상 문자열의 시작부터 패턴을 검색

False

In [6]:
bool(re.match('[0-9]*th', '35th'))

True

In [5]:
bool(re.search('[0-9]*th', '     35th')) # 대상 문자열 전체에 대해 패턴이 존재하는지

True

In [7]:
bool(re.match('ap', 'This is an apple'))

False

In [8]:
bool(re.search('ap', 'This is an apple'))

True

### row string notation, 로 문자열 표기법

문자열 앞에 r을 더하여 표기<br>

\(back-slash) 문자를 이스케이프 문자로 처리하지 않고 일반 문자와 동일하게 사용

In [10]:
bool(re.search('\\\\\w+', "\\apple")) # 일반 표기법

True

In [11]:
bool(re.search(r'\\\w+', r"\apple")) # 로 표기법

True

In [12]:
re.split('[:. ]+', "apple Orange:banana  tomato") # 구분자 : . 공백

['apple', 'Orange', 'banana', 'tomato']

In [13]:
re.split('([:. ])+', "apple Orange:banana  tomato") # 패턴에 ( )를 사용하면 분리문자도 결과에 포함됨

['apple', ' ', 'Orange', ':', 'banana', ' ', 'tomato']

In [14]:
text = """gee gee gee gee baby baby baby
oh 너무 부끄러워
쳐다볼 수 없어"""

In [15]:
re.split('\n+', text) # 각 행을 저장하여 반환

['gee gee gee gee baby baby baby', 'oh 너무 부끄러워', '쳐다볼 수 없어']

In [16]:
re.findall(r'app\w*', "application orange apple banana")

['application', 'apple']

In [17]:
re.findall(r'king\w*', "application orange apple banana")

[]

In [18]:
re.sub('-', '', "901225-1234567")

'9012251234567'

In [19]:
re.sub(r'[:,|\s]', ', ', "Apple:Orange Banana|Tomato") # 필드 구분자를 통일함

'Apple, Orange, Banana, Tomato'

In [20]:
re.sub(r'[:,|\s]', ', ', "Apple:Orange Banana|Tomato", 2) # 변경횟수를 2회로 제한

'Apple, Orange, Banana|Tomato'

In [21]:
re.sub(r'\b(\d{4}-\d{4})\b', r'<I>\1</I>', "Copyright Derick 1990-2009")
# 패턴 : 사용할 부분을 소괄호로 묶음
# 변경할 문자열 : \숫자
# 년도에 <I></I> 태그를 추가

'Copyright Derick <I>1990-2009</I>'

In [22]:
re.sub(r'\b(?P<year>\d{4}-\d{4})\b', r'<I>\g<year></I>', "Copyright Derick 1990-2009")
# 패턴 : ?P<패턴이름>
# 변경할 문자열 : \g<패턴이름>
# 년도에 <I></I> 태그를 추가

'Copyright Derick <I>1990-2009</I>'

In [23]:
def my_upper(m):
    return m.group().upper()

In [24]:
re.sub('[T|t]he', my_upper, "The time is the money") # 변경할 문자열 대신 함수로 변경 작업을 수행

'THE time is THE money'

<hr>

## 정규 표현식 객체

re.compile(pattern) : 정규 표현식(패턴)을 컴파일해 정규 표현식 객체를 생성
- 동일한 패턴을 반복적으로 검색할 경우 성능 향상

<br>

정규 표현식 객체가 지원하는 메소드 : search, match, split, findall, finditer, sub, subn
- 정규식이 객체에 이미 컴파일돼 있음
- 패턴을 인자로 전달 X

<br>

옵션 플래그<br>
re.I : 대소문자를 구분하지 X<br>
re.M<br>
re.S<br>
re.X<br>
re.A<br>
re.L

In [27]:
c = re.compile(r'app\w*')

In [28]:
c.findall("application orange apple banana")

['application', 'apple']

In [29]:
c.findall("There are so many apples in the basket")

['apples']

In [30]:
s = "Apple is a big company and apple is very delicious"

In [31]:
c = re.compile('apple')

In [32]:
c.findall(s)

['apple']

In [35]:
c = re.compile('apple', re.I) # 대소문자 구분 X 플래그

In [36]:
c.findall(s)

['Apple', 'apple']

In [37]:
s = """gee gee gee gee baby baby baby
Oh 너무 부끄러워



쳐다볼 수 없어
"""

In [38]:
c = re.compile('^.+') # 첫 줄만 매칭

In [39]:
c.findall(s)

['gee gee gee gee baby baby baby']

In [40]:
c = re.compile('^.+', re.M) # multi line 옵션, 빈 라인을 제외하고 라인별로 분리

In [41]:
c.findall(s)

['gee gee gee gee baby baby baby', 'Oh 너무 부끄러워', '쳐다볼 수 없어']

In [43]:
import urllib.request

In [44]:
web = urllib.request.urlopen("http://www.example.com")

In [45]:
html = web.read()

In [46]:
web.close()

In [47]:
s = str(html).encode('utf-8').decode('cp949')

In [48]:
c = re.compile(r""".*?
<title.*?>
(.*)
</title>
""", re.I|re.S|re.X)

In [49]:
c.findall(s)

['Example Domain']

### .\*?

greedy 방식 : .*
- 조건을 만족하는 한 가장 긴 문자열을 선택

lazy 방식 : .\*?
- 조건을 만족하는 가장 짧은 문자열을 선택

In [52]:
greedy = re.compile(r'<.*>', re.I|re.S)
len( greedy.findall(s) )

1

In [53]:
lazy = re.compile(r'<.*?>', re.I|re.S)
len( lazy.findall(s) ) # 가장 짧은 문자열이 24개, 여러개의 태그가 선택된 것

24

<hr>

## Match 객체

검색된 결과를 효율적으로 처리할 수 있는 기능을 제공함<br>
match(), search()의 수행 결과로 반환됨<br>

메소드
- group()
- groups()
- groupdict()
- start()
- end()

속성
- pos
- endpos
- lastindex
- lastgroup
- string

In [54]:
tel_checker = re.compile(r"(\d{2,3})-(\d{3,4})-(\d{4})")

In [55]:
bool(tel_checker.match("02-123-4567"))

True

In [56]:
bool(tel_checker.match("02-가123-4567"))

False

In [57]:
bool(tel_checker.match("3402-123-4567"))

False

In [58]:
bool(tel_checker.match("032-1234-4567"))

True

In [59]:
m = tel_checker.match("02-123-4567")

In [60]:
m.groups() # 매칭된 문자열 집합을 튜플로 반환

('02', '123', '4567')

In [61]:
m.group() # 매칭된 전체 문자열을 반환

'02-123-4567'

In [62]:
m.group(1) # 1 : 첫번째 매칭 문자열

'02'

In [63]:
m.group(2, 3) # 2번째 매칭 문자열, 3번째 매칭 문자열 - 튜플

('123', '4567')

In [64]:
m.start() # 매칭된 전체 문자열의 시작 인덱스

0

In [65]:
m.end() # 매칭된 전체 문자열의 종료 인덱스

11

In [66]:
m.start(2) # 2번째 매칭 문자열의 시작 인덱스

3

In [67]:
m.end(2) # 2번째 매칭 문자열의 종료 인덱스

6

In [68]:
m.string[m.start(2):m.end(3)] # string속성에 인덱스 슬라이싱하여 m.end(3)까지 포함됨

'123-4567'

In [69]:
m.groupdict()

{}

In [72]:
# 정규식 작성
# (?<이름>..)
# 매칭 결과에 이름 부여
# groupdict() 메소드를 통해 이름과 문자쌍을 얻을 수 있다
m = re.match(r"(?P<area_code>\d+)-(?P<exchange_number>\d+)-(?P<user_number>\d+)", "02-123-4567")

In [73]:
m.group("user_number")

'4567'

In [74]:
m.start("user_number")

7

In [75]:
m.groupdict()

{'area_code': '02', 'exchange_number': '123', 'user_number': '4567'}

<hr>