### 정규표현식

#### 사용법

- 패턴 컴파일
- 패턴 객체가 가진 메서드로 매칭, 치환 작업 수행
- 패턴 문자열은 r 접두어를 붙인다. (raw string)

#### 파이썬 특화 메타 문자

- \d : 숫자 [0-9]
- \D : 숫자 아님  [^0-9]
- \s : 화이트스페이스 [\t\n\r\f\v]
- \S : 화이트스페이스제외 [^\t\n\r\f\v]
- \w : 문자 + 숫자 [A-Za-z0-9]
- \W : 문자 + 숫자 제외 [^A-Za-z0-9]
- []: 문자 1개의 패턴(or)
- {시작, 끝} : 길이의 제한

In [7]:
# 매칭 작업 : 처음부터 패턴이 일치하는지 확인
source = "Life is too short, you need Python"

# 방법 1. 컴파일 후 매칭
import re

p = re.compile(r"P[a-z]+")
print(p.match(source))

p = re.compile(r"L[a-z]+")
print(p.match(source))

# 방법 2. 축약형
print("MATCH: [a-z]+ ?", re.match(r"[a-z]+",source))
print("MATCH: [A-Za-z]+ ?", re.match(r"[A-Za-z]+", source))

# 매치된 내용은 group 메서드로 추출
print(re.match(r"[A-Za-z]+", source).group())

None
<re.Match object; span=(0, 4), match='Life'>
MATCH: [a-z]+ ? None
MATCH: [A-Za-z]+ ? <re.Match object; span=(0, 4), match='Life'>
Life


In [11]:
source = "Hello, Python"

# 내부에서 Python 내용 찾기
print(re.search(r"Python", source))

# 기본적으로 정규식 패턴은 대소문자를 구분한다.
print(re.search(r"python", source, re.IGNORECASE)) # 대소문자 구별 무효화

source = "Paint C JavaScript 123 Perl Java Python Ruby"
# p로 시작하고 뒤에 소문자가 붙은 단어를 추출

# findall의 사용법 : 매칭된 모든 문자열을 리스트로 반환
words = re.findall(r"\bp\w+", source, re.IGNORECASE)
print(words)

# finditer : iterator 반환
it = re.finditer(r"\bp\w+", source, re.IGNORECASE)
print(it)
                   
for x in it:
    print(x, x.group())

<re.Match object; span=(7, 13), match='Python'>
<re.Match object; span=(7, 13), match='Python'>
['Paint', 'Perl', 'Python']
<callable_iterator object at 0x000001F9880F5710>
<re.Match object; span=(0, 5), match='Paint'> Paint
<re.Match object; span=(23, 27), match='Perl'> Perl
<re.Match object; span=(33, 39), match='Python'> Python


In [12]:
# 한글 정규식 패턴 [ㄱ-힣]
source = "English 대한민국 Japan 세종대왕 China 훈민정음"
p = re.compile(r"[ㄱ-힣]+") # Unicode

print(p.findall(source))
               

['대한민국', '세종대왕', '훈민정음']


In [20]:
# 예제: 전화번호 매칭
# 010-1234-5678
tel = re.compile(r"(\d{2,3})-(\d{3,4})-(\d{4})")
m = tel.match("010-1234-5678")
print(m,m.group())

# 매칭된 객체를 그룹화 할 수 있다.
tel = re.compile(r"(\d{2,3})-(\d{3,4})-(\d{4})")
m = tel.match("010-1234-5678")
print(m,m.groups())

# 그룹화된 매칭 객체에 키를 붙일 수 있다.(?P<key>)
tel = re.compile(r"(?P<area>\d{2,3})-(?P<exchange>\d{3,4})-(?P<number>\d{4})")
m = tel.match("010-1234-5678")
print(m,m.groups())
print(m,m.groupdict()) # 키가 부여된 그룹 매칭은 groupdict로 받아올 수 있다.

<re.Match object; span=(0, 13), match='010-1234-5678'> 010-1234-5678
<re.Match object; span=(0, 13), match='010-1234-5678'> ('010', '1234', '5678')
<re.Match object; span=(0, 13), match='010-1234-5678'> ('010', '1234', '5678')
<re.Match object; span=(0, 13), match='010-1234-5678'> {'area': '010', 'exchange': '1234', 'number': '5678'}


In [90]:
# 예제 : 이메일 주소 추출
import re
source = """
예제 주소록
이 문자열에서 이메일 주소만 출력해 주세요
남승균 skyun.nam@gmail.com
홍길동 hong@hwalbin.org
임꺽정 lim@thieves.org
둘리 dooly@dooly.net
"""
pattern = re.compile(r"[A-Za-z0-9.]*@[A-Za-z0-9]*.[A-Za-z]*")
emails = re.findall(pattern, source)
print(emails)

# re.MULTILINE, 
# ^, $ . 이 두 메타문자 같은 경우는 re.MULTILINE 이라는 속성이 들어가지 않으면
# 문장전체에서 처음과 끝만 찾기때문에 re.MULTILINE 을 써야 line 별로 검색한다.
pattern2 = re.compile(r"^예")
email2 = re.findall(pattern2, source)

# re.DOTALL, S
# . 메타 문자가 줄바꿈 문자를 포함시켜 매치하고 싶을때 사용하는 옵션값
pattern3 = re.compile(r".[A-Za-z0-9]*@",re.DOTALL)
email3 = re.findall(pattern3, source)

# re.VERBOSE
# 정규식에 주석을 달 수 있게 해준다.
# 아래와 같이
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)


['skyun.nam@gmail.com', 'hong@hwalbin.org', 'lim@thieves.org', 'dooly@dooly.net']
['.nam@', ' hong@', ' lim@', ' dooly@']


In [82]:
# split과 sub(치환)
# str이 가진 split과 replace는 문자열 완전 매칭으로 제한된 기능만 수행
source = "사과 오렌지: 바나나. 토마토|수박"
pattern = r"[ :|.]+" # 공백, :, |, . 을 분절 기준 문자로 split
print("pattern Split:", re.split(pattern, source))

# source 문자열 내의 pattern 매칭 문자열을 , 시환
print("Pattern sub:", re.sub(pattern, ",", source ) )

pattern Split: ['사과', '오렌지', '바나나', '토마토', '수박']
Pattern sub: 사과,오렌지,바나나,토마토,수박


In [4]:
# 외부 모듈을 이용한 python 재귀표현
# regular expression은 
source ="""
Forfeit the game
Before somebody else
Takes you out of the frame
And puts your name to shame
Cover up your face
You can't run the race
The pace is too fast
You just won't last
You love the way I look at you
While taking pleasure in the awful things you put me through
You take away if I give in
My life, my pride is broken
You like to think you're never wrong
(You live what you've learned)
You have to act like you're someone
(You live what you've learned)
You want someone to hurt like you
(You live what you've learned)
You want to share what you've been through
(You live what you've learned)"""
import regex
# regax는 re module에 기능을 추가한 것이다. 
# Case-Sensitive 와 Case-Insensitive 를 지원한다.
# Zero-width match가 정확하게 잡힌다. Zero-width 는 ""를 말한다. 
# Nested sets 과 set 연산이 지원된다.
# Nested set : [[a-z]--[aeiou]]
# version 0 에서는 : [ ]안에서 [a-z]--[aeiou] 가 문자열로 해석되지만
# version 1 에서는 [[a-z]--[aeiou]] []는 전부 set으로 인식된다.
# b(?:m|(?R))*e

