### 정규표현식

##사용방법
1. 패턴 컴파일 
2. 패턴 객체 가진 메서드로 매칭/치환 
3. 패턴 문자열은 접두어r 붙이기 (raw string으로 만들기)

##중요패턴 메타문자
- \d: 숫자 [0-9]
- \D: 숫자 아님 [^0-9]
- Ws: 화이트스페이스 [\t\n\r\f\v]
- WS: 화이트스페이스 아님 [^\t\n\r\f\v]
- \w: 문자&숫자&_ [a-zA-Z0-9_]
- \W: 문자&숫자&_ 아님 [^a-zA-Z0-9_]
- []: 문자 1개의 패턴
- {시작, 끝}: 앞의 문자가 몇개 반복되는지 길이 제한
- *: 0개 이상 (없을 수 있다)
- +: 1개 이상

# 검색하기: re.match(), re.search()

In [1]:
#매칭작업: re.match(r"", (문자열)) 
#  --문자열의 첫 시작 단어부터 매치하는지 확인
import re

source = "Life is too short, you need Python"

#방법 1: 컴파일 후 매칭
p = re.compile(r"P[a-z]+")    #대문자P로 시작하고 소문자a-z가 1개 이상 있는가? 
print(p.match(source))        #매칭되지 않음 --match()는 해당 문자열의 첫 시작 단어의 매칭여부 반환

p = re.compile(r"L[a-z]+")    #대문자L로 시작하고 소문자a-z가 1개 이상 있는가? 
print(p.match(source))        #매칭 --span 영역으로 해당 문자열 길이/위치 확인 가능 

#방법 2: 축약형
print("MATCH: [a-z]+ 가 있습니까?", re.match(r"[a-z]+", source))   #매칭되지 않음
print("MATCH: [a-zA-Z]+ 가 있습니까?", re.match(r"[a-zA-Z]+", source))   #매칭

#매치된 내용은 group메서드로 추출 可: re.match().group()
print(re.match(r"[a-zA-Z]+", source).group())

None
<re.Match object; span=(0, 4), match='Life'>
MATCH: [a-z]+ 가 있습니까? None
MATCH: [a-zA-Z]+ 가 있습니까? <re.Match object; span=(0, 4), match='Life'>
Life


In [8]:
#서치작업: re.search(r"", (문자열)) 
#  --문자열 전체에서 패턴문자열과 일치하는 내용 확인

source = "Hello, Python"

#내부에서 Python 찾기 
print(re.search(r"Python", source))
print(re.search(r"Python", source).group())

#기본적으로 정규표현식은 대소문자를 구분한다. 
#대소문자 구분 무효화: re.IGNORECASE
print(re.search(r"python", source))                     #매칭되지 않음 
print(re.search(r"Python", source, re.IGNORECASE).group())      #대소문자 구별 무효화. 매칭됨

<re.Match object; span=(7, 13), match='Python'>
Python
None
Python


# 추출하기: re.findall(), finditer()

In [15]:
source = "Paint C JavaScript 123 Perl Java Python Ruby"

#p로 시작하고 뒤에 소문자가 붙은 단어 추출하기

#방법 1: re.findall((패턴), (문자열), (옵션))   --매칭된 모든 문자열을 리스트로 반환
words_findall = re.findall(r"\bp\w+", source, re.IGNORECASE)
print("findall(): ", words_findall)
#print("findall(): ", words_findall.group())   --findall()과 group() 동시사용 不

#방법 2: re.finditer((패턴), (문자열), (옵션))
#findall()로 매칭되는 문자열이 많을 경우 메모리낭비 초래 --> finditer() 사용
words_finditer = re.finditer(r"\bp\w+", source, re.IGNORECASE)
print("finditer(): ", words_finditer)   #반복문을  통해 매칭된 문자열 출력 可

for x in words_finditer:
    print("finditer로 매칭된 문자열 출력:", x.group())

findall():  ['Paint', 'Perl', 'Python']
finditer():  <callable_iterator object at 0x0000019B96ED90F0>
finditer로 매칭된 문자열 출력: Paint
finditer로 매칭된 문자열 출력: Perl
finditer로 매칭된 문자열 출력: Python


In [16]:
#한글 정규식 패턴: [ㄱ-힣]로 컴파일 -> re.findall()
source = "Englnad 대한민국 Japan 세종대왕 China 훈민정음"

p = re.compile(r"[ㄱ-힣]+")      #Unicode
print(p.findall(source)) 

['대한민국', '세종대왕', '훈민정음']


# 예제: 전화번호 매칭, 이메일 매칭

In [21]:
#예제: 전화번호 매칭
#010-1234-5678 

#전화번호 패턴 만들기
tel = re.compile(r"\d{2,3}-\d{3,4}-\d{4}")

#예제 전화번호가 패턴에 매치되는지 확인하기
m = tel.match("010-1234-5678")
print(m)
print(m.group())

#그룹화
tel = re.compile(r"(\d{2,3})-(\d{3,4})-(\d{4})")
m = tel.match("010-1234-5678")
print(m.groups())        #타입: 튜플

#그룹화된 매칭객체에 키 붙여주기: ?P<(key명)>  *use with: .groupdict()
tel = re.compile(r"(?P<area>\d{2,3})-(?P<exchange>\d{3,4})-(?P<number>\d{4})")
m = tel.match("010-1234-5678")
print(m.groups())      #타입: 튜플
print(m.groupdict())   #타입: 딕셔너리

<re.Match object; span=(0, 13), match='010-1234-5678'>
010-1234-5678
('010', '1234', '5678')
('010', '1234', '5678')
{'area': '010', 'exchange': '1234', 'number': '5678'}


In [22]:
#예제: 이메일 주소 추출

source = """
예제 주소록
이 문자열에서 이메일 주소만 추출해보기
홍길동 hoong@hawlbin.org
임꺽정 lim@thieves.org
둘리 dooly@dooly.net
뀰 ggyul.apple@gmail.com
"""

#이메일 패턴 만들기
mail_pattern = r"\w+[\.]*\w*@\w+[\.]*\.[a-z]+"          

emails = re.findall(mail_pattern, source)
print(emails)

['hoong@hawlbin.org', 'lim@thieves.org', 'dooly@dooly.net', 'ggyul.apple@gmail.com']


# 수정하기: re.split(), re.sub()

In [24]:
#str이 가진 split과 replace는 문자열 완전 매칭으로 제한된 기능만 수행한다.

source = "사과 오렌지: 바나나, 토마토|수박"

#패턴만들기
pattern = r"[ :|,]+"    #분절기준문자: 공백, :, |, ,

#나누기: re.split((패턴), (문자열))
print("Pattern Split: ", re.split(pattern, source))    #타입: 리스트

#치환하기: re.sub((패턴), (치환할 문자열), (대상문자열))
#source 문자열 내의 pattern 매칭 문자열을 ,로 치환하기
print("Pattern Sub: ", re.sub(pattern, ", ", source))   #타입: str

Pattern Split:  ['사과', '오렌지', '바나나', '토마토', '수박']
Pattern Sub:  사과, 오렌지, 바나나, 토마토, 수박
